喜讯 | 港中大(深圳)数据科学学院博士生周子涵、欧阳屹东在顶会ICML 2023发表论文
香港中文大学(深圳)数据科学学院2023级数据科学博士生周子涵、2021级数据科学博士生欧阳屹东的论文在第四十届国际机器学习会议(International Conference on Machine Learning, ICML)发表。ICML会议是公认的人工智能领域三大顶级会议之一,代表当今人工智能研究的最高水平以及热门科研领域的最前沿。2023年,ICML共收到6538份投稿,其中1827份被接收,接收率约为27.9%。
港中大(深圳)的科研机会开放,不仅硕博学生可以参与科研,对于有兴趣参与科研的本科生,学校及学院有多重渠道向学生敞开大门。周子涵所发表的论文是其以第一作者的身份,于本科期间在学院于天舒教授指导下发表的论文。周子涵本科就读于港中大(深圳)理工学院,大三开始跟随数据科学学院于天舒教授参与科研项目,积累科研经验,并在今年秋季顺利进入数据科学学院开始博士阶段的学习。学院本科生们也展示了科研的潜力与实力,今年学院师生共有26篇论文发表在机器学习和计算神经科学领域的顶级国际会议NeurIPS,其中包括两位本科生的论文。
国际机器学习大会(ICML)简介
ICML是由国际机器学习学会(International Machine Learning Society,IMLS)主办的年度机器学习国际顶级会议之一。具有广泛而深远的国际影响力,受到来自学术界和工业界的广泛关注,也是中国计算机学会(China Computer Federation, CCF)推荐的A类会议。
ICML创办于1980年,每年6月中下旬举行。2023年7月23日至29日,第四十届国际机器学习大会 ICML 2023 在美国夏威夷举行。
大会关注的领域涵括计算机视觉、统计和数据科学到机器人技术,目的是将人工智能 (AI) 社区聚集在一起,分享新的想法、工具和数据集,并建立联系以推动该领域的发展。(来源:ICML官网)
论文作者简介
周子涵 数据科学专业2023级博士生
研究领域:
解耦复杂系统,化学分子构象生成
奖项荣誉:
- 2022年美国数学建模大赛Meritorious Award (Top 6%)
- 2021年Kaggle(计算机领域知名赛事)Pawpularity Contest 铜牌(Top 7%)
- 2019-2020学年香港中文大学(深圳)Dean’s List
实践经历:
- 曾参与数学建模竞赛(MCM)、“Mathor Cup”中国大学生数学建模挑战赛、全国大学生数学建模竞赛(CUMCM)等多项赛事
- 曾参与香港中文大学(深圳)组合优化项目组、AIoT 精准农业项目组,担任研究助理
欧阳屹东 数据科学专业2021级博士生
研究领域:
生成模型(尤其是扩散模型)、时序变点检测、分布外泛化
奖项荣誉:
- 第二届博士生与博士后道远学术论坛(海报展示第二名)
- 第四届清华-伯克利深圳学院学习理论研讨会(最佳海报展示二等奖)
- 2022-2023年深圳市大数据研究院博士生奖学金
- 2018年 国家奖学金(于中央财经大学本科期间获得)
实践经历:
- 曾在中科院计算所泛在计算系统研究中心和西湖大学工学院MiLAB担任科研助理
学生访谈
周子涵
Q:是什么契机让你在本科阶段就开始做科研的?
A:我觉得通过参与研究项目,我能够将课堂上学到的理论知识应用到实际问题中,加深对学科的理解。我想拓展自己在课堂之外的技能,科研可以锻炼我在实验、数据分析和团队协作方面的技能,这对我的综合发展和未来职业生涯都是很重要的。
另外,在大学期间从事科研我还能有机会与教授和研究人员紧密合作,学习他们的经验和见解。这种导师制的指导不仅能增强我的学术素养,还能拓宽我的职业发展视野,为将来的研究生课程和职业生涯奠定坚实的基础。
Q:你是通过什么渠道获得科研机会的?
A:当时于天舒教授在招本科生做科研,我就抱着试试的态度去了。学校对于本科生也是开放科研机会的,比如浏览学校网站就能了解教授的研究方向,而且教授们也会愿意接收本科生做科研,寻找科研机会其实没有什么门槛。
Q:你是如何选择自己的导师的?
A:我觉得首先要考虑的是科研兴趣是不是相符。我的导师于教授人很好,他对于本科生的要求主要是培养科研兴趣为主,我觉得很对。就比如说我们做的任务是解耦复杂系统,听起来是一个很难的科研。但是如果说我们预测的是三体系统的运动轨迹,科研一下就变得有趣了。我觉得做科研还是需要能体会到其中的趣味才能快乐的做下去。
Q:于教授是如何在论文创作过程中给予你指导的?
A:首先我觉得是选题方面的指导。我们的研究课题是如何解耦复杂系统,这个课题前人鲜有研究,因此参考文献并不多。有时候我会想出特别多的研究方法和建模方法,但是因为时间原因,并不能把每一个方法都挨着试一次。每当这时候,我都会请求于教授的帮助。于教授总是会耐心倾听我的各种建模方法,并根据他的研究经验,指出我的建模方法中可能存在或遇到的问题,否决一部分看起来不太可能成功的方法,以此来节省时间。
还有就是针对建模中可能存在的问题,于教授也会指出在某些工作内其他研究人员也遇到过类似的问题,他们是怎么解决的,并且提供相关的参考文献,以此来帮助我更快的解决问题。在研究过程中,会发现一些很有趣的现象,有时候我对这些现象的猜想和解释和于教授的截然不同,就想着做做消融实验来反驳于教授,最后却发现消融实验反而支持了于教授的解释,经常让我有种“姜还是老的辣”的感觉,所以在这段研究或者说这篇论文的创作中,于教授提供的帮助和指导功不可没。
Q:科研的过程中有没有什么让你印象深刻的人或事?
A:我讲一下我的导师于教授吧。他对学生特别有耐心,比如说我才开始做这段科研的时候论文看得很痛苦,看代码看得很吃力,于教授愿意给我更多的时间去学习相关的知识。我记得在我才开始上手写模型的时候,我们一开始想出的模型在很简单的手写数字分类任务上的准确率都很低,并且不管怎么调试都无法让准确率上升。当时就怀疑是不是我太笨了才写不出一个好的模型,但是于老师能接受没有进展,也愿意给我时间去不断尝试解决问题。当时我也没有放弃,选择了大改模型结构,再又经过几个月的反复修改之后终于调试出了合适的模型。
才开始做科研的时候,于教授会针对可能需要用到的知识点做专门的讲解。并且有任何关于科研的问题或者科研有进展的时候都可以找于教授交流沟通。在遇到困难的时候,也可以和于教授一起讨论可能存在的问题和解决方案。
于教授对学生很宽容。在我刚开始做科研的时候,对注意力机制并不熟悉,以至于在接近于半个月的时间里面,都把注意力的矩阵乘法乘反了。但于教授还是允许犯错,不会过多的责备,给了我足够的时间成长。
Q:你有没有学习/科研心得体会可以分享给大家?
A:上手第一段科研是充满挑战的,这是必经的过程,大家不要因为困难就选择放弃。第一次做科研的时候需要学习大量的新知识,比如说pytorch语言,熟悉一个领域的相关工作和建模方法。在才开始做科研的时候,我看一篇论文头发都快要抓没了,但是到了后来多看几篇论文之后,再看论文渐渐就变得游刃有余。阅读代码也是,从一开始不熟悉pytorch,每一个函数都要查官方文档,到现在因为看过太多次官方文档已经自然而然地把函数用法记下来了。
科研的过程中会用到很多之前学过、自认为没用但后来被证明很有帮助的知识。比如说我在学习线性代数时,只知道怎么计算特征值、矩阵秩,但是完全感觉不到这些量有什么用。但是在科研中,有时我会突然发现,之前学过但是觉得没用的某个知识点突然用上了,并且对这些知识点了解熟悉会大大减小建模的难度。所以说做科研之前打好课程基础还是很重要的,如果学过了但因为自己的判断认为没用而忘记的话,那会是很大损失。
欧阳屹东
Q:是什么契机让你开始做科研的?
A:在本科的时候,我在听吴恩达教授的机器学习课程时觉得深度学习模型好像有很大的潜力,能很好解决一些任务,所以就想多学习一下,从参加讨论班入门,然后阅读文章,提出自己的疑问,就开始了科研之路。
Q:你是通过什么渠道获得科研机会的?
A:我觉得学院提供的科研机会很多,很多教授都会组织讨论班,学院也会组织讲座,跟着讨论班和讲座就能学到很多知识;或者也可以通过浏览教授们的主页,寻找自己感兴趣的方向,直接联系教授获得科研机会。
Q:你是如何选择自己的导师的?
A:我觉得读博是一段很长的时间,首先要寻找一个我们喜欢的研究方向,一位在这个领域有扎实功底的教授,如果能找到一位体贴的教授作为自己的导师,那就是更加幸福的事情。我很幸运地遇到了谢教授,在这两年多的学习生活中收获了很多感动。
Q:谢教授是如何在论文创作过程中给予你指导的?
A:我们会设定一个regular meeting,讨论在开展过程中产生的想法和产生的疑问。谢教授能非常敏锐的听懂我的concerns与疑惑,并且指明一条可以探索的方向。在论文修改上,一开始谢老师会帮我搭好一个框架,在成文过程中一起撰写并留下comments提醒我应该注意的内容,在成文之后帮我仔细修改审核,这些都让我非常感激
Q:科研的过程中有没有什么让你印象深刻的人或事?
A:让我印象深刻的是我的导师谢李岩教授。谢教授具有非常扎实的理论功底。在开展这份研究的过程中,谢教授向我讲解了对抗鲁棒下样本复杂度的分析,我清楚的记得,谢教授可以对着理论设定直接说出可以得到的结论,这让我更加注重提升自己的理论分析能力。谢教授拥有非常扎实的写作功底,在这篇文章的撰写中,谢教授在overleaf上修改两小时和我写一天的效果差不多,让我意识到了自己需要在接下来的研究生活中逐步提升自己的撰写能力。
Q:你有没有学习/科研心得体会可以分享给大家?
A:我认为首先我们可以经历一两遍完整的科研流程,从论文粗略的方向,到可行的想法,再到理论推导,实验验证,论文撰写,以及投稿,rebuttal和反复的修改。我们可以从这些经历中梳理出接下来自己想深入的方向,以及明白怎样能追求自己更渴望的研究。
论文介绍
1. Learning to Decouple Complex Systems
作者:
Zihan Zhou (周子涵), Tianshu Yu
论文摘要:
本文提出了一种序列学习方法,用于处理具有复杂交互的混合系统的观测数据。该方法通过解耦复杂系统,处理不规则采样和混乱的序列观测。解耦不仅产生了描述每个潜在实体动态的子系统,还产生了描述实体间交互的元系统。元系统在单纯形内演化,由投影微分方程控制。我们进一步分析并提供了在Bregman距离下性质良好的投影算子。实验结果表明,与现有技术相比,该方法在面对复杂和混乱的序列数据时具有优势。
研究方法:
这篇论文主要探讨了从序列观测中发现隐藏规律的机器学习方法。在此基础上,该论文提出了一种新的思路,即将数据/观测分解成几个相对独立的模块,每个模块对应一个潜在实体,并通过神经微分方程来表达实体的变化。这个假设可以被视为系统的强正则化,可以在学习过程中获得很大的好处。针对潜在实体可能存在的不同交互模式,该论文提出了在不同的Bregman距离下性质良好的投影算子。该论文的主要贡献在于提出了一种新的思路,可以为从序列数据中发现隐藏规律提供更有效的方法。
不同投影下计算结果的可视化结果:
二维投影算子比较
同时,作者团队可视化了模型在处理不同数据集时,模型如何描述不同子系统间的交互模式或模型注意力随时间的变化:
三体数据集注意力变化
弹簧球数据集不同投影算子注意力变化
研究结论:
这篇论文提出了一种方法来建模杂乱且不规则采样的序列数据。该方法基于这样一种假设:复杂的观测可以由相对简单和独立的潜在子系统导出,这些子系统的相互作用也随时间演变。作者团队设计了一种策略来明确分解这样的潜在子系统和管理交互的元系统。实验表明,该方法在各种任务上的表现优于以前的最先进方法。
链接:
https://arxiv.org/abs/2302.01581
2. Improving Adversarial Robustness Through the Contrastive-Guided Diffusion Process
作者:
Yidong Ouyang, Liyan Xie, Guang Cheng
论文摘要:
因为对抗学习的样本复杂度更大,所以采用生成数据帮助训练已成为提高模型对抗鲁棒性的新兴工具。在各种深度生成模型中,扩散模型能产生高质量的图像,并在提高对抗鲁棒性方面取得了不错的效果。然而,扩散模型在数据生成速度上比其他生成模型慢。尽管最近提出了各种加速技术,但研究如何提高生成模型对下游任务的样本效率也非常重要。在本文中,我们首先分析了提升模型鲁棒性的最优生成数据分布。我们发现,增强生成数据之间的可区分性对提高对抗鲁棒性至关重要。因此,我们提出了对比引导扩散过程(Contrastive-DP),它在原扩散模型上通过对比损失函数引导数据的生成。我们在模拟数据集和图像数据集上验证了我们的理论结果,并展示了Contrastive-DP优越的性能。
研究方法:
在用线性分类器划分高斯混合分布数据的设定下,我们分析了鲁棒误差的样本复杂度。我们找到了一组最优的生成数据分布,可以使得学出来的分类器对抗误差最小。由此启发,我们提出了对比引导扩散过程,在模拟数据集和图像数据集上验证此方法的有效性。
研究结论:
增强生成数据之间的可区分性对提高对抗鲁棒性至关重要。在原扩散模型上通过对比损失函数引导数据的生成能提升生成模型的样本效率。
链接:
https://proceedings.mlr.press/v202/ouyang23a/ouyang23a.pdf
指导教授简介
于天舒 助理教授 亚利桑那州立大学博士(周子涵导师)
曾获亚利桑那州立大学工程研究生奖学金,曾任亚利桑那州立大学助教、飞利浦医疗算法工程师
研究领域:
机器学习,组合问题优化,图学习和优化,循环神经网络,行列式点过程
个人简介:
于天舒教授于2012年毕业于沈阳工业大学并取得学士学位。其后前往加拿大卡尔加里大学攻读地理信息工程专业并于2016年获得硕士学位。在此之前,他曾于2012至2014年间任飞利浦医疗算法工程师。于教授将于2021年从亚利桑那州立大学计算机科学专业毕业并取得博士学位。
于教授主要研究兴趣涵盖多个机器学习和组合问题优化相关领域。他对利用机器学习解决传统组合问题,图学习和优化,以及在深度学习框架内寻求结构扩展特别感兴趣。循环神经网络,行列式点过程也是他开展的研究之一。于教授也是多个顶级会议(例如ICLR 2021, NIPS 2020, CVPR 2019-2021, ICCV 2019, ECCV 2020等)以及期刊(例如IEEE Transactions on Image Processing, IEEE Transactions on Neural Networks and Learning Systems, IEEE Transactions on Circuits and Systems for Video Technology, Pattern Recognition, Pattern Recognition Letters等)的审稿人。
谢李岩 助理教授 佐治亚理工学院博士(欧阳屹东导师)
曾入围2019年INFORMS会议QSR方向最佳学生论文奖,曾入围2020年伯克利大学EECS领域“女性学术新星”、曾获2020年佐治亚理工学院IDEaS-TRIAD和ARC-TRIAD奖学金,曾任佐治亚理工学院讲师
研究领域:
基于传感器网络及卫生保健的数据科学研究、序贯变化检测、鲁棒优化
个人简介:
谢李岩教授于2021年夏季加入香港中文大学(深圳)任助理教授一职。谢教授于2016年获中国科学技术大学统计学理学学士学位。其后前往美国佐治亚理工学院攻读,并于2021年获得工业工程博士学位。她是多个顶级会议的受邀审稿人,如AAAI, ICML, Neurips, AISTATS, ICLR。谢教授的研究方向主要为基于传感器网络及卫生保健的数据科学研究,序贯变化检测和鲁棒优化。