活动回顾 | 香港中文大学(深圳)数据科学暑期班圆满结束
2024年7月16日至8月1日,香港中文大学(深圳)数据科学学院(SDS)在校园举办了包含四期课程的数据科学暑期班,共吸引了134名杰出高年级本科生、研究生和青年教师。
本次数据科学暑期班为学院首次创新尝试,旨在打造集系列学术课程讲座与博士项目招生为一体的大型学术活动,为参与学员提供深入的学术探索和专业发展机会。
课程涵盖了扩散过程和大语言模型等AI热门领域,由新加坡工程院院士李海洲教授、比利时皇家科学院外籍院士范剑青教授、美国数学学会会士陈振庆教授、美国工程院院士David Simchi-Levi教授等知名学者和院士亲自授课:
第一期课程 语音语言大模型的理论与实践
课程老师
数据科学学院执行院长、 |
数据科学学院副教授 |
课程老师
美国普林斯顿大学终身教授、 |
|
课程老师
美国华盛顿大学终身教授、 |
数据科学学院助理教授 |
课程老师
美国工程院院士、 |
|
暑期班生源情况
参与本期暑期班的杰出的高年级本科生、研究生和青年教师共计134名,均来自海内外知名院校。
64%在读本科/本科学历
15%在读硕士/硕士学历
21%在读博士/博士学历
97%在读或毕业于985/211/双一流/境外/中外合办大学在读或毕业院校
加利福尼亚大学伯克利分校、纽约大学、
伦敦大学学院、多伦多大学、新加坡国立大学、
北京大学、清华大学、复旦大学、
上海交通大学、浙江大学、南京大学等海内外知名院校
学生专业背景
计算机科学与技术、数学与应用数学、统计学、信息与计算科学、软件工程、大数据管理与应用等专业
暑期班课程回顾
01第一期课程 语音语言大模型的理论与实践
课程与教授介绍
课程简介
自然语言处理是与人工智能同步发展的一个研究领域。在大模型的时代,我们回顾一下人工智能、自然语言处理和大模型的起源和发展历程,借鉴我们对人类智能的了解,讨论语音和语言大模型的潜力和局限。本课程详尽介绍香港中文大学(深圳)开源发行的Amphion框架,通过工作坊的方式,与学员们一起体验生成式大模型的精彩。
课程老师
李海洲
香港中文大学(深圳)数据科学校长讲座教授、执行院长
新加坡工程院院士
IEEE 信号处理学会副会长(任期2024-2026)
IEEE会士
国际语音通信学会会士
亚太人工智能学会会士
曾获新加坡总统科技奖
曾任国际语音通信学会主席
顶级期刊IEEE/ACM《音频、语音和语言处理汇刊》主编
授课老师介绍
李海洲教授(新加坡工程院院士、IEEE Fellow、ISCA Fellow)现任香港中文大学(深圳)数据科学学院执行院长、校长学勤讲座教授,同时他也是新加坡国立大学客座教授和德国不来梅大学卓越讲座教授。此前,他曾于2006年至2016年分别担任新加坡南洋理工大学和新加坡国立大学教授,于2009年担任东芬兰大学客座教授,于2011年至2016年任澳洲新南威尔士大学客座教授,于2003年至2016年担任新加坡科技研究局通信与资讯研究院首席科学家和研究总监。
李教授曾任顶级期刊IEEE/ACM Transactions on Audio、Speech and Language Processing主编 (2015-2018年);目前任Computer Speech and Language副主编 (2012-2022年)、Springer International Journal of Social Robotics副主编 (2008-2022年)。李教授也曾担任多个学术委员会委员:IEEE语音与语言处理技术委员会委员 (2013-2015年)、IEEE信号处理学会出版委员会委员 (2015-2018年)、 IEEE 信号处理学会奖励委员会委员 (2021-2023年)。李教授也曾是多个学会主席:国际语音通信学会主席 (ISCA, 2015-2017年)、亚太信号与信息处理协会主席 (APSIPA, 2015-2016年)、亚洲自然语言处理联合会主席 (AFNLP, 2017-2018年)、IEEE 信号处理学会副会长(IEEE SPS, 2024-2026年)。此外,他还担任过ACL 2012、INTERSPEECH 2014、IEEE ICASSP 2022 等多个大型学术会议的大会主席。
李教授享誉国际,他不仅在语音识别和自然语言处理研究领域有着突出贡献,还领导研发了多项知名的语音产品,如1996年苹果电脑公司为Macintosh发行的中文听写套件、1999年Lernout & Hauspie公司为亚洲语言发行的Speech-Pen-Keyboard文本输入解决方案。他是一系列重大技术项目的架构师,项目包括2001年为新加坡樟宜国际机场研发的具有多语种语音识别功能的TELEFIQS自动呼叫中心、2012年为联想A586智能手机研发的声纹识别引擎、2013年为百度音乐研发的听歌识曲引擎。
武执政
香港中文大学(深圳)数据科学学院副教授
全球Top 2% 顶尖科学家
IEEE语音与语言处理技术委员会委员
授课老师介绍
武执政博士现任香港中文大学(深圳)副教授,连续多次入选斯坦福大学“全球前2%顶尖科学家”。于南洋理工大学获得博士学位,曾在Meta、苹果、爱丁堡大学、微软亚洲研究院等机构从事学术研究和技术领导工作。武教授发起了开源系统Merlin与Amphion、第一届声纹识别欺骗检测国际评测、第一届语音转换国际评测,组织了2019年语音合成国际评测(Blizzard Challenge 2019)。多次获得最佳论文奖。武教授现为IEEE/ACM TASLP、SPL等语音领域权威期刊编委, 也是IEEE Spoken Language Technology Workshop 2024的大会主席。
课程内容
第一期课程由数据科学学院执行院长、新加坡工程院院士李海洲教授开讲。他热情欢迎所有参加暑期班的学生和老师,并希望同学们能通过这次机会适应港中大(深圳)的英文教学特色和学习方式,同时锻炼自己的学习和动手能力。以轻松愉悦的方式,李教授没有局限于科技理论,而是通过讲故事和历史,为同学们呈现了一场别开生面的语音语言大模型的理论与实践课。
作为技术前沿发展的亲历者,李海洲教授带领大家回顾了语音人工智能、自然语言处理以及大模型的发展历程,详细讲述了语音和语言大模型的潜力与局限性,深入探讨了这些技术在未来的应用前景。
李海洲教授讲解数据科学暑期班第一期课程
接下来,学院武执政教授及其博士生团队介绍了语音处理的基础知识,并展示了他们自主研发的音频、音乐和语音生成框架Amphion的强大功能。通过多种生动的音频样例,形象地展示了人工智能在音频领域取得的显著进步。
武执政教授讲解数据科学暑期班第一期课程
数据科学暑期班第一期结业仪式由李海洲教授致辞并给同学们颁发结业证书。
李海洲教授致辞第一期结业仪式并颁发结业证书
02第二期课程 统计机器学习
课程与教授介绍
课程简介
本课程介绍数据科学的统计机器学习。它涵盖多元回归、统计建模、核学习、稀疏回归、高维统计、惩罚似然、谱法、主成分分析、因子模型以及社区检测、排序分析和矩阵补全等相关主题。
课程老师
范剑青
香港中文大学(深圳)数据科学学院教授(特聘)
美国普林斯顿大学终身教授
比利时皇家科学院外籍院士
于2000年荣获COPSS Presidents' Award
授课老师介绍
范剑青教授是美国普林斯顿大学终身教授,Frederick L. Moore'18 冠名金融讲座教授,运筹与金融工程系教授和前任系主任,国际数理统计学会前主席,“中央研究院”院士,比利时皇家科学院外籍院士。他荣获 2000 年度的 COPSS Presidents奖 (统计最高奖), 2007 年荣获“晨兴华人数学家大会应用数学金奖”, 2012年当选中央研究院院士, 2013 年获泛华统计学会的“许宝禄奖”, 2014年荣获英国皇家统计学会的“Guy 奖”的银质奖章,2018年美国统计学会的Noether杰出学者奖, 2021年国际数理统计学Le Cam奖。此外,他还是美国科学促进会(AAAS)、美国统计学会 (ASA)、国际数理统计学会 (IMS),计量金融学会(SOFIE)的 会士,以及国际顶尖统计期刊 《Journal of American Statistical Association 》(美国统计学会杂志)的主编和《Annals of Statistics 》(统计年鉴),《Probability Theory and Related Fields》(概率及其相关领域统), 及《Journal of Econometrics》(计量经济杂志), 《Journal of Business and Economics》(商务与经济统计杂志)的前主编等。他的主要研究领域包括高维统计,机器学习、计量金融、时间序列、非参数建模, 并在这些领域著有4本专著, 引领这些领域的研究,是高被用的学者。
课程内容
第二期课程邀请了美国普林斯顿大学终身教授、比利时皇家科学院外籍院士范剑青教授。范教授对数据科学和机器学习中常用的统计学方法进行了系统性的回顾,内容涵盖多元回归、变量选择、模型比较、惩罚似然函数、因子模型等,并对一些重要的定理进行了推导和证明。此外,他还分享了自己最新的研究进展和有价值的工作,为同学们提供了与最前沿科研成果零距离接触的机会。
范剑青教授讲解数据科学暑期班第二期课程,为暑期班同学答疑交流
03第三期课程 扩散过程
课程与教授介绍
课程简介
本课程将介绍扩散过程的基本理论和应用。涵盖布朗运动随机积分、随机微分过程、扩散过程、Ornstein-Uhlenbeck过程、均衡分布等。7月22日,香港中文大学(深圳)数据科学学院助理教授谢李岩将带来精彩讲座,重点阐述扩散过程在生成式人工智能模型中的重要角色,并结合实验演示进行深入探讨。
课程老师
陈振庆
香港中文大学(深圳)数据科学学院教授(特聘)
美国华盛顿大学终身教授
美国数学学会会士
于2019年荣获伯努利国际概率统计学会伊藤奖
授课老师介绍
陈振庆教授是美国华盛顿大学的终身教授。研究方向主要为随机分析、马氏过程、狄氏型理论、位势理论、扩散和反常亚扩散过程、随机环境下的随机过程、微分方程及其它们的应用。在包括国际顶尖数学和概率期刊《欧洲数学学会杂志》(Journal of the European Mathematical Society)、《概率年刊》(Annals of Probability)、《概率论及其相关领域》(Probability Theory and Related Fields)等学术期刊上发表论文200余篇,著有两本专著。被列为全球Top 2%顶尖科学家。2019年获伯努利国际概率统计学会的伊藤奖。陈振庆教授是国际数理统计学会会士和美国数学学会会士。现任国际数学综合性期刊《位势理论》的主编, 是《美国数学学会通讯》(Proceedings of the American Mathematical Society)应用数学和概率统计方向的协调编辑(Coordinating Editor) 及多个国际数学和概率期刊的编委。
谢李岩
香港中文大学(深圳)数据科学学院助理教授
于2019年入围INFORMS会议QSR方向最佳学生论文奖
于2020年入围加利福尼亚大学伯克利分校EECS领域“女性学术新星”
授课老师介绍
谢李岩教授于2016年获中国科学技术大学统计学理学学士学位。其后前往美国佐治亚理工学院攻读博士,并于2021年获得工业工程博士学位。谢教授是多个顶级学术会议如AAAI, ICML, Neurips, AISTATS, ICLR的受邀审稿人。
结业仪式嘉宾
吴建福
(将于2024年9月全职加入我院)
校长学勤讲座教授
加利福尼亚大学伯克利分校博士
美国工程院院士
COPSS Presidents' Award
R.A. Fisher Award and Lectureship (COPSS)
Deming Lecturer Award (ASA)
George Box Medal (ENBIS)
Akaike Memorial Lecture Award
简介:
吴建福教授是美国乔治亚理工学院(Georgia Tech.)Coca Cola统计学讲座教授。他将于2024年9月加入香港中文大学(深圳)数据科学学院。
他于2004年当选为美国国家工程院院士,并于2000年当选为中央研究院院士。他还是数学统计学会(1984年)、美国统计协会(1985年)、美国质量协会(2002年)以及运筹学与管理科学研究院(2009年)的会士。
他曾获得1987年的COPSS (Committee of Presidents of Statistical Societies) Presidents' Award,该奖每年颁发给年龄在40岁以下的最佳研究者,由五个统计学会共同委托颁发。他的其他重要奖项包括2011年的COPSS Fisher Lecture、2012年的Deming Lecture、2008年的ASQ Shewhart Medal以及2008年的Pan Wenyuan Technology Award。2016年,他获得了(首届)Akaike Memorial Lecture Award。2017年,他获得了ENBIS颁发的George Box Medal。2020年,他分别获得了乔治亚理工学院1934年级杰出教授奖和Sigma Xi Monie A. Ferst Award。他还获得了许多其他奖项,包括Wilcoxon Prize、the Brumbaugh Award(两次)、the Jack Youden Prize(两次)以及the Honoree of the 2008 Quality and Productivity Research Conference。他曾担任过印度统计研究所的1998年P. C. Mahalanobis Memorial讲演者,并于中国科学院担任过爱因斯坦访问教授。他还是中国科学院和清华大学的名誉教授,于2008年获得了滑铁卢大学的数学荣誉博士学位。
他曾任职于密歇根大学统计学和工业与运营工程系的H.C. Carver统计学教授和教授(1993-2003年),以及滑铁卢大学的GM/NSERC质量与生产力讲座教授(1988-1993年)。在他1997年的Carver讲座演讲中,他创造了数据科学(Data Science)这一术语,并主张将统计学改名为数据科学,将统计学家称为数据科学家。在加入滑铁卢大学之前,他于1977年至1988年在威斯康星大学统计系任教。他于1971年在国立台湾大学获得数学学士学位,并于加州大学伯克利分校(1973-1976年)获得统计学博士学位。
课程内容
第三期课程邀请了美国华盛顿大学终身教授、美国数学学会会士陈振庆教授以及数据科学学院的谢李岩教授进行讲解。
在第一天的热身课程中,谢李岩教授首先从扩散模型在生成式人工智能中的应用及其理论基础出发,介绍了它们在图像视频生成、时间序列数据建模和强化学习等领域的应用。
随后的正式课程中,陈振庆教授介绍了扩散过程的基本理论和应用,从伊藤公式(Ito formula)、随机微分方程等理论基础展开讲解,结合热传导方程(heat equation)和金融领域中的布莱克-舒尔斯模型(black-sholes model)等示例,通过奥恩斯坦-乌伦贝克过程(Ornstein-Uhlenbeck process)的逆向推导了扩散模型中的评分函数,并从随机分析的角度向同学们解释了扩散模型的理论基础。
陈振庆教授讲解数据科学暑期班第三期课程,与暑期班同学互动交流
在第二期和第三期课程的结业仪式上,学院邀请了统计学家、美国国家工程院院士吴建福教授为同学们进行了以《灵感、抱负、志向》(Inspiration, Aspiration, Ambition)为主题的演讲。
吴建福教授在数据科学暑期班第二、第三期课程结业仪式演讲并与同学们合影留念
04第四期课程 运营管理中的数据科学
课程与教授介绍
课程简介
本课程将聚焦机器学习和运筹学的结合,以及他们在各类运筹问题中的应用,包括但不限于供应链和健康管理。课程将展示如何综合运用经济学、运筹学和统计学习方法,对具体的运营管理问题发展新的理论和高效解决方案。
课程老师
David Simchi-Levi
香港中文大学(深圳)数据科学学院教授(特聘)
麻省理工大学教授
美国工程院院士
于2020年荣获INFORMS影响力奖
授课老师介绍
David Simchi-Levi是美国麻省理工大学终身教授和数据科学实验室主任,美国工程院院士,国际运筹学和管理科学协会(INFORMS)会士和国际制造与服务运作管理协会(MSOM)杰出会士。是国际公认的运营管理和商业分析领域学术带头人,为全球供应链风险识别和控制作出杰出贡献。先后担任运筹学与管理科学旗舰期刊Management Science、 Operations Research和Naval Research Logistics主编。荣获INFORMS影响力奖(2020)、INFORMS Daniel H. Wagner运筹实践奖(2014)、INFORMS营收管理与定价研究奖(2009)等多项荣誉。Simchi-Levei教授还是多个成功科技公司的创始人,包括致力于供应链优化的LogicTool(2009年并入IBM)、运营分析和咨询公司OPS Rules(2016年并入Accenture)和供应链云分析平台Opalytics(2018年并入Accentrue Applied Intelligence) 。
结业仪式嘉宾
戴建岗
数据科学学院院长
国际数理统计学会会士
运筹学和管理科学协会会士
曾获INFORMS应用概率学会Erlang奖
曾获The ACM SIGMETRICS 终身成就奖
《运筹学数学》前主编
简介:
戴建岗教授现任香港中文大学(深圳)数据科学学院院长。戴教授于2012年加入康奈尔大学,此前他于1990年加入乔治亚理工学院,并于2007年受聘为Edenfield讲座教授。他曾于2002年至2018年7月任职清华大学经济管理学院特聘教授组,2009至2011年任新加坡国立大学James Riley杰出访问教授。戴建岗教授是国际运筹学研究的引领学者,他培养的大多数博士研究生毕业后都在世界知名大学任教。戴教授曾获诸多荣誉,包括1994年美国国家科学基金会的青年科学家奖(Young Investigator Award,其前身是美国总统青年科学家奖)、1998年INFORMS应用概率学会Erlang奖、1997年和2017年两次荣获INFORMS应用概率学会的最佳论文奖。他是迄今为止唯一获得过两次INFORMS最佳论文奖的学者。戴教授也是迄今为止唯一获得ACM SIGMETRICS成就奖(2018年)的华人。戴教授还曾于2012年至2019年长期担任运筹学顶尖杂志《运筹学数学》的主编。
课程内容
第四期课程邀请了美国工程院院士、美国麻省理工大学终身教授及数据科学实验室主任David Simchi-Levi教授。
他介绍了麻省理工数据科学实验室与企业合作的实际案例,并展示了其研究在理论严谨性和实际应用价值方面的兼具特点。课程内容涵盖了动态定价与个性化推荐,讨论了如何通过整合在线和离线学习来加速学习过程,并以Groupon(美国团购网站)和RueLaLa(美国的品牌限时折扣网站)的实际案例为例进行了详细阐述。
在实验设计方面,课程深入探讨了自适应实验设计和在线实验中的序贯决策问题。此外,课程还着重于供应链韧性和需求预测,尤其是利用Transformer模型和大型语言模型进行预测和优化。David Simchi-Levi强调了在疫情和其他突发事件背景下,确保供应链韧性的重要性,并讨论了企业如何通过压力测试来提高供应链的抗风险能力。第四期课程内容丰富,为学员提供了理论与实际应用紧密结合的深刻见解。
David Simchi-Levi教授讲解数据科学暑期班第四期课程,与暑期班同学互动交流
港中大(深圳)数据科学学院院长戴建岗教授致辞本期的结业仪式。他首先向本次暑期班的授课老师、工作人员和志愿者同学们表达了诚挚的感谢,并对本次暑期班能够吸引来自全国各地优秀学生学者参与的成果表示欣慰。
随后,戴教授介绍了学院的发展历程、研究方向,特别是运筹学领域的主要师资团队。他希望本次数据科学暑期班能对同学们未来的学习和职业生涯产生积极影响,并祝贺同学们顺利结业。最后,戴教授向同学们发出邀请,“不论你们将来身处何地,欢迎你们未来回到香港中文大学(深圳)交流学习”。
戴建岗教授在数据科学暑期班第四期课程结业仪式演讲并与同学们合影留念
结营晚宴
长按识别二维码查看更多暑期班精彩照片
04 学术分享会
除正式课程外,本次暑期班还邀请了学院多位老师分享计算机科学、运筹学和统计学等不同研究方向的最新科研情况。教授的分享不仅拓宽了暑期班同学们的学术视野,也为同学们今后的学习和研究提供了宝贵的参考和启发。
暑期班学生评价
毛同学
伦敦大学学院
“作为数学系的大一学生,我在参加课程之前只学过一些基础知识,对自己的研究方向充满迷茫。在听了“统计机器学习”和“运筹管理中的数学科学”之后,我对这两块领域都产生了兴趣,会在之后进行更多的学习和探索,并详细考虑其对应的职业选择,可能会选择其一作为自己的发展方向。
我在这次SDS暑假班中获益匪浅。学业上,我有机会了解到大学里未曾涉猎的课程知识,尤其是现代的数据模型及其发展与应用。虽然做不到理解全部内容,但在上课过程中产生的一些思维碰撞、激发起的特定兴趣还是很有意义的。社交方面,在课间和晚宴中,我结交了很多来自各个背景的朋友,认识到不同的学习规划,乃至校园生活,增长了见识,也对自己的未来道路有了一定的想法。”
何同学
厦门大学
“和很多很厉害的老师交流非常开心!老师们都很友善和平易近人。在暑期班学到了一些很新的知识,了解了未来研究的方向和最新的技术,我觉得对低年级的本科生来说特别有收获,毕竟日常学习的都是几百年前的基础知识,以后大概也不会用到里面的很多东西,所以能够提前了解更真实、实际生活中要应用的知识和方向会更让人觉得自己未来可以干什么,需要学什么,学到的东西到底有什么意义。
此外,和其他来自五湖四海的同学交流也很有收获,能够了解别人所生活的世界是怎么样的,了解别人正在经历什么样的生活。”
卢同学
华南理工大学
“港中大(深圳)科研氛围很好,没有体制内的那些枷锁,之前只是有过来读PhD的想法,参加这次暑期班之后更坚定了我努力争取明年拿offer的决心。
吴建福教授和李海洲教授的科学家气质深深地震撼到我,为他们点赞。也感谢港中大(深圳)给我这么好的来观摩学术前沿,与学术大牛们交流的机会。暑期班的同学们都好优秀,山外有山,人外有人,可能我和他们在起跑线上有一些距离,但就像姚建峰教授所说,不甘于平庸,就是最好的选择。”
吴同学
武汉大学
“本次暑期班我觉得印象最深和最有帮助的课程是语音语言大模型的理论与实践,在暑期班学到了大语言模型的原理和应用,了解到了前沿的机器学习算法,也加深另外对扩散过程的理解。希望以后能打好数学基础,认真学习前沿知识,提高个人能力。”
厦门大学 何同学
在小红书平台上分享
“每天都在上各种各样大牛的课,要么是‘行走的教科书’要么是和内曼同时代的教授等等等等,曾经书上和沉寂的定理相关的人就这么活生生地出现在面前!”
感谢参与本次数据科学暑期班的134位杰出高年级本科生、研究生和青年教师,在这个夏天,与数据科学学院共同探索了充满洞察力和创新精神的数据科学世界。
正如戴建岗教授发出的邀请,“不论你们将来身处何地,欢迎你们未来回到香港中文大学(深圳)交流学习”。