数说好课 | DDA3020机器学习:短时间充分领略机器学习魅力
“数说好课”专题
港中大(深圳)数据科学学院(SDS)创新将计算机科学与技术、数据科学与大数据技术、统计学三大专业方向交叉融合,为学生提供实用和前瞻性相结合的交叉学科教育。自学院成立以来,SDS 致力于教学精进与探索,总结既往经验,持续做教学改革,以提升教学质量,更好地满足学生需求。
通过“数说好课”专题,我们将详细介绍一系列经过学院专业探索和打磨的精品课程。
本期专题 DDA3020机器学习
实现三大课程亮点
致力打造数科er的理想课堂
亮点1:实力雄厚的授课队伍
亮点2:与时俱进的课程设置
亮点3:科研与竞赛实践机会多
课程介绍
1 课程内容
DDA3020机器学习 (Machine Learning) 是机器学习基础课程,授课内容涵盖:
▪️ 机器学习必要背景知识,包括概率、线性代数、最优化等;
▪️ 机器学习基本概念和各种基本方法,包括监督学习中的线性回归、逻辑回归、支持向量机、神经网络、决策树和无监督学习中的聚类、高斯混合模型、主成分分析等;
▪️ 通过课程和作业,同学们还将学习运用Python语言实现机器学习算法的基本流程,锻炼利用机器学习解决实际问题的能力。
2 任课教师

李海洲
新加坡工程院院士
校长学勤讲座教授
执行院长
华南理工大学博士
研究领域:
语音信息处理、自然语言处理、类脑计算、人机交互
个人简介:
李海洲教授(新加坡工程院院士、IEEE Fellow、ISCA Fellow)现任香港中文大学(深圳)数据科学学院执行院长、校长学勤讲座教授,同时他也是新加坡国立大学客座教授和德国不来梅大学卓越讲座教授。此前,他曾于2006年至2016年分别担任新加坡南洋理工大学和新加坡国立大学教授,于2009年担任东芬兰大学客座教授,于2011年至2016年任澳洲新南威尔士大学客座教授,于2003年至2016年担任新加坡科技研究局通信与资讯研究院首席科学家和研究总监。
李教授曾任顶级期刊 IEEE/ACM Transactions on Audio、Speech and Language Processing 主编 (2015-2018年);目前任 Computer Speech and Language 副主编 (2012-2022年)、Springer International Journal of Social Robotics 副主编 (2008-2022年)。李教授也曾担任多个学术委员会委员:IEEE 语音与语言处理技术委员会委员 (2013-2015年)、IEEE信号处理学会出版委员会委员 (2015-2018年)、 IEEE 信号处理学会奖励委员会委员 (2021-2023年)。李教授也曾是多个学会主席:国际语音通信学会主席 (ISCA, 2015-2017年)、亚太信号与信息处理协会主席(APSIPA,2015-2016年)、亚洲自然语言处理联合会主席(AFNLP, 2017-2018年)、IEEE 信号处理学会副会长(IEEE SPS, 2024-2026年)。此外,他还担任过 ACL 2012、INTERSPEECH 2014、IEEE ICASSP 2022等多个大型学术会议的大会主席。
李教授享誉国际,他不仅在语音识别和自然语言处理研究领域有着突出贡献,还领导研发了多项知名的语音产品,如1996年苹果电脑公司为 Macintosh 发行的中文听写套件、1999年 Lernout & Hauspie 公司为亚洲语言发行的 Speech-Pen-Keyboard 文本输入解决方案。他是一系列重大技术项目的架构师,项目包括2001年为新加坡樟宜国际机场研发的具有多语种语音识别功能的 TELEFIQS 自动呼叫中心、2012年为联想 A586 智能手机研发的声纹识别引擎、2013年为百度音乐研发的听歌识曲引擎。

吴保元
副教授
助理院长(科研)
中国科学院博士
研究领域:
人工智能安全隐私、计算机视觉、机器学习与最优化
个人简介:
吴保元教授现为香港中文大学(深圳)数据科学学院副教授。吴教授于2009年毕业于北京科技大学自动化学院,2011至2013年以访问学生身份赴美国伦斯勒理工学院研究机器学习和计算机视觉,2014年6月在中国科学院自动化研究所模式识别国家实验室获得模式识别和智能系统博士学位。其后,吴教授在2014至2016年在沙特阿拉伯的阿卜杜拉国王科技大学担任博士后研究员,在2016至2018年在腾讯 AI lab 担任高级研究员一职,并于2019年1月荣升为专家研究员。
吴教授的研究领域集中于机器学习、计算机视觉和优化,包括对抗样本、模型压缩、视觉推理、图像标注、弱监督或无监督学习、结构化预测、概率图形模型、视频处理和整数规划。

樊继聪
助理教授
香港城市大学博士
研究领域:
人工智能、机器学习
个人简介:
樊继聪教授现为香港中文大学(深圳)数据科学学院助理教授。樊教授于2018年在香港城市大学电子工程系获得博士学位,并分别于2013年和2010年在北京化工大学获得控制科学与工程硕士学位和自动化学士学位。他是康奈尔大学的博士后,曾在美国威斯康星大学麦迪逊分校和香港大学担任研究职位。
樊教授的研究方向是人工智能和机器学习,他在矩阵/张量方法、聚类算法、异常/离群点/故障检测、深度学习和推荐系统等方面做了大量研究工作。他的研究成果曾在多个知名学术期刊与著名国际会议上发表,如 IEEE TSP/TNNLS/TII、KDD、NeurIPS、CVPR、ICLR 和 AAAI 等。 他是 IEEE 高级会员,目前担任期刊 Neural Processing Letters 的副编辑,主持国家自然科学基金青年项目一项、面上项目一项。他获得2023年中国自动化学会自然科学奖一等奖(第二完成人),入选斯坦福大学2023年“全球 Top 2% 科学家”榜单。

贾奎
教授
伦敦大学玛丽女王学院博士
研究领域:
可泛化深度学习、几何深度学习、深度学习与机器人灵巧操作、生成式三维建模、三维语义感知
个人简介:
贾奎教授现就职于香港中文大学(深圳)数据科学学院。他分别于西北工业大学、新加坡国立大学、伦敦大学玛丽女王学院获得学士、硕士、和博士学位。博士毕业后,他曾先后于中科院深圳先进技术研究院、香港中文大学、伊利诺伊大学香槟分校新加坡高等研究院、澳门大学及华南理工大学从事教学和科研工作。他的主要研究领域是机器学习与计算机视觉,近期主要聚焦深度学习及其泛化、生成式三维建模与学习、三维感知大模型等方向。他的研究受到国家自然科学基金、广东省科技厅、华为、微软等机构和企业的资助,他的研究成果应用于奥比中光三维传感器产品及三星(美国)无人驾驶系统中。贾奎教授是跨维智能创始人,目前担任 Trans. on Machine Learning Research, IEEE Trans. on Image Processing 等期刊副主编。
课程被学生评为——
“在短时间内可以充分领略机器学习魅力的一门课”。
亮点1:实力雄厚的授课队伍
资深 AI 领域教授与 TA 团队协同教学
四位在人工智能(AI)领域卓有建树的专家——李海洲院士、吴保元教授、贾奎教授、樊继聪教授负责讲授 DDA3020课程。凭借深厚的学术造诣和丰富的教学经验,他们为学生精心打造每一堂课,确保课程的高质量呈现。
同时,该课程的 TA(教学助理)团队也在不断发展并走向成熟。TA 团队采用梯队更新的模式,保证每个学期都有具备经验的 TA 参与到教学辅助工作当中。此外,课程还吸纳往届成绩优秀的同学作为本科学生助教(USTF)加入 TA 团队。通过这种方式,TA 团队能够从不同的视角为同学们提供学习辅导,有助于同学们在学习过程中更好地理解和掌握知识。
学生评价
陈昱之
2021级 理工学院
应用数学专业
“DDA3020是一门对数学、计算机和量化等专业极为有用的课程。吴保元老师详细介绍了几乎所有的机器学习算法,并配以详细的实现算法的代码作业,提升了我们的数据分析和编程能力。”
刘子彻
2022级 数据科学学院
数据科学与大数据专业
“DDA3020课程内容丰富,理论与实践相结合,授课时的数学推导严谨扎实,作业中的应用经典且趣味十足。课程体系性非常强,每个模型都有清晰的动机、建模和优化过程,使我在理解数学公式的同时建立起良好的直觉。另一个令人印象深刻的方面是,当教授从截然不同的视角推导目标函数时,最终总能达到一致的结论。感谢DDA3020的教授们,让学生在短时间内充分领略机器学习的魅力!”
亮点2:与时俱进的课程设置
持续优化的课程内容,精心设计的作业
DDA3020是数据科学学院的经典课程,自 2021年春季开课至今,已经历了7个学期的精心打造。在科技发展日新月异的今天,为了让课程内容与前沿科技保持同步,该课程每个学期都会对教学内容进行优化升级。一方面,课程涵盖了机器学习领域的经典知识,这些知识是构建完整知识体系的重要基石;另一方面,为了让同学们及时掌握行业动态,课程也包括机器学习和人工智能领域的最新成果与进展,从而确保同学们所学的知识具有时效性与前瞻性。


DDA3020课堂(2024年春季学期)
此外,经过7个学期的积累,DDA3020课程已经形成了一套完备且丰富的学习资料库。该资料库收纳了各个学期的授课资料、学习笔记以及编程课程作业等多样的学习资源。不同学习背景和专业的同学都可以从资料库中获取所需资源,进而获得更多提升自己学习水平的机会。
在课程作业的设置上,教授团队进行了深入的思考与精心的设计。代码作业的应用背景既与当下生活紧密贴合,又极具生动趣味。此外,部分作业采用了代码草稿的形式,降低学生从零开始编写的难度,使得学生能够在逐步引导下完成代码,进而深化学习效果。
学生评价
柳晨阳
2021级 经管学院
量化金融
“DDA3020这门课给我留下了深刻的印象,尤其是在学期中的几次作业中。教授和助教并没有在我们学习完课程中的数学理论后立即要求我们编写代码,而是设计了一个代码草稿,通过逐步引导,让我们将所学的机器学习算法框架填入预留的空白。这种方法不仅加速了我们将理论知识应用于实践的过程,还帮助我们深入理解了许多机器学习库的高效用法。此外,草稿中一些超出课程理论范围的代码,生动地展示了如何将课程内容与当前最新的实际需求(如图像识别)结合起来。”
薛中凯
2022级 经管学院
量化金融
“DDA3020是一门非常“干货”的课程,为我们打下了坚实的机器学习基础。在教授的引导下,枯燥的证明变得更加直观,抽象的算法变得生动有趣。课后的编程作业让我们直接编写基础算法,极大提升了同学们的动手实践能力。正如李教授所言,尽管新兴模型层出不穷,但机器学习最基本的“范式”始终未变。通过这样的学习方式,我们激发了更多自主探索的热情,对更广阔的机器学习和深度学习领域产生了浓厚的兴趣。”
亮点3:注重实践的课堂
鼓励学生在科研与竞赛中提升知识运用能力
DDA3020课程高度重视课堂的实践性。课堂教学不仅注重理论知识的传授,还积极引导同学们将所学知识运用到实际当中。课堂上的教授们会鼓励学生加入课题组团队参与科研,也会分享适合同学们参加的竞赛机会,让学生能在实践中更好地掌握课堂知识。
发表顶会论文
曾选修过 DDA3020课程的学生在该课程中开始探索科研领域,并取得一定成果:
刘奕
2018级 计算机科学与技术
参与吴保元教授的科研项目,并在吴教授的指导下,在机器学习与人工智能领域国际顶级学术会议 NeurIPS 2022上发表一篇论文,并在本科毕业后前往香港中文大学攻读计算机科学与工程博士学位。

刘芷萱
2018级 计算机科学与技术
在校期间,参与吴保元教授的科研项目,在机器学习与人工智能领域国际顶级学术会议 NeurIPS 2022上发表一篇论文。凭借扎实的科研基础和优异的学业成绩,学生在毕业之际获得了大学杰出学生的荣誉。本科毕业后,学生赴美国卡耐基梅隆大学攻读机器人硕士和博士学位,成功在计算机视觉领域的国际顶级学术会议 CVPR 2024以第一作者身份发表论文一篇。


BBDC 2024大数据挑战赛

李海洲教授在课程教学过程中,为同学们介绍了德国不来梅大学面向全球在读大学生及硕士生举办的大数据挑战赛——2024 Bremen Big Data Challenge (BBDC),并鼓励同学们参加。最终,来自 DDA3020课程的的三个学生队伍在该竞赛中取得佳绩,他们分别是:
▪️ Easy_win(吴宇伦、曾子夏、胡泽云 )
▪️ SciencePlus(江俪川)
▪️ Renny(李敬泉、曹昕)
BBDC 2024学生轨道的挑战任务为借助生物信号对情绪以及情境信息进行预测。竞赛向参赛者提供了在四场招聘会上使用智能手表从 54 名测试对象处收集的数据。此项比赛面向全球范围内的所有在读大学生及硕士生,允许个人参赛以及三人以下的团队参赛。

BBDC 2024参赛结果公布
Score 栏目分数越高越好,最好的结果是1.0
Source: https://bbdc.csl.uni-bremen.de/en/2024-2/student-track/
学生评价
江俪川
2021级 数据科学学院
数据科学与大数据专业
“DDA3020是一门全面覆盖基础机器学习知识的入门课程,为参加 BBDC 比赛的本科生奠定了良好的学科基础。非常感谢李海洲教授,讲授了诸多生动有趣的案例,例如 EM 算法中的“自行车 Z 字形上坡”,给人留下了深刻的印象。我推荐对机器学习感兴趣的同学尽早学习这门课程,为未来在人工智能领域的发展打下坚实的基础。”
刘萱卓
2022级 数据科学学院
数据科学与大数据专业
“DDA3020是一门理论与实践紧密结合的课程。教授不仅详细讲解知识点的原理和应用,还阐释各个模型之间的关系,并分享应用过程中的实际经验,这些都是单纯通过阅读书本无法获得的。教授鼓励我们阅读不同教材,通过多种讲解方式深入理解模型的本质。此外,PPT 中也提供了更多材料供感兴趣的同学参考学习。课程作业包括书面报告和编程两部分,编程部分通过具体实例逐步引导学生将所学知识进行实践复现。同时,课程中学到的模型可以直接应用于一些实际场景(如大数据竞赛),进一步加深学生对模型的理解。”
DDA3020课程的创新与进步不会止步于此,
数据科学学院将持续发力打造好的课程。
点击下方查看
敬请期待更多“数说好课”,
认识更多专业精品课程!