喜讯 | 港中大(深圳)数据科学学院师生论文被国际会议ICLR录用
香港中文大学(深圳)数据科学学院师生共13篇论文被国际表征学习大会(International Conference on Learning Representation,简称ICLR)2024录用,其中两篇被评为Spotlights论文。ICLR是机器学习领域全球最高级别的学术会议之一,关注有关深度学习各个方面的前沿研究。本届会议共收到了 7262 篇提交论文,整体接收率约为 31%,其中Spotlights论文的录用率为5%(约有363篇)。
论文来自学院1位本科生(现已毕业)、2位硕士生、7位博士生、2位博士后、3位研究助理及10位教授。2023年学院本科生在国际权威期刊和顶级国际学术会议上发表论文高达28篇,以本科生为第一作者的论文达11篇。
ICLR简介
国际表征学习大会(International Conference on Learning Representation,简称ICLR)是公认的深度学习领域国际顶级会议之一,关注有关深度学习各个方面的前沿研究,在人工智能、统计和数据科学领域以及机器视觉、语音识别、文本理解等重要应用领域中发布了众多极其有影响力的论文。
ICLR于2013年由深度学习领域的两位“巨头”、图灵奖获得者Yoshua Bengio和Yann LeCun牵头创办,获得了学术研究者们的广泛认可。在Google Scholar的学术会议/杂志排名中,与Science,Nature和Cell同处TOP 10阵列。
来源:百度百科
学生作者简介
*按姓名首字母排序
本科生
孙彦
2019级本科生
金融工程专业
指导老师:樊继聪
硕士生
傅颖浩
2022级硕士生
生物信息学专业
指导老师:李爽
宋子韬
2022级硕士生
数据科学专业
指导老师:李爽
博士生
Dmitry Rybin
2021级博士生
数据科学专业
指导老师:罗智泉
任文頔
2023级博士生
计算机科学专业
指导老师:李爽
魏少魁
2020级博士生
数据科学专业
指导老师:吴保元、查宏远
徐圣
2023级博士生
计算机科学专业
指导老师:刘桂良、查宏远
袁尤良
2022级博士生
计算机科学专业
指导老师:贺品嘉
张明达
2022级博士生
数据科学专业
指导老师:吴保元
朱梓豪
2021级博士生
数据科学专业
指导老师:吴保元
博士后
金睿楠
指导老师:王趵翔
李文浩
指导老师:查宏远
研究助理
曹成志
指导老师:李爽
方向宏
指导老师:王本友
张云鹤
指导老师:樊继聪
指导教授简介
*按姓名首字母排序
丁宏强
校长讲座教授
哥伦比亚大学博士
全球计算机科学和电子领域千强科学家、全球计算机领域Top 400高被引学者,曾获NASA团体成就奖、ICDM/ICMLA/ECML/ISUG最佳论文奖,曾发表《 Science》封面文章,原德克萨斯大学阿灵顿分校终身教授、原劳伦斯伯克利国家实验室科学家
研究领域:机器学习/数据挖掘、生物信息学、信息检索、网络链接分析、高性能计算
个人简介:
丁宏强教授现任香港中文大学(深圳)数据科学学院校长讲座教授一职。此前,丁教授曾在加州理工学院、加州大学劳伦斯伯克利国家实验室和德克萨斯大学阿灵顿分校任职。丁教授曾入选中美联合培养物理类研究生计划(CUSPEA)项目并赴哥伦比亚大学深造,获得理论物理和计算机科学双博士学位 (点击查看G2R排名)。
丁教授的研究兴趣包括机器学习/数据挖掘、生物信息学、信息检索、网络链接分析和高性能计算。他与多位合作伙伴致力于研究多类蛋白质折叠预测,这是目前蛋白质三维结构预测的标准基准。丁教授团队发现主成分分析(PCA)为K-means聚类算法提供了解决方案。他们还证明了非负矩阵分解等价于K-means均值(谱聚类)。丁教授和同事将主成分分析法推广到二维奇异值分解,用于一组二维矩阵的降维。他们为集成分布式内存架构上的多组件可执行程序研发出MPH技术(软件),并被许多用于预测长期气候的先进大型模型所采用。丁教授还开发了可证明最优的原位多维数组索引重组的空位跟踪算法。
丁教授曾任职于多所院校机构,包括加州理工学院超立方体研究中心,为材料科学和计算生物学开发并行算法;美国国家航空航天局喷气推进实验室,研究气候数据同化、稀疏矩阵线性解算和并行图形划分的算法;劳伦斯伯克利国家实验室,研发高性能计算、用于气候模型的算法、应用基准测试,同时教授HPF和MPI等课程,并不断探索新领域,探索矩阵在聚类算法、指令、等级、嵌入方面的妙用,以及二分图对系统表达蛋白质相互作用网络、序列、结构域、复合体、功能模块和路径的作用。
此外,丁教授在气候数据同化并行算法和使用支持向量机进行超新星探测领域获得了四项最佳论文奖,在美国宇航局喷气推进实验室获一项团体成就奖,在劳伦斯伯克利国家实验室获两项杰出成就奖。他曾担任美国国家科学基金会的评审小组成员,以及爱尔兰、以色列国家科学基金会和香港研究资助局的研究计划评审。他还在Bioinformatics期刊、数据挖掘、机器学习和生物信息学领域的主要会议的项目委员会任职。他多次联合组织了以使用矩阵和张量进行数据挖掘为主题的年度研讨会。他的研究成果发表在《科学》(PDF)、《自然》(PDF)、美国工业与应用数学学会(SIAM)及美国国家研究委员会报告中。
樊继聪
助理教授
香港城市大学博士
曾获中国过程控制会议张钟俊院士优秀论文奖、香港城市大学杰出学术表现奖、中国自动化学会自然科学奖一等奖,多篇论文被评为CVPR/AAAI-oral和ICLR-spotlight, 现为SCI期刊Neural Processing Letters副编辑, 主持国家自然科学基金青年项目和面上项目
研究领域:人工智能、机器学习
个人简介:
樊继聪教授现为香港中文大学(深圳)数据科学学院助理教授。樊教授于2018年在香港城市大学电子工程系获得博士学位,并分别于2013年和2010年在北京化工大学获得控制科学与工程硕士学位和自动化学士学位。在加入香港中文大学(深圳)之前,他是康奈尔大学的博士后。他还曾在美国威斯康星大学麦迪逊分校和香港大学担任研究职位。
樊教授的研究方向是人工智能和机器学习,他在矩阵/张量方法、聚类算法、异常/离群点/故障检测、深度学习和推荐系统等方面做了大量研究工作。他的研究成果曾在多个知名学术期刊与著名国际会议上发表,如IEEE TSP/TNNLS/TII、KDD、NeurIPS、CVPR、ICLR和AAAI等。 他是IEEE高级会员,目前担任期刊Neural Processing Letters的副编辑,主持国家自然科学基金青年项目一项、面上项目一项。他获得2023年中国自动化学会自然科学奖一等奖(第二完成人),入选斯坦福大学2023年“全球Top 2% 科学家”榜单。
樊教授目前招收博士生、博士后、研究助理以及访问学生。感兴趣的同学可通过邮件联系。
贺品嘉
助理教授
香港中文大学博士
全球Top 2% 顶尖科学家、顶会ICSE 2024和ESEC/FSE 2023的程序委员会成员、顶刊TOSEM的Associate Editor、曾获IEEE开源软件服务奖、曾任苏黎世联邦理工学院博士后
研究领域:软件工程、软件测试、软件安全、智能运维、可信人工智能、自然语言处理
个人简介:
贺品嘉教授现为香港中文大学(深圳)助理教授。贺品嘉教授于2018年从香港中文大学获得博士学位,此后在苏黎世联邦理工学院从事学术研究工作三年。贺品嘉教授的研究方向为软件工程、软件测试、软件安全、智能运维、可信人工智能、自然语言处理等。
近年来,他在ICSE, ESEC/FSE, ASE, ISSTA, OSDI, CSUR, TDSC等顶级会议期刊发表过学术论文30余篇。获得首届IEEE开源软件服务奖、ISSRE最有影响力论文奖、ISSRE 2022杰出审稿人奖。其Google Scholar引用超2600次,H-Index为20。贺教授主导的自动化日志分析开源项目LogPAI在GitHub上被star 3000余次,并被380多个学界业界组织下载8万余次。贺品嘉教授是ICSE, ESEC/FSE, SANER, ISSRE等会议的程序委员会成员,POPL, OOPSLA等会议的Artifact Evaluation委员会成员,TOSEM期刊的杰出审稿人。
李爽
助理教授
佐治亚理工学院博士
曾获INFORMS QSR最佳学生论文竞赛决赛入围奖、INFORMS社交媒体分析最佳学生论文竞赛决赛入围奖、H. Milton Stewart工业学院研究生贾维斯奖第二名、中国科学技术大学自动化系优秀本科论文奖,曾任哈佛大学博士后
研究领域:时序数据分析和决策的机器学习方法、及其在医疗保健、智慧城市和社交媒体中的应用
个人简介:
李爽于2011年获得中国科学技术大学学士学位,并分别于2014年和2019年获得佐治亚理工学院硕士和博士学位。
在加入香港中文大学(深圳)之前,李爽在哈佛大学任博士后研究员,研究移动健康中的多智能体强化学习。她曾为哈佛大学序贯决策2021年春季课程提供课程材料。2014 年至 2019 年期间,她在佐治亚理工学院担任教学助理,曾负责机器学习、计算数据分析,和计算数据分析概要。2018年,她在谷歌进行了三个月的研究实习,研究推荐系统的用户行为建模。同年,李爽荣获INFORMS QSR最佳学生论文竞赛决赛入围奖和INFORMS社交媒体分析最佳学生论文竞赛决赛入围奖。2016年,获得 H. Milton Stewart 工业学院研究生贾维斯奖第二名。2011年至2012年,获得美国马萨诸塞大学阿默斯特分校工程学院的Hluchyj奖学金。2011年,获得中国科学技术大学自动化系优秀本科论文奖。她的研究领域包括用于序列数据分析和决策的机器学习、新序列模型、可靠高效的学习方法、有效推理程序、医疗保健、智慧城市和社交媒体。
刘桂良
助理教授
西蒙菲莎大学博士
NeurIPS、ICML、ICLR审稿人,曾获MITACS学术训练奖和中国国家奖学金,曾任加拿大滑铁卢大学博士后和维克特研究院的研究员
研究领域:增强学习,包括基于模型的增强学习、可解释性增强学习、智能体评价和表示学习;增强学习相关的应用,包括信息提取和体育运动分析
个人简介:
刘桂良教授曾于2020-2022年任加拿大滑铁卢大学博士后和维克特研究院的研究员。在此之前,他于2020年从加拿大西蒙菲莎大学取得博士学位,并且于2016年从华南理工大学取得学士学位。
他曾经和多伦多大学机器学习组、百度研究院认知学习实验室以及华为诺亚研究院有紧密合作。他曾获MITACS学术训练奖和中国国家奖学金。他在国际一流计算机会议(包括NeurIPS、WWW、ICRL 和IJCAI)上发表过多篇文章。他目前也是多个国际著名人工智能会议(包括NeurIPS、ICML和ICLR)的审稿人。
罗智泉
校长学勤讲座教授
香港中文大学(深圳)副校长(学术)
麻省理工学院博士
全球Top 2%顶尖科学家、全球计算机科学和电子领域千强科学家、中国工程院院士、加拿大皇家科学院院士、IEEE会士、SIAM会士,曾获第一届王选应用数学奖,深圳市大数据研究院院长
研究领域:大数据分析的最优化方法、信号处理中的算法设计与复杂性分析、数据通信
个人简介:
罗智泉教授是中国工程院外籍院士、加拿大皇家科学院院士、香港中文大学(深圳)副校长、深圳市大数据研究院院长、香港中文大学(深圳)—深圳市大数据研究院—华为未来网络系统优化创新实验室主任、广东省大数据计算基础理论与方法重点实验室主任。他于1984年获北京大学数学系学士学位,1989年获美国麻省理工学院电子工程与计算机科学系运筹学博士学位。他是SIAM 会士和IEEE 会士以及IEEE信号处理期刊主编(2012-2014)。
罗智泉教授的学术成果包括无线通信的收发机优化设计、最优鲁棒波束成形设计、动态频谱管理等,相关论文分别获得2004年、2009年、2011年和2015年IEEE信号处理学会、2011年国际通信大会、欧洲信号处理学会以及2020年世界华人数学家联盟最佳论文奖;因在优化理论方面的杰出贡献,2010年被美国运筹和管理科学协会授予Farkas奖,2018年被国际数学优化学会授予Tseng纪念奖,2022年被中国工业与应用数学学会授予第一届王选应用数学奖。
2020年,挑战网络效能最大化的难题,他首次提出了数据驱动的现实网络统计模拟技术,研究建立了大规模4/5G异构网络参数最优化模型,突破了求解超大规模混合整数优化模型的算法瓶颈,从无到有建立了网络性能的数学模型和算法框架;2021年6月被认证为CSIAM应用数学落地成果;2021年9月,研究成果入围2021年世界计算大会计算创新与数字赋能专题展。2021年,他入选全球计算机研究领域的领先门户网站Guide2Research全球前1000位计算机科学和电子领域顶级科学家榜单。
孙若愚
副教授
明尼苏达大学博士
NeurIPS、ICML、ICLR、AISTATS等人工智能会议领域主席,曾获INFORMS George Nicolson学生论文竞赛第二名、INFORMS优化协会学生论文竞争荣誉奖,曾任Facebook 人工智能研究所全职访问科学家,原伊利诺伊大学香槟分校助理教授
研究领域:深度学习理论和算法、生成模型、大规模优化算法、学习优化、图神经网络、人工智能在通信网络的应用、通信网络容量理论、通信网络优化算法
个人简介:
孙若愚现为香港中文大学(深圳)数据科学学院副教授、博士生导师。此前他于2017年至2022年任伊利诺伊大学香槟分校(UIUC)助理教授、博士生导师,2016年任脸书人工智能研究所(由LeCun领导)全职访问科学家,2015-2016年任斯坦福大学博士后研究员。他2015年在美国明尼苏达大学电子与计算机工程系获得博士学位,2009年在北京大学数学科学学院基础数学系获得本科学位。他的主要研究领域为人工智能和机器学习、数学优化理论与算法、无线通信和信号处理等,具体研究方向包括神经网络理论和算法、生成模型、大数据优化算法、学习优化、通信网络容量理论与优化算法等。他曾获得INFORMS(国际运筹与管理协会) George Nicolson学生论文竞赛第二名,以及INFORMS优化协会学生论文竞争荣誉奖。在人工智能与机器学习会议NeurIPS, ICML, ICLR, AISTATS,顶尖信息论与通信杂志IEEE transaction on information theory, IEEE Signal Processing Magazine, Journal of Selected Areas in Communications,顶尖数学优化与运筹杂志Mathematical Programming, SIAM Journal on Optimization, Math of Operations Research等会议与杂志发表数十篇文章。目前担任NeurIPS, ICML, ICLR, AISTATS等人工智能会议的领域主席。
王趵翔
助理教授
香港中文大学博士
曾求解The Gambler's Problem、滑铁卢大学访问助理教授
研究领域:强化学习、在线学习、学习理论
个人简介:
王趵翔现为香港中文大学(深圳)数据科学学院助理教授。王趵翔于2014年在上海交通大学获信息安全专业工程学士学位;其后于2020年在香港中文大学计算机科学与工程系获博士学位。就读博士期间,他曾在阿尔伯塔大学和加拿大皇家银行长期访问。
王趵翔的研究方向包括强化学习,在线学习,和学习理论等。他的研究成果发表在ITCS, NeurIPS, ICML, ICLR等会议。他关于The Gambler's problem的研究解决了强化学习教科书中的开放问题,并证明了强化学习中的混沌现象。
王本友
助理教授
意大利帕多瓦大学博士
曾获NLPCC 2022最佳论文奖、NAACL 2019最佳可解释NLP论文、SIGIR 2017最佳论文提名奖、玛丽居里奖学金,长期担任ICLR/NeurIPS/ICML审稿人
研究领域:自然语言处理、信息检索、应用机器学习
个人简介:
王本友教授于2022年在意大利帕多瓦大学取得博士学位。他曾是欧盟玛丽居里研究员,曾在丹麦哥本哈根大学、加拿大蒙特利尔大学、荷兰阿姆斯特丹大学、华为诺亚方舟实验室、中科院理论物理所、社科院语言所交流访问。王教授的主要研究方向为自然语言处理方面、应用机器学习、信息检索。他曾获得国际信息检索顶级会议SIGIR 2017(CCF A类会议)最佳论文提名奖,获奖论文(IRGAN)是SIGIR历史上引用最多的论文之一,是最早也是最成功的GAN在信息检索领域的应用;曾获得国际自然语言处理顶级会议NAACL 2019最佳可解释论文奖,与自然语言处理里程碑工作BERT一起同台领奖。王教授在国际顶级会议ICLR/NeurIPS/ACL/EMNLP/NAACL/SIGIR/WWW/CIKM/AAAI/IJCAI和国际顶级期刊TOIS/TOC/TCS等发表了20余篇论文。他的专著《推荐系统与深度学习》由清华大学出版社出版。他长期担任ICLR/NeurIPS/ICML审稿人。
吴保元
副教授
中国科学院自动化研究所博士
全球Top 2% 顶尖科学家、深圳市大数据研究院大数据安全计算实验室主任、NeurIPS 2022区域主席、Neurocomputing期刊编委,曾获国家自然科学基金面上项目资助,曾任腾讯AI Lab专家研究员
研究领域:人工智能安全隐私、计算机视觉、机器学习与最优化
个人简介:
吴保元教授现为香港中文大学(深圳)数据科学学院副教授。吴教授于2009年毕业于北京科技大学自动化学院,2011至2013年以访问学生身份赴美国伦斯勒理工学院研究机器学习和计算机视觉,2014年6月在中国科学院自动化研究所模式识别国家实验室获得模式识别和智能系统博士学位。其后,吴教授在2014至2016年在沙特阿拉伯的阿卜杜拉国王科技大学担任博士后研究员,在2016至2018年在腾讯AI lab担任高级研究员一职,并于2019年1月荣升为专家研究员。
吴教授的研究领域集中于机器学习、计算机视觉和优化,包括对抗样本、模型压缩、视觉推理、图像标注、弱监督或无监督学习、结构化预测、概率图形模型、视频处理和整数规划。
查宏远
校长学勤讲座教授
副院长(科研)
计算机科学学科负责人
斯坦福大学博士
全球Top 2%顶尖科学家、全球计算机科学和电子领域千强科学家,曾获NIPS杰出论文奖、Leslie Fox数值分析奖,SIGIR最佳学生论文奖指导教授,深圳市人工智能与机器人研究院中心主任、原佐治亚理工学院教授
研究领域:机器学习及应用
个人简介:
查宏远教授现为香港中文大学(深圳)校长学勤讲座教授、数据科学学院副院长(科研)。
查宏远教授1984年毕业于复旦大学数学系, 并于1993年获得斯坦福大学科学计算专业博士学位。查教授于2006年至2020年任职于佐治亚理工学院计算机学院,1992年至2006年任职于宾州州立大学计算机科学与工程系,他也曾于1999年至2001年任职于 Inktomi 公司。他目前的研究方向是机器学习及应用。
查教授在计算机等相关领域的主流科技期刊和顶级学术会议上发表300多篇论文,据谷歌学术统计,截止2023年02月,谷歌H-index 85,总引用率超30814次。曾荣获多项重要学术奖项,如 Institute of Mathematics and Applications(IMA)授予的“莱斯利福克斯奖(Leslie Fox Prize)”二等奖(1991年),第34届ACM SIGIR国际信息检索会议(SIGIR 2011)最佳学生论文奖(指导教授)(2011年),第26届NeurIPS“最佳论文奖” (2013年)。
张瑞茂
研究助理教授
中山大学博士
深圳市大数据研究院研究科学家、国际著名期刊International Journal of Computer Vision和Neural Information Processing Systems会议审稿人,曾获YouTube大规模视频挑战赛金牌、ESI高被引论文,曾任商汤研究院深度学习核心技术组高级研究员
研究领域:计算机视觉、深度学习
个人简介:
张瑞茂教授现为香港中文大学(深圳)数据科学学院的研究助理教授。张教授分别于2011年和2016年在中山大学数据科学与计算机学院获得学士与博士学位。2013年到2014年间以访问生的身份赴香港理工大学电子计算学系从事计算机视觉相关领域的研究。在2017年到2019年间,张教授在香港中文大学多媒体实验室担任博士后研究员。他于2019年加入商汤科技研究院,任高级研究员。目前,张教授也作为研究科学家,于深圳市大数据研究院进行医疗影像数据的分析研究。
张教授的研究领域主要集中在计算机视觉、深度学习以及相关的多媒体应用上。场景理解分析与推理、弱监督与自监督学习、神经网络归一化技术、深度特征表达等。其著作多次被计算机视觉与模式识别领域顶级期刊和会议收录。
论文介绍
1. Amortized Network Intervention to Steer Excitatory Point Processes
作者:Zitao Song, Wendi Ren, Shuang Li
论文摘要:
我们应对大规模网络干预的挑战,以引导激励点过程,比如传染病传播或交通拥堵控制。我们提出的基于模型的强化学习,利用神经常微分方程来捕捉激励点过程在网络拓扑随时间变化的情况下将如何演变。我们的方法融合了基于梯度下降的模型预测控制(GD-MPC),提供了策略灵活性以适应先前的知识和约束。为了解决规划的复杂性并克服这类决策问题固有的高维度挑战,我们设计了一种摊销网络干预(ANI)框架,允许从历史和其他情境中提取最优策略,同时确保排列等效性质。这一性质实现了跨不同情境的高效知识传递和共享。我们的方法具有广泛的应用,从遏制传染病传播到通过交通灯优化减少碳排放,因此具有解决社会和环境关键挑战的潜力。
链接:https://openreview.net/forum?id=8g26Yv1EOu
2. Deep Orthogonal Hypersphere Compression for Anomaly Detection (Spotlight, acceptence rate is 5%
作者:Yunhe Zhang (RA),Yan Sun, Jinyu Cai, Jicong Fan
论文摘要:
许多著名且有效的异常检测方法假设了一个合理的决策边界应具有超球形状,但这很难与实际能够获得的决策区域相吻合。另外,超球决策区域也不够紧凑,这一点在高维空间中的数据上表现尤为明显。在本文中,我们首先提出了一种新的深度异常检测模型,该模型通过正交投影层改善了原始超球学习,确保训练数据分布与假设的超球一致,从而增加真阳性率,降低假阴性率。此外,我们提出了一种双重超球压缩方法,以获得一个超球壳,我们在理论上和实验中都证明了该外壳能够产生比超球更紧凑的决策区域。提出的方法不仅限于图像和表格数据等常见数据集,还被扩展到更具挑战性但更有前途的场景,即图形级异常检测,该检测能学习到具有子结构和全局结构特征之间最大相互信息的图形表示,同时探索正交单或双超球异常决策边界。基准数据集的统计和可视化结果表明,与许多基线和最先进的方法相比,我们的方法具有优越性。
链接:https://openreview.net/pdf?id=cJs4oE4m9Q
3. Efficient Planning with Latent Diffusion
作者:Wenhao Li
论文摘要:
离线强化学习中,进行时间抽象和高效规划面临着巨大挑战,尤其是在处理涉及长时间视界和延迟稀疏奖励的领域时。通常情况下,现有方法在原始动作空间中进行规划,这可能导致效率低下,缺乏灵活性。潜在动作空间为我们提供了一个更加灵活的范式,它仅捕获行为策略支撑范围内的可能动作,并将时间结构从规划与建模中分离出来。然而,目前基于潜在动作的方法局限于离散空间,且在规划过程中需要耗费大量计算资源。本文提出了一个统一的框架,通过利用基于得分的潜在扩散模型,实现在连续潜在动作空间中的学习和规划。我们证明了在潜在动作空间进行规划与使用预训练扩散模型进行能量引导采样在理论上具有等价性,并引入了一种新颖的序列级精确采样方法。我们提出的名为LatentDiffuser的方法,在低维运动控制任务上展现出了有竞争力的性能,并在高维任务中显著优于现有方法。
链接:https://openreview.net/forum?id=btpgDo4u4j
4. Enhancing Human-AI Collaboration Through Logic-Guided Reasoning
作者:Chengzhi Cao (RA), Yinghao Fu, Sheng Xu, Ruimao Zhang, Shuang Li
论文摘要:
我们提出了一个系统框架,旨在通过整合逻辑规则和思维理论来增强人机感知和协作。逻辑规则提供了可解释的预测,并能很好地概括不同的任务,使其对学习和决策有价值。利用ToM来理解他人的心理状态,我们的方法促进了有效的合作。在本文中,我们使用从观测数据中导出的逻辑规则来推断人类目标并指导类人类主体。这些规则被视为潜在变量,规则生成器与机器人头脑中的多智能体系统一起训练。在第一阶段,我们使用学习的嵌入、表示实体和关系来评估潜在规则的后验分布。每个规则的置信度得分表明它们与观察到的数据的一致性。在第二阶段,我们联合优化规则生成器和模型参数,最大化预期的对数似然性。然后,我们使用一个具有ToM的分层强化学习模型来规划机器人辅助人类的动作。大量的实验验证了我们框架的每个组件,在多个基准测试上的结果表明,我们的模型优于大多数现有方法。
5. GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher
作者:Youliang Yuan, Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Pinjia He, Shuming Shi, Zhaopeng Tu
论文摘要:
大型语言模型(LLMs)的安全性十分重要。关注于使LLMs保持安全的工作已经相当丰富,包括数据过滤、监督式微调、基于人类反馈的强化学习、红队演练等。在这项研究中,我们发现密语聊天能够绕过现有的在自然语言中进行的安全对齐技术。我们提出了一个新颖的框架CipherChat,以系统地检验安全对齐方法对于非自然语言——密文的泛化能力。基于CipherChat,我们评估了当前最先进的LLMs,包括ChatGPT和GPT-4。实验中,我们选择了多种具有代表性的密语,在11个不同的安全领域上进行了评估,这些评估同时涵盖英文和中文。实验结果显示,在一些安全领域中,密语几乎能够100%绕过GPT-4的安全对齐,证明了为非自然语言发展安全对齐的必要性。值得注意的是,我们发现LLMs似乎具有一个“秘密密语”,并基于此提出了一个新颖的方法SelfCipher,它仅需要简单的角色扮演和几个非安全演示即可完成测试。SelfCipher 在几乎所有情况下出人意料地超过了现有的人类密语。
我们的代码和数据已公开:https://github.com/RobustNLP/CipherChat
链接:https://arxiv.org/abs/2308.06463
6. LEMON: Lossless model expansion
作者:Yite Wang, Jiahao Su, Hanlin Lu, Cong Xie, Tianyi Liu, Jianbo Yuan, Haibin Lin, Ruoyu Sun, Hongxia Yang
论文摘要:
增大深度神经网络,特别是Transformer架构,对于提升它们性能甚至是大模型中的能力涌现是至关重要的。这种增大通常伴随着重新训练随机初始化的大模型,因而无法利用已经耗费大量资源训练得到的较小模型。为了解决这种低效行为,我们提出了无损模型扩展(LosslEss MOdel ExpansioN,LEMON)。 LEMON使用较小但已预训练完的模型的权重来初始化扩展后的大模型。我们又进而设计了特殊定制的学习率调度器(learning rate scheduler)进行模型训练,与从随机初始化开始训练相比,大大减少了训练时间。值得注意的是,LEMON与各种网络结构都兼容,包括像视觉变换器(Vision Transformers)和BERT这样的模型。我们的实验结果表明,与从随机初始化开始训练相比,LEMON减少了ViT的计算成本约56.7%,而BERT的计算成本减少了约33.2%。
链接:https://openreview.net/forum?id=3Vw7DQqq7U
7. MMD Graph Kernel: Effective Metric Learning for Graphs via Maximum Mean Discrepancy (Spotlight, acceptence rate is 5%)
作者:Yan Sun, Jicong Fan
论文摘要:
本文的重点是图度量学习。首先,我们提出了一类基于最大均值差异(MMD)的图核,称为 MMD-GK。这些内核的计算方法是将 MMD 应用于两个图的节点表示,并进行信息传递传播。其次,我们提供了一类深度MMD-GK,它们能够以无监督的方式自适应地学习图核和隐式图特征。第三,我们提出了一类有监督的深度 MMD-GK,它能够利用图的标签信息,从而产生更多的判别指标。除了算法之外,我们还对所提出的方法进行了理论分析。我们将所提出的方法 在图聚类和图神经网络任务中,与图核和图神经网络等许多基线方法进行了比较。图聚类和图分类任务中与图核和图神经网络等基线方法进行了对比评估。数值结果证明了此图核方法的有效性和优越性。
链接:https://openreview.net/pdf?id=GZ6AcZwA8r
8. Neuron-Enhanced AutoEncoder Matrix Completion: Theory and Practice
作者:Jicong Fan, Rui Chen, Zhao Zhang, Chris Ding
论文摘要:
神经网络在协同过滤和矩阵补全方面表现出了良好的性能,但理论分析有限,在恢复缺失值的准确性方面仍有提高的空间。本文提出了一种神经元增强自编码器矩阵补全(AEMC-NE)方法并将其应用于协同过滤。我们的AEMC-NE在自编码器的每个输出中添加了一个元素级自编码器,以增强重建能力。因此,它可以自适应地学习输出层的激活函数,以近似真实数据中可能复杂的响应函数。我们为 AEMC-NE 和 AEMC 提供理论分析,以研究自编码器和深度学习在矩阵补全中的泛化能力,考虑完全随机缺失和非随机缺失两种情况。我们证明,元素级神经网络具有降低泛化误差上界的潜力、数据稀疏性是有用的、预测性能与变量和样本数量之间的差异密切相关。合成数据和五个基准数据集的数值结果表明了AEMC-NE有效性和优势。
链接:https://openreview.net/pdf?id=kPrxk6tUcg
9. On Stationary Point Convergence of PPO-Clip
作者:Ruinan Jin, Shuai Li, Baoxiang Wang
论文摘要:
近端策略优化(PPO)在强化学习(RL)中越来越受欢迎。其PPO-Clip变体是最常用的算法之一,也是RL任务中最早尝试的算法之一。这个变体使用了一个在其他算法中通常不会出现的剪切代理目标函数。许多研究已经证明了PPO-Clip的实际性能,但对其理论理解仅限于特定设置。在这项工作中,我们提供了一项全面的分析,展示了PPO-Clip的稳定点收敛性及其收敛速度。我们的分析是新颖的,并克服了许多挑战,包括剪切操作符的非光滑性质,潜在的无界评分函数以及涉及两个随机策略的比率。我们的结果和技术可能为PPO-Clip带来新的见解。
链接:https://openreview.net/forum?id=uznKlCpWjV
10. Rethinking the Uniformity Metric in Self-Supervised Learning
作者:Xianghong Fang (RA), Jian Li, Qiang Sun, Benyou Wang
论文摘要:
本论文的主要贡献在于揭示了现有的自监督学习中均匀性度量的局限性,特别是其对维度崩溃的不敏感性。为了克服这一限制,文章确定了五个基本属性,这些是设计有效均匀性度量的关键,发现当前的度量标准未能满足其中的一些要求。基于这些发现,我们提出了一种新的均匀性度量,不仅满足这些基本属性,而且对维度崩溃高度敏感。将这一新度量作为辅助损失函数应用于多种成熟的自监督方法时,能够一致地提高它们在下游任务中的性能。
链接:https://openreview.net/pdf?id=3pf2hEdu8B
11. Uncertainty-aware Constraint Inference in Inverse Constrained Reinforcement Learning
作者:Sheng Xu, Guiliang Liu
论文摘要:
为了实现安全控制,逆向约束强化学习 (Inverse Constrained Reinforcement Learning, ICRL) 从专家智能体的示例中推断其所遵循的潜在约束,并学习遵守这些约束的模仿策略。然而,以往的 ICRL 研究往往忽视了训练过程中潜在的不确定性,本文指出,对这些不确定性进行建模对于约束推断是至关重要的。基于此,我们提出了不确定性感知的逆向约束强化学习 (Uncertainty-aware ICRL, UAICRL) 算法。具体来说,1) 偶然不确定性 (aleatoric uncertainty) 源于环境动力学的内在随机性,这会导致模仿策略出现违反约束的行为。为了解决这一问题,UAICRL 通过将分布式贝尔曼更新引入约束模型,构建了风险敏感的约束条件;2) 认知不确定性 (epistemic uncertainty) 源于模型对分布外 (Out-of-Distribution, OoD) 样本的认知有限性,这会影响约束推断过程的准确性。为了应对这一挑战,UAICRL 基于信息论来量化认知不确定性,并提出了一种基于流的生成式数据增强方法来减轻其影响。实验结果表明,UAICRL在离散和连续的随机环境中都具有更好的表现。
链接:https://openreview.net/forum?id=ILYjDvUM6U
12. VDC: Versatile Data Cleanser for Detecting Dirty Samples via Visual-Linguistic Inconsistency
作者:Zihao Zhu, Mingda Zhang, Shaokui Wei, Bingzhe Wu, Baoyuan Wu
论文摘要:
最近以数据为中心的人工智能这一新兴概念强调了数据在构建人工智能系统中的作用。 不幸的是,在现实世界中,数据集可能包含“脏”样本,例如后门攻击的中毒样本、众包中的噪声标签,甚至是它们的混合体。 此类脏样本的存在使得 DNN 变得脆弱且不可靠。因此,检测脏样本对于提高数据集的质量和可靠性至关重要。 现有的检测器仅专注于检测中毒样本或噪声标签,在处理来自其他领域的脏样本时往往容易泛化较弱。在本文中,我们发现各种脏样本的共同点是图像和相关标签之间的视觉语言不一致性 。 为了捕获模态之间的语义不一致,我们利用多模态大语言模型(MLLM)在跨模态对齐和推理方面的卓越能力,提出了多功能数据清理器(VDC)。VDC包括三个连续模块:视觉问题生成模块,用于生成关于图像的深入问题;视觉问题回答模块,通过使用MLLM回答问题来获取视觉内容的语义;以及视觉答案评估模块,用于评估视觉语言不一致性。广泛的实验表明,它在处理各种类别和类型的脏样本方面具有卓越的性能和泛化能力。
链接:https://arxiv.org/abs/2309.16211
13. Zeroth-Order Optimization Meets Human Feedback: Provable Learning via Ranking Oracles
作者:Zhiwei Tang, Dmitry Rybin,Tsung-Hui Chang
论文摘要:
In this study, we delve into an emerging optimization challenge involving a black-box objective function that can only be gauged via a ranking oracle—a situation frequently encountered in real-world scenarios, especially when the function is evaluated by human judges. A prominent instance of such a situation is Reinforcement Learning with Human Feedback (RLHF), an approach recently employed to enhance the performance of Large Language Models (LLMs) using human guidance [Ouyang et al. 2022, Liu et al. 2023, OpenAI et al. 2022, Bai et al. 2022}. We introduce ZO-RankSGD, an innovative zeroth-order optimization algorithm designed to tackle this optimization problem, accompanied by theoretical assurances. Our algorithm utilizes a novel rank-based random estimator to determine the descent direction and guarantees convergence to a stationary point. Moreover, ZO-RankSGD is readily applicable to policy optimization problems in Reinforcement Learning (RL), particularly when only ranking oracles for the episode reward are available. Last but not least, we demonstrate the effectiveness of ZO-RankSGD in a novel application: improving the quality of images generated by a diffusion generative model with human ranking feedback. Throughout experiments, we found that ZO-RankSGD can significantly enhance the detail of generated images with only a few rounds of human feedback. Overall, our work advances the field of zeroth-order optimization by addressing the problem of optimizing functions with only ranking feedback, and offers a new and effective approach for aligning Artificial Intelligence (AI) with human intentions.
链接:https://openreview.net/forum?id=TVDUVpgu9s