喜讯 | 港中大(深圳)数据科学学院李海洲教授团队获“深圳人工智能自然科学奖”
近日,深圳市人工智能学会公布2023年度第三届“深圳人工智能奖”获奖名单。香港中文大学(深圳)数据科学学院校长学勤讲座教授、深圳大数据研究院首席科学家李海洲教授领导的跨学科团队荣获了“深圳人工智能自然科学奖”,获奖项目为“鸡尾酒会问题的解决方案——复杂声学场景的类脑说话人提取技术与应用研究”,参与单位有香港中文大学(深圳)数据科学学院和医学院、深圳大数据研究院、深圳大学总医院和快手科技。
深圳人工智能奖
依据《深圳市人工智能学会奖励条例》及《深圳市人工智能学会评奖实施细则》相关规定,深圳人工智能奖评奖工作办公室(下称评奖办公室)于2024年4月8日举行了2023年度“深圳人工智能奖”线下专家评审会。评奖办公室邀请了13位人工智能领域的著名专家学者参与专家评审会,评审专家们对29项通过形式审查的提名成果进行了认真评审,通过初评、专家讨论和会评,评选出2023年度第三届“深圳人工智能奖”拟授奖成果。最终,“自然科学奖”3项成果获奖,由李海洲教授领导的跨学科团队研究成果按评审得分排序在自然科学奖中排名第一。
2023年度第三届“深圳人工智能奖”获奖名单
来源:深圳市人工智能学会官网
项目团队成员介绍
项目组负责人
李海洲
新加坡工程院院士
IEEE 信号处理学会副会长(任期2024-2026)
IEEE/ISCA/AAlA会士
香港中文大学(深圳)数据科学学院校长学勤讲座教授、执行院长
深圳大数据研究院首席科学家
个人简介
李海洲教授现任香港中文大学(深圳)数据科学学院执行院长、校长学勤讲座教授,同时他也是新加坡国立大学客座教授和德国不来梅大学卓越讲座教授。此前,他曾于2006年至2016年分别担任新加坡南洋理工大学和新加坡国立大学教授,于2009年担任东芬兰大学客座教授,于2011年至2016年任澳洲新南威尔士大学客座教授,于2003年至2016年担任新加坡科技研究局通信与资讯研究院首席科学家和研究总监。
李教授曾任顶级期刊IEEE/ACM Transactions on Audio、Speech and Language Processing主编 (2015-2018年);目前任Computer Speech and Language副主编 (2012-2022年)、Springer International Journal of Social Robotics副主编 (2008-2022年)。李教授也曾担任多个学术委员会委员:IEEE语音与语言处理技术委员会委员 (2013-2015年)、IEEE信号处理学会出版委员会委员(2015-2018年);目前任IEEE 信号处理学会奖励委员会委员(2021-2023年)。李教授也曾是多个学会主席:国际语音通信学会主席 (ISCA, 2015-2017年)、亚太信号与信息处理协会主席 (APSIPA, 2015-2016年)、亚洲自然语言处理联合会主席 (AFNLP, 2017-2018年)。此外,他还担任过ACL 2012、INTERSPEECH 2014等多个大型学术会议的主席,他也是IEEE声学、语音与信号处理国际会议 (ICASSP 2022)的主席。
李教授享誉国际,他不仅在语音识别和自然语言处理研究领域有着突出贡献,还领导研发了多项知名的语音产品,如1996年苹果电脑公司为Macintosh发行的中文听写套件、1999年Lernout & Hauspie公司为亚洲语言发行的Speech-Pen-Keyboard文本输入解决方案。他是一系列重大技术项目的架构师,项目包括2001年为新加坡樟宜国际机场研发的具有多语种语音识别功能的TELEFIQS自动呼叫中心、2012年为联想A586智能手机研发的声纹识别引擎、2013年为百度音乐研发的听歌识曲引擎。
团队核心成员
蔡思祺
深圳大数据研究院研究员
个人简介
蔡思祺博士是脑科学与类脑计算国际前沿领域的拔尖青年人才,在基于脑信号解码听觉信息和基于听觉脑认知规律的类脑计算方法的研究取得了一系列较为突出的创新成果。在本项目中,蔡思祺博士负责脑电信号处理、脑电注意力检测、以及鸡尾酒解决方案的实现。
陶蔚
深圳大学总医院神经外科科主任、副教授、硕士生导师
中华医学会疼痛学分会全国委员兼工作秘书
中华医学会疼痛学分会颌面痛学组副组长
个人简介
陶蔚主任从事神经外科临床工作20余年,研究方向为功能性脑病的机制和神经调控治疗,在慢性疼痛、癫痫、帕金森病、脑瘫、面肌痉挛、昏迷促醒、神经系统肿瘤等疾病的诊断和综合治疗方面经验丰富。曾主持参与国自然青年基金、北京市自然科学基金、深圳市科创委基金等课题。在本项目中陶蔚主任负责脑电数据的医学获取和标注,同时为可解释性模型的搭建提供指导。
王任直
香港中文大学(深圳)医学院顾问、教授、博士生导师
北京协和医院神经外科教研室主任、主任医师
北京协和医学院(八年制) 再生医学系副主任
个人简介
王任直教授是香港中文大学(深圳)医学院顾问,教授,博士生导师;北京协和医院神经外科教研室主任、主任医师,二级教授,博士生导师,北京协和医学院(八年制)再生医学系副主任,国家七十周年庆典纪念章获得者。在本项目中,王任直教授负责脑电信号的分析解读,提供了脑认知机制的神经科学理论支撑。
许成林
快手科技音频算法专家
个人简介
许成林博士是语音处理与听觉注意力国际前沿领域的拔尖青年人才,在SCI等知名期刊和会议发表论文40余篇,被引用千余次;在多个语音处理国际比赛中获得冠军。在本项目中,许博士创新性地提出了类似人脑听觉注意力机制的说话人提取技术,为近半世纪以来的“鸡尾酒问题”提供了新的解决思路,对基于脑信号的类脑听觉注意力研究奠定了基础,其开源的说话人提取技术在工业界和学术界得到了广泛的使用。
项目简介
人耳并非孤立的拾音器,而是通过与大脑协同互动,与大脑形成一个完整的听觉系统。在嘈杂的环境中,人类能够有选择地聆听特定声音,忽略其他背景噪音,即所谓的“鸡尾酒会效应”。然而,目前的智能设备难以达到与人类相媲美的表现。事实上,“鸡尾酒会问题”一直是计算听觉领域的经典问题,对语音识别、语音增强、说话人识别和语音分离等关键任务具有重要的研究和应用价值。特别是在智能设备和便携计算设备迅速发展的背景下,语音已经成为人类接入智能计算设备和平台的重要途径。面对复杂声学场景时,如何有效处理“鸡尾酒会问题”变得至关重要。
本项目为解决“鸡尾酒会问题”提供了理论基础、算法实现和工程化依据,为以下三个重要的科学问题寻找解决方案:
a)如何在复杂的环境中有效分离目标声源?
b)如何从脑信号中检测大脑正在聆听的说话者?
c)如何利用脑电检测信号作为参考,提取目标声源的声音?
通过融合基于脑听觉机制、信号处理等知识驱动方法和基于深度学习的数据驱动方法,实现复杂场景下辅听设备具备健耳的听觉注意力选择能力。
本项目从人类处理鸡尾酒会问题的听觉注意力选择机制出发,提出了自动检测脑听觉活动中目标声源的信息,并在复杂声学场景中提取目标说话人的方法,成功研制出了脑控辅听设备(见图)。具体而言,本项目深入研究了能够汇聚多种模态、多种信息的通用听觉前端模型;通过结合神经科学和脑认知研究,本项目进一步探索了听觉前端处理机制,实现了前端模型计算可解释性。为了满足不同应用场景的需求,本项目设计并实现了对目标声源的语音特征、目标声源方位特征以及目标说话人身份的多层次解码机制,能够高效过滤掉干扰声源和背景噪声,为用户提供清晰的目标声源声音。同时,本项目还建立了首个具有音调语言声源的听觉认知数据库,并提出了有效的评估方法,为国内外相关研究者提供了数据资源和评测标准。
脑控智能辅听系统
总之,本项目为脑控辅听设备、视频电话、智能设备的音频前端等提供了理论基础与应用技术,是类脑听觉辅助设备研究的开拓性实践。根据《深圳市培育发展未来产业行动计划(2022-2025年)》,脑科学与类脑智能为深圳未来将要重点发力的8大产业之一,这进一步凸显了本项目的具有重要科学意义、社会意义和应用价值。
深圳市人工智能学会
Shenzhen Association for Artificial Intelligence,SAAI
深 圳 市 人 工 智 能 学 会(ShenZhen Association for Artificial Intelligence,SAAI)是由深圳市科学技术协会指导、深圳市人工智能科学与技 术领域科技工作者和相关企事业单位自愿组成,依照国家有关法律法规并在深圳市民政局合法登记的深圳市地方性、非营利性学术社团组织。
深圳市人工智能学会的目标是团结和领导全体会员,遵守宪法、法律、法规和国家政策,遵守社会道德风尚,开展人工智能领域科学与技术相关活动,推动深圳人工智能科学与技术的理论研究、应用技术研发和人工智能产业的繁荣与发展。学会的基本任务为团结深圳市智能科学与技术工作者和支持者,通过开展国内外学术交流、科学普及、学术教育、科技会展、学术出版、人才推荐、学术评价、学术咨询、技术评审与奖励等活动促进深圳市智能科学与技术的发展,为深圳市的人工智能产业发展、社会进步、文明提升、安全保障等提供智能化的科学与技术服务。
来源:深圳市人工智能学会官网