喜讯 | 港中大(深圳)数据科学学院师生论文被顶会ICASSP 2024录用
香港中文大学(深圳)数据科学学院师生共8篇论文被国际声学、语音与信号处理会议(International Conference on Acoustics, Speech and Signal Processing,简称ICASSP) 2024录用。ICASSP由国际电子技术与信息科学工程师协会 (Institute of Electrical and Electronics Engineers,简称IEEE) 主办,是全世界最大、最全面的信号处理及其应用方面的顶级会议。
论文来自学院5位博士生:白奇丙、陈曦、Sho Inoue、王力、杨忆然;3位本科生:陈宇、顾毅骋、李珈祺,均为论文第一作者;3位教授:李海洲、武执政、谢李岩。学院学生们不断展示科研的潜力与实力,除博士生外,在国际顶会NeurIPS 2023、ICSE 2024中均出现学院本科生的身影,2023年学院共9位本科生在国际权威期刊和顶级国际学术会议上发表论文。
ICASSP简介
国际声学、语音与信号处理会议 (International Conference on Acoustics, Speech and Signal Processing, 简称ICASSP) 是全世界最大的,也是最全面的信号处理及其应用方面的顶级会议。
作为国际电子技术与信息科学工程师协会 (Institute of Electrical and Electronics Engineers,简称IEEE) 的一个重要会议,ICASSP除了有几十年历史外,其论文还经常被三大检索工具检索。因此,ICASSP对于信号处理方面的学术人士有着重要意义。它涵盖了音频和声学信号处理,图像、视频和多维信号处理,物联网的信号处理等至少十六个方向。
来源:百度百科
论文作者简介
*按姓名首字母排序
本科生
陈宇
2020级本科生
数据科学和大数据技术专业
指导老师:李海洲
顾毅骋
2022级本科生
计算机科学与技术专业
指导老师:武执政
李珈祺
2020级本科生
计算机科学与技术专业
指导老师:武执政
博士生
白奇丙
2023级博士生
计算机科学专业
指导老师:李海洲
陈曦
2022级博士生
数据科学专业
指导老师:NAKAMURA, Satoshi
Sho Inoue
2022级博士生
计算机科学专业
指导老师:李海洲
王力
2023级博士生
计算机科学专业
指导老师:武执政
杨忆然
2023级博士生
数据科学专业
指导老师:谢李岩
指导教授简介
李海洲
校长学勤讲座教授
执行院长
华南理工大学博士
新加坡工程院院士、IEEE 信号处理学会副会长(任期2024-2026)、IEEE会士、国际语音通信学会会士、亚太人工智能学会会士、曾获新加坡总统科技奖、曾任国际语音通信学会主席、顶级期刊IEEE/ACM《音频、语音和语言处理汇刊》主编,原新加坡国立大学终身教授
研究领域:
语音信息处理、自然语言处理、类脑计算、人机交互
个人简介:
李海洲教授现任香港中文大学(深圳)数据科学学院执行院长、校长学勤讲座教授,同时他也是新加坡国立大学客座教授和德国不来梅大学卓越讲座教授。此前,他曾于2006年至2016年分别担任新加坡南洋理工大学和新加坡国立大学教授,于2009年担任东芬兰大学客座教授,于2011年至2016年任澳洲新南威尔士大学客座教授,于2003年至2016年担任新加坡科技研究局通信与资讯研究院首席科学家和研究总监。
李教授曾任顶级期刊IEEE/ACM Transactions on Audio、Speech and Language Processing主编 (2015-2018年);目前任Computer Speech and Language副主编 (2012-2022年)、Springer International Journal of Social Robotics副主编 (2008-2022年)。李教授也曾担任多个学术委员会委员:IEEE语音与语言处理技术委员会委员 (2013-2015年)、IEEE信号处理学会出版委员会委员(2015-2018年);目前任IEEE 信号处理学会奖励委员会委员(2021-2023年)。李教授也曾是多个学会主席:国际语音通信学会主席 (ISCA, 2015-2017年)、亚太信号与信息处理协会主席 (APSIPA, 2015-2016年)、亚洲自然语言处理联合会主席 (AFNLP, 2017-2018年)。此外,他还担任过ACL 2012、INTERSPEECH 2014等多个大型学术会议的主席,他也是IEEE声学、语音与信号处理国际会议 (ICASSP 2022)的主席。
李教授享誉国际,他不仅在语音识别和自然语言处理研究领域有着突出贡献,还领导研发了多项知名的语音产品,如1996年苹果电脑公司为Macintosh发行的中文听写套件、1999年Lernout & Hauspie公司为亚洲语言发行的Speech-Pen-Keyboard文本输入解决方案。他是一系列重大技术项目的架构师,项目包括2001年为新加坡樟宜国际机场研发的具有多语种语音识别功能的TELEFIQS自动呼叫中心、2012年为联想A586智能手机研发的声纹识别引擎、2013年为百度音乐研发的听歌识曲引擎。
NAKAMURA,Satoshi
教授
京都大学博士
IEEE会士、ISCA会士、曾获Antonio Zampolli Award
研究领域:
人工智能、口语语言处理
个人简介:
Satoshi Nakamura曾担任奈良先端科学技术大学院大学(NAIST)教授和卡尔斯鲁厄理工学院名誉教授。他是IEEE会士、ISCA会士、lnformation Processing Society of Japan会士、Advanced Telecommunications Research Institute International (ATR)会士,以及IEEE信号处理学会成员(https://signalprocessingsociety.org/newsletter/2021/09/member-highlights-satoshi-nakamura)。他在1981年获京都工艺纤维大学学士学位,1992年获京都大学博士学位,1994-2000年担任NAIST信息科学研究生院副教授。2000-2004年和2005-2008年期间,他分别担任ATR口语传播研究实验室的系主任和主任,在2007-2008年担任ATR副校长。2009-2010年,他曾担任Keihanna研究实验室主任和日本国立信息通信技术研究所知识创造传播研究中心执行主任。2011年,他以正教授的身份进入NAIST。他在NAIST建立了数据科学中心,并于2017年至2021年在此中心担任主任。他现在是NAIST信息科学系正教授。2017-2021年,他担任日本理化学研究所旅游信息分析团队的团队负责人。他的研究兴趣包括口语处理建模和系统、语音处理、口语翻译、口语对话系统、自然语言处理和数据科学。他是语音翻译研究的世界领军人物之一,并一直致力于各种语音翻译研究项目,包括C-Star, A-Star和国际口语机器翻译评测比赛。他目前是International Speech Communication Association Special Interest Group: Spoken Language Translation的主席。他也为International Telecommunication Union网络语音翻译的标准化做出了贡献。他还是IEEE SLTC 2016-2018委员会成员。2012年至2019年,他是ISCA当选的董事会成员。他于2012年获得Antonio Zampolli Award。
武执政
副教授
南洋理工大学博士
全球Top 2% 顶尖科学家、IEEE语音与语言处理技术委员会委员、IEEE/ACM 音频、语音和语言处理汇刊编委,曾获2012亚太信号与信息处理协会年度峰会最佳论文奖,曾任职Facebook、京东、苹果、爱丁堡大学、微软亚洲研究院等
研究领域:
语音信息处理、语音生成、深度伪造检测
个人简介:
武执政教授现任香港中文大学(深圳)副教授。在此之前,他于2015年获得南洋理工大学博士学位,并在Meta(原Facebook)(2019-2022)、京东(2018-2019)、苹果(2016-2018)、爱丁堡大学(2014-2016)、微软亚洲研究院(2007-2009)等机构从事学术研究和技术研发工作。他曾获得INTERSPEECH 2016最佳学生论文奖、2012年亚太信号与信息处理协会年度峰会最佳论文奖。武教授带领开发了语音合成开源系统Merlin,发起并组织了第一届声纹识别欺骗检测国际评测、第一届语音转换国际评测,组织了2019年语音合成国际评测(Blizzard Challenge 2019)。武教授现为IEEE语音与语言处理技术委员会委员。
谢李岩
助理教授
佐治亚理工学院博士
曾入围2019年INFORMS会议QSR方向最佳学生论文奖,曾入围2020年伯克利大学EECS领域“女性学术新星”、曾获2020年佐治亚理工学院IDEaS-TRIAD和ARC-TRIAD奖学金,曾任佐治亚理工学院讲师
研究领域:
基于传感器网络及卫生保健的数据科学研究、序贯变化检测、鲁棒优化
个人简介:
谢李岩教授于2021年夏季加入香港中文大学(深圳)任助理教授一职。谢教授于2016年获中国科学技术大学统计学理学学士学位。其后前往美国佐治亚理工学院攻读,并于2021年获得工业工程博士学位。她是多个顶级会议的受邀审稿人,如AAAI, ICML, Neurips, AISTATS, ICLR。谢教授的研究方向主要为基于传感器网络及卫生保健的数据科学研究,序贯变化检测和鲁棒优化。
论文介绍
1. AdvSV: An Over-the-Air Adversarial Attack Dataset for Speaker Verification
作者:
Li Wang, Jiaqi Li, Yuhao Luo, Jiahao Zheng, Lei Wang, Hao Li, Ke Xu, Chengfang Fang, Jie Shi, Zhizheng Wu
论文摘要:
深度神经网络易受对抗性攻击的影响,这一点已被广泛认可。虽然基于深度神经网络的自动说话人验证(ASV)系统在特定环境下表现稳健,但许多研究显示,这些系统在面对对抗性攻击时同样脆弱。目前,研究的进展受到标准数据集缺乏的限制,尤其影响到可重复性研究的开展。为此,我们开发了一个面向说话人验证研究的开源对抗性攻击数据集。在这项工作的初步阶段,我们特别关注了“空中”攻击。这类攻击涉及到扰动生成算法、扬声器、麦克风和声学环境的综合应用。由于录音配置差异巨大,重现先前研究成果具有相当的难度。我们构建的AdvSV数据集基于Voxceleb1验证测试集,涵盖了多种典型的ASV模型,这些模型受到对抗性攻击并录制了相应的对抗性样本,以模拟“空中”攻击场景。此数据集的应用范围可进一步扩展,包含更多种类的对抗性攻击。此外,该数据集将以CC BY-SA 4.0许可证公开发布。我们还提供了一套检测基准,以促进可重复性研究的发展。
链接:
https://arxiv.org/abs/2310.05369
2. An Initial Investigation of Neural Replay Simulator for Over-the-Air Adversarial Perturbations to Automatic Speaker Verification
作者:
Jiaqi Li, Li Wang, Liumeng Xue, Lei Wang, Zhizheng Wu
论文摘要:
深度学习在过去几年中推动了自动语音验证(ASV)的发展。尽管深度学习ASV系统在数字访问中容易受到对抗性例子的影响,但在涉及到物理访问的情境中,即涉及到 OTA(即,通过空中)过程的对抗性攻击研究较少。OTA 攻击涉及扬声器、麦克风和对声波移动产生影响的重放环境。我们的初步实验证实,重放过程影响了 OTA 攻击的有效性。本研究进行了一项初步调查,旨在利用神经重放模拟器提高 OTA 攻击的鲁棒性。这是通过使用神经波形合成器在估算对抗性扰动时模拟 OTA 过程来实现的。在 ASVspoof2019 数据集上进行的实验证实,基于神经网络的重放模拟器能够显著提高 OTA 攻击的成功率。这引发了对在物理访问应用中语音验证遭受对抗性攻击的关注。
链接:
https://arxiv.org/abs/2310.05354#:~:text=This%20study%20performs%20an%20initial,when%20estimating%20the%20adversarial%20perturbations.
3. Hierarchical Emotion Prediction and Control in Text-to-Speech Synthesis
作者:
Sho Inoue, Kun Zhou, Shuai Wang, Haizhou Li
论文摘要:
4. Leveraging In-the-Wild Data for Effective Self-Supervised Pretraining in Speaker Recognition
作者:
Shuai Wang, Qibing Bai, Qi Liu, Jianwei Yu, Zhengyang Chen, Bing Han, Yanmin Qian, Haizhou Li
论文摘要:
当前的说话者识别系统主要采用受监督方法,但受限于标记数据集的规模。为了提升系统性能,研究人员利用大型预训练模型(例如WavLM),将学到的高级特征迁移到下游的说话者识别任务。然而,这种方法在预训练模型保留在推理阶段时引入了额外的参数。另一种思路则是直接采用自监督方法(如DINO)进行说话者嵌入学习,但是目前还未有工作验证过在大规模的真实无标签数据上的相关效果。本研究展示了在大规模WenetSpeech数据集上进行的DINO训练的有效性,并证实了其在增强对CNCeleb数据集的受监督系统性能方面的可迁移性。此外,我们引入了一种基于置信度的数据过滤算法,用于从预训练数据集中排除不可靠的数据,从而在使用更少训练数据的情况下实现更优越的性能表现。相关的预训练模型、置信度文件、预训练和微调脚本将提供在 Wespeaker 工具包中。
链接:
https://arxiv.org/abs/2309.11730
5. LOCSELECT: Target Speaker Localization With An Auditory Selective Hearing Mechanism
作者:
Yu Chen, Xinyuan Qian, Zexu Pan, Kainan Chen, Haizhou Li
论文摘要:
当前抗噪声和抗混响的定位算法主要强调在多说话人场景中分离并为每个说话人提供方向输出,而不与说话人身份相关联。在本文中,我们提出了一种具有选择性听觉机制的目标扬声器定位算法。给定目标说话人的参考语音,我们首先生成一个依赖说话人的频谱图掩码,以消除干扰扬声器的语音。随后,使用长短时记忆(LSTM)网络从过滤后的频谱图中提取目标说话人的位置。实验验证了我们提出的方法相对于现有算法在不同规模和不同SNR条件下的优越性。具体来说,在SNR = -10 dB时,我们提出的网络LocSelect实现了平均绝对误差(MAE)为3.55度和准确率(ACC)为87.40%。
链接:
https://doi.org/10.48550/arXiv.2310.10497
6. Multi-Scale Sub-Band Constant-Q Transform Discriminator for High-Fidelity Vocoder
作者:
Yicheng Gu, Xueyao Zhang, Liumeng Xue, Zhizheng Wu
论文摘要:
基于生成对抗网络(GAN)的声码器在从声学表示中重建可听波形方面具有优越的推理速度和合成质量。本研究着重于改进判别器部分以促进基于GAN的声码器的合成质量。现有的基于时频域表征的判别器大多数根植于短时傅里叶变换(STFT),STFT频谱图中的时频域分辨率是固定的,这使其与需要对不同频段施加灵活注意力的信号(如歌声)不兼容。受此启发,我们的研究利用了常数Q变换(CQT),它在频谱上具有动态的时频域分辨率,有助于更好地提升音高建模的准确性和高频谐波的跟踪能力。具体而言,我们提出了一种多尺度子带CQT(MS-SB-CQT)判别器,它在多个尺度上对CQT频谱图进行操作,并根据不同的八度进行子带处理。在语音和歌声上进行的实验证实了我们提出的方法的有效性。此外,我们还验证了基于CQT和基于STFT的判别器在联合训练下可以做到信息的相互补充,从而进一步提升合成效果。具体而言,通过提出的MS-SB-CQT和现有的MS-STFT判别器的增强,HiFi-GAN的MOS评分可以从3.27提升到3.87(对于集内歌手)和从3.40提升到3.78(对于集外歌手)。
链接:
https://arxiv.org/abs/2311.14957
7. Sequential Wasserstein Uncertainty Sets for Minimax Robust Online Change Detection
作者:
Yiran Yang, Liyan Xie
论文摘要:
我们考虑具有未知的变化后分布的鲁棒在线变化点检测问题。 为基础数据分布构建非参数不确定性集的在线序列。 我们通过将问题描述为在线凸优化任务来依次确定每个实例的最不利分布。 然后利用这个最不利的分布来计算我们提出的在线鲁棒 CUSUM(OR-CUSUM) 检测统计中的对数似然比。 我们还提出了数值实验结果来证实所提出的 OR-CUSUM 测试的有效性。
8. Transfer the linguistic representations from TTS to accent conversion with non-parallel data
作者:
Xi Chen, Jiakun Pei, Liumeng Xue, Mingyang Zhang
论文摘要:
口音转换旨在将源语音的口音转换为目标口音,同时保留说话者的音色。 本文介绍了一种用于口音转换的新型非自回归框架,该框架学习与口音无关的语言表示,并利用它们来转换语音中的口音。 具体来说,所提出的系统将语音表示与从语音合成(TTS)系统获得的语言表示对齐,从而能够在非平行数据上训练口音语音转换模型。 此外,我们研究了我们提出的框架中应用无口音数据预训练和不同声学特征的有效性。 我们使用主观和客观指标进行全面评估,以评估我们方法的性能。评估结果凸显了预训练策略和语义特征的好处,从而显着提高了音频质量和清晰度。
音频样本在以下链接:https://chenx17.github.io/demos/reference-free-tts-ac/。
链接:
https://arxiv.org/abs/2401.03538