• 学院内网
搜索
返回主站
English
  • 学院概况
    • 概览
    • 学科方向
    • 院长致辞
    • 学院刊物
      • 宣传手册
      • 季度简报
      • 年报
    • 常见问题
    • 联系我们
  • 项目设置
    • 简介
    • 本科生
      • 数据科学与大数据技术
      • 统计学
      • 计算机科学与技术
      • 金融工程
      • 2+2双主修
        • 跨学科数据分析 + X 双主修课程
        • 航天科学与地球信息学 + X 双主修课程
      • 哥伦比亚大学工程学院3+2直硕项目(哥大班)
    • 硕士研究生
      • 数据科学理学硕士
      • 金融工程理学硕士(全日/兼读制)
      • 人工智能与机器人理学硕士
      • 计算机科学理学硕士
      • 统计学理学硕士
      • 生物信息学理学硕士
    • 博士研究生(哲学硕士)
      • 数据科学哲学硕士-博士
      • 计算机科学哲学硕士-博士
  • 师资力量
    • 教职人员
    • 荣休教授
    • 兼职人员
    • 科研/访问人员
    • “数说名师”教授访谈
  • SDS学生
    • 本科生学业咨询系统
    • 博士生
    • 学生访谈
  • 新闻与公示
    • 新闻
    • 公示
  • 学院活动
    • 学术会议
      • DDTOR 2025
      • CSAMSE 2023
      • RMTA 2023
      • ICASSP 2022
      • Mostly OM 2019
    • 学术活动
    • 数据科学名家讲坛
    • 其他活动
  • 学术科研
  • 人才招聘
    • 教职人员
    • 博士后
  • 职业发展
    • 升学就业
    • 国际交流
  • 学院概况
    • 概览
    • 学科方向
    • 院长致辞
    • 学院刊物
      • 宣传手册
      • 季度简报
      • 年报
    • 常见问题
    • 联系我们
  • 项目设置
    • 简介
    • 本科生
      • 数据科学与大数据技术
      • 统计学
      • 计算机科学与技术
      • 金融工程
      • 2+2双主修
        • 跨学科数据分析 + X 双主修课程
        • 航天科学与地球信息学 + X 双主修课程
      • 哥伦比亚大学工程学院3+2直硕项目(哥大班)
    • 硕士研究生
      • 数据科学理学硕士
      • 金融工程理学硕士(全日/兼读制)
      • 人工智能与机器人理学硕士
      • 计算机科学理学硕士
      • 统计学理学硕士
      • 生物信息学理学硕士
    • 博士研究生(哲学硕士)
      • 数据科学哲学硕士-博士
      • 计算机科学哲学硕士-博士
  • 师资力量
    • 教职人员
    • 荣休教授
    • 兼职人员
    • 科研/访问人员
    • “数说名师”教授访谈
  • SDS学生
    • 本科生学业咨询系统
    • 博士生
    • 学生访谈
  • 新闻与公示
    • 新闻
    • 公示
  • 学院活动
    • 学术会议
      • DDTOR 2025
      • CSAMSE 2023
      • RMTA 2023
      • ICASSP 2022
      • Mostly OM 2019
    • 学术活动
    • 数据科学名家讲坛
    • 其他活动
  • 学术科研
  • 人才招聘
    • 教职人员
    • 博士后
  • 职业发展
    • 升学就业
    • 国际交流
  • 学院内网
返回主站
English

面包屑

  • 首页
  • 学院活动
  • 学术活动
  • 活动回顾 | 2025年声纹处理研究与应用学术研讨会圆满落幕!一音一世界,万象悉可聆

活动回顾 | 2025年声纹处理研究与应用学术研讨会圆满落幕!一音一世界,万象悉可聆

2025-11-08 学术活动

2025年11月8日至9日,由香港中文大学(深圳)、深圳河套学院、深圳市大数据研究院、上海交通大学联合主办,港中大(深圳)人工智能学院、港中大(深圳)数据科学学院、深圳市跨模态认知计算重点实验室、CCF 语音对话与听觉专委会和RTE开发者社区协办的“2025年声纹处理研究与应用学术研讨会”在港中大(深圳)及深圳河套学院成功召开。

本次大会以“一音一世界,万象悉可聆”为主题,汇聚了来自海内外高校、科研院所及产业界的百余位专家学者,共同探讨声纹处理领域的前沿技术、核心挑战与未来趋势,为推动声纹技术从实验室走向产业落地搭建了高水平交流平台。

大咖云集

共话声纹科技新未来

本次研讨会邀请到包括李海洲教授、陈景东教授、秦勇教授及武执政教授等多位IEEE Fellow、国家杰青、长江学者在内的顶尖专家及张栋、冷燚冲等产业界优秀青年人才作主题报告及圆桌论坛,内容覆盖声纹识别、语音合成、语音鉴伪、多模态语音处理、大模型赋能语音技术等多个热点方向。

研讨会主席、港中大(深圳)武执政教授主持了开幕式,介绍了研讨会的背景及创新举措。

特邀专家、西北工业大学陈景东教授带来主题报告《面向空间声场感知与重构的阵列设计与波束形成方法》,深入剖析智能声信号处理中麦克风阵列设计的核心挑战,并提出低维阵列实现高维空间信息获取的新范式。

前沿议题,

引爆技术讨论热潮

本次研讨会设置了声纹处理及隐私安全、语音生成、提取、水印、个性化语音生成及端到端语音大模型等多个专题。

钱彦旻教授(上海交通大学)介绍团队最新工作——《语音鉴伪大模型》。

张鹏远研究员(中科院声学所)分享《多要素语音鉴伪技术》,从声学痕迹建模出发,展示团队在伪造语音检测方面的最新突破与落地实践。

李明教授(昆山杜克大学)分享《融合空间信息和大模型的在线说话人日志与多人语音识别》,将空间角度信息与QWen大模型结合,在多人会议场景中降低错误率。

王帅副教授(南京大学)带来《大模型的声纹能力初探》,系统评估大模型在声纹建模任务中的表现,并提出一个面向说话人任务的评测基准,以促进该方向的系统性评测与对比研究。

苗晓晓助理教授(昆山杜克大学)分享《VoicePrivacy挑战赛背景下语音匿名化与隐私攻击的技术进展》,从攻防双视角梳理语音隐私保护技术演进路径。

张伟彬博士(声扬科技)作为企业代表分享《声纹技术落地实践》,展示声纹技术在多种场景中的规模化应用成果。

张晓雷教授(西北工业大学)分享《基于多模态提示检索的语音合成系统》。介绍了与M³PDB——一个大规模、多模态、多标签、多语种的提示数据集相适应的标注和检索方法,以及适配算力受限的轻量高效的提示检索方法。并展示了所提方法在多种具有挑战性的语音生成任务中的实验效果。

张卫强副研究员(清华大学)分享《多方言语音识别与合成》,介绍其在多方言语音处理领域的两项开源工作, 致力于打破语言与方言的壁垒,推动人机交互的包容性与多样性发展。

洪青阳教授(厦门大学)分享《面向个性化语音转换的表征解耦与生成建模研究》,聚焦于语音信息的可分解建模,将语音信号显式划分为内容、韵律与音色三部分,并探讨如何通过表征解耦与上下文学习实现对各要素的独立建模与联合控制。

陈谐副教授(上海交通大学)分享《面向语音信息保留的匿名化隐私保护研究》,提出兼顾内容与身份隐私的双阶段匿名化框架。

钱馨园副教授(北京科技大学)分享《多模态线索驱动的选择性声源定位与说话人提取技术研究》,介绍其在精确定位目标声源并从中提取特定说话人的语音方向的相关研究。

雪巍助理教授(香港科技大学)分享《语音超分的推理scaling》,从推理扩放角度解决扩散语音超分中的音色漂移、语义错漏问题。

张世磊博士(中国移动)分享《掩蔽生成式目标说话人提取方法》,介绍一种可有效解耦语音和背景声的表征的编解码器。

吴锡欣助理教授(香港中文大学)分享《反克隆语音水印技术》,提出一种训练开源语音合成模型的方法,使其主动拒绝基于水印语音的克隆请求。

吴志勇教授(清华大学深圳国际研究生院)分享《个性化表现力语音生成的探索与实践》,介绍清华大学人机语音实验室在个性化语音生成方面的最新研究进展与探索。

刘李助理教授团队(香港科技大学(广州))分享《研究情智一体的音视频内容生成研究进展》,展示团队在音视频内容生成的相关工作进展。

陈泽华博士(清华大学)分享《基于扩散桥模型的音视频生成与处理》,从“基于扩散模型的高可控音频生成”和“基于桥类模型的高效音、视频处理”两方面出发,介绍近期针对跨模态音频生成与同模态音、视频处理任务上的研究进展。

会议特别邀请了产业届专家分享产业落地与行业动态:

小米大模型Core团队首席研究员张栋在《MiMo-Audio: 语音领域的GPT-3时刻》主题分享中重点介绍了在语音对话的自然度、情感表达和交互适配上呈现极高拟人化水准的语音大模型MiMo-Audio。

曾任职月之暗面的冷燚冲研究员分享《大规模预训练下的端到端对话模型和播客生成模型》,介绍端到端对话模型Kimi-Audio与播客生成模型MoonCast的数据扩增策略、结构创新点以及训练经验,并展望未来端到端对话模型和高表现力TTS的方向。

产学研协同

共筑声纹技术新生态

本次研讨会不仅是一场学术盛宴,更是产学研深度融合的重要桥梁。华为技术有限公司、深圳市声扬科技有限公司、北京晴数智慧科技有限公司、思维巡航(深圳)网络技术有限公司、上海逸璟灵智科技有限公司等多家知名企业作为赞助单位深度参与,展示了声纹技术在智能语音交互等场景的落地成果。

精彩瞬间

值得铭记

本次会议主席、港中大(深圳)副教授、深圳河套学院双聘教授武执政将会议旗帜移交予下一届会议主办上海交通大学计算机学院特聘教授钱彦旻,标志着会议主办权的顺利交接,也预示着声纹处理技术学术交流的持续深化。

王远程、江宇轩同学的海报荣获“最佳海报奖”。

现场观众踊跃提问,互动热烈,学术氛围浓厚。

结语:

一音一世界,万象悉可聆

声音不仅是信息的载体,更是情感的纽带、身份的印记、安全的屏障。随着人工智能、大模型、多模态技术的飞速发展,声纹处理正迎来前所未有的发展机遇。本次研讨会的成功举办,不仅深化了学术交流,更凝聚了产业共识,为声纹技术的未来发展注入了强劲动力。

让我们共同期待:学术与产业的双向奔赴,加速科研成果落地,推动声纹技术深度融入更广阔的社会场景,赋能智慧生活与安全未来!

 

地址: 广东省深圳市龙岗区龙翔大道2001号道远楼3-6楼
邮箱: sds@cuhk.edu.cn
微信公众号: cuhksz-sds

sds.cuhk.edu.cn

版权所有 © 香港中文大学(深圳)数据科学学院