科研速递 | 被硅谷知名投资人评为A+++项目,港中大(深圳)数据科学学院开源项目受广泛关注
硅谷知名投资人Jason Calacanis点评Amphion开源项目 —— “A+++, my first one ever. Well done! This is the future!”
生成式人工智能 (AIGC)成为人工智能技术发展的新趋势,ChatGPT、Stable Diffusion、MidJourney 为代表的文字、图像应用成为技术圈甚至大众讨论的热门话题。AI 孙燕姿、音效生成、音乐生成也在2023年获得的关注。除了企业研发的产品,处于科研第一线的高校科研团队也在积极探索更先进的技术:香港中文大学(深圳)数据科学学院副教授武执政团队联合上海人工智能实验室OpenMMLab团队、深圳市大数据研究院研发了综合音频生成开源平台 Amphion(安菲翁),打破企业产品的技术壁垒,让初级研究人员和工程师在音频、音乐和语音生成等方面的研究与发展可持续,让技术实现开放与共赢。
Amphion旨在打造一个集语音合成转换、歌声合成转换、音效音乐生成等多功能为一体的音频AIGC开源平台,其独有的可视化功能可以帮助初级研究人员和工程师更好地理解相关模型,让泰勒 · 斯威夫特(Taylor Swift)唱周杰伦的《稻香》成为可能。
Amphion问世后即在海内外媒体平台上引发了极大的关注,被硅谷知名投资人Jason Calacanis评为A+++项目,并获得《机器之心》(权威人工智能科技媒体)等媒体的报道。截至目前,Amphion 已经多次进入 GitHub Trending Repositories 榜单。
Amphion详细介绍
Amphion简单来说是能说、能唱、能生成音效。
其核心功能包括:SVC歌声转换、TTS语音生成TTA音频生成、Vocoder声码器、可视化。
详细信息查看: https://github.com/open-mmlab/Amphion
相关论文: https://arxiv.org/abs/2312.09911
媒体报道
This Week in Startups
This Week in Startups中将我院武执政副教授团队的开源项目Amphion(安菲翁)评为A+++项目,表达了其对Amphion的高度肯定。
This Week in Startups是由硅谷著名天使投资人Jason Calacanis主持的一档推特节目,其内容涵盖初创公司、科技、市场、媒体以及商业和技术领域所有最热门的话题。节目采访对象均为世界声名显赫的创始人、运营商和投资者。Jason Calacanis是红杉资本首位投资猎手、创业孵化器Launch Incubator以及初创企业交流峰会Launch Festival创始人。
完整视频:https://www.bilibili.com/video/BV18w411V7iq
机器之心
机器之心是国内人工智能垂直媒体,内容覆盖人工智能前沿研究、技术解读及算法实现、行业应用、传统产业智能升级、特色地域系列调研及报道、创业公司挖掘及报道、顶级科学家及企业家专访等。目前全网覆盖用户150万,日活跃用户20万。
报道链接: 点击查看机器之心报道
深圳特区报
深圳特区报属深圳市委机关报,是以政治、经济、文化报道为主的大型综合性日报。创刊于1982年5月24日,是深圳经济特区权威媒体和第一大报。
报道链接: https://m.dutenews.com/n/article/7910423?from=app&client=1&trace_id=504006429642740&t=1703174174
湾区新闻
报道链接: https://m.weibo.cn/status/4981803091232258?jumpfrom=weibocom
更多媒体报道查看: https://github.com/open-mmlab/Amphion
Amphion 团队
港中大(深圳)成员介绍
团队合照
负责人:武执政
香港中文大学(深圳)数据科学学院副教授
深圳市大数据研究院高级研究科学家
南洋理工大学博士
全球Top 2% 顶尖科学家、IEEE语音与语言处理技术委员会委员,现任IEEE/ACM Transactions on Audio Speech and Language Processing编委,曾获INTERSPEECH 2016最佳学生论文奖、2012亚太信号与信息处理协会年度峰会最佳论文奖,曾在Meta (原Facebook)、京东、苹果、爱丁堡大学、微软亚洲研究院等机构从事学术研究和技术研发工作
研究领域 :
语音信息处理、语音生成、深度伪造检测
个人简介 :
武执政博士现任香港中文大学(深圳)副教授。他曾入选国家级青年人才,连续多次入选斯坦福大学 “全球前 2%顶尖科学家”、爱思唯尔 “中国高被引学者” 榜单。他于 2015 年获得南洋理工大学博士学位,并先后在 Meta(原 Facebook)、京东、苹果、爱丁堡大学、微软亚洲研究院等多个机构从事学术研究和技术领导工作。武执政博士带领开发了语音合成开源系统 Merlin,发起并组织了第一届声纹识别欺骗检测国际评测、第一届语音转换国际评测,并组织了 2019 年语音合成国际评测(Blizzard Challenge 2019),曾获得 INTERSPEECH 2016 最佳学生论文奖、2012 年亚太信号与信息处理协会年度峰会最佳论文奖。他现在是 IEEE 语音与语言处理技术委员会委员,语音领域权威期刊 IEEE/ACM Transactions on Audio, Speech and Language Processing 的 Associate Editor,IEEE Spoken Language Technology Workshop 2024 的大会主席,曾受邀在 ICASSP 2022、ISCA SPSC Workshop、IJCAI 2023 DADA Workshop 等权威学术会议做特邀报告。
学生成员
陈紫莹
2020级本科生
数据科学与大数据技术专业
2023年9月跟着武教授做科研,研究领域为多模态语音大模型。
房子皓
2020级本科生
计算机科学与技术专业
2023年初开始跟着武执政教授参加SVCC比赛,研究兴趣为歌声转换与合成。
顾毅骋
2022级本科生
计算机科学与技术专业
深圳市大数据研究院研究助理
2022年秋开始跟着武执政教授做科研,研究方向为音频声码器。在ICASSP上发表过1篇一作学术论文。
何昊睿
科研助理
深圳市大数据研究院临聘工程师
2023年7月跟着武老师做科研。在本科期间,他曾在香港大学等地实习。他的工作成果已在数据挖掘领域的顶刊TCSS和顶会ICDM上发表,并有一篇论文于顶会WWW在投。曾是多模态顶会MM的审稿人。目前参与了国家自然科学基金、深圳市大数据研究院、华为等机构的多个项目。
李珈祺
2020级本科生
计算机科学与技术专业
2023年开始跟武教授做科研,在ICASSP会议共同发表2篇学术论文。
裴嘉琨
2022级硕士生
数据科学理学硕士项目
从2022年跟着武老师做科研,研究方向为歌声合成。
王超人
2022级本科生
计算机科学与技术专业
从2023年10月开始跟武教授做科研,目前2个月。研究方向为音频可视化。在 GitHub 上开源的系统获 5k 余 Star。曾在两家学生创业公司实习,现任港中深计算机协会会长。
王力
2023级博士生
计算机科学专业
于2022年底跟着武老师做科研,研究方向为音频Deepfake。在ICASSP和INTERSPEECH等会议上发表过4篇学术论文。曾在字节跳动、华为和腾讯进行实习。曾是IEEE Signal Processing Letters的审稿人。目前参与了国家自然科学基金、深圳市大数据研究院和华为等机构的多个项目。
王鸣轩
2022级本科生
计算机科学与技术专业
从2023年10月开始跟武教授做科研,目前2个月。研究兴趣为多语言语音模型。大一暑期通过香港创新科技署ITC STEM Internship Scheme面试在HKRITA入职实习;曾获得21世纪杯全国英语演讲比赛省第二名、国家三等奖及参与日语JLPT N1考试。
王远程
2023级博士生
计算机科学专业
深圳市大数据研究院联培博士
从大四开始和武老师做科研,目前已经有1年多。本科毕业于香港中文大学深圳,目前在数据科学学院攻读计算机科学博士。本科大四期间曾在微软亚洲研究院实习,实习期间的工作被机器学习顶会NeurIPS接受。目前参与与深圳大数据研究院,百度,上海ailab等多个机构的合作项目。
薛浏蒙
博士后研究员
深圳市大数据研究院联培博后
于2019年10月结识武老师开始合作,2023年正式入职港中大(深圳)继续合作。研究方向是音频生成和控制。有在微软、腾讯、京东等多家大厂的研究经历,已发表语音顶刊、顶会等论文二十余篇,谷歌学术引用数百次。担任语音顶会ICASSP, INTERSPEECH,语音旗舰会议ASRU,语音顶刊TASLP的审稿人。个人主页:https://lmxue.github.io/
张雪遥
2022级博士生
计算机科学专业
深圳市大数据研究院奖学金
从2022年秋天开始跟着武老师做科研,目前已经有一年多。研究兴趣为人工智能音乐、歌声生成等,曾入选2023年腾讯犀牛鸟精英人才计划,曾在MM、WWW、ACL、ICASSP等顶级学术会议上发表论文7篇,谷歌学术引用数百次,参与维护多项学术开源项目。本硕毕业于武汉大学、中国科学院大学,曾获国家奖学金、校园十佳歌手等荣誉。
Amphion 名字来源
"Amphion" 取名自古希腊神话中传奇音乐家 Amphion。传说中,Amphion 以弹奏竖琴而著称,并运用他的音乐才能建造了底比斯城墙。据说他的琴声能感动树木和岩石。Amphion 团队希望借用安菲翁的音乐天赋和传奇,畅想项目助力科研和开发的美好愿景,擘画声音科技逐步迈向可持续发展的美好蓝图。
Amphion 在线 Demo 体验链接:
Text to Speech
- HuggingFace Demo: https://huggingface.co/spaces/amphion/Text-to-Speech
- OpenXLab应用: https://openxlab.org.cn/apps/detail/Amphion/Text-to-Speech
Singing Voice Conversion
- HuggingFace Space: https://huggingface.co/spaces/amphion/singing_voice_conversion
- OpenXLab应用: https://openxlab.org.cn/apps/detail/Amphion/singing_voice_conversion
Text to Audio
- HuggingFace Demo: https://huggingface.co/spaces/amphion/Text-to-Audio
- OpenXLab应用: https://openxlab.org.cn/apps/detail/Amphion/Text-to-Audio