科研快讯 | 港中大(深圳)博士生在矩阵乘法领域取得新突破,XX^T原来可以更快
近日,由香港中文大学(深圳)与深圳市大数据研究院联合组成的研究团队在矩阵乘法领域取得重要突破。
港中大(深圳)数据科学学院数据科学博士研究生、深圳市大数据研究院—港中大(深圳)联合培养学生Dmitry Rybin 、张雨舜及导师罗智泉教授的最新研究发现,XXt 这类特殊的矩阵乘法可以进一步加速,并在强化学习+组合优化技术的结合下发掘出了一种新的算法,节省5%的乘法数量。

论文链接: https://arxiv.org/abs/2505.09814
相关论文成果一经发布,迅速在国际社交媒体平台X(原Twitter)上引发热议,并吸引了来自MIT、斯坦福、哈佛及Google DeepMind等顶尖机构科学家的广泛关注。



社交媒体平台 X 上部分讨论截图
学生作者简介

Dmitry Rybin
港中大(深圳)数据科学博士研究生
深圳市大数据研究院—港中大(深圳)联合培养学生
曾获俄罗斯数学奥林匹克金奖、国际大学生数学竞赛金奖
指导老师:罗智泉
研究领域:人工智能在数学中的应用、组合优化

张雨舜
港中大(深圳)数据科学博士研究生
深圳市大数据研究院—港中大(深圳)联合培养学生
曾在ICLR、NeurIPS和ICML等机器学习顶会上发表数篇论文
指导老师:罗智泉
研究领域:大语言模型、优化领域
指导教授简介

罗智泉
深圳市大数据研究院院长、港中大(深圳)副校长
中国工程院外籍院士、加拿大皇家科学院院士、
IEEE会士、SIAM会士
研究领域:
大数据分析的最优化方法、信号处理中的算法设计与复杂性分析、数据通信
个人简介:
罗智泉,深圳市大数据研究院院长、香港中文大学(深圳)副校长。罗智泉教授于于1989年获得美国麻省理工学院电子工程与计算机科学系博士学位。1998年成为加拿大麦克马斯特大学终身教授。2000年至2003年,任加拿大麦克马斯特大学电子与计算机工程系主任以及加拿大国家科研讲席教授。2003年至2014年,任美国明尼苏达大学电子与计算机工程系终身教授以及ADC讲席教授。自2014年5月,罗智泉教授被聘为香港中文大学(深圳)副校长,主管学术和科研。自2016年3⽉起,罗智泉教授兼任深圳市大数据研究院院长。
研究成果介绍
背景
矩阵乘法优化堪称计算机科学领域的“珠穆朗玛峰”。自1969年Strassen算法横空出世以来,这个充满组合爆炸可能性的数学迷宫就持续考验着人类智慧的边界。
Google DeepMind为此专门投入四年心血,先后推出AlphaTensor、AlphaEvolve等机器学习系统来攻克这一难题。这就像短跑运动员将百米纪录从9.58秒推进到9.57秒——每个0.01秒的突破背后,都是对计算理论极限的重新定义。
XXT(矩阵乘以自身的转置)这类特殊的矩阵乘法广泛存在于各类数据科学的实际应用中,实际应用包括:
· 5G与自动驾驶定制芯片设计
· 线性回归与数据分析
· 大语言模型训练算法(Muon、SOAP)
XXT 这类操作每分钟在全球执行数万亿次,假如能减少该操作的计算量,对能耗开销可以带来相当可观的节省。令人惊讶的是,相比于普适的矩阵乘法AB,研究者对于XXT这类的特殊的矩阵乘法的关注少之甚少。Google DeepMind的AlphaTensor,AlphaEvolve探索了带有特殊结构的AB矩阵乘法,但他们尚未汇报任何关于XXT 的结果。
通过观察XXT 运算的特殊结构,该团队发现XXT 的计算确实存在加速空间!
主要贡献
在AI技术的辅助下,本文作者发掘了新算法(RXTX),以让XXT这一常见的底层操作减少5%的运算量,这可以进一步转换成节省5%的能耗以及时间(特别的,能耗开销主要由乘法运算数量决定)。值得一提的是,RXTX的5%加速不仅对超大规模矩阵成立,对小规模矩阵也成立,比如:RXTX对4x4矩阵X仅需34次乘法运算。此前最先进的Strassen算法需要38次乘法(减少10%运算量)。


乘法运算量复杂度分析
作者对乘法运算量的复杂度进行了分析。分析结果表明,RXTX的渐进常数26/41≈0.63,较先前最优值2/3≈0.66降低5%。


总运算量(乘法+加法)复杂度分析
作者进一步提供了总运算量(乘法+加法)的复杂度分析。分析结果表明,当n≥256时,RXTX的总加法与乘法次数也少于现有最优方案,且渐进意义下约有5%的稳定提升。


核心技术
该方法属于基于神经网络的大邻域搜索方法框架:
· 利用强化学习策略生成候选双线性乘积
· 构建组合问题一(MILP-A): 将目标表达式构建为候选乘积的线性组合
· 构建组合问题二(MILP-B): 筛选能完整表达XXT结果的最小乘积集
这是 DeepMind 的 AlphaTensor 方法的一种变体——通过使用组合求解器,行动空间被缩小了一百万倍。以下为作者提供的2*2矩阵的简单例子:

总结
本文针对XXT 这类特殊矩阵乘法提出了创新性加速方法,通过引入AI方法设计出新型算法 “RXTX”,成功实现了总运算量5%的优化。这一突破不仅从理论上拓展了人类对计算复杂度边界的认识,也为相关领域的算法优化提供了新的研究范式。
鉴于XXT 矩阵在多个学科领域的基础性作用,本研究成果有望为实际应用场景带来显著的能耗优化。然而,新算法的工程化应用仍面临硬件适配和内存管理等关键挑战,其产业化落地尚需学术界与工业界的持续协同攻关。要实现新算法的全方面落地,仍然面临诸多挑战,可谓任重道远。
参考材料
Rybin, Dmitry, Yushun Zhang, and Zhi-Quan Luo. "$ XX^{t} $ Can Be Faster." arXiv preprint arXiv:2505.09814 (2025).