科研快讯 | 港中大(深圳)于天舒教授团队AI赋能化学相关研究在Nature Communications发表
在有机化学领域,预测化学反应的可行性和鲁棒性一直是科学家们面临的重大挑战,尤其是在药物化学中,快速筛选出不可行的反应路径对节约研发时间和降低成本具有重要意义。然而,传统方法因依赖专家经验和有限数据,难以实现全局优化,且缺乏通用的预测工具来预判实验结果。开发一个能够像经验丰富的化学家一样预测反应可行性的人工智能(AI)系统,对于推动化学合成效率的提升至关重要。
为解决这一问题,香港中文大学(深圳)数据科学学院于天舒教授团队联合上海镁睿化学团队,通过整合高通量实验(HTE)与贝叶斯深度学习,开发了一套创新的AI系统,结合湿实验(Lab in Loop),为化学反应的智能化预测提供了突破性解决方案。
这项兼具学术前瞻性与工业实用性的的研究成果,近日发表于国际顶刊《Nature Communications》,标志着港中大(深圳)在“AI for Science”交叉学科领域取得重要突破。

论文地址:https://www.nature.com/articles/s41467-025-59812-0
教授简介

于天舒
助理教授
亚利桑那州立大学博士
研究领域:
机器学习、组合问题、AI4Science
个人简介:
于天舒博士现为香港中文大学(深圳)助理教授。于博士于2012年毕业于沈阳工业大学并取得学士学位。其后前往加拿大卡尔加里大学攻读地理信息工程专业并于2016年获得硕士学位。在此之前,他曾于2012至2014年间任飞利浦医疗算法工程师。于博士将于2021年从亚利桑那州立大学计算机科学专业毕业并取得博士学位。
于博士主要研究兴趣涵盖多个机器学习和组合问题优化相关领域。他对利用机器学习解决传统组合问题,图学习和优化,以及在深度学习框架内寻求结构扩展特别感兴趣。循环神经网络,行列式点过程也是他开展的研究之一。于博士也是多个顶级会议(例如ICLR 2021, NIPS 2020, CVPR 2019-2021, ICCV 2019, ECCV 2020等)以及期刊(例如IEEE Transactions on Image Processing, IEEE Transactions on Neural Networks and Learning Systems, IEEE Transactions on Circuits and Systems for Video Technology, Pattern Recognition, Pattern Recognition Letters等)的审稿人。
研究成果介绍
研究背景
化学反应可行性预测一直是困扰有机化学家的基础性难题。解决这一问题将帮助化学家在合成设计过程中快速排除不可行路径,从而在构建复杂分子合成路线时大幅节省时间。这一需求在药物化学领域尤为迫切,因为在早期药物发现和临床前工艺开发阶段,时间与成本控制至关重要。然而迄今为止,尚不存在能在实验验证前确定性预测反应可行性的通用方法。虽然有机化合物反应活性的理论研究进展迅速,但仅凭第一性原理完全理解分子结构与反应结果间的因果关系仍具挑战性。基于文献数据的统计学习方法虽展现出潜力,但由于已发表数据中缺乏阴性结果记录,这些方法仍处于早期发展阶段。实践中,识别可行反应仍高度依赖资深有机化学家的经验与直觉。培养这样的专家既需要科学的学习策略,也需要长期实践积累。同理,开发能与专家水平媲美的人工智能(AI)系统,也需要智能策略来实现两项目标:用最少数据量探索全局化学空间,以及系统化自动获取大量无偏实验数据。尽管已有诸多开创性研究,但构建能稳定预测任意有机反应可行性的“先知”系统仍处于探索阶段。
在反应可行性预测背后,还隐藏着更复杂的挑战:反应鲁棒性评估。有机反应结果易受多种因素影响,包括环境细微变化(湿度、氧含量、光照等)、分析分离方法的差异,以及操作过程的微小变动。这种内在随机性常使某些敏感反应难以在不同实验室间复现。将这些敏感反应放大到工业规模,更需要巨大的工艺控制投入。因此,工艺工程师往往优先选择敏感性低、重现性好的替代反应。这催生了对于能预判反应鲁棒性的AI系统的迫切需求。但实现这一目标面临双重挑战:其一,需要但目前尚缺乏能高效探索巨大化学空间的自动化方法;其二,必须建立基于化学空间探索结果的精细化不确定性解析方法,但迄今尚未见系统揭示化学反应内在随机性的研究案例。
核心创新与贡献
在最新发表的研究中,作者团队提出了一种结合高通量实验(HTE)与贝叶斯深度学习的协同解决方案,以系统性地应对反应可行性与稳健性评估的挑战。该研究的主要贡献包括:
(1)基于自动化HTE平台构建的大规模实验数据集;
(2)一种基于模型不确定性的学习策略,能够结合HTE硬件平台主动进行实验设计(Design of Experiments,DoE),以最少的数据需求覆盖广阔的化学空间,实现反应可行性的高效预测;
(3)一套数据不确定性分析流程,用于捕捉反应的固有随机性以评估其稳健性和可重复性。
研究的具体工作流程如图1所示。

图1:结合高通量实验(HTE)和贝叶斯深度学习的整体工作流程,用于评估反应的可行性及其对环境因素的鲁棒性。
概述:这张图展示了结合高通量实验(HTE)和贝叶斯深度学习来评估反应可行性和鲁棒性的工作流程。研究人员首先利用自动化HTE平台收集湿实验室数据,然后使用贝叶斯神经网络进行概率建模。通过将不确定性分解为认知不确定性和数据不确定性,研究人员能够有效地指导实验设计和评估反应的鲁棒性。
研究以酸胺缩合反应为模型体系——尽管该反应在有机合成中应用广泛,但其可行性与稳健性的评估仍令经验丰富的化学家感到棘手。作者团队通过内部HTE平台,在156个仪器工作小时内完成了11,669次反应,覆盖8,095种目标产物,涉及272种酸、231种胺、6种缩合试剂、2种碱和1种溶剂,系统探索了酸胺缩合反应的底物与条件空间(图2)。据公开资料显示,这是目前覆盖化学空间最广且体积规模适用于工业放大的单反应类型HTE数据集,同时也是目标产物覆盖数量最多的HTE数据集。

图2.:自动化HTE数据与底物降采样过程的数据分析。
概述:这张图展示了酸胺偶联反应的化学空间探索情况。研究人员通过分析专利数据和商业可用化合物的结构分布,选择了具有代表性的底物进行实验。通过最大最小采样方法,确保了底物的结构多样性,从而更好地代表了专利数据中的化学空间。
基于HTE数据,研究团队开发的贝叶斯神经网络(BNN)模型在反应可行性预测中实现了89.48%的准确率与0.86的F1分数,显著优于现有广泛化学空间中的预测方法。通过不确定性解耦分析,作者不仅揭示了预测误差的来源,还证明主动学习/主动实验设计策略可节省约80%的实验数据需求。此外,研究发现,充分的实验探索能够显著提升不确定性估计的可靠性。通过将数据固有不确定性与反应稳健性关联,作者进一步验证了该方法的普适性——这一结论通过对文献中毫克级与公斤/吨级规模反应的分析得到了支持。需要说明的是,该研究聚焦于反应过程本身,未涉及分离步骤的可行性或稳健性评估。
与现有的大多数有机合成HTE研究不同,这项工作的创新性在于首次展示了HTE与贝叶斯深度学习的协同潜力,为使用Lab in Loop范式系统性解决反应可行性与稳健性问题提供了新思路,从而为高效有机合成与工艺放大奠定了理论基础。
总结与展望
这项研究通过结合高通量实验和贝叶斯深度学习,不仅在大规模数据集上实现了高准确率的预测,还通过不确定性分析为反应的鲁棒性评估提供了新的方法,为预测有机反应的可行性和鲁棒性提供了一个强大的工具。这种方法既提高了预测的准确性,还减少了数据需求,为化学合成的高效设计和工业放大提供了新的启发。未来的工作可集中在探索更广泛的化学反应类型,并开发一个通用的可行性预测模型,以提高化学合成的效率。
参考材料
Zhong, H., Liu, Y., Sun, H. et al. Towards global reaction feasibility and robustness prediction with high throughput data and bayesian deep learning. Nat Commun 16, 4522 (2025). https://doi.org/10.1038/s41467-025-59812-0