生物制造已被视为推动工业可持续发展的绿色技术革新中最具前景的方向之一,而酶是这一体系中的关键“分子机器”,能够在温和条件下完成复杂分子的精准构建。然而,酶具有复杂的三维构象与高度特异的催化机制,解析难度极高,导致大量生化反应至今仍缺乏可靠的酶学注释,成为生物合成路径解析与人工生物系统设计的关键瓶颈。
2026年2月12日,上海交通大学郑双佳团队联合香港科技大学、麻省理工学院、中山大学等国内外多家研究机构学者在Nature Catalysis 发表题为“A Geometric Foundation Model for Enzyme Retrieval with Evolutionary Insights”的研究论文。研究提出基座模型 EnzymeCAGE,通过融合蛋白结构信息与进化信号跨越序列差异,实现生化反应与酶的高精度匹配,并在生物合成路径设计和重构中展现出显著优势,为基于人工智能的酶发现与生物制造提供了新的技术路径。

酶作为自然界中的能工巧匠,以其高效、精准的特性在生物体内促进催化大量生化反应。然而,其复杂结构与催化功能之间的对应关系难以解析,显著制约研发效率。目前代谢数据库中仍有大量“孤儿反应”无法匹配明确酶序列,蛋白功能注释滞后已成为合成生物学发展的关键瓶颈。现有方法多依赖序列同源性或功能分类,在低相似性场景下表现有限。因此,突破序列限制、建立结构—功能层面的精准匹配机制,是亟需解决的核心问题。
研究团队开发的 EnzymeCAGE 创新构建了“几何感知+进化信息”双驱动架构,通过精准提取酶催化口袋的三维几何特征,并结合蛋白语言大模型实现“局部结构+全局序列”的全方位表征,同时模型利用原子映射动态解析底物至产物的反应中心转化,构建精准反应指纹。最终通过几何增强交互模块量化酶与反应分子的三维空间对话,输出催化兼容性评分,实现了高效精准的酶招募和功能预测。

图 1: 模型框架示意图
在多项对比实验中,EnzymeCAGE 均表现出超越传统基准的预测精度,充分印证了其作为催化机制通用底座模型的领先地位。在针对数百个未知酶的评估中,该模型在 Top-10 成功率上达到 58%,表现远超 MMseqs2 和 CLIPZyme 等现有工具,且在不同类型的酶家族中均能保持稳健的预测水准。更具突破性的是,EnzymeCAGE 成功摆脱了对序列同源性的依赖,即使在序列极度差异化的场景下,依然能从庞大的候选库中准确定位功能酶。在处理“孤儿反应”的鉴定任务时,其识别效率比传统方法提升了 41%,有效修复了代谢网络中的缺失环节。此外,通过对 P450 酶等关键工业酶类的专项参数优化,模型在处理大规模复杂数据集时展现出更强的适应性,成功将多个特定靶点推至预测前列,展示了其广泛的实用性与扩展空间。

图 2: EnzymeCAGE在多个酶招募和功能预测任务中表现全面超越现有方法
除了理论层面的数据优势,EnzymeCAGE 在真实的生物制造流程中也释放了巨大的产业价值,为科研成果转化提供了强力引擎。在抗癌药物睡茄内酯的生物合成路径探索中,该模型成功从上百个潜在序列中识别出三个关键的 P450 催化酶,其预测位次显著占优,为复杂天然产物的工程化合成提供了技术前提。与此同时,在绿色化学制造领域,EnzymeCAGE 协助规划了戊二酸的生物合成新路径,通过对多步连续反应进行酶源筛选,确保了核心环节的目标酶能够被精准识别,这不仅证实了模型在多步代谢流构建中的高可靠性,也为大宗化工产品的绿色生物替代提供了高效的计算辅助方案。

图 3: EnzymeCAGE对戊二酸新型合成路径的关键反应进行酶筛选的预测结果,性能显著领先现有方法
综上所述,EnzymeCAGE 构建了“结构-功能-进化”一体化的酶-反应匹配框架,突破传统酶功能预测局限,并在外部测试中展现出良好应用潜力。团队将继续优化反应中心识别并针对部分酶家族进行微调;模型与数据已开源,为科研人员提供可复用工具。业内认为其有望缩短酶发现周期,推动生物催化在医药、能源与环境领域的应用与绿色生物制造发展。
上海交通大学博士生刘勇为本文第一作者。上海交通大学教师郑双佳为论文唯一通讯作者。
论文标题:
A Geometric Foundation Model for Enzyme Retrieval with Evolutionary Insights
论文链接:
https://www.nature.com/articles/s41929-026-01478-y
作者介绍

刘勇
上海交通大学2025级博士生,主要研究方向为AI生物合成、酶挖掘和设计、多智能体系统构建。

郑双佳
溥渊未来技术学院长聘教轨助理教授,博士生导师。主要从事生成式人工智能与药物设计交叉领域研究,在Nat. Mach. Intell., Nat. Comput. Sci., Nat. Catal., Nat. Commun., Nat. Biomed. Eng等国际期刊及NeurIPS, ICLR, CVPR等人工智能会议上发表了六十余篇论文,引用超5000次;多项成果被人民日报,新华网,中国科学报,MIT Tech Review, Forbes等知名媒体报道。入选尚思探索学者,亚洲青年科学家基金项目,福布斯亚洲30 under 30等;获得世界人工智能大会云帆奖,世界人工智能大会优秀论文奖,中国人工智能学会优博,吴瑞奖学金等荣誉和奖项。