新闻

上海交大溥渊学院郑双佳团队发表Cell Systems封面文章|COSMOS突破蛋白质功能精准注释难题

发布时间2026-04-28

蛋白质功能注释是理解生命机制、发现药物靶点及推动生物技术应用的核心基础,也是连接基因组信息与生命活动的关键桥梁。然而,蛋白功能的标注严重依赖费时费力的湿实验,导致大量蛋白质功能未知:超过80%的UniProt蛋白缺乏经过实验验证的功能注释,且每年新增数百个功能类别,给预测模型带来了严峻的零样本与少样本挑战。现有方法多依赖序列同源性或结构特征,在处理低同源性蛋白或未知功能类别时性能大幅下降。如何从稀疏、动态的功能注释数据中实现精准预测,已成为计算生物学领域的关键难题。

为了解决这些难题,2026年4月15日,上海交通大学郑双佳团队在国际学术期刊Cell Systems上以封面文章形式发表题为“Context-informed subgraph foundation models enable interpretable protein-function prediction”的研究论文。研究提出基座模型COSMOS,通过构建融合蛋白质相互作用、结构相似性及功能层级关系的知识图谱,利用归纳式子图学习框架,实现了对未知、稀疏及低同源性蛋白质功能的精准预测与可解释性分析,为蛋白质功能注释提供了全新路径。

IMG_256IMG_257

研究团队开发的COSMOS创新地构建了“知识图谱+子图学习”双驱动架构。首先,通过整合蛋白功能注释、GO层级关系、蛋白质相互作用以及基于结构相似性的蛋白关系,构建了包含近800万个功能语义关系的富集知识图谱。在此基础上,COSMOS摒弃了传统的全局图嵌入方法,针对待预测的蛋白功能对提取其局部子图,并利用多关系消息传递神经网络,精准捕捉子图中蕴涵的逻辑拓扑结构。模型采用噪声对比损失进行预训练,最终输出蛋白与功能之间的关联评分,实现了对蛋白质功能的精准预测与可解释性溯源。

IMG_258

图 1 模型框架示意图

在多项挑战性实验设置中,COSMOS均展现出超越现有方法的卓越性能。在零样本预测(即训练与测试GO类别无交集)任务中,COSMOS在分子功能上的Fmax达到0.915,相比DeepGOGATSE提升了21.8%。在少样本和低同源性的设置下,COSMOS同样表现稳健,Fmax分别领先最优基线模型13.8%和19.9%。消融实验证实,蛋白质相互作用与结构相似性信息的融合使模型性能提升超过90%,证明了多源数据融合的关键作用。嵌入空间分析表明,COSMOS能准确区分正确的蛋白功能关联对与错误关联对,且相同功能类别的蛋白功能对在嵌入空间中自然聚集,子图嵌入与功能注释的相似性呈中等程度相关,证明了模型提取的拓扑特征能够有效反映功能关联。

IMG_259

图 2 COSMOS性能分析与机制验证

除了理论层面的数据优势,COSMOS在真实应用场景中展现出强大的实用价值。针对蛋白SIRT6的案例分析显示,COSMOS不仅成功预测了其经典的组蛋白去乙酰化酶活性,还识别出其在训练集时间线之后才被发现的、针对长链脂肪酰赖氨酸的脱酰酶活性,并提供了清晰的子图路径作为预测依据,证明了模型对新发现功能的推理能力。此外,通过对人、小鼠、酵母等不同物种的跨物种测试,COSMOS均保持领先性能,在小鼠数据集中平均AUPRC较最优基线提升12%,展现了其良好的泛化能力。

IMG_260

图 3 COSMOS对蛋白SIRT6的预测与可解释性分析。模型成功预测其经典功能及2021年后的新发现功能,并提供清晰的子图证据路径

综上所述,COSMOS构建了“结构信息-网络互作-功能语义”一体化的蛋白质功能预测框架,突破了对序列同源性的依赖,在零样本、少样本及低同源性等复杂场景下均展现出显著优势。其与现有基于序列或结构的方法具有良好互补性,融合后可进一步提升预测性能。团队已将模型与数据开源,为科研人员提供了可解释性强、泛化能力优秀的蛋白质功能注释工具。COSMOS有望大幅缩短新蛋白功能注释周期,推动功能基因组学、药物靶点发现及合成生物学等领域的发展。

上海交通大学硕士生周卓敏为本文第一作者。上海交通大学郑双佳教授为论文唯一通讯作者。

论文标题:

Context-informed subgraph foundation models enable interpretable protein-function prediction

论文链接:

https://www.cell.com/cell-systems/abstract/S2405-4712(26)00017-7

作者简介

IMG_262

周卓敏

上海交通大学2023级硕士生,主要研究方向为蛋白质功能预测与多智能体系统构建。

 

IMG_263

郑双佳

溥渊未来技术学院长聘教轨助理教授,博士生导师。主要从事生成式人工智能与药物设计交叉领域研究,在Nat. Mach. Intell., Nat. Comput. Sci., Nat. Catal., Nat. Commun., Nat. Biomed. Eng等国际期刊及NeurIPS, ICLR, CVPR等人工智能会议上发表了六十余篇论文,引用超5000次;多项成果被人民日报,新华网,中国科学报,MIT Tech Review, Forbes等知名媒体报道。入选尚思探索学者,亚洲青年科学家基金项目,福布斯亚洲30 under 30等;获得世界人工智能大会云帆奖,世界人工智能大会优秀论文奖,中国人工智能学会优博,吴瑞奖学金等荣誉和奖项。