人才培养

黄龚杰:用 AI 重新“编写”生命分子

黄䶮杰,上海交通大学溥渊未来技术学院生物医学工程方向 2023 级本科生,第二期“溥渊未来学者计划”成员,目前在郑双佳老师的指导下开展生物基座模型与药物分子设计方向的研究。
目前,他以第一作者身份完成论文《A Long-Context Generative Foundation Model Deciphers RNA Design Principles》并投稿 Nature Machine Intelligence,现已进入送审阶段。同时,他正在斯坦福大学 Yejin Choi 教授课题组开展科研实习,并入选上海交通大学第二期“伯乐计划”。

 

· 项目介绍

EVA:面向 RNA 设计的生成式基础模型

RNA 是生命系统中的关键分子,不仅负责遗传信息传递,还参与基因调控、蛋白质合成以及复杂的生化反应。近年来,RNA 药物与 mRNA 疫苗的发展,也让“RNA 设计”逐渐成为生命科学的重要前沿方向。但要真正设计出具备特定功能的 RNA 并不容易:由于 RNA 序列长度大、结构复杂,传统计算模型通常只能处理较短片段,也缺乏精准的“可控生成”能力。
针对这一问题,黄䶮杰参与开发了大型生成式 RNA 基础模型 EVA(Evolutionary Versatile Architect)。该模型基于超过 1.14 亿条全长 RNA 序列训练,参数规模达到 14 亿,上下文窗口长度达到 8192 个碱基,是此前同类模型的重要突破。EVA 不仅能够从头生成新的 RNA 序列,还可以根据指定的 RNA 类型与物种来源,对现有序列进行定向改造与功能优化。目前,相关模型已应用于 tRNA、RNA 适体以及 CRISPR 导向 RNA 等多个方向的研究,并取得了良好的实验结果。
未来,团队希望 EVA 能够成为 RNA 生物学与医学工程中的“通用设计平台”,为基因治疗与 RNA 药物研发提供新的计算工具。

· 科研探索

在不确定中寻找真正重要的问题

第一次进入实验室时,黄䶮杰并没有想象中那般从容。面对海量 RNA 数据与复杂的模型训练代码,他第一次真正意识到,科研远比课堂上的结论复杂得多。
“很多时候,你面对的不是标准答案,而是不知道问题究竟应该怎么问。”
在项目推进过程中,他与高中同学共同组建研究团队:从曾经一起讨论高考题,到如今一起调试 RNA 生成模型、讨论实验方案,这种长期并肩探索的经历,也成为他科研过程中最特别的一部分。
与此同时,与导师和团队的合作,也让他逐渐理解什么是真正的“科研品味”——不仅是把实验做出来,更重要的是提出真正有价值的问题,并对研究结果保持足够的诚实。在未来学者计划中,他也逐渐意识到,AI 正在改变科研的方式:未来很多重复性的科研工作都可能被 AI 替代,但人真正重要的能力,仍然是创造与提出问题。

· 未来展望

用 AI 探索更复杂的生命系统

在黄䶮杰看来,未来生命科学的发展,不应只停留在蛋白质或 RNA 等单一分子层面,而应进一步走向更加复杂的生物系统。
“未来的目标,也许不只是理解一个分子,而是理解一个细胞,甚至一个完整的生命系统。”
未来,他希望继续围绕虚拟细胞基座模型与 AI for Biology 方向深入探索,尝试利用人工智能技术简化药物研发流程、加速生命科学研究效率,为未来医学与生物工程的发展提供新的可能。