人才培养

毛崇晓:在 AI 与生命科学交叉中开展数据探索

毛崇晓,上海交通大学溥渊未来技术学院健康方向 2023 级本科生,第二期“溥渊未来学者计划”成员,在辛弘毅老师的指导下开展单细胞与转录组数据分析研究,聚焦人工智能与生命科学交叉方向中的高维数据建模问题。目前,相关研究成果论文正在投稿 Nature Communications。同时,其以第一作者完成的研究成果已被国际机器学习顶级会议 International Conference on Machine Learning(ICML)接收,并以第二作者参与完成的两项研究成果被 ACM Conference on Bioinformatics, Computational Biology, and Health Informatics 接收。此外,他在本科阶段获得校级二等奖学金、校级三等奖学金及致远未来学者奖学金,并入选国家留学基金委“卓越人才国际化培养项目”资助出国留学资格;参与全国高校创新转化大赛“心脉新生”项目,团队获得上海赛区金奖及全国总决赛金奖。

 

· 项目介绍

面向超大规模单细胞数据的样本归属推断方法 HT-Demux

在单细胞测序中,研究人员可以一次获得上百万个细胞的表达数据,但一个核心问题是如何判断每个细胞来自哪个样本。现有方法依赖分子标签进行样本拆分,但在样本数量增加时会出现信号稀释与高维建模失效,导致误判和大量未识别细胞,同时也增加了计算与实验分析成本。为解决这一问题,毛崇晓提出了 HT-Demux 方法,在整体高维空间中联合建模所有样本的标签信息,实现统一的样本归属推断。该方法将每个样本表示为双状态分布,并通过全局参数共享,将原本指数级增长的组合复杂度压缩为线性规模,从而在提升可扩展性的同时降低计算开销。

HT-Demux 基于完整概率模型进行细胞归属判断,避免了传统方法在高维条件下出现的距离失真与概率不稳定问题。在模拟与真实数据实验中,该方法在样本规模扩展至上百个、细胞规模达百万级时仍保持稳定性能,并显著降低了误分类与未识别比例,为超大规模单细胞数据分析提供了一种高效、可扩展且更具计算经济性的解决方案。

· 科研探索
对于毛崇晓而言,科研并不是一个遥不可及的领域,而是一条可以在本科阶段逐渐进入、不断深入的探索之路。刚进入课题组时,他更多是在已有流程上完成数据分析;但随着研究推进,他开始真正思考方法背后的假设、局限与可改进之处。在未来学者计划的支持下,辛弘毅老师对他保持长期、高频的一对一指导——从问题提出,到模型设计、实验验证与结果解释,每一步都伴随着深入讨论与持续打磨。许多关键突破并非来自瞬间灵感,而是在长期思考与不断修正中逐渐形成。这种扎实而持续的科研训练,让他从“使用工具的人”成长为“提出问题的人”。与此同时,他与实验室另外三位溥渊未来学者密切协作,在方法设计、代码实现、实验分析与论文写作中始终保持高频交流。许多研究思路诞生于一次深夜讨论或一次细致的代码审阅——在这样的氛围中,科研不再是孤立的个人探索,而成为持续协作、共同推进的过程。

· 未来展望
未来,毛崇晓希望继续关注算法在真实数据和医学场景中的应用价值,将计算方法与疾病机制解析、细胞图谱构建和精准医学需求相结合。依托学院国际化平台和即将开展的海外交流经历,期待在更广泛的学术合作中拓展视野、吸收前沿思想,逐步成长为一名既理解生物医学问题、又能够运用计算方法提出创新解决方案的交叉型科研人才。