近日,上海交通大学溥渊未来技术学院副教授辛弘毅团队发表题为《L2归一化和测地距离在高维单细胞测序数据可视化中增强信息保存》(“L2 Normalization and Geodesic Distance for Enhanced Information Preservation in Visualizing High-dimensional Single-cell Sequencing Data”)的研究论文在由美国计算机学会(ACM)举办的第15届生物信息学、计算生物学和健康信息学国际会议(The 15th ACM Conference on Bioinformatics, Computational Biology, and Health Informatics,简称“ACM-BCB”)中,被评为总分数第一,并荣获大会唯一SIGBio最佳论文奖(ACM SIGBio Paper Award)。论文第一作者为密西根学院2019级本科生荣梓琪,共同第一作者为密西根学院2021级博士生蔡金蒲,通讯作者为上海交通大学辛弘毅副教授和剑桥大学连秋宇博士后。论文共同作者还包括来自普林斯顿大学、加州大学尔湾分校和密西根大学的研究人员。
ACM SIGBio Paper Award是计算机领域权威国际科研组织——Association for Computing Machinery计算机协会——为计算与生物医学交叉学科领域进展颁发的年度奖项。自2010年以来,由ACM将该奖项授予该年度生物交叉学会ACM-BCB中的最佳论文。ACM-BCB是ACM生物信息学专业组(ACM SIGBio)的旗舰会议,本年度的会议于2024年11月22日至25日于广东深圳举办,是15年来该会议首次在中国境内举行。
在单细胞RNA测序(single-cell RNA sequencing)中,随着基因数量的维度增加,基于全局测序深度的UMI总量归一化(total count normalization,又称L-1归一化)后的欧几里得距离在区分单细胞生物学差异方面表现出效率下降的“维度诅咒”(curse of dimensionality)问题。针对这一现象,论文作者团队创新性地提出了一种基于香农熵的距离分布信息度量指标,用于衡量不同距离度量方法在高维空间中保留生物学差异信息的能力,并探索了维度诅咒问题与归一化方法和距离度量之间的关联。
(距离度量在单细胞生物差异信息保留能力上的区别以及对二维可视化的影响)
研究表明,随着L-p归一化中的p范数值增加,其流形上的测地距离在超高维空间中的差异区分能力逐步提升,但该提升的边际收益逐渐减小。且p>2时的测地距离没有解析解。基于此,作者选取L-2归一化及其对应超球面测地距离(即角距离)作为最佳平衡点,在保证计算效率的同时,相比传统L-1归一化及欧几里得距离大幅提高了生物学差异信息的保留能力。作者还改进了t-SNE和UMAP等常用降维可视化算法,提出了基于高维超球面流形的HS-SNE和HS-UMAP方法。实验证明,这些改进显著提升了高维单细胞数据的可视化效果,为细胞型间的差异识别提供了更可靠的二维嵌入。该研究为超高维度单细胞测序数据分析中被广泛使用却关注不足的归一化和距离度量方法提供了新的研究视角和理论基础。
团队介绍
荣梓琪,密西根学院2019级电子与计算机工程专业本科生,来自上海,高中毕业于上海市格致中学,曾获上海市优秀毕业生等荣誉。目前研究兴趣包括生物信息学、多组学数据分析、无监督学习、统计学习等。大三参加密院全球学位通项目,前往美国密西根大学攻读硕士学位。
蔡金蒲,密西根学院2021级博士研究生,曾在北京协和医学院阜外医院、国家心血管病中心联合培养。目前研究兴趣包括生物信息学、单细胞多组学分析、非欧几何机器学习及心血管疾病的机制研究等。
辛弘毅,上海交通大学溥渊未来技术学院和电子信息与电气工程学院自动化系副教授,国家级青年人才。长期从事生物信息学研究工作,发表包括Genome Biology,Nature Machine Intelligence,Nature Communications,Nucleic Acids Research,Cell Reports等国际期刊,所研究成果在RECOMB、ISMB等国际会议首要报告,并曾入选腾讯“犀牛鸟”基金。