自动化系生命基础模型实验室合作发表人工智能细胞大模型
新清华 2024年06月21日 第2331期 学术前沿

scFoundation模型及下游应用场景。
本报讯 近日,清华大学自动化系生命基础模型实验室主任张学工教授,电子系、清华大学智能产业研究院马剑竹教授和百图生科公司宋乐博士合作,建立了一个名为scFoundation的细胞大模型。该模型基于5000万个细胞的基因表达数据进行训练,拥有1亿参数,能够同时处理约20000个基因。作为基础模型,它在“虚拟药物试验”等多种生物医学下游任务中表现出卓越的性能提升,提供了人工智能在单细胞研究中的新范式。
细胞“语言”与自然语言不同,存在着特征高维度、取值连续且稀疏等难点。为此,研究团队针对性设计模型架构,使scFoundation的值编码模块可直接将连续的基因表达值转化为向量,并通过设计一个基于Transformer的非对称模型架构,在保持参数规模不变的同时大幅提高了计算效率。此外,考虑到单细胞数据质量存在明显差异的特点,研究团队还设计了一种由低质量数据恢复高质量数据的预训练任务,进一步增强了预训练模型对不同来源下游数据的适应能力。
在实际应用中,scFoundation模型支持“开箱即用”和“微调”两种模式。在“开箱即用”模式下,得益于其独特的预训练任务,该模型能直接用于提升细胞数据的质量,在不需要进一步调整的情况下便可达到或超越现有方法的效果。实验测试结果表明,利用scFoundation模型可以显著提升细胞癌症药物反应、细胞扰动实验等任务的性能。在“微调”模式下,scFoundation在细胞类型标注等任务上的表现远超传统方法。
综上所述,scFoundation模型为生命科学基础研究、细胞扰动响应预测、药物靶点发现等领域提供了创新方法工具,并在模型架构、训练框架和下游示范应用体系等方面为细胞大模型研究提供了新的思路和方法,成功地拓展了单细胞领域基础模型的边界,为开展数基空间中的虚拟药物实验等未来研究奠定了基础。
6月6日,研究成果以“单细胞转录组大规模基础模型”为题,发表于《自然·方法》(Nature Methods)期刊上。张学工、马剑竹、宋乐为该论文的通讯作者,清华大学自动化系2021级博士生郝敏升为第一作者。(自动化系)