生物信息学基础模型的范式转移
生物信息学正站在一个关键的历史节点上:研究范式正在从“为特定任务的人工智能模型”,迅速转向以基础模型(Foundation Models, FMs)为核心的新一代通用架构。基础模型这一概念最早在 2021 年被引入,其核心特征是通过大规模无监督或自监督学习,在海量未标记数据上进行预训练,从而学习到具有普适性的特征表达,并能够灵活适配多种下游任务 1。在 2024–2025 年间,这一范式在生命科学领域迎来了爆发式扩张。基础模型的应用边界已从最初的蛋白质序列建模,拓展至基因组、转录组、蛋白质结构、单细胞组学,以及多模态临床数据的全面覆盖 3。
生物信息学中的基础模型
这一转型并非偶然,而是由多重因素共同驱动。首先是高通量测序技术积累的TB级未标记数据,使得监督学习在成本上变得难以承受;其次是模型架构(如Transformer、Mamba等)的演进,使其能够处理数以亿计的参数;再者是“扩展定律”(Scaling Laws)的验证,证明模型性能会随着数据规模、计算量和参数量的增加而预测性地提升;最后是下游任务的成本效益,预训练后的基础模型仅需极少量的标记数据即可在特定任务中超越传统的任务特化型AI 2。
下表总结了基础模型与传统生物信息学AI模型的核心差异:
基因组基础模型
在所有应用领域中,基因组学是基础模型应用的核心阵地。由于DNA序列不仅长度极长(人类基因组约30亿碱基对),且其功能调控也高度依赖跨越数万甚至数十万碱基的长程相互作用。启动子、增强子与染色质结构之间的关系,使得“局部上下文”远不足以解释真实的生物功能。然而,传统Transformer架构的平方复杂度 O(L^2) 严重限制了上下文窗口 5。为突破这一瓶颈,2024年和2025年的研究突破主要集中在引入亚线性复杂度的架构,如状态空间模型(SSM)和混合专家模型(MoE),以实现百万碱基(Mb)级别的上下文建模 4。
Mamba与Hyena的线性缩放
在近一年的发展中,以Mamba和Hyena为代表的新兴架构彻底改变了长序列建模的格局。Evo 2模型采用了StripedHyena 2架构,这是一种将数据控制的卷积算子与少量多头注意力层交错排列的混合设计 7。它利用卷积层的高效性处理序列中的噪声和局部基序(Motifs),同时通过注意力机制补充长程记忆,使其能够以单核苷酸分辨率处理长达100万个碱基对的上下文 7。
JanusDNA架构:双向DNA建模系统
与此同时,JanusDNA 提出了双向混合(Bi-directional Hybrid)架构,通过结合 Mamba 的高效性与 Attention 的长程建模能力,并引入 MoE 稀疏激活,解决了自回归模型在处理双向调节基因组时的单向偏置问题 4。通过 MoE 层的稀疏激活,JanusDNA 在极低计算成本下提升了模型容量 6。实验表明,JanusDNA在1024长度和131k长度的序列训练中均表现出极高的效率,显著超越了同参数量的传统Transformer 9。
下表对比了2024-2025年间主流基因组基础模型的性能参数:
零样本变异效应预测与合成生物学应用
随着模型能力的提升,基因组基础模型的应用已不再局限于序列标注,而是进入了功能预测与序列生成的新阶段。Evo 2展示了极具说服力的零样本学习能力:它能够准确预测非编码致病突变以及具有临床意义的BRCA1变异,而无需针对这些任务进行任何微调 8。通过对模型内部权重的机械解释性分析,研究者发现Evo 2自主学习到了外显子-内含子边界、转录因子结合位点以及蛋白质结构元素等生物学特征 8。
Evo 2 的模型架构、训练流程、数据集及评估方法概述
在生成领域,Evo 2能够以百万碱基规模生成具有生物合理性的序列,包括线粒体基因组、原核生物序列,乃至整个酵母染色体 8。这种能力在合成生物学中具有巨大的应用潜力,例如重新设计功能性病毒基因组和噬菌体,为疫苗平台和细胞治疗提供新的工具 12。
蛋白质表征学习
尽管蛋白质结构预测在2020年曾被认为基本“解决”,但 2024–2025 年的研究逐渐表明,真正的挑战在于理解动态结合过程和从头设计(De novo design)具有特定功能的蛋白质 13。
AlphaFold 3 与 Boltz-2 的
结构-结合协同预测
AlphaFold 3在2024年5月的正式发布标志着一个时代的开始,它能够统一建模蛋白质、核酸、小分子、离子及化学修饰的复合物 14。然而,2025年的关注点已经转向了计算速度和结合亲和力的精确量化。由MIT CSAIL和Recursion合作开发的Boltz-2模型在2025年6月发布,它能同时预测结构与结合亲和力,且运行速度比传统的物理模拟方法(如自由能摄动FEP)快1000倍 13。这一数量级的提升,使高通量虚拟筛选在现实药物研发中变得可行。
popEVE与蛋白质组学层面的变异评估
在临床遗传学领域,如何评估蛋白质序列中错义突变的致病性是一个长期难题。2024年11月发表在《Nature Genetics》上的popEVE模型,通过将深度进化信息(来自EVE和ESM-1v)与人类群体数据(来自UK Biobank和gnomAD)相结合,构建了一个蛋白质组规模的致病性评分系统 15。popEVE的核心优势在于它能够在不同蛋白质之间校准评分,使临床医生能够量化评估一个基因中的变异是否比另一个基因中的变异更具危害性 16。
其临床价值在真实世界数据中得到了验证:在对约3万名未确诊的严重发育障碍患者进行的测试中,popEVE为约三分之一的病例提供了诊断线索,并识别出了123个与发育障碍相关的候选新基因 15。这一成果证明了基础模型在罕见病精准诊断中的变革性价值。
下表总结了2024-2025年蛋白质基础模型的关键进展:
单细胞转录组学基础模型
单细胞测序技术的普及产生了海量的异质性数据——即来自大量单个细胞的基因表达谱,这些细胞在类型、状态、功能或所处微环境等方面各不相同。正是这种细胞间的多样性,促使研究者开发能够理解细胞“内在语言”的基础模型。这类模型将每个细胞中的基因表达水平视为一种“语序”,通过学习基因之间的共表达模式,来捕捉细胞状态的动态变化与演化轨迹17。
单细胞转录组的条件推理与
癌症治疗新假说
Google DeepMind与耶鲁大学合作发布的C2S-Scale(Cell2Sentence-Scale 27B)是2025年单细胞生物学的重大事件之一 18。该模型基于Gemma-2 27B架构,在超过10亿个token的转录组、生物文本和元数据上进行了训练 20。
Cell2Sentence 框架:将生物学转化为语言
通过“条件推理”生成了一个经实验验证的癌症治疗假说 19。模型识别出了一种名为silmitasertib (CX-4945)的CK2抑制剂,当其与低剂量干扰素联用时,能在特定的免疫正向背景下将“冷肿瘤”转化为“热肿瘤”,使抗原呈递提高约50% 19。这一发现填补了传统高通量筛选无法捕捉到的条件性药物响应,标志着基础模型已具备模拟复杂生物学系统并引导实验设计的能力 18。
scFME 评估体系及植物科学专用模型
随着scFMs(如scGPT, Geneformer, scPlantLLM)的大量涌现,如何客观评估这些模型的性能成为研究重点。2025年提出的scFME(Single-Cell Foundation Model Evaluation)基准框架,专注于评估微调后的模型在“原位摄动”(in-silico perturbation, ISP)中的表现 21。结果显示,尽管大型模型在跨数据集整合和泛化方面表现出色,但在处理罕见细胞类型和特定组织细节时,简单的机器学习模型(如随机森林)在资源受限的情况下有时仍具有竞争力 22。
用于评估基础模型在计算机模拟扰动(ISP)任务上表现的六步scFME流程示意图
此外,针对植物科学的特殊挑战,scPlantLLM通过整合植物特有的多倍体、细胞壁结构和组织特异性表达数据,解决了传统动物背景模型在植物单细胞数据上的不稳定性问题 23。
多模态与通用生物学模型
2025 年,生物信息学的终极目标已不再局限于单一尺度,而是构建跨越分子、细胞、组织与个体的“生物世界模型”(World Model for Biology)。这一愿景在Bioptimus公司发布的M-Optimus模型中得到了初步尝试 24。
预测癌症预后的数字孪生技术
M-Optimus整合了组织学影像(H&E染色)、体转录组测序(Bulk RNA-seq)、空间转录组以及临床元数据 ,通过在数百万患者和50多种器官类型的数据上进行预训练,能够直接从常规实验室检查中预测基因表达和临床预后 24。在一项与MIT合作的研究中,M-Optimus的分支模型H-Optimus-1在预测癌症患者的6个月无进展生存(PFS)方面达到了0.75以上的AUC,展示了AI在加速临床试验设计和精准医疗决策方面的巨大潜力 25。这种能力使得研究者能够创建“数字孪生”患者,在虚拟环境中模拟药物反应,从而大幅降低研发成本和风险 24。
药物研发中的多模态预训练
在药物发现(Drug Discovery)领域,多模态预训练正推动从“试错法”向“预测法”的转型。GRAM-DTI等框架通过将分子结构(SMILES)、蛋白质序列以及生物活性度量值(如IC_{50})整合到统一的表征空间中,实现了更高精度的药物-靶点相互作用预测 26。
下表展示了多模态模型在临床与药研中的典型应用:
挑战与未来方向
尽管生物信息学基础模型进展显著,但仍有若干深层次挑战需要克服。一方面,模型规模的持续增长使其内部机制愈发难以理解。目前以稀疏自编码器(SAE)为代表的工具,正在尝试将模型权重与具体生物特征对应起来8。另一方面,人群数据的祖源偏置仍是现实问题,尽管通过多样化预训练,已有模型(如 popEVE)在不同遗传背景的人群中均保持了稳健的性能 15。
展望未来,基础模型将不仅仅是一个分析工具,而是科学探索的“大脑”。通过与机器人系统整合,基础模型可以指导自动化实验室完成“假设-设计-合成-测试-学习”的闭环过程 30。对于科研人员而言,基础模型将成为类似于“Stack Overflow”的必备工具,极大地降低了数据分析的门槛 29。对于产业界,基础模型驱动的“数字孪生”和“ISP虚拟实验”将显著缩短药物研发周期。
总体而言,2024-2025年是生物信息学基础模型从“单点突破”走向“全面整合”的关键年。基因组模型的长序列建模突破、蛋白质模型的结构-功能跨越、单细胞模型的条件推理能力以及多模态模型的跨尺度整合,共同构筑了下一代计算生物学的基石。尽管在解释性和数据偏差方面仍存挑战,但随着算力效率的提升和生物语料库的完善,基础模型将有望揭示出生命系统背后更深层次的“逻辑规则”。
参考文献:
1.[2503.02104] Biomedical Foundation Model: A Survey - arXiv, accessed December 21, 2025, https://arxiv.org/abs/2503.02104
2.Biomedical Foundation Model: A Survey - arXiv, accessed December 21, 2025, https://arxiv.org/html/2503.02104v1
3.Foundation models in bioinformatics | National Science Review - Oxford Academic, accessed December 21, 2025, https://academic.oup.com/nsr/article/12/4/nwaf028/7979309
4.JanusDNA: A Powerful Bi-directional Hybrid DNA Foundation Model - arXiv, accessed December 21, 2025, https://arxiv.org/html/2505.17257v4
5.JanusDNA: A Powerful Bi-directional Hybrid DNA Foundation Model - arXiv, accessed December 21, 2025, https://arxiv.org/html/2505.17257v2
6.JanusDNA: A Powerful Bi-directional Hybrid DNA Foundation Model - OpenReview, accessed December 21, 2025, https://openreview.net/forum?id=9PL1DIIB7e
7.ArcInstitute/evo2: Genome modeling and design across all domains of life - GitHub, accessed December 21, 2025, https://github.com/ArcInstitute/evo2
8.Genome modeling and design across all domains of life with Evo 2 - bioRxiv, accessed December 21, 2025, https://www.biorxiv.org/content/10.1101/2025.02.18.638918v1.full.pdf
9.(PDF) JanusDNA: A Powerful Bi-directional Hybrid DNA Foundation Model - ResearchGate, accessed December 21, 2025, https://www.researchgate.net/publication/392085535_JanusDNA_A_Powerful_Bi-directional_Hybrid_DNA_Foundation_Model
10.Advances in foundation models for genomics: A detailed exploration of developments - Clausius Scientific Press, accessed December 21, 2025, https://www.clausiuspress.com/assets/default/article/2025/01/21/article_1737472710.pdf
11.Foundation models in plant molecular biology: advances, challenges, and future directions, accessed December 21, 2025, https://www.frontiersin.org/journals/plant-science/articles/10.3389/fpls.2025.1611992/full
12.From Code to Life: AI Achieves De Novo Design of Functional Viral Genomes - Ailurus Bio, accessed December 21, 2025, https://www.ailurus.bio/post/from-code-to-life-ai-achieves-de-novo-design-of-functional-viral-genomes
13.6 ways AI reshaped scientific software in 2025 - R&D World, accessed December 21, 2025, https://www.rdworldonline.com/6-ways-ai-reshaped-scientific-software-in-2025/
14.The Role of AI-Driven De Novo Protein Design in the Exploration of the Protein Functional Universe - PubMed Central, accessed December 21, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC12467925/
15.New Artificial Intelligence Model Could Speed Rare Disease ..., accessed December 21, 2025, https://hms.harvard.edu/news/new-artificial-intelligence-model-could-speed-rare-disease-diagnosis
16.Proteome-wide model for human disease genetics - medRxiv, accessed December 21, 2025, https://www.medrxiv.org/content/10.1101/2023.11.27.23299062v2.full.pdf
17.Single-cell foundation models: bringing artificial intelligence into cell biology - PMC - NIH, accessed December 21, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC12586647/
18.Google DeepMind's C2S-Scale 27B: Teaching AI the Language of Cells to Crack Cancer's Code | by Sai Dheeraj Gummadi | Data Science in Your Pocket - Medium, accessed December 21, 2025, https://medium.com/data-science-in-your-pocket/google-deepminds-c2s-scale-27b-teaching-ai-the-language-of-cells-to-crack-cancer-s-code-6209c30b5520
19.Google's Gemma AI model helps discover new potential cancer ..., accessed December 21, 2025, https://blog.google/technology/ai/google-gemma-ai-cancer-therapy-discovery/
20.Scaling Large Language Models for Next-Generation Single-Cell Analysis - bioRxiv, accessed December 21, 2025, https://www.biorxiv.org/content/10.1101/2025.04.14.648850v2
21.Single Cell Foundation Models Evaluation (scFME) for In-Silico Perturbation - bioRxiv, accessed December 21, 2025, https://www.biorxiv.org/content/10.1101/2025.09.22.677811v1.full.pdf
22.Biology-driven insights into the power of single-cell foundation models - PMC - NIH, accessed December 21, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC12492631/
23.Foundation Model: A New Era for Plant Single-cell Genomics - PMC - PubMed Central, accessed December 21, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC12380448/
24.Bioptimus Unveils M-Optimus, a World Model for Biology - PR Newswire, accessed December 21, 2025, https://www.prnewswire.com/news-releases/bioptimus-unveils-m-optimus-a-world-model-for-biology-302644092.html
25.MIT partners with Bioptimus for Clinical Cancer Prediction Study, accessed December 21, 2025, https://www.bioptimus.com/case-studies/mit-partners-with-bioptimus-for-clinical-cancer-prediction-study
26.GRAM-DTI: Adaptive Multimodal Representation Learning for Drug–Target Interaction Prediction - arXiv, accessed December 21, 2025, https://arxiv.org/html/2509.21971v2
27.Pathology Models Evolve: Task-Specific to Foundation | Mirage News, accessed December 21, 2025, https://www.miragenews.com/pathology-models-evolve-task-specific-to-1566309/
28.Defining and benchmarking open problems in single-cell analysis - ResearchGate, accessed December 21, 2025, https://www.researchgate.net/publication/393314293_Defining_and_benchmarking_open_problems_in_single-cell_analysis
29.2025 AI in Drug Discovery: Predictions - BioLizard, accessed December 21, 2025, https://lizard.bio/knowledge-hub/2025-ai-in-drug-discovery-predictions
30.Leading artificial intelligence-driven drug discovery platforms: 2025 landscape and global outlook - Larvol Delta, accessed December 21, 2025, https://delta.larvol.com/NewsItem/NewsItemID/2d1d19f3-9c62-4dae-aa70-fbfabe724d12/Leading+artificial+intelligence-driven+drug+discovery+platforms%203a+2025+landscape+and+global+outlook.
作者 | Wayne、若水
排版 | 若水
图片 | 文献
— End —
关注 启氪医学
聚焦生信领域 深挖组学数据宝藏