摘要
人工智能(Artificial Intelligence, AI)技术正以前所未有的速度重塑全球生物医药新药研发的格局。从靶点发现、先导化合物筛选、分子设计与优化、ADMET预测、临床试验设计到药物重定位,AI技术已渗透至药物研发的全链条环节。深度学习、生成式模型、大语言模型(LLMs)、图神经网络(GNNs)、强化学习以及基于扩散模型的分子生成等前沿技术,正在显著缩短研发周期、降低研发成本、提高候选药物的成功率。近年来,AlphaFold系列在蛋白质结构预测领域的突破、生成式AI在全新分子设计中的广泛应用、基础模型(Foundation Models)在生物医学数据整合中的崛起,以及多模态AI在临床转化中的快速发展,标志着AI驱动的新药研发进入了一个全新的范式时代。本综述系统梳理了AI赋能新药研发的关键技术工具与最新进展,涵盖靶点识别与验证、分子生成与优化、蛋白质结构预测与设计、药物-靶标相互作用预测、ADMET性质预测、药物重定位、临床试验优化等核心环节,并深入分析了大语言模型、多模态学习、自监督学习等新兴技术范式对药物研发的赋能机制。最后,本文展望了AI在新药研发领域面临的挑战与未来发展趋势,为制药行业的数字化转型与智能化升级提供参考。
关键词:人工智能;新药研发;深度学习;生成式AI;AlphaFold;大语言模型;药物设计;临床试验;药物重定位目录引言AI赋能新药研发的技术框架与核心方法靶点发现与验证中的AI新工具AI驱动的分子生成与先导化合物优化蛋白质结构预测与蛋白质设计药物-靶标相互作用预测ADMET性质预测与毒理学评估AI驱动的药物重定位AI在临床试验中的应用大语言模型与基础模型在药物研发中的新范式多模态AI与数据整合AI制药的产业生态与典型案例挑战与瓶颈未来趋势展望结语参考文献
1. 引言
新药研发是人类对抗疾病的核心手段,然而传统药物研发面临着"双十困境"——平均耗时超过10年、投入超过10亿美元,且临床试验成功率不足10%[1,2]。近年来,尽管生命科学领域的知识积累呈指数级增长,但药物研发效率的提升却远未跟上,这一矛盾被Eroom定律(Moore定律的逆向)所刻画:自1950年代以来,单位研发投入所获批的新药数量呈持续下降趋势[3]。面对日益增长的未满足临床需求和持续攀升的研发成本,制药行业亟需范式性的创新突破。
人工智能技术的飞速发展为打破这一困局提供了历史性机遇。AI技术的核心优势在于其强大的模式识别能力、高维数据处理能力和自动化推理能力,能够从海量的生物医学数据中提取隐含规律,加速假设生成与验证。自2012年深度学习在图像识别领域取得突破性成果以来,AI技术在生物医药领域的应用经历了从萌芽、探索到加速渗透的发展历程[4]。
回顾AI制药的发展历程,可以大致分为以下几个阶段:
第一阶段(2012-2017年):探索与验证期。深度学习技术开始被引入分子属性预测、虚拟筛选等传统计算化学领域。2012年,Merck资助的分子活性预测竞赛中,深度神经网络首次展现出超越传统机器学习方法的优势[5]。随后,图神经网络(GNN)、循环神经网络(RNN)等架构被陆续应用于分子表征学习。
第二阶段(2018-2020年):快速发展期。生成式模型(VAE、GAN等)被广泛应用于全新分子设计,AI制药初创企业如雨后春笋般涌现。2018年,Insilico Medicine利用生成对抗网络设计新分子的工作引起广泛关注[6]。2020年,AlphaFold2在CASP14竞赛中以压倒性优势解决了蛋白质结构预测这一长达50年的科学难题,被《Science》评为年度十大突破之首[7]。
第三阶段(2021-2023年):加速转化期。AI制药开始从概念验证走向临床转化。Insilico Medicine的抗纤维化候选药物INS018_055成为全球首个由AI发现靶点并设计分子的药物进入II期临床试验[8]。Recursion、Exscientia、AbCellera等公司的多条AI驱动管线陆续进入临床阶段。与此同时,大语言模型(ChatGPT、GPT-4等)的横空出世引发了AI技术在生物医学文本挖掘、分子设计等领域的新一轮革命。
第四阶段(2024年至今):范式重塑期。AlphaFold3的发布进一步扩展了AI在蛋白质-配体、蛋白质-核酸等多分子复合物结构预测中的能力[9]。生成式AI技术日趋成熟,基于扩散模型(Diffusion Models)的分子生成和蛋白质设计成为研究热点。基础模型(Foundation Models)的理念被引入生物医学领域,旨在构建统一的、可迁移的大规模预训练模型,实现跨任务、跨模态的通用智能。
当前,全球制药行业正处于从传统研发范式向AI驱动的智能研发范式转型的关键节点。据波士顿咨询集团(BCG)估算,AI技术有望将新药研发周期缩短2-4年,降低研发成本25%-50%[10]。麦肯锡的报告指出,到2028年,AI在制药领域创造的价值可能达到每年数百亿美元。截至2025年初,全球已有超过100条AI参与发现或设计的候选药物进入临床试验阶段,涵盖肿瘤、免疫、神经、代谢等多个治疗领域。
本综述旨在为药企研发决策者和科研人员提供一份全面、系统的技术图景,涵盖AI赋能新药研发全链条的最新工具与进展,并从产业视角深入分析未来发展趋势和战略布局方向。2. AI赋能新药研发的技术框架与核心方法2.1 总体技术框架
AI赋能新药研发可以从数据层、方法层、应用层三个维度进行体系化构建。
数据层是AI制药的基石。药物研发涉及的数据类型极为多样,包括基因组学数据(全基因组测序、转录组、表观遗传组)、蛋白质组学数据(蛋白质结构、蛋白质互作网络)、化学数据(小分子结构、活性数据、ADMET数据)、临床数据(电子健康档案、临床试验数据)、文献数据(PubMed、专利文献)以及高通量表型筛选数据(细胞影像、高内涵筛选)等。关键公共数据库包括ChEMBL、PubChem、UniProt、PDB、TCGA、GEO、ClinicalTrials.gov等,企业内部的专有数据集则往往具有更高的数据质量和标注深度。
方法层涵盖了AI制药中使用的核心算法和模型架构。根据学习范式的不同,可分为:监督学习:用于分子属性预测(活性、毒性、溶解度等)、蛋白质功能预测等有标注数据的任务;无监督/自监督学习:用于分子表征学习、蛋白质语言模型预训练等无需大量标注数据的场景;生成式模型:用于全新分子设计、蛋白质序列/结构生成,包括变分自编码器(VAE)、生成对抗网络(GAN)、自回归模型、流模型(Flow-based Models)、扩散模型(Diffusion Models)等;强化学习:用于分子优化、合成路线规划、临床试验方案优化等序贯决策问题;图神经网络(GNN):针对分子图结构和生物网络的专用架构,已成为分子建模的主流方法;Transformer及大语言模型:基于自注意力机制的架构在序列建模中展现出强大能力,被广泛应用于蛋白质语言模型、化学语言模型和多模态融合。
应用层覆盖新药研发的各个阶段,包括靶点发现与验证、虚拟筛选与先导化合物发现、分子生成与优化、ADMET预测、制剂优化、临床试验设计与患者分层等。2.2 核心深度学习架构2.2.1 图神经网络(GNN)
分子天然地可以表示为图结构,其中原子为节点、化学键为边。图神经网络通过消息传递机制在分子图上进行信息聚合,能够有效捕获分子的拓扑结构和化学环境信息[11]。经典的GNN变体包括图卷积网络(GCN)、图注意力网络(GAT)、消息传递神经网络(MPNN)等。Gilmer等人在2017年提出的MPNN框架奠定了GNN在分子建模领域的基础[12]。近年来,等变图神经网络(Equivariant GNN)进一步引入了三维空间坐标信息,能够处理分子的三维几何结构,在构象生成、结合亲和力预测等任务中取得了显著提升。代表性工作包括SchNet、DimeNet、SphereNet、PaiNN、GemNet等[13]。2.2.2 Transformer与注意力机制
Transformer架构凭借其强大的长程依赖建模能力和并行计算效率,已从自然语言处理领域扩展到生物医药的多个子领域。在蛋白质序列建模中,ESM系列模型(Evolutionary Scale Modeling)采用BERT式的掩码语言模型(MLM)预训练策略,在超过2.5亿条蛋白质序列上进行训练,学习到了丰富的蛋白质进化和结构信息[14]。在化学领域,SMILES-based Transformer模型被广泛用于分子生成、化学反应预测和逆合成分析[15]。2.2.3 扩散模型(Diffusion Models)
扩散模型是近两年最受关注的生成式模型架构之一。其核心思想是通过正向扩散过程逐步向数据添加噪声,再通过逆向去噪过程从噪声中恢复数据[16]。在分子生成领域,扩散模型已被成功应用于三维分子构象生成(如GeoDiff、Torsional Diffusion)、基于蛋白质口袋的分子生成(如DiffSBDD、TargetDiff)、蛋白质结构生成(如RFdiffusion)等多个方向[17,18]。与VAE和GAN相比,扩散模型在生成分子的多样性和质量方面展现出明显优势。2.2.4 强化学习
强化学习通过智能体与环境的交互来学习最优策略,特别适合于分子优化这类需要在化学空间中进行搜索和决策的问题。经典应用包括利用强化学习优化分子的特定属性(如结合亲和力、溶解度、合成可行性等),常见的实现方式包括基于SMILES的策略梯度方法、基于分子图的Actor-Critic方法等[19]。REINVENT是该领域最具影响力的开源工具之一,由AstraZeneca开发,已被多家制药企业采用[20]。2.3 分子表征方法
分子表征是AI药物设计的基础问题。如何将化学分子转化为机器可处理的数值表示,直接影响下游模型的性能。主流的分子表征方法包括:基于字符串的表征:SMILES(Simplified Molecular Input Line Entry System)是最广泛使用的分子线性表示,SELFIES(SELF-referencing Embedded Strings)则提供了100%化学有效性保证[21];基于分子指纹的表征:Morgan指纹(ECFP)、MACCS键等传统方法仍在虚拟筛选中广泛使用;基于图的表征:将分子表示为图结构,通过GNN学习节点和图级别的表征;基于三维结构的表征:利用分子的三维坐标信息,通过等变网络或体素化方法进行编码;基于预训练模型的表征:通过大规模自监督预训练获得通用的分子嵌入向量,如MolBERT、ChemBERTa、Uni-Mol等[22]。3. 靶点发现与验证中的AI新工具3.1 基于多组学数据整合的靶点发现
靶点发现是新药研发的起点,错误的靶点选择是导致临床试验失败的首要原因,尤其是在II期和III期临床中,约50%的失败归因于靶点选择不当或对疾病机制的理解不足[23]。传统的靶点发现依赖于分子生物学实验和临床观察,周期漫长且具有高度不确定性。AI技术的引入为靶点发现提供了系统性、数据驱动的新路径。
基因组学与转录组学数据是AI靶点发现的核心数据来源。全基因组关联研究(GWAS)已积累了数以万计的疾病相关遗传变异位点,但从统计关联到因果靶点的转化仍面临巨大挑战。深度学习模型可以整合GWAS数据、表达数量性状位点(eQTL)数据、染色质可及性数据和三维基因组数据,预测调控元件与靶基因之间的因果关联。Open Targets平台是该领域最具影响力的公共资源之一,整合了遗传学、基因组学、转录组学、药物信息等多维数据,利用机器学习方法对靶点-疾病关联进行系统评分[24]。
网络生物学方法结合AI技术在靶点发现中发挥着重要作用。蛋白质-蛋白质相互作用(PPI)网络、基因调控网络、代谢网络和信号通路网络为理解疾病机制提供了系统视角。图神经网络和网络传播算法可以在这些生物网络上进行疾病基因预测和药物靶点优先级排序。Barabási等人提出的"网络医学"框架为基于网络的靶点发现提供了理论基础[25]。3.2 基于知识图谱的靶点识别
知识图谱(Knowledge Graph, KG)是整合异构生物医学数据的强大框架,将基因、蛋白质、疾病、药物、通路、表型等实体及其关系组织为结构化的图数据库。近年来,多个大规模生物医学知识图谱被构建,包括Hetionet、DRKG(Drug Repurposing Knowledge Graph)、BioKG、PrimeKG等[26]。
基于知识图谱的靶点发现通常采用知识图谱嵌入(KG Embedding)技术,如TransE、RotatE、ComplEx等方法,将实体和关系映射到低维向量空间,然后通过链接预测来发现潜在的靶点-疾病关联。Google DeepMind与多家学术机构合作开发的知识图谱推理系统已在靶点发现中展现出应用潜力。此外,结合图神经网络的知识图谱推理方法(如R-GCN、CompGCN)能够更好地捕获多跳关系模式,提高预测准确性。3.3 单细胞组学与空间组学中的AI应用
单细胞RNA测序(scRNA-seq)技术的发展为靶点发现提供了前所未有的细胞分辨率视角。AI技术在单细胞数据分析中的应用包括细胞类型注释、轨迹推断、基因调控网络推断、细胞间通讯分析等。scBERT和scGPT等基于Transformer架构的单细胞基础模型通过大规模预训练,学习了跨组织、跨物种的通用细胞表征,为靶点发现提供了新的工具[27]。
空间转录组学(如10x Visium、MERFISH、Slide-seq等)进一步增加了组织空间维度的信息。深度学习方法可以整合单细胞和空间转录组数据,实现细胞类型的空间反卷积和细胞-微环境互作分析。这些技术在肿瘤微环境分析、神经退行性疾病的细胞异质性研究中展现出独特价值,有助于识别疾病特异性细胞亚群和相关靶点。3.4 基于因果推断的靶点验证
靶点验证是从关联到因果的关键转化步骤。孟德尔随机化(Mendelian Randomization, MR)利用遗传变异作为工具变量来推断暴露与结局之间的因果关系,已成为靶点验证的重要方法[28]。AI技术可以优化MR分析中的工具变量选择、应对多效性偏倚,并结合多组学数据进行系统的因果推断。
CRISPR筛选数据与AI的结合是靶点验证的另一个前沿方向。全基因组CRISPR敲除/干扰/激活筛选能够系统评估每个基因对特定表型的贡献。深度学习模型可以从CRISPR筛选数据中学习基因依赖性模式,预测在特定遗传背景和组织类型下的关键靶点。DepMap项目积累的大规模CRISPR筛选数据为此类分析提供了丰富的资源[29]。4. AI驱动的分子生成与先导化合物优化4.1 全新分子设计(De Novo Molecular Design)
全新分子设计是AI制药中最具创新性的应用方向之一,其目标是直接从头生成具有期望药理活性和药物样性质的新化学实体,而非依赖于已有的化合物库。过去几年,这一领域取得了突飞猛进的发展[30]。4.1.1 基于VAE的分子生成
变分自编码器(VAE)是最早被应用于分子生成的深度生成模型之一。Gómez-Bombarelli等人2018年发表在ACS Central Science上的工作首次展示了基于SMILES的分子VAE在连续潜在空间中进行分子设计和优化的能力[31]。后续工作如Junction Tree VAE(JT-VAE)通过引入分子子结构的树分解表示,显著提高了生成分子的化学有效性。4.1.2 基于GAN的分子生成
生成对抗网络(GAN)通过生成器和判别器的博弈训练,能够生成高质量的分子。ORGAN(Objective-Reinforced Generative Adversarial Network)结合了强化学习的奖励机制,可以同时优化分子的多个属性。MolGAN则将GAN与图神经网络结合,直接在分子图空间中进行生成[32]。4.1.3 基于自回归模型的分子生成
自回归模型按照一定的顺序逐步构建分子,包括基于SMILES的字符级生成和基于分子图的节点/边逐步添加。Segler等人提出的基于RNN的SMILES生成器是该方向的开创性工作,通过transfer learning和reinforcement learning的组合策略,可以生成针对特定靶点的活性分子[33]。4.1.4 基于扩散模型的三维分子生成
扩散模型是当前分子生成领域的最新和最具潜力的技术方向。与早期基于一维SMILES或二维分子图的方法不同,基于扩散模型的方法可以直接在三维空间中生成分子构象。
TargetDiff由Guan等人于2023年提出,是基于蛋白质三维口袋的条件扩散模型,能够生成与靶蛋白结合口袋形状和化学环境互补的三维分子[17]。该方法通过等变扩散过程在蛋白质口袋的上下文中生成原子的坐标和类型,展现出比传统对接方法更强的生成能力。
DiffSBDD(Diffusion-based Structure-Based Drug Design)进一步改进了条件扩散框架,引入了更精细的蛋白质-配体交互建模[34]。Pocket2Mol则采用了自回归-扩散混合策略,先生成分子的化学图拓扑,再通过扩散过程确定三维构象[35]。
DecompDiff提出了基于分子片段分解的扩散生成策略,将分子分解为药效基团和连接片段,分别进行生成,有效提高了生成分子的合成可行性和化学合理性。4.1.5 基于Flow Matching的分子生成
Flow Matching是另一类新兴的生成式模型范式,通过学习连续的向量场将简单分布变换为目标数据分布。与扩散模型相比,Flow Matching具有更灵活的采样路径和更高的训练效率。Equivariant Flow Matching(EFM)已被成功应用于分子构象生成和蛋白质结构生成,在保持等变性的同时实现高质量的三维结构生成。4.2 分子优化与多目标优化
先导化合物优化是将初始活性分子转化为临床候选药物的关键步骤。在实际药物研发中,候选分子需要同时满足活性、选择性、ADMET性质、合成可行性、知识产权空间等多个约束条件,这构成了一个复杂的多目标优化问题。
REINVENT是AstraZeneca开发的开源分子生成与优化平台,采用基于RNN的分子生成器结合强化学习的multi-parameter optimization(MPO)框架,已在多个真实药物研发项目中得到验证[20]。该平台支持目标导向的分子生成、scaffold decoration、link design等多种设计模式。
遗传算法(Genetic Algorithm)结合深度学习的方法也在分子优化中展现出竞争力。Graph-based Genetic Algorithm(Graph GA)通过在分子图上进行crossover和mutation操作,在Guacamol基准测试中取得了优异成绩。
贝叶斯优化(Bayesian Optimization, BO)是处理高成本实验优化问题的经典方法,通过构建代理模型(surrogate model)和获取函数(acquisition function)来指导实验设计。在药物研发中,BO可以有效平衡探索与利用(exploration vs. exploitation),在有限的实验预算下快速找到最优分子[36]。4.3 合成可行性与逆合成规划
分子的合成可行性是评价AI生成分子实用价值的关键因素。如果AI设计的分子无法通过合理的化学路径合成,则其实际价值将大打折扣。
AI驱动的逆合成分析(Retrosynthetic Analysis)近年来取得了显著进展。Segler等人2018年发表在Nature上的工作首次展示了基于蒙特卡洛树搜索(MCTS)和深度学习的自动化逆合成规划系统,其规划质量可与有经验的有机化学家相媲美[37]。随后,多个逆合成工具被开发,包括AiZynthFinder(AstraZeneca)、ASKCOS(MIT)、IBM RXN等。
Transformer模型在化学反应预测和逆合成分析中也展现出优势。Molecular Transformer将化学反应建模为SMILES到SMILES的序列翻译问题,在反应产物预测和逆合成模板生成中取得了state-of-the-art的性能[15]。4.4 代表性案例与工业验证
Insilico Medicine的成功案例是AI分子生成走向临床的标志性事件。2019年,该公司利用其GENTRL(Generative Tensorial Reinforcement Learning)平台在21天内生成了针对DDR1激酶的先导化合物,并在46天内完成了动物实验验证[6]。其后续管线中,ISM001-055(现命名为INS018_055)成为全球首个AI发现靶点并设计分子的候选药物进入II期临床试验[8]。
Exscientia在2024年完成了多条AI设计管线的临床推进。其利用Centaur Chemist™平台设计的多个候选药物展示了AI在真实研发环境中的能力,包括针对肿瘤和免疫疾病的多个临床阶段管线。5. 蛋白质结构预测与蛋白质设计5.1 AlphaFold革命
蛋白质结构预测是结构生物学和计算生物学领域最核心的问题之一。2020年,DeepMind的AlphaFold2在CASP14竞赛中以中位GDT-TS得分达到92.4的惊人成绩解决了这一长达50年的科学挑战[7]。其核心创新包括:Evoformer模块:通过多序列比对(MSA)和配对表示(pair representation)之间的信息交互,有效整合了进化信息和残基间的空间关系;Structure Module:利用等变注意力机制直接预测蛋白质的三维坐标,而非传统的距离矩阵;迭代优化(Recycling):通过多轮预测迭代提高精度。
2021年,AlphaFold2的代码和模型被开源,并随后预测了覆盖99%已知蛋白质序列的超过2亿个蛋白质结构,构建了AlphaFold Protein Structure Database,这一举措被认为对结构生物学产生了变革性影响[38]。
2024年,AlphaFold3进一步将预测能力扩展到蛋白质-配体、蛋白质-核酸、蛋白质-离子等多分子复合物[9]。AlphaFold3采用了基于扩散的结构生成模块替代了AlphaFold2中的Structure Module,能够更好地处理多组分复合物的空间排列。这一突破对于基于结构的药物设计(SBDD)具有重大意义,因为准确的蛋白质-配体复合物结构是进行分子对接和结构优化的基础。5.2 蛋白质语言模型
蛋白质语言模型(Protein Language Models, pLMs)借鉴了自然语言处理中的预训练范式,将蛋白质序列视为由20种氨基酸组成的"自然语言",在大规模蛋白质序列数据库上进行自监督预训练。
ESM-2(Evolutionary Scale Modeling 2)是由Meta AI开发的大规模蛋白质语言模型,参数量从800万到150亿不等[14]。ESM-2及其衍生模型ESMFold能够仅从单条蛋白质序列(无需MSA)预测蛋白质三维结构,推理速度比AlphaFold2快60倍,为大规模结构预测提供了高效工具。
ProtTrans系列模型(ProtBERT、ProtT5等)同样在蛋白质序列上进行了大规模预训练,在蛋白质功能注释、亚细胞定位预测、二级结构预测等任务中展现出优异性能[39]。
ProGen系列是专注于蛋白质序列生成的自回归语言模型。ProGen2在超过10亿条蛋白质序列上训练,能够生成具有特定功能的蛋白质序列[40]。实验验证表明,ProGen生成的人工蛋白质中有相当比例展现出与天然蛋白质相当的功能活性。5.3 AI驱动的蛋白质设计
蛋白质设计是蛋白质结构预测的逆问题,其目标是设计能够折叠成目标结构或具有特定功能的蛋白质序列。AI技术在这一领域的进展引起了广泛关注。
RFdiffusion是由David Baker实验室开发的基于扩散模型的蛋白质设计工具,能够从随机噪声中生成蛋白质骨架结构[18]。RFdiffusion基于RoseTTAFold的网络架构,通过在蛋白质结构空间中进行去噪扩散生成,可以设计全新折叠拓扑、蛋白质-蛋白质界面、功能性结合位点等。其与ProteinMPNN(蛋白质序列设计工具)的结合,构成了一个完整的"结构生成→序列设计"流程。
ProteinMPNN利用图神经网络在蛋白质骨架结构的约束下预测最优氨基酸序列,其设计成功率远超传统的Rosetta方法[41]。实验验证表明,ProteinMPNN设计的序列有较高概率折叠成目标结构。
Chroma是Generate Biomedicines开发的蛋白质生成式AI模型,同样基于扩散框架,支持基于各种条件约束(对称性、形状、功能等)的蛋白质设计。
这些AI蛋白质设计工具在药物研发中具有广泛的应用前景,包括:抗体和纳米抗体的从头设计酶催化剂的设计与优化蛋白质药物(如细胞因子、受体诱饵等)的工程化改造药物递送载体(如蛋白笼)的设计5.4 抗体设计中的AI应用
抗体药物是当前生物制药最重要的品类之一,全球销售额最高的药物中有多款为抗体类药物。AI在抗体设计中的应用是当前的热点方向。
传统抗体开发依赖于动物免疫或噬菌体展示等实验方法,周期长、通量有限。AI技术可以从多个层面加速抗体开发:抗体序列生成:利用语言模型(如IgLM、AbLang等)和生成式模型直接设计CDR环区域或完整可变区序列[42];抗体结构预测:IgFold、ABlooper等专门针对抗体结构预测的模型,结合了抗体特有的序列和结构先验知识;抗体-抗原对接:AlphaFold-Multimer、HADDOCK等工具可以预测抗体-抗原复合物结构;抗体人源化:AI模型可以预测和优化抗体的人源化改造,降低免疫原性;抗体可开发性预测:利用机器学习预测抗体的热稳定性、聚集倾向、表达量等制造相关属性。
AbCellera、Absci、BigHat Biosciences等公司在AI抗体设计领域处于领先地位。2024年,Absci报告了利用其AI平台从头设计并实验验证了针对HER2和PD-L1等靶点的全新抗体的成果。6. 药物-靶标相互作用预测6.1 虚拟筛选
虚拟筛选是利用计算方法从大量化合物中筛选出可能与靶蛋白结合的候选分子,是药物发现中的核心环节。AI技术已显著提升了虚拟筛选的效率和准确性。
基于结构的虚拟筛选(SBVS)依赖于靶蛋白的三维结构信息。传统的分子对接方法(如AutoDock、Glide等)虽然广泛使用,但打分函数的准确性一直是其主要瓶颈。深度学习基于的打分函数,如OnionNet、KDEEP、Pafnucy等,通过学习蛋白质-配体复合物的三维特征来预测结合亲和力[43]。
近年来,基于等变图神经网络的结合亲和力预测模型取得了重要进展。E(3)-equivariant模型能够在尊重三维空间旋转和平移对称性的同时,直接从原子坐标学习蛋白质-配体相互作用模式。
超大规模虚拟筛选是AI赋能药物发现的重要应用。随着虚拟化合物库的规模急剧扩大(如Enamine REAL库包含超过60亿化合物),传统的逐一对接方法已不可行。深度学习代理模型(surrogate model)可以在极短时间内预筛选数十亿化合物,将计算成本降低数个数量级。2023年发表在Nature上的工作展示了利用深度学习在数十亿化合物中发现新型抗菌化合物的案例[44]。6.2 基于深度学习的药物-靶标相互作用预测
药物-靶标相互作用(Drug-Target Interaction, DTI)预测旨在预测小分子化合物与蛋白质靶标之间的结合概率或结合亲和力。这是一个典型的生物信息学问题,AI方法在其中取得了显著进展。
经典的深度学习DTI预测方法包括:DeepDTA:使用CNN分别编码药物SMILES和蛋白质序列,然后通过全连接网络预测结合亲和力[45];GraphDTA:引入图神经网络编码分子结构,结合CNN编码蛋白质序列;TransformerCPI:利用Transformer架构建模药物-蛋白质的交叉注意力;DrugBAN:采用双线性注意力网络(Bilinear Attention Network)捕获药物子结构与蛋白质子序列之间的局部相互作用。
近年来,预训练表征在DTI预测中展现出显著优势。利用大规模预训练的分子表征(如Uni-Mol的分子嵌入)和蛋白质表征(如ESM-2的蛋白质嵌入)可以大幅提升DTI预测的泛化能力,尤其是在cold-start(新靶点或新化合物)场景下[22]。6.3 分子对接的深度学习方法
传统分子对接方法的核心是搜索算法和打分函数的组合,但计算耗时较长且打分精度有限。近年来,基于深度学习的分子对接方法开辟了新的技术路线。
EquiBind是首个基于等变神经网络的"盲"对接方法,能够在不预先指定结合口袋的情况下直接预测配体的结合位姿[46]。DiffDock则将分子对接建模为扩散过程,在配体的平移、旋转和扭转自由度上进行生成式采样,在多个基准数据集上取得了优于传统对接方法的性能[47]。
DiffDock的核心创新在于将对接问题从回归问题转变为生成问题,通过在SE(3)群上定义扩散过程,可以生成多个对接构象并评估其置信度。这一方法不仅提高了预测精度,还能提供结合模式的不确定性估计。
Uni-Dock是由深势科技(DP Technology)开发的GPU加速分子对接引擎,通过将AutoDock Vina的核心算法移植到GPU上实现了100-1000倍的加速,能够在极短时间内完成大规模虚拟筛选。7. ADMET性质预测与毒理学评估7.1 ADMET预测的重要性与挑战
ADMET(吸收Absorption、分布Distribution、代谢Metabolism、排泄Excretion、毒性Toxicity)性质是决定药物成败的关键因素。统计数据显示,约40%的临床候选药物因ADMET性质不佳而失败。传统的ADMET评估主要依赖体外实验和动物实验,成本高、通量低、周期长。AI预测模型可以在分子设计的早期阶段快速评估ADMET性质,实现"设计即优化"的理念[48]。7.2 ADMET预测的AI模型与工具
ADMET预测是AI药物设计中相对成熟的应用领域,多个公开基准数据集和预测工具已被开发。
Therapeutics Data Commons(TDC)是哈佛大学开发的AI药物研发基准平台,提供了标准化的ADMET预测基准数据集和评估方法,涵盖67个预测任务[49]。
主流的ADMET预测工具包括:ADMETlab 2.0/3.0:由中国中南大学开发的在线ADMET预测平台,集成了多个深度学习模型,覆盖超过80个ADMET终点[50];SwissADME:瑞士生物信息学研究所开发的免费在线工具;pkCSM:基于图签名方法的ADMET预测工具;ADMET-AI:基于Chemprop图神经网络框架的最新ADMET预测模型,利用大规模多任务学习策略显著提升了预测精度。
近年来,基于预训练分子表征的ADMET预测方法取得了重要突破。Uni-Mol通过在大规模三维分子构象数据上进行自监督预训练,学习到了包含空间信息的分子嵌入,在ADMET预测任务中展现出优于传统2D方法的性能[22]。MoleculeNet仍然是ADMET预测领域最广泛使用的基准数据集集合。7.3 毒性预测与安全性评估
药物毒性预测是ADMET中最具挑战性的环节之一,因为毒性机制复杂多样,且可用的标注数据相对有限。AI技术在以下毒性终点的预测中取得了进展:肝毒性(DILI)预测:药物性肝损伤是导致药物撤市的首要原因。深度学习模型结合分子描述符和结构特征可以预测DILI风险;心脏毒性(hERG通道抑制)预测:hERG钾通道抑制是导致药物QT间期延长和致命性心律失常的主要原因。多个深度学习模型已被开发用于hERG抑制预测;遗传毒性预测:Ames试验结果预测是评估化合物致突变性的标准方法;生殖毒性和致癌性预测:这些长期毒性终点的预测由于数据稀缺而尤为困难,迁移学习和少样本学习方法在此类场景中展现出应用潜力。
Tox21和ToxCast数据集提供了大量高通量毒性筛选数据,为AI毒性预测模型的训练和验证提供了基础。7.4 药物代谢预测
细胞色素P450(CYP450)酶系统是药物代谢的主要途径,预测化合物与CYP450酶的相互作用(底物、抑制剂、诱导剂)对于评估药物代谢和药物间相互作用至关重要。
深度学习模型已在CYP450底物/抑制剂分类、代谢位点(site of metabolism, SoM)预测等任务中取得了良好性能。GLORY和SyGMa等工具可以预测药物的代谢产物,结合AI方法可以实现更精准的代谢途径预测。8. AI驱动的药物重定位8.1 药物重定位的AI策略
药物重定位(Drug Repurposing/Repositioning)是将已批准或在研的药物应用于新适应症的策略,由于已有安全性数据和制造工艺,可以显著缩短研发周期和降低风险。AI技术为药物重定位提供了系统化的计算方法[51]。
AI驱动的药物重定位策略主要包括:
基于网络的方法:利用药物-靶标-疾病网络中的拓扑信息进行链接预测。网络传播算法(如Random Walk with Restart)和图神经网络可以在异构生物医学网络中发现潜在的药物-疾病关联。
基于知识图谱的方法:利用大规模生物医学知识图谱进行推理。COVID-19疫情期间,多项基于知识图谱的药物重定位研究被快速开展。DRKG(Drug Repurposing Knowledge Graph)整合了来自多个数据库的生物医学知识,利用KG嵌入方法预测潜在的治疗药物[26]。
基于转录组学特征的方法:Connectivity Map(CMap)和LINCS L1000项目积累了大量药物处理后的基因表达谱数据。通过计算疾病基因表达特征与药物处理后基因表达特征的反向相关性,可以识别能够逆转疾病状态的候选药物。深度学习方法可以提升这一过程中的特征提取和匹配精度。
基于多模态数据融合的方法:整合化学结构、基因组学、蛋白质组学、临床表型等多维数据的AI模型在药物重定位中展现出更强的预测能力。8.2 COVID-19疫情中的AI药物重定位
COVID-19疫情是AI药物重定位技术大规模应用的催化剂。在疫情初期,多个AI研究团队迅速开展了针对SARS-CoV-2的药物重定位研究[52]。
BenevolentAI利用其知识图谱平台在2020年初快速识别了巴瑞替尼(baricitinib)作为COVID-19的潜在治疗药物,随后的临床试验验证了其有效性,巴瑞替尼最终获得了FDA的紧急使用授权,这成为AI药物重定位从计算预测到临床验证的标志性案例。8.3 药物重定位的验证与转化
从AI预测到临床验证的转化是药物重定位面临的关键挑战。计算预测的结果需要经过体外实验、动物模型和临床试验的层层验证。近年来,高通量表型筛选平台与AI预测的结合正在加速这一验证过程。Recursion Pharmaceuticals利用其高通量细胞影像平台结合AI分析,在大规模表型空间中系统地搜索药物重定位机会,已建立了多条临床管线。9. AI在临床试验中的应用9.1 临床试验的效率瓶颈
临床试验是新药研发中最耗时、最昂贵的环节,通常占据总研发时间的60-70%和总研发成本的50-60%。临床试验面临的主要效率瓶颈包括:患者招募困难(约80%的试验因招募问题而延期)、试验设计不优(端点选择、剂量方案等)、患者异质性导致的信号稀释、高脱落率等。AI技术正从多个维度改善临床试验的效率和成功率[53]。9.2 AI驱动的临床试验设计
自适应临床试验设计(Adaptive Clinical Trial Design)利用AI和贝叶斯统计方法,根据试验过程中积累的数据动态调整试验方案,包括样本量、剂量方案、受试者分组等。强化学习方法可以在模拟环境中优化自适应策略,提高试验的统计效能。
合成对照组(Synthetic Control Arms)利用历史临床试验数据和真实世界数据(RWD)构建虚拟对照组,减少对照组患者的招募需求。深度学习方法可以从历史数据中识别与当前试验最匹配的患者群体,构建更可靠的外部对照。
数字孪生(Digital Twins)技术在临床试验中的应用是一个前沿方向。通过为每位患者构建个性化的计算模型(数字孪生体),可以预测个体对治疗的响应,辅助剂量选择和方案优化。Unlearn.AI是该领域的代表性公司[54]。9.3 患者分层与精准招募
AI驱动的患者分层(Patient Stratification)可以识别最可能从特定治疗中获益的患者亚群,提高临床试验的成功率。基于多组学数据(基因组、转录组、蛋白质组、代谢组)和临床数据的深度学习模型可以发现新的生物标志物和患者分群。
自然语言处理(NLP)技术在患者招募中的应用主要体现在:自动解析临床试验入排标准、从电子健康档案(EHR)中匹配符合条件的患者、基于医学文献的试验设计辅助等。大语言模型(如GPT-4、Med-PaLM等)在理解和匹配复杂的临床试验入排标准方面展现出潜力[55]。9.4 临床终点预测与生物标志物发现
AI模型可以整合临床前数据和早期临床数据来预测后期临床终点,辅助Go/No-Go决策。例如,利用PK/PD模型结合深度学习来预测药物的剂量-效应关系,或利用影像AI从临床影像中提取预后相关的生物标志物。
AI驱动的生物标志物发现是精准医学和伴随诊断的关键支撑。深度学习在病理图像分析(如HE染色切片的肿瘤分型和预后预测)、放射影像分析(如CT/MRI的自动分割和特征提取)中取得了与或超越病理学家/放射科医生水平的性能。这些AI衍生的生物标志物可以作为临床试验的分层因子或替代终点。10. 大语言模型与基础模型在药物研发中的新范式10.1 大语言模型(LLMs)在生物医药中的应用
大语言模型的兴起是近两年AI领域最具标志性的事件,其在生物医药领域的应用正在快速扩展。10.1.1 通用LLMs在生物医学任务中的表现
GPT-4、Claude等通用大语言模型在生物医学问答、文献理解、假设生成等任务中展现出令人印象深刻的能力。研究表明,GPT-4在美国医师执照考试(USMLE)中的得分已超过通过线。在药物研发场景中,LLMs可以辅助:科学文献的自动化综述与信息提取靶点-疾病关联的知识挖掘化学反应条件的建议与优化临床试验方案的起草与审核专利分析与知识产权评估10.1.2 专用生物医学LLMs
多个面向生物医学领域的专用LLMs已被开发:Med-PaLM 2(Google):在多个医学问答基准上取得了接近或超越人类专家的性能[55];BioMedGPT:针对生物医学领域的多模态大语言模型;GeneGPT:利用NCBI API进行基因组学知识查询的增强型LLM;DrugGPT:针对药物设计和药理学问答的专用模型。10.1.3 化学/分子语言模型
将分子结构(如SMILES表示)视为"化学语言",利用语言模型范式进行分子建模,是一个极具创新性的方向。
Chemformer利用BART架构在大规模SMILES数据上进行预训练,在化学反应预测、分子性质预测等任务中取得了优异性能。MolGPT采用GPT架构进行自回归分子生成。ChatMol等模型尝试将自然语言指令与分子设计相结合,实现"用自然语言描述药物需求→AI自动生成候选分子"的交互范式。10.2 基础模型(Foundation Models)在生物医学中的崛起
基础模型是在大规模数据上进行预训练、可适配多种下游任务的通用模型,这一概念正在深刻影响生物医药AI的研究范式[56]。10.2.1 分子基础模型
Uni-Mol(深势科技)是分子基础模型的代表性工作,通过在大规模三维分子构象数据上进行自监督预训练(原子坐标去噪和原子类型预测),学习到了同时编码二维拓扑和三维空间信息的通用分子表征[22]。Uni-Mol在分子性质预测、蛋白质-配体结合位姿预测、构象生成等多个下游任务中均取得了state-of-the-art的性能。
GEM(Graphormer Enhanced Molecular model)和其他基于Transformer的分子预训练模型也在分子表征学习中展现出强大能力。10.2.2 蛋白质基础模型
ESM-2和ESMFold(Meta AI)、ProtTrans系列、AMPLIFY等蛋白质基础模型通过大规模自监督预训练,学习了蛋白质序列中蕴含的进化、结构和功能信息[14,39]。这些模型可以高效地迁移到蛋白质功能预测、突变效应预测、蛋白质设计等多种下游任务。10.2.3 细胞基础模型
scGPT是首个基于Transformer架构的单细胞基础模型,在大规模单细胞转录组数据上进行预训练,能够进行细胞类型注释、基因扰动预测、多批次整合等多种任务[27]。Geneformer同样采用Transformer架构,在约3000万个单细胞转录组上进行预训练,学习了基因调控网络的动态模式,可用于疾病建模和靶点发现。
这些细胞基础模型为药物研发中的靶点发现和药效评估提供了新的计算工具。例如,通过预测特定基因扰动(等效于药物靶向)对细胞状态的影响,可以在silico评估靶点干预的下游效应。10.2.4 多模态基础模型
多模态基础模型旨在整合分子、蛋白质、基因组、文本等多种数据模态,构建统一的表征空间。BioMedGPT、MolFM、DrugCLIP等工作尝试将分子结构、蛋白质序列和生物医学文本对齐到共享的嵌入空间中,实现跨模态的检索和推理。10.3 Agent系统在药物研发中的探索
AI Agent(智能体)系统是LLM技术的进一步延伸,通过赋予LLM使用工具、进行多步推理和与外部环境交互的能力,构建能够自主完成复杂任务的AI系统。
ChemCrow是利用LLM作为中枢,集成了多个化学工具(分子设计、性质预测、文献检索、实验规划等)的AI Agent系统[57]。Coscientist则更进一步,展示了AI Agent自主设计和执行化学实验的能力。
在药物研发场景中,AI Agent系统的潜在应用包括:自动化的靶点文献调研与竞争格局分析端到端的分子设计-预测-优化循环自动化实验设计与数据分析跨部门协作的智能研发助手11. 多模态AI与数据整合11.1 多模态学习在药物研发中的重要性
药物研发本质上是一个多模态数据问题。从分子层面的化学结构、蛋白质序列/结构,到细胞层面的基因表达谱、表型影像,再到个体层面的临床数据、影像数据,这些异构数据携带着互补的信息。多模态AI旨在有效整合这些异构数据源,构建更全面、更准确的预测模型[58]。11.2 分子-蛋白质多模态学习
药物-靶标相互作用的建模天然涉及分子和蛋白质两种模态。先进的DTI预测模型利用图神经网络编码分子的二维/三维结构,同时利用蛋白质语言模型编码蛋白质的序列/结构信息,再通过交叉注意力机制或对比学习将两种模态的表征融合。
DrugCLIP等方法借鉴了CLIP(Contrastive Language-Image Pre-training)的对比学习框架,在药物-蛋白质对上进行对比学习预训练,将分子和蛋白质对齐到统一的嵌入空间中。11.3 影像-组学多模态融合
在肿瘤学等领域,病理影像和分子组学数据的融合是精准诊疗的核心。多模态融合模型可以整合HE病理切片的深度学习特征和基因组/转录组数据,实现更准确的预后预测和治疗响应预测。
PORPOISE(Pathology-Omic Research Platform for Integrated Survival Estimation)等多模态预后模型已展示了影像-组学融合在癌症预后预测中的价值。11.4 文本-分子多模态学习
将生物医学文本与分子结构进行跨模态对齐是一个新兴方向。MoleculeSTM利用对比学习将分子图表征与PubChem中的分子文本描述对齐,实现了基于文本检索分子、基于文本编辑分子等新颖功能[59]。Text2Mol和MoMu等工作也在这一方向上进行了探索。
这一技术的潜在应用价值在于:研发人员可以用自然语言描述所需分子的属性(如"设计一个具有高选择性的CDK4抑制剂,具有良好的口服生物利用度和低肝毒性风险"),AI系统能够理解这些多维需求并生成满足条件的候选分子。11.5 高内涵筛选与AI影像分析
高内涵筛选(High-Content Screening, HCS)利用自动化显微镜获取药物处理后细胞的多通道荧光影像,结合计算机视觉技术提取丰富的表型特征。AI在HCS数据分析中的应用包括细胞分割、表型分类、作用机制(MoA)推断等。
Recursion Pharmaceuticals建立了全球最大的细胞影像数据集之一,利用深度学习从数百万张细胞影像中学习药物-表型关系,构建了独特的"phenomic map",用于靶点发现和药物重定位[60]。其RxRx数据集已被公开,成为AI药物发现研究的重要基准资源。
Cell Painting实验方案结合深度学习分析是当前表型药物发现的主流方法。Cell Painting使用六通道荧光染色标记细胞的不同组件(细胞核、内质网、线粒体、肌动蛋白等),通过深度学习提取数千维的表型特征向量,用于化合物聚类、MoA预测和毒性评估。12. AI制药的产业生态与典型案例12.1 全球AI制药产业格局
截至2025年初,全球AI制药生态系统已形成了包括AI原生药企、传统药企AI转型、技术平台公司、数据服务商在内的多元化格局。
AI原生药企(AI-native Biotech)是指以AI技术为核心驱动力的新兴生物制药公司。全球代表性公司包括:Insilico Medicine(英矽智能):自主开发了Pharma.AI平台(包括PandaOmics靶点发现、Chemistry42分子设计、InClinico临床预测),拥有多条AI驱动的临床管线,ISM001-055是全球首个AI全程参与的II期临床候选药物[8];Recursion Pharmaceuticals:基于高通量细胞影像和AI分析的表型药物发现平台,2024年与Roche/Genentech达成了高达120亿美元的战略合作;Exscientia:开发了Centaur Chemist™ AI设计平台,在AI驱动的精准药物设计方面处于领先地位;AbCellera:专注于AI驱动的抗体药物发现,其平台帮助开发了全球首款COVID-19抗体药物bamlanivimab;Generate Biomedicines:专注于AI蛋白质设计,开发了Chroma等生成式AI工具;Relay Therapeutics:利用AI驱动的动态结构分析平台进行精准药物设计。
传统大型药企的AI布局:辉瑞(Pfizer):在COVID-19疫苗和Paxlovid的开发中广泛应用AI技术,建立了内部AI研发团队;罗氏(Roche)/基因泰克(Genentech):与Recursion达成大规模合作,内部建立了深厚的计算生物学能力;诺华(Novartis):在AI制药方面投入大量资源,与Microsoft建立了合作,开发了多个内部AI平台;阿斯利康(AstraZeneca):开发了REINVENT等开源AI工具,在AI驱动的分子优化方面处于行业前列[20];赛诺菲(Sanofi):与Exscientia等AI公司建立了多项战略合作;强生(J&J):利用AI技术加速多个治疗领域的研发管线。12.2 中国AI制药产业发展
中国AI制药产业近年来发展迅速,形成了独具特色的产业生态。
代表性AI制药企业包括:英矽智能(Insilico Medicine):总部位于中国,是全球AI制药领域的标杆企业;晶泰科技(XtalPi):专注于AI和机器人驱动的药物研发,利用量子物理和AI结合的方法进行分子模拟和晶体结构预测;深势科技(DP Technology):开发了Uni-Mol等分子基础模型和Uni-Dock等计算工具[22];望石智慧(StoneWise):专注于AI小分子药物设计;百图生科(BioMap):由李彦宏投资创立,开发大规模生物计算平台;星药科技(Galixir):专注于AI驱动的药物设计和优化。
中国在AI制药基础研究方面同样表现突出。清华大学、北京大学、上海交通大学、中科院等机构在分子生成、蛋白质设计、药物-靶标相互作用预测等领域发表了大量高水平论文。12.3 AI制药管线进展
截至2025年初,全球已有超过100条AI参与发现或设计的候选药物进入临床试验阶段。以下列举一些里程碑式的案例:
公司
候选药物
适应症
临床阶段
AI参与环节
Insilico Medicine
ISM001-055
特发性肺纤维化
II期
靶点发现+分子设计
Exscientia
EXS-21546
肿瘤
I/II期
分子设计
Recursion
REC-4881
家族性腺瘤性息肉病
II期
表型筛选+AI分析
Relay Therapeutics
RLY-2608
PI3Kα突变肿瘤
II期
动态结构分析
AbCellera
Multiple
多个
多个
抗体发现12.4 合作模式与商业模式
AI制药领域的合作模式日趋多样化:许可合作(Licensing Deal):AI公司将AI发现的候选药物许可给大药企进行后期开发和商业化;平台合作(Platform Collaboration):大药企获得AI平台的使用权,在内部管线中应用AI技术;联合研发(Co-development):AI公司和大药企共同开展研发项目,共享风险和收益;数据合作(Data Partnership):围绕高质量数据的获取和共享开展合作;自主研发(Proprietary Pipeline):AI公司自主推进候选药物的临床开发。13. 挑战与瓶颈
尽管AI在新药研发中取得了显著进展,但仍面临诸多挑战和瓶颈,需要产学研各方共同努力解决。13.1 数据质量与可获取性
数据是AI制药的基石,但高质量、标准化的生物医学数据仍然稀缺。主要问题包括:数据质量不一:公共数据库中存在大量噪声、重复和标注错误的数据。ChEMBL等数据库虽然经过了人工整理,但仍存在活性数据不一致、实验条件不统一等问题;数据孤岛:大量高质量的药物研发数据分散在各制药企业内部,由于竞争和知识产权等原因难以共享[61];标注数据有限:许多重要的预测任务(如人体内ADMET性质、临床疗效等)缺乏足够的标注数据,尤其是针对新兴靶点或罕见疾病;负样本偏倚:药物研发中的"成功偏倚"导致公开数据中缺乏足够的负样本(失败案例)信息,影响模型的学习效果。13.2 模型的可解释性
AI模型(尤其是深度学习模型)的"黑箱"特性是制药行业采纳AI的重要障碍。药物研发需要基于科学理解做出决策,如果AI模型无法提供可解释的预测依据,将难以获得研发团队和监管机构的信任[62]。
当前的可解释AI(Explainable AI, XAI)方法包括:注意力权重可视化:展示模型关注的分子子结构或蛋白质区域;特征归因方法:如SHAP、Integrated Gradients等,量化每个输入特征对预测的贡献;反事实解释:展示改变哪些分子特征可以改变预测结果;概念瓶颈模型:强制模型通过人类可理解的中间概念进行推理。
然而,当前的可解释性方法在深度学习模型中的可靠性仍然有限,提高AI药物设计的可解释性仍是一个开放性挑战。13.3 泛化能力与分布外预测
AI模型在训练数据分布内通常表现良好,但在面对分布外(Out-of-Distribution, OOD)的新场景时性能可能急剧下降。在药物研发中,这一问题尤为突出:scaffold hopping:模型是否能够对训练集中未出现的化学骨架做出准确预测?新靶点预测:模型是否能够泛化到训练集中未涵盖的蛋白质靶标家族?跨物种外推:基于动物数据训练的模型能否准确预测人体内的行为?
近年来,不确定性估计和域适应(Domain Adaptation)方法在一定程度上缓解了这一问题。深度集成方法、贝叶斯深度学习、共形预测(Conformal Prediction)等技术可以为预测结果提供可靠的不确定性量化[63]。13.4 实验验证的瓶颈
AI预测的最终价值体现在实验验证中。但当前AI制药领域存在"计算容易、验证难"的突出矛盾:AI可以在数小时内生成数千个候选分子,但合成和测试每个分子仍需数天到数周;计算预测的结合亲和力与实验测量值之间常存在较大偏差;从体外活性到体内药效的转化仍是根本性挑战,AI模型目前难以准确预测药物在复杂生理环境中的行为。
自动化实验平台(如自驾实验室,Self-Driving Labs)和机器人化学家的发展有望加速验证环节,实现AI设计-自动合成-自动测试的闭环。13.5 监管与伦理挑战
AI在药物研发中的应用面临独特的监管与伦理挑战:监管框架的滞后:现有的药物审评框架主要针对传统研发方法设计,AI驱动的研发流程可能需要新的审评标准和指南。FDA已发布了AI/ML在药物研发中的讨论文件,但完善的监管框架仍在形成中;数据隐私:临床数据和患者数据的使用需要严格遵守GDPR、HIPAA等数据保护法规;算法偏见:如果训练数据存在种族、性别等方面的偏倚,AI模型可能产生不公平的预测结果;知识产权:AI生成的分子和药物的专利归属问题尚存争议。13.6 人才与文化障碍
AI制药的成功需要计算科学与生物医学的深度交叉融合。当前面临的人才挑战包括:同时具备深度学习技术能力和药物研发领域知识的复合型人才稀缺;传统制药企业的研发文化与AI驱动的快速迭代文化之间存在张力;AI团队与湿实验团队之间的沟通效率和协作模式需要优化。14. 未来趋势展望
基于当前的技术发展轨迹和产业动向,我们对AI赋能新药研发的未来趋势做出以下展望:14.1 基础模型将重塑药物研发的技术范式
基础模型(Foundation Models)将成为AI制药的基础设施。类似于GPT系列在NLP领域的影响,生物医学基础模型将为药物研发的各个环节提供统一的、可迁移的表征基础。
我们预期将出现以下发展趋势:更大规模的分子基础模型:在数十亿分子数据上进行预训练,学习跨化学空间的通用表征;统一的蛋白质-分子基础模型:在蛋白质-配体相互作用数据上进行联合预训练,实现蛋白质和分子的统一建模;细胞基础模型的成熟:随着单细胞数据的持续积累,细胞基础模型将在靶点发现和药效预测中发挥越来越重要的作用;多模态生物医学基础模型:整合基因组、蛋白质组、化学、影像、临床文本等多种数据模态的大统一模型,实现真正的跨模态推理和知识整合。14.2 生成式AI将实现更精准的分子设计
生成式AI技术正在向更高精度、更多约束条件、更强物理化学合理性的方向发展:基于物理约束的生成模型:将量子化学、分子力学等物理先验知识嵌入生成模型,提高生成分子的物理化学合理性;条件生成的精细化:从简单的属性条件(如活性阈值)到复杂的多维条件(如特定的药效团分布、蛋白质口袋互补性、ADMET谱要求)的精确控制;共价药物、分子胶水等新兴模态的AI设计:针对共价抑制剂、分子胶水降解剂(molecular glue degraders)、PROTAC等新兴药物模态的专用生成模型;Linker设计和Fragment-based方法的AI增强:基于片段的药物发现方法与AI的深度结合。14.3 闭环自主实验室(Autonomous Labs)的兴起
AI与自动化实验平台的深度融合将催生"自驾实验室"(Self-Driving Labs)的概念:设计-合成-测试-学习(DMTA)闭环的自动化:AI模型设计分子→自动化合成平台制备化合物→高通量筛选平台测试活性→数据回馈给AI模型迭代优化,整个循环实现无人干预的全自动化运行[64];机器人化学家:结合大语言模型的规划能力和机器人操作能力,实现化学实验的自主规划和执行;贝叶斯优化驱动的实验设计:利用主动学习和贝叶斯优化方法,最大化每次实验的信息增益,在最少的实验次数内找到最优分子。14.4 AI赋能的RNA药物和基因治疗
RNA药物(mRNA、siRNA、ASO等)和基因治疗是近年来最具革命性的药物模态之一。AI在这些领域的应用正在快速扩展:mRNA序列优化:利用深度学习优化mRNA的密码子选择、UTR设计、二级结构,提高表达效率和稳定性。Moderna等公司已在mRNA设计中广泛应用AI技术[65];siRNA/ASO靶位选择:AI模型可以预测RNA靶序列的可及性和敲减效率;CRISPR guide RNA设计:深度学习模型用于预测sgRNA的on-target效率和off-target效应;脂质纳米颗粒(LNP)优化:利用AI优化LNP的组成和配比,提高递送效率和靶向性;基因治疗载体设计:AI辅助的AAV衣壳工程用于优化组织特异性和转导效率。14.5 AI在真实世界证据和上市后监测中的应用
AI技术在药物上市后阶段的应用潜力同样巨大:真实世界数据(RWD)分析:利用NLP技术从电子健康档案、保险理赔数据、患者报告结局数据中提取有价值的药物安全性和有效性信息;药物警戒:AI系统自动监测和分析不良事件报告,提前发现安全性信号;精准用药:基于患者的基因组、临床和生活方式数据,AI模型可以预测个体对特定药物的响应,实现个性化用药指导。14.6 量子计算与AI的融合
量子计算在药物设计中的潜力正在被积极探索:量子机器学习:量子算法在某些机器学习任务中可能具有理论优势,尤其是涉及高维空间搜索的问题;量子化学计算的加速:量子计算机有望更精确地计算分子的电子结构和相互作用能;混合经典-量子方法:将经典AI与量子计算结合,发挥各自优势。
然而,量子计算在药物研发中的实际应用可能还需要5-10年的时间,当前仍处于早期探索阶段。14.7 联邦学习与隐私保护计算
联邦学习(Federated Learning)为解决制药行业的数据孤岛问题提供了技术路径[66]。通过在各参与方本地训练模型、仅共享模型参数更新而非原始数据的方式,联邦学习可以:在不共享患者级别数据的情况下跨机构训练临床预测模型;在不泄露企业专有数据的情况下联合训练分子属性预测模型;实现制药企业之间的"数据合作而非数据共享"。
MELLODDY(Machine Learning Ledger Orchestration for Drug Discovery)项目是该领域的标志性实践,10家大型制药企业利用联邦学习在不共享化学结构数据的前提下联合训练分子属性预测模型,取得了显著优于单机构模型的预测性能[67]。14.8 数字化生物学与虚拟细胞
构建能够模拟细胞行为的"虚拟细胞"(Virtual Cell)是AI生物学的终极目标之一。通过整合多组学数据和大规模计算模型,虚拟细胞旨在:在silico模拟药物对细胞的扰动效应;预测基因敲除/过表达对细胞状态的影响;模拟细胞间通讯和组织微环境。
虽然距离实现完整的虚拟细胞还有较长的路要走,但细胞基础模型(如scGPT、Geneformer)和基因扰动预测模型(如GEARS)已经迈出了重要的第一步[27]。14.9 AI与合成生物学的交叉
合成生物学与AI的交叉融合正在开辟新的药物研发路径:AI辅助的代谢途径设计:利用深度学习优化微生物细胞工厂中的代谢途径,实现天然产物和药物中间体的高效生物合成;蛋白质回路设计:利用AI设计能够执行复杂逻辑运算的蛋白质回路,用于细胞治疗和基因治疗;AI驱动的工程化细胞治疗:优化CAR-T细胞等细胞治疗产品的设计和制造。14.10 监管科学的演进
随着AI在药物研发中的应用日益深入,监管科学也需要同步演进:FDA、EMA等监管机构正在积极制定AI/ML在药物研发中的使用指南;AI生成的证据(如AI预测的ADMET数据)在药物申报中的可接受性需要明确的标准;AI模型的验证和审计方法需要标准化;真实世界证据与AI分析在监管决策中的角色日益重要。
我们预期在未来3-5年内,关于AI在药物研发中应用的监管框架将逐步完善,为AI制药的产业化提供更明确的指导。15. 结语
AI正在从根本上改变新药研发的方式。从AlphaFold对蛋白质结构预测的革命性突破,到生成式AI在全新分子设计中的广泛应用,从大语言模型在生物医学知识挖掘中的强大能力,到多模态AI在数据整合中的巨大潜力,AI技术正在新药研发的每个环节释放价值。
回顾过去五年的发展,几个关键趋势已经清晰可见:
第一,AI已从辅助工具演变为驱动力量。早期的AI应用主要是对传统计算方法的增强(如更好的打分函数),而当前的AI已能够独立驱动靶点发现和分子设计的全流程,AI不再是"锦上添花",而是"不可或缺"。
第二,基础模型范式正在重塑研发流程。大规模预训练的分子、蛋白质和细胞基础模型提供了通用的表征基础,使得下游任务可以通过少量数据微调即可实现高性能,这大大降低了AI应用的数据门槛。
第三,AI制药正在从概念验证走向规模化产业应用。超过100条AI驱动管线进入临床试验的事实证明,AI在药物研发中的价值已经从理论可能变为现实。
展望未来,AI赋能的新药研发将呈现以下核心趋势:更深度的物理-AI融合:将分子力学、量子化学等物理先验与深度学习结合,提高预测的准确性和物理合理性;更完整的端到端整合:从靶点发现到临床试验的全链条AI赋能,而非单个环节的局部优化;更紧密的干湿实验闭环:AI设计与自动化实验平台的深度耦合,实现快速迭代验证;更广泛的数据生态:通过联邦学习、数据联盟等机制打破数据孤岛,构建更丰富的训练数据生态。
对于制药企业而言,AI不再是可选项,而是必选项。建议药企从以下几个维度布局:战略层面:将AI纳入研发战略的核心,而非仅作为IT部门的技术项目;组织层面:建立跨职能的AI研发团队,培育数字化研发文化;能力层面:构建自主的AI核心能力(数据平台、算法平台、计算基础设施),同时积极开展外部合作;管线层面:在多条管线中系统性地部署AI工具,积累实践经验;人才层面:招聘和培养AI与生物医药交叉背景的复合型人才。
我们正站在一个历史性的转折点上。AI与生物医药的深度融合有望从根本上解决Eroom定律所揭示的研发效率难题,开启新药研发的黄金时代。未来十年,AI驱动的新药研发将不仅仅是技术的进步,更是范式的变革——从经验驱动到数据驱动,从线性流程到智能闭环,从人力密集到人机协同。这一变革的最终受益者将是全球数十亿等待有效治疗方案的患者。参考文献略