以下内容是《Applied Artificial Intelligence for Drug Discovery》中 第二十章:人工智能(AI)在抗病毒药物发现中应用的主要内容。文章详细阐述了AI如何加速先导化合物的识别与优化,特别是在面对全球病毒威胁(如COVID-19、埃博拉、寨卡病毒等)时的应用案例和具体技术。Artificial Intelligence-Driven and In Silico Approaches in Health Emergencies: A Case Study on Antiviral Drug Discovery1. 引言 (Introduction)
• 药物研发的痛点:确定和优化先导化合物是药物研发中最耗费资源的环节。传统的高通量筛选(HTS)和组合合成虽然曾是主流,但成本高、耗时长。
• 数据挑战与AI的作用:虽然HTS产生了大量数据,但存在噪声和异质性问题。AI具备分析海量数据的能力,是识别先导化合物的宝贵工具。
• 案例:利用深度学习(DL)技术,仅用21天就发现了DDR1激酶抑制剂的新型先导化合物。
• 病毒威胁背景:COVID-19(SARS-CoV-2)、埃博拉(EBOV)、寨卡(ZIKV)和登革热(DENV)等病毒持续威胁人类健康。
• 文章目的:重点探讨AI在抗病毒药物发现中的应用,特别是潜在先导化合物的识别及其后续优化,以应对突发感染的即时需求和耐药性的长期挑战。2. 人工智能在先导发现中的应用 (Application of Artificial Intelligence in Lead Discovery)
在先导发现阶段,主要应用两类AI方法:筛选模型(从大库中快速识别)和生成模型(创造结构新颖的化合物)。2.1 基于筛选模型的先导发现 (Lead Discovery Based on Screening Models)
筛选模型通过分析化合物与特定分子靶点的相互作用来识别潜在先导物。分为分类模型(预测是否相互作用)和回归模型(量化相互作用强度)。
• 2.1.1 基于分类模型的先导发现
• 原理:将数据分为预定义类别(如活性/非活性)。常用算法包括决策树、支持向量机(SVM)、随机森林(RF)、深度学习等。
• 数据来源:PDB, PDBbind, DrugBank, BindingDB, ChEMBL。
• 案例研究:
1. 抗SARS-CoV-2(Huang et al., 2021):
• 方法:开发基于生物活性的模型(BABM),利用已知化合物的活性图谱(二值向量)作为特征,使用WFS、RF或SVM算法。
• 结果:从50万+化合物中预测出311个潜在抗病毒化合物。实验验证发现苯甲醛衍生物 MLS000699212-03 是强效抑制剂(EC50 = 500 nM),具有双重机制(抑制病毒进入和调节自噬)。
2. 抗SARS-CoV-2 Mpro(Zhao et al., 2021):
• 方法:编译Mpro配体数据集,优化分子描述符和指纹(ECFP_4, MACCS),使用朴素贝叶斯(NB)和随机投影(RP)算法。
• 结果:筛选出天然产物 5,3',4'-三羟基黄酮(5,3',4'-trihydroxyflavone),对Mpro的IC50为87.76 μM。分子模拟显示其与Mpro活性位点的关键残基形成氢键和π相互作用。
3. 抗ZIKV(Mottin et al., 2022):
• 方法:基于PubChem数据训练SVM和RF模型,结合分子对接。
• 结果:识别出 LabMol-301(双靶点抑制剂,抑制NS5 RdRp和NS2B-NS3蛋白酶)和 LabMol-212(热不稳定化NS3解旋酶,EC50 = 0.13 μM)。
4. 抗SARS-CoV-2(Xu et al., 2022):
• 方法:结合QSAR(基于结构)和BABM(基于活性图谱)模型。
• 结果:识别出 CAA-0225(组织蛋白酶L抑制剂),EC50为0.20 μM。
5. 抗SARS-CoV-2 Mpro(Saar et al., 2023):
• 方法:利用高通量晶体学数据和基于物理的能量描述符(疏水、静电等)训练模型。
• 结果:发现强效非共价抑制剂(IC50 = 0.34 μM),具有良好的ADME性质。
• 2.1.2 基于回归模型的先导发现
• 原理:与分类模型不同,回归模型量化相互作用强度(如IC50/EC50值),提供连续的亲和力指标。
• 案例研究:
1. 抗埃博拉病毒(Rajput et al., 2021):
• 方法:开发“anti-Ebola”算法,基于305个已知抗埃博拉化合物的QSAR回归模型(SVM, RF, ANN)。
• 结果:预测了 Tilorone (EC50 1.95 μM), Pyronaridine (EC50 0.50 μM), 和 Quinacrine (EC50 0.002 μM) 具有抗EBOV活性。2.2 基于生成模型的先导发现 (Lead Discovery Based on Generative Models)
• 优势:相比筛选模型依赖现有商业库,生成模型(如VAE, GAN, RL)可以设计全新的分子结构,扩展化学空间,规避专利壁垒。
• 案例研究:
1. TransAntivirus(Mao et al., 2023):
• 方法:基于Transformer的生成模型,整合IUPAC和SMILES表示。
• 结果:生成了针对SARS-CoV-2 RdRp和Mpro的核苷/非核苷类似物,性能优于传统方法(但文中指出缺乏实验验证)。
2. RNN生成模型(Saramago et al., 2023):
• 方法:基于RNN的生成模型,针对SARS-CoV-2 Mpro微调。
• 结果:生成5万个SMILES,筛选后实验验证出化合物 14(氯甲基酰胺衍生物),对Mpro的IC50为1.5 μM,抗病毒EC50为1.1 μM。
3. CogMol(Chenthamarakshan et al., 2023):
• 方法:基于VAE的框架,预训练于蛋白序列和小分子数据。
• 结果:发现 GEN727,靶向刺突蛋白RBD,对多种变异株有效(IC50 = 2.8 μM),命中率达到50%。
4. 共价抑制剂发现(Joshi et al., 2023):
• 方法:结合自动建模引擎(AME)和3D-Scaffold生成模型。
• 结果:识别出氯乙酰胺类抑制剂,其中化合物 16 的IC50低至160 nM(X射线晶体学证实)。
5. Tree-Invent模型(Shang et al., 2024):
• 方法:拓扑约束的生成模型,结合强化学习(以对接分数为奖励)。
• 结果:发现 GZNL-2002,针对PLpro的IC50高达7.1 nM,对野生型及Omicron等变异株均有强效,且具有良好的药代动力学性质。3. 人工智能在先导优化中的应用 (Application of Artificial Intelligence in Lead Optimization)
• 目的:系统探索化学空间,优化结合亲和力、选择性、药代动力学等性质,减少实验筛选量。
• 案例研究:
1. DeepFrag & EMPIRE(Xiang et al., 2024):
• 目标:靶向SARS-CoV-2核衣壳蛋白(N蛋白)。
• 过程:从先导化合物HCK63出发,生成>10,000个小分子库。筛选后合成44个,发现化合物 19。
• 结果:EC50 = 11.3 μM,能破坏N蛋白与RNA的结合。
2. 机器学习驱动的库设计(Garnsey et al., 2024):
• 目标:优化SARS-CoV-2 PLpro抑制剂。
• 过程:从GRL0617(EC50 68.2 μM)开始,利用ML预测生物电子等排体。
• 结果:
• 第一步(Suzuki偶联):发现喹啉衍生物(21, Ki=0.116 μM)。
• 第二步(C-N偶联):引入甲基哌嗪(22, EC50=0.652 μM)。
• 第三步(刚性化):得到最终候选物 PF-07957472 (23),Ki=0.002 μM,EC50=0.147 μM。
• 体内验证:PF-07957472在小鼠模型中显著降低肺部病毒滴度,具有良好的口服生物利用度。4. 结论 (Conclusion)
• 核心观点:AI技术对于应对病毒威胁至关重要。
• 成效:AI能从庞大的化合物库中快速挖掘潜在治疗剂,加速从识别到临床应用的管线。
• 实例:AI生成的 ISM3312 已进入COVID-19临床试验阶段。此外,大量针对COVID-19、ZIKV、DENV的小分子被发现。
• 总结:AI已成为抗病毒药物发现中不可或缺的工具,提供了应对新兴病毒挑战的高效途径。5. 展望 (Perspective)
• 多组学分析:AI在整合基因组、蛋白质组等多源数据方面有巨大潜力,但也面临数据质量、批次效应和缺失数据的挑战。
• 多模态融合:需要开发能整合文本、图像、视频及组学数据的多模态AI模型。
• 数据挑战:数据稀缺、隐私问题、负数据(无活性数据)缺失以及实验不稳定性限制了AI的可靠性。
• 法规与伦理:需要监管机构制定评估AI生成化合物的框架,并解决透明度、偏见和数据隐私等伦理问题。
• 未来方向:跨学科合作(学术界、工业界、监管机构)是关键。需改进算法、增强数据共享,并将物理定律融入AI。
关注「生息致知」,AI与数学学习不迷路。欢迎加微信号AIAI4SCI交流。