会议推荐
2026第三届中国医药企业项目管理大会
2026第二届中国AI项目管理大会
2026第十五届中国PMO大会
2026第五届中国项目经理大会
本
文
目
录
1、从实验室到临床:AI如何重塑药物发现的未来?2024-2025年关键进展
2、【J.Med.Chem.】天然产物药物发现中的人工智能:当前应用与未来展望
3、文献分享|人工智能(AI)在天然产物(Natural Products,NPs)药物发现中的应用、进展和未来展望
4、人工智能(AI)赋能药物研发现状和挑战
一、从实验室到临床:AI如何重塑药物发现的未来?2024-2025年关键进展
(原创 NatPDL 离辞连类)
近年来,AI驱动的药物研发已从概念验证进入临床验证阶段,发展迅猛。截至2025年,已有超过75个AI设计的分子进入临床试验,多个项目进展至II期,如Insilico Medicine(英矽智能)的ISM001-055(IPF适应症)和Schrödinger参与设计的TYK2抑制剂(已进入III期)。技术平台也趋向整合与成熟,例如Recursion与Exscientia的合并旨在融合表型筛选与生成化学,形成端到端平台。然而,该领域仍面临显著局限性:首先,AI设计的候选药物尚未有获批上市,且临床失败案例已出现(如BenevolentAI的BEN-2293在II期无效),表明AI在提升晚期临床成功率方面尚未得到验证;其次,AI模型高度依赖训练数据的质量和代表性,存在数据偏见和可解释性挑战;此外,多数平台仍专注于优化已知靶点或化学结构,在全新生物学机制发现方面能力有限;最后,高昂的算力与实验验证成本,以及尚在完善的监管框架,也制约了其广泛应用。
近日,国际顶级药理学期刊《Pharmacological Reviews》发表了一篇综述(https://doi.org/10.1016/j.pharmr.2025.100102),系统评估了人工智能(AI)驱动药物发现领域在2025年的发展格局与全球前景。文章重点剖析了Exscientia、Recursion Pharmaceuticals、Insilico Medicine、BenevolentAI和Schrödinger这五家领先平台的核心技术路径(2024-2025),对比了它们将AI候选药物推进至临床阶段的进展与挑战。文章还进一步概述了新兴力量(如Isomorphic Labs、中国AI生物科技公司)、监管与伦理框架的演进,以及机器人自动化实验室的兴起。最后,文章展望了多模态基础模型、机器人主导平台及混合物理-AI策略将如何加速转化、降低研发风险,并确立可信赖AI作为现代药物发现的基石。
本文将重点介绍几家公司在 2024-2025 年取得的重要进展。
01
Exscientia
结合生成式AI与人类专家知识的“Centaur Chemist”策略,进行从靶点选择到先导化合物优化的端到端小分子设计。
2024-2025关键进展
对管线进行战略优先排序,聚焦于两个核心内部项目:CDK7抑制剂 GTAEXS-617 (针对实体瘤,处于I/II期临床)和LSD1抑制剂 EXS-74539 (2024年启动I期临床)。
下一代MALT1抑制剂 EXS-73565 正在进行IND申报研究。
与默克(Merck KGaA)等公司达成新的合作。
重大变化:于2024年8月被Recursion Pharmaceuticals以约6.88亿美元收购,旨在整合其生成化学能力与Recursion的表型组学数据。
虽无AI设计的药物进入III期临床,但有几款已进入或即将进入I/II期。真正的考验将是这些化合物是否显示出优于传统发现药物的临床结果或成功率。其平台显著提升了发现效率(例如,某项目仅合成136个化合物即获得临床候选分子)。
02
Recursion Pharmaceuticals
Recursion Pharmaceuticals于2013年在美国盐湖城成立,采用了一种独特的以表型组学为中心的AI方法。其基于高通量表型组学(Phenomics),通过自动化实验室对细胞模型进行大规模扰动,利用计算机视觉和机器学习分析图像数据,以无偏见的方式发现新的药物机会。
2024-2025关键进展
临床管线经历调整,早期项目 REC-994 (用于脑海绵状血管畸形)和 REC-2282 (用于2型神经纤维瘤病)因疗效不足而终止。
技术平台大幅升级,构建了拥有504个NVIDIA H100 GPU的 BioHive-2 AI超算,并发布了基于数十亿细胞图像训练的 Phenom 基础模型和用于蛋白质结构预测的生成模型 Boltz-2 。后者已经开源且达到了接近物理学的精度,但速度快了1000倍。
完成对Exscientia的收购,整合后管线包括肿瘤学(如CDK7抑制剂REC-617、RBM39降解剂REC-1245)和罕见病(如MEK抑制剂REC-4881)项目。
在2025年从赛诺菲获得了700万美元的里程碑付款,因为该合作在短短18个月内将4个项目推进到了发现里程碑。与罗氏/基因泰克(神经科学、肿瘤学)和拜耳(不可成药靶点)的合作也在继续,并产生了海量数据集。
Recursion的方法论体现了将人工智能与海量专有数据相结合的巨大潜力。该公司构建了生物技术领域规模最大的垂直整合数据集之一,由此形成的“数据引擎”,即通过更多实验训练出更优模型,进而驱动更多发现——可能会产生递增收益。然而,早期临床数据亦显示,AI发现的苗头化合物并不必然导致临床成功;考虑到人体生物反应的不可预测性,其体内疗效必须在具体个案中严格验证。
03
Insilico Medicine
Insilico Medicine(总部位于香港和纽约,成立于2014年)是端到端AI驱动生物技术的典范,将AI整合到从靶点发现到临床试验设计的每个阶段。其全面的Pharma AI平台由相互连接的模块组成:用于AI驱动靶点识别的PandaOmics(挖掘组学数据和文献以发现新的疾病驱动因子)、用于生成式分子设计的Chemistry42,以及用于临床试验结果预测的InClinico。利用这套“工具包”,Insilico旨在既发现首创靶点,又针对这些靶点生成药物候选物
2024-2025关键进展
其领先药物 ISM001-055(Rentosertib),一种完全由AI发现的TNIK抑制剂(用于特发性肺纤维化),在2024年中国IIa期试验中显示出积极的疗效信号(高剂量组用力肺活量平均增加98 mL,而安慰剂组下降20 mL),结果于2025年6月发表在《自然·医学》上。该药物已获美国ANDA通用名批准,计划于2025年第四季度启动IIb/III期试验。
其他临床管线包括用于COVID-19/病毒感染的免疫调节剂 ISM3312(I期完成)和用于癌症的USP1抑制剂 ISM3091(已获IND批准,进入I期)。
该公司报告称其100%的IND成功率(所有AI设计的临床前候选药物均进入了临床试验)。
与赛诺菲(Sanofi)达成了价值高达12亿美元的多靶点合作。
Insilico现在拥有20多个临床前项目,涵盖纤维化、肿瘤学、免疫学等领域,其中许多项目瞄准首创靶点。
鉴于人类生物系统的固有复杂性(药物反应仍然难以预测),一些AI设计的药物可能在晚期临床试验(II/III期)中无法成功。此外,Insilico追求新生物学和新靶点的策略风险很高,因为历史上首创机制的药物成功率低于已验证的靶点。如果Rentosertib最终在晚期试验中取得成功,它可能成为首个上市的AI发现药物。
04
BenevolentAI
BenevolentAI成立于2013年,总部位于伦敦,是将AI应用于靶点识别和药物再利用的先驱。其平台核心是一个庞大的知识图谱,整合了科学文献、生物医学数据库、组学数据和临床信息。通过应用自然语言处理和图机器学习,BenevolentAI的系统可以提出基因、疾病和化合物之间人类研究人员可能不明显的新的联系。一旦选定靶点,AI模型随后协助药物化学家设计或识别分子,包括扫描现有药物中能作用于该靶点的药物,从而实现快速再利用。
2024-2025关键进展
成功案例:其平台在2020年快速识别出已上市药物巴瑞替尼(baricitinib)对COVID-19的潜在疗效,该药后续获批用于COVID-19治疗。
挫折:其内部研发的泛Trk抑制剂 BEN-2293(用于特应性皮炎)在2023年的IIa期试验中未能显示疗效,项目被搁置。
另一项目PDE10抑制剂 BEN-8744(用于溃疡性结肠炎)已完成Ia期,进入Ib期。
公司进行了战略重组(裁员约30%,关闭美国办公室),更侧重于通过合作伙伴关系(如与阿斯利康、默克)提供AI能力,而非独立进行后期药物开发。
05
Schrödinger
作为计算化学软件领域的老牌力量,其将基于物理的分子模拟(如分子动力学、自由能微扰)与现代机器学习算法相结合,进行高精度的结构基药物设计。
2024-2025关键进展
合作成功:与Nimbus Therapeutics合作设计的TYK2抑制剂 NDI-034858在银屑病II期试验中显示出同类最佳效果,于2022年被武田(Takeda)以40亿美元收购,现已进入III期临床。
内部管线:拥有三个临床阶段肿瘤学项目:MALT1抑制剂 SGR-1505(用于淋巴瘤)、CDC7抑制剂 SGR-2921(用于急性髓系白血病)和WEE1/MYT1双重抑制剂 SGR-3515(用于实体瘤),均处于I期,预计2025年末读出数据。
与百时美施贵宝(BMS)、诺华(Novartis)、礼来(Eli Lilly)等公司有持续的合作。
财务稳健,软件许可业务收入增长强劲。
凭借在计算化学领域数十年的深耕,其构建AI模型积累了可靠的数据。这种深厚的积淀极有可能促成了其在生成可行临床候选药物方面的高成功率。目前,其众多合作项目研发进展顺利,尽管内部管线尚处早期阶段,但至今未在临床试验中遭遇失败。然而,Schrödinger的技术路径亦存在局限:其优势主要集中在结合位点明确的靶点,而在新靶点挖掘及表型探索等领域的应用则相对有限。
06
Insitro
Insitro由Daphne Koller于2018年创立,率先将人类干细胞疾病模型与机器学习技术深度融合,树立了行业标杆。该公司利用CRISPR编辑的诱导多能干细胞衍生模型生成高通量功能基因组数据,并应用人工智能精准识别能够预测患者疗效的靶点,重点攻克非酒精性脂肪性肝炎(NASH)和肌萎缩侧索硬化症(ALS)等复杂疾病。
尽管Insitro尚未推出自主开发的临床靶向化合物,但其独特的“AI+实验室”模式赢得了资本市场与制药巨头的双重青睐。2021年,公司完成了4亿美元的C轮融资;同时,它建立了一系列重磅合作伙伴关系,包括与吉利德(自2019年起针对NASH)、百时美施贵宝(自2020年起针对ALS,因发现新靶点已获2500万美元里程碑付款)以及礼来(2023年起针对代谢疾病)的长期合作。
07
Isomorphic Labs
依托Alphabet(谷歌)的雄厚实力,Isomorphic Labs作为其专用AI药物发现子公司于2021年底正式成立。凭借DeepMind在人工智能领域的突破性成果,特别是革命性的蛋白质折叠技术AlphaFold,公司迅速占据了行业前沿地位。Isomorphic Labs将深度学习、强化学习等先进AI技术应用于生物学模拟,致力于解决“生物学和化学中最棘手的挑战”。2023年,Isomorphic Labs与DeepMind联合推出了AlphaFold2的继任者——AlphaFold3,并通过开源提供了更精准的蛋白质3D预测。2024年初,公司宣布与礼来和诺华达成两项里程碑式的合作,潜在里程碑付款总额接近30亿美元。随后在2025年7月,Isomorphic进一步扩展了与诺华的联盟,新增了三个研发项目,这些合作均致力于利用其AI技术针对选定靶点发现全新小分子药物。
08
Atomwise
专注于基于结构的深度学习(AtomNet平台),利用卷积神经网络预测小分子与蛋白质靶点的结合,进行虚拟筛选。2023年末提名了其首个内部开发候选药物——一种AI发现的TYK2抑制剂(用于自身免疫性疾病),计划于2024年进入临床试验。与赛诺菲(Sanofi)等公司有合作。
09
中国公司及重大交易
代表公司:XtalPi(从AI辅助晶型预测发展为全流程AI药物发现平台)、华深智药(Helixon)(专注于生物制剂的生成式AI)。
中国AI生物科技公司发展迅速,在2025年第一季度占据了全球生物技术许可交易价值的近三分之一。石药集团(CSPC)与阿斯利康(AstraZeneca)达成超50亿美元的AI发现肿瘤学资产合作;XtalPi与礼来(Eli Lilly)和DoveTree达成数十亿美元的合作;华深智药(Helixon)与赛诺菲(Sanofi)达成17亿美元的抗体疗法许可协议。
END
二、【J.Med.Chem.】天然产物药物发现中的人工智能:当前应用与未来展望
(原创 青梅煮药 青梅煮药)
本文探讨了人工智能在天然产物药物开发中的作用,展示了如从头药物设计和药物再利用等先进方法。
通过强调数据架构的关键作用,并专注于天然产物药物发现中的挑战,提供了对该领域研究人员有价值的定向见解。
文章还进行了前瞻性分析,预测了人工智能整合的未来发展,为下一代天然产物药物发现铺平道路。
1. 前言
药物研发具有周期长(如紫杉醇开发耗时30年)、成本高、临床成功率仅12%的特点。计算机辅助药物设计(CADD)结合AI技术,通过大数据处理和模式识别显著提升了分子筛选、ADMET预测及药物重定向效率。然而在天然产物(NP)领域,AI应用仍存在显著空白。
图1. 基于天然产物(NP)启发的药物发现策略概述。该图概述了基于天然产物的药物发现的关键步骤,首先从天然来源(植物、动物和微生物)中提取粗提物,包含初级和次级代谢物。这些粗提物经过生物活性和毒性研究、分馏以及使用NMR、HPLC-MS和GC-MS等技术进行代谢物鉴定,辅以AI/ML工具的增强。去重复化减少冗余,而靶标去卷积利用化学蛋白组学技术(如DARTS、CETSA和SPROX)识别分子靶标。作用机制研究(如SAR、途径分析)精炼纯化合物,进一步通过药物化学和可扩展合成优化,以产生可行的治疗候选药物。
NP药物开发面临多重挑战:复杂代谢物分离(需NMR、质谱等技术)、低生物活性分子获取率、结构复杂性导致的合成困难,以及稳定性/毒性问题。尽管FDA 1981-2006年批准的药物中50%与NP相关(如海洋NP抗癌药、藻类抗肥胖物质),其开发仍受限于生态/经济/科学可持续性问题。
图2. 从天然来源衍生的代表性药物分子结构。
AI技术正突破传统瓶颈:机器学习加速化合物筛选(效率提升50倍),化学信息学支持从头药物设计,光谱分析结合深度学习优化分子结构解析。典型案例包括真菌代谢物芬戈莫德改良为多发性硬化症药物。AI驱动的去重复技术降低冗余研发,化学蛋白质组学揭示多靶点作用机制。
当前关键突破点在于构建高质量NP数据库,整合AI算法实现从活性预测到合成路径规划的全流程优化。未来需解决NP特有数据稀缺性,开发针对性算法模型,同时平衡生态保护与资源开发,方能充分释放NP作为创新药物源泉的潜力。
2. 人工智能:开创药物发现之新时代
人工智能(AI)、机器学习(ML)和深度学习(DL)在药物发现中具有重要作用。
AI通过模拟人类认知过程提升活性预测和分子设计。ML专注于通过数据学习提高决策预测,常用方法包括支持向量机、神经网络等,用于构建预测模型。DL利用多层神经网络处理复杂数据,广泛应用于分子设计,卷积神经网络(CNN)用于分子结构分析,递归神经网络(RNN)用于新分子设计。强化学习和生成对抗网络(GAN)也推动了药物决策和新化合物生成。
图3. 展示了AI在药物发现中的应用,包括监督学习、无监督学习、强化学习(RL)和深度学习(DL)。具体算法如SVM、神经网络和决策树用于药物筛选、QSAR建模、生物活性预测。融合机器学习的BGC筛选流程涉及从微生物组数据中识别BGCs、提纯天然产物并验证其与疾病的相关性,最终开发分子药物候选物。
自然语言处理(NLP)和计算机视觉在天然产物药物发现中具有巨大潜力。NLP分析文献和数据库数据,提取关键信息并辅助SAR研究,提升药物发现效率。
计算机视觉分析生物图像,识别活性元素和生长趋势,支持新药筛选。结合质谱和色谱方法,有助于快速表征活性化合物。为促进AI应用,需实现数据数字化、标准化,并采用开放格式,解决天然产物数据库的组织和可访问性问题。
3. 人工智能用于天然产物药物的发现
人工智能(AI)在天然产物药物发现中发挥了重要作用,能够迅速识别、分类和去重复杂混合物中的化合物,加速新型生物活性分子的发现。AI算法还可预测化合物的生物活性,帮助研究人员优先筛选药物候选物。此外,AI驱动的分子对接和虚拟筛选技术可预测化合物与蛋白质的相互作用,进一步加快药物开发过程。不同的机器学习模型在药物发现的各个阶段中发挥重要作用,提升预测和筛选效率。
图4. 针对不同药物发现目标定制的机器学习框架概览。1. 多靶点药物-靶点相互作用(MT-DTI):通过蛋白质和配体序列预测亲和力。2. NMR模型:根据NMR数据分类天然产物。3. BGC分析:评估天然产物生物活性。4. 多靶点谱系预测:通过SMILES预测多靶点小分子。5. DeepBGC:使用基因组序列识别BGCs。
人工智能在预测合成路径方面发挥着重要作用,帮助优化合成路线,提高天然产物(NP)的生产效率、可扩展性,降低成本并提升可重复性。此外,AI还助力优化提取过程、评估药物代谢动力学、预测毒性,并整合生物数据,推动天然产物药物发现与优化策略的发展,加速新化合物的研发,提高药物开发效率。
3.1. 人工智能在天然产物靶点预测和去孤儿化中的应用
人工智能在天然产物(NP)药物研究中具有重要作用,尤其在靶点预测和去孤儿化方面。AI通过预测分子靶点、生物活性和副作用,帮助研究人员识别药用潜力区域。结合基因组挖掘和其他技术,AI解决了大量候选BGCs的挑战,降低了实验成本。AI还通过对接、聚类和机器学习等方法,推动NP靶点识别和药物筛选效率。
表1. 在天然产物药物发现中用于药理学预测和靶点识别的高级计算工具
工具
算法
应用
可用性
参考文献
PASS(药物活性谱预测)
朴素贝叶斯
预测3500多种药理治疗效果、作用模式、代谢相互作用和特定毒性,基于药物类化合物的结构式。
商业版
Lagunin等(39)
SEA(相似性集成方法)
MST(最小生成树)Kruskal算法
基于配体之间的化学相似性映射蛋白质。
免费
Keiser等(40)
SPiDER(基于自组织映射的药物等效关系预测)
自组织映射
识别创新分子,探索药物副作用,辅助药物重定位。
未公开
Reker等(41)
TiGER(靶点推断生成器)
多个自组织映射
定性预测最多331个靶点。
少数特性免费,其他需要订阅。
Schneider等(42)
DEcRyPT(药物-靶点关系预测器)
随机森林(RF)
解卷积表型命中靶点,准确预测亲和力。
未公开
Rodrigues等(43)
STarFish(堆叠集成靶点挖掘)
k近邻算法、RF、多层感知器、逻辑回归
考虑小分子与1907个靶点的结合,重点进行天然产物靶点预测。
免费
Cockroft等(44)
目前有多种软件工具可用于靶点和活性预测,涵盖基于结构(如对接)和基于配体的方法(如子结构、药效团、形状等)。其中,TIGER算法广泛应用于天然产物(NP)靶点预测,适用于各种靶点和配体。尽管其准确度在大分子天然产物上较低,但通过将大分子分解为小片段进行预测,能够提高准确性。TIGER已成功预测了天然产物如白藜芦醇、抗癌depsipeptide和聚酮类化合物的靶点,提供了靶点识别的有效途径。
图5. 药理活性天然分子doliculide和archazolid A的示例,通过使用机器学习模型识别了新的分子靶点。这些分子上的蓝色区域表示与预测的靶点相互作用相关的区域。
3.2. AI在天然产物(NP)基因组和代谢组挖掘中的应用
人工智能(AI)在天然产物(NP)基因组和代谢组挖掘中日益重要。AI通过预测生物合成基因和代谢物结构,加速NP发现。虽然规则技术如PRISM和antiSMASH对已知BGC识别较弱,机器学习(ML)方法如深度学习(DL)和支持向量机(SVM)在识别新BGC上表现更优。AI还助力代谢组分析,解决质谱数据处理问题,推动新药物发现。
图6. 使用AI方法发现的化合物示例。
3.3. AI在天然产物(NP)合成规划的应用
传统的合成规划软件主要针对简单的药物分子,而对于更复杂的天然产物,需要更为复杂的策略。Chematica和Synthia等软件采用历史合成的启发式原则,成功设计了复杂天然产物的合成路径。尽管现有的软件可以规划简单目标的合成路线,但对于需要多步骤规划的复杂天然产物仍存在挑战。
图7. 使用AI方法发现的化合物示例。
Barbara Mikulak-Klucznik等人的研究表明,通过加强有机化学知识和数据驱动的AI,计算机可以设计出与人类化学家相似的合成路径,并在实验中成功验证。ICSYNTH软件则通过规则分析提供可行的合成路线,显著提高了研发效率。尽管目前计算机辅助合成仍面临一些挑战,特别是天然产物合成的复杂性,未来的AI算法有望克服这些难题,推动更精确的合成规划。
表2. 基于AI的分子合成规划工具
工具
描述
可用性
网站链接或参考文献
DeepSA
采用深度学习模型预测化合物的合成难易,辅助分子选择。通过AUROC 89.6%的表现超越现有方法,特别适用于挑战性的分子。
免费
http://deepsea.princeton.edu/
Wang et al. (74)
AIDDISON药物发现软件与Synthia逆合成软件
默克的药物发现软件与Synthia逆合成结合,利用生成式AI、机器学习(ML)和计算机辅助药物设计(CADD)。从药物研发数据中识别具有关键性质的化合物,提出最佳合成方法。
商业
https://www.merckgroup.com/en/research/science-space/envisioning-tomorrow/future-of-scientific-work/aiddison.html
Molecule.one
利用深度学习和高通量技术预测有机化学合成路径,促进早期药物发现。对简化化学不可预测性和加速药物开发至关重要。
商业
https://www.molecule.one
RetroGNN
一种创新方法,通过训练图神经网络(GNN)来评估合成可能性,提升分子发现流程。生成具有优越QSAR基准分数的可合成分子。
免费提供支持信息
Liu et al. (75)
ChemistGA
将遗传算法与深度学习技术相结合的新方法,提高合成可及性和成功率。展示了卓越的性能,推动了药物发现中的生成模型发展。
免费提供支持信息
Wang et al. (76)
Pending.ai
从庞大的数据库中学习化学,利用神经网络进行高通量化学和新分子的生成。
商业
https://pending.ai/
Chemify
数字化化学,为药物发现、合成和材料研究生成化学代码解决方案。
商业
https://www.chemify.io/
Chemical.ai
提供ChemFamily产品,通过独特的逆合成算法提高化学合成效率。
商业
https://www.chemical.ai/
Iktos
提供化学研究的AI工具,包括合成规划程序Spaya和高通量合成可及性评分工具Spaya API。
商业
https://iktos.ai/
IBM的RoboRXN
一项结合AI、自动化和云计算的创新项目,旨在彻底改变工业化学。自动化合成流程,集成自动化硬件,并提供云端协作支持。
商业
https://rxn.res.ibm.com/
3.4. AI 在天然产物分类/筛选/识别中的应用
天然产物(NPs)中的生物活性化合物难以在复杂混合物中发现,AI加速了其发现与应用。常用的生物活性评估方法包括结构和配体研究。AI推动了天然产物在蛋白质相互作用和抗病毒活性预测中的分析,并帮助识别针对PLK1的天然产物,支持抗新冠药物筛选。AI结合基因组数据也推动了抗生素和抗肿瘤研究,深度学习(DL)模型提升了药物发现效率。
图8. 使用AI方法发现的化合物示例。
研究表明,萜类化合物通过机器学习算法(如随机森林、k近邻、MLP)分类,精度高(F1分数 >0.9),在植物化学和药理学中有重要应用。结合AI工具与传统方法,筛选出三种抑制JNK1的候选化合物,Tricin具有显著抑制活性。
表3. 通过AI取得的天然产物药物发现的其他成功案例
描述
AI应用
结果
参考文献
开发和验证P-SAMPNN神经网络用于抗破骨细胞生成、筛选天然产物和药物发现
筛选天然产物和药物发现
从10个虚拟命中中识别出5个确认命中,其中两种化合物是强效纳摩尔抑制剂
Liu等人(91)
使用机器学习筛选150,000个来自天然产物库的分子用于抗癌活性
筛选天然产物、筛选药物样分子、评估抗癌活性
确认了三种潜在抑制剂,通过分子动力学模拟验证
Agarwal等人(92)
使用机器学习发现对鲍曼不动杆菌有效的狭谱抗生素Abaucin(图8)
探索抗抗生素耐药细菌的化学选项
Abaucin通过破坏脂蛋白运输靶向A. baumannii
Liu等人(93)
使用机器学习进行虚拟筛选,寻找(-)-加兰他敏类似物用于阿尔茨海默病
多靶点药物设计
发现8种具有多药理作用的化合物
Grisoni等人(94)
使用深度神经网络预测来自庞大化合物库的抗菌化合物
发现新型抗生素
发现哈利新作为强效广谱杀菌抗生素
Stokes等人(95)
使用支持向量机增强非核糖体肽合成酶(NRPS)腺苷酸化域特异性的预测器
发现新的基因簇
实现了较高的F值,覆盖更广泛和更详细的特异性水平
Röttig等人(96)
MS2Mol:一种用于小分子识别的de novo结构预测模型
推动药物发现
预测了21%的结构,准确度较高
Butler等人(97)
深度学习模型用于预测天然产物的适应症并识别特权骨架
识别药物设计的特权骨架
构建了特权骨架数据集(PSD)用于先导化合物
Lai等人(98)
使用MT-DTI模型识别troxerutin(图8)为TRPV1拮抗剂
识别特定生物靶点的潜在化合物
在临床试验中显示Troxerutin有效减少皮肤发红
Lee等人(99)
使用药物发现平台发现sclareol(图8)为帕金森病的Cav1.3拮抗剂
识别特定疾病的潜在化合物
Sclareol在帕金森病小鼠模型中减少运动缺陷
Wang等人(100)
OptNCMiner模型用于预测多靶点调节天然产物
了解生物活性
识别了与2型糖尿病并发症相关的化合物
Shin等人(17)
机器学习方法用于识别天然产物并可视化关键原子
量化天然产物相似性
实现了0.997的AUC和高于0.954的MCC准确度
Chen等人(101)
NIMO:一种分子生成模型,用于扩展天然产物的化学多样性
增强化学多样性
在从零开始生成分子并优化结构方面表现优异
Shen等人(102)
使用机器学习识别Andrographolide(图8)为抗克氏锥体虫化合物
预测植物源天然产物对查加斯病的活性
展示了显著的抗T. cruzi活性且低细胞毒性
Barbosa等人(103)
使用生成模型和预测模型设计针对SARS-CoV-2蛋白酶的新小分子
针对SARS-CoV-2蛋白酶
识别了31种潜在的新化学实体(NCE),其中一些类似HIV蛋白酶抑制剂
Bung等人(104)
AI驱动的功能成分NRT_N0G5IJ从豌豆中发现,用于葡萄糖调节
支持葡萄糖调节
在人体试验中减少了HbA1c和空腹血糖水平
Chauhan等人(105)
表4. AI驱动药物发现的专有AI工具和平台选择
平台名称
机构
网页链接或参考文献
Centaur Chemist
Exscientia
Savage等人(106)
Pharma.AI
(PandaOmics用于新靶点发现,Chemistry42用于分子生成和优化及ADMET预测,InClinico用于临床试验预测)
Insilico Medicine
Kapustina等人(107)
Recursion OS
Recursion
Jayatunga等人(108)
Chemiverse
Pharos iBio
Gangwal等人(1)
Converge
Verge Genomics
https://www.vergegenomics.com/approach
Dynamo
Relay Therapeutics
Gangwal等人(1)
Benevolent
BenevolentAI
Richardson等人(109)
BioNeMo
NVIDIA
https://www.nvidia.com/en-in/clara/bionemo/
Pangea Bio
PangeAI
https://www.pangeabio.com/
AI在药物重定位和再利用方面取得突破,通过多组学数据推动新疗法发现。先进算法如BiRWDDA和RepCOOL成功应用于乳腺癌等疾病,并在新冠、类风湿关节炎、阿尔茨海默病等治疗中发挥作用,展示了多靶点治疗潜力。
3.5 AI在天然产物结构表征中的作用
AI在天然产物(NP)结构表征中发挥重要作用,尤其在化学结构预测方面。利用机器学习(ML)和计算辅助结构阐明(CASE)系统,AI提高了NMR和MS数据分析准确性,推动了新型NP结构的揭示和化合物分类,提升了结构鉴定效率。
3.6. AI正在自动化天然产物去重过程的应用
AI自动化天然产物去重过程,帮助筛选优先排序含生物活性化合物的样本。通过DNA序列预测BGC产品化学结构,AI将新化学结构与基因关联。结合色谱、光谱技术和机器学习算法,提升天然产物鉴定和代谢组学研究效率。
3.7 AI在天然产物全新药设计中的应用
AI正在通过创新的计算方法推动天然产物(NP)药物设计的发展。AI能够分析NP的独特结构,提升生物活性化合物的识别、模仿设计,并克服合成与生物活性的问题。
图 9. 天然产物药物发现方法概述。 (a) 优化天然分子药理学特征的总体过程,结合AI/ML预测建模,通过分子对接、QSAR分析和ADMET预测来优先选择候选分子。这些预测工具增强了提取、筛选、修饰和验证步骤中的决策过程。 (b) 基于配体的去新设计概述,结合AI/ML预测建模来评估和优化生成设计。预测步骤如Lipinski规则验证、药物相似性评分和毒性预测,确保生成具有优化药理学特征的药物候选分子。
天然产物面临毒性、选择性和生物利用度挑战,生物导向合成(BIOS)等策略应对这些问题。AI/ML预测模型通过分子对接、QSAR分析等优化化合物,GANs和深度学习促进新药设计。AI结合大数据推动药物发现进程。
图 10. 受天然产物启发的全新设计分子示例。此图展示了通过去新设计技术创建的具有新颖分子结构的例子,这些分子结构灵感来源于天然产物的化学框架和生物活性特征。
4. 结论
AI在天然产物药物发现中的局限性包括数据不足、结构复杂性、合成难题和生物学复杂性。天然产物数据库缺乏全面数据,影响AI训练,提出迁移学习和主动学习等解决方法。复杂结构使得AI难以预测生物活性和毒性,合成方面仍需改进。AI难以捕捉天然产物与生物系统的相互作用,且模型可解释性差。
为推动AI应用,需解决数据标准化、数据库扩展等问题,促进跨学科合作。AI优化与药学合作将为药物发现带来创新,改善全球健康问题。
参考文献:
https://pubs.acs.org/doi/10.1021/acs.jmedchem.4c01257
三、文献分享|人工智能(AI)在天然产物(Natural Products,NPs)药物发现中的应用、进展和未来展望
(九章本草)
本期推荐的是发布于Journal of Medicinal Chemistry的一篇文章,这篇文章的核心内容聚焦于人工智能(AI)在天然产物(Natural Products, NPs)药物发现中的应用、进展和未来展望。文章详细探讨了AI技术如何通过机器学习(ML)和深度学习(DL)等方法加速天然产物药物的发现过程,并分析了当前面临的挑战和未来的发展方向。
【引言】
药物研发和过程是一项耗时、复杂、成本高昂且风险较高的工作,其临床成功率大约仅为12%。为了简化这一流程并降低相关成本,各种创新方法应运而生,其中计算机辅助药物设计(CADD)在过去三十年中已成为设计小分子药物的有力工具,其成功率高于传统的高通量筛选(HTS)方法。近年来,人工智能(AI)的进展显著增强了CADD的能力,尤其是在数据处理、生成能力、药物再利用效率以及识别复杂数据模式和人类难以察觉的联系方面。AI与统计分析的结合,即化学信息学研究,已在药物发现中取得了令人鼓舞的成果。大量文献阐述了AI算法在多个领域的应用和方法,例如新药设计(de novo drug design)、药物再利用、ADMET(吸收、分布、代谢、排泄和毒性)预测、分子性质预测、合成规划以及临床试验受试者招募等。然而,在药物发现的背景下,关于AI在天然产物(NP)化学领域的应用研究仍然显著缺乏。尽管AI研究主要集中在合成小分子上,但将AI的潜力应用于NP化学以促进科学进步和发现新成果是至关重要的。
在药物发现的背景下,天然产物(NPs)是指由生物体(包括植物、动物和微生物)产生的化学化合物或物质。尽管NPs具有巨大的潜力,但从中发现药物的过程仍面临诸多挑战。如图1所示,这一过程从提取和分离初级和次级代谢产物开始,采用生物测定导向分离和色谱法等技术。这些化合物的结构阐明通常涉及先进的光谱学方法,包括核磁共振(NMR)、质谱(MS)和X射线晶体学。然而,这些程序可能非常耗时,例如从太平洋紫杉树中开发抗癌药物紫杉醇的过程就花费了30年时间。NP药物发现的关键挑战包括生物活性分子的有限可用性、分子结构的复杂性以及有前景化合物的低产量。
去重复化(Dereplication)即识别已知化合物的过程,有助于减少冗余,但也突显了发现新实体的困难。此外,NPs通常表现出低溶解性、不稳定性或毒性等特性,这些特性使得它们在临床应用中更加复杂。NPs与多个蛋白靶点的复杂相互作用既为多靶点治疗提供了机会,也带来了与非靶点效应相关的风险。技术进步,特别是AI驱动的进步,正在改变NP药物发现的格局。AI使得化合物筛选更快、分子性质预测更准确,并支持从NP启发的药物的创新设计。机器学习(ML)技术和先进的计算工具赋予研究人员克服传统障碍的能力,更高效地探索NP资源。持续的AI整合有望充分挖掘天然产物的治疗潜力,促进复杂疾病创新疗法的发展。
尽管存在挑战,但NPs由于其多样的化学结构和生物活性,一直是新药和治疗药物的丰富来源。随着分析和分离技术的进步,科学家们已从天然来源中鉴定出特定的生物活性分子。随后通过对这些化合物进行湿法实验室修饰合成类似物和模拟物,开发出了高效的药物。NPs还在治疗难治性疾病方面表现出疗效。例如,用于治疗多发性硬化症的芬戈莫德(图2)源自于Isaria sinclairii的次级代谢产物。重新激发使用NPs作为药物发现灵感来源的兴趣,为推进医疗保健提供了独特的机会。值得注意的是,在1981年至2006年期间,约50%的FDA批准的药物是NPs或其合成衍生物。海洋NPs特别有希望成为抗癌和抗病毒药物,许多已获许可的药物就是从它们中衍生而来的。此外,某些类型的食用藻类已作为潜在的抗肥胖物质来源而出现。然而,尽管它们对制药探索具有吸引力,但由于对可获得性(生态可持续性)、合成成本和时间(经济可持续性)以及其分子作用机制往往不明确(科学可持续性)的担忧,NPs作为药物在药物化学界的支持度有所下降。此外,该领域还面临独特的障碍,这些将在本文后面详细讨论。
AI驱动的信息处理技术与复杂的指标相结合,在现代研究中发挥着关键作用,有助于发现有前景的生物活性分子,并为目标化合物组提供全面的见解。NP化学中使用AI算法的研究激增标志着研究方法的范式转变,使得有效检测化合物、系统地将NPs分类到不同的化学和治疗类别以及加速化合物提取等应用成为可能。
这一观点深入探究了AI对NP药物开发的变革性影响,强调了先进的方法学,如创新药物设计和药物再利用。文章批判性地分析了数据基础在充分发挥AI潜力中的关键作用,强调了在去重复化(dereplication)技术和光谱分析方面取得的重要进展。通过提供AI原理的基本理解,强调了稳健的数据架构对于无缝集成到复杂的天然产物药物发现领域的必要性。讨论聚焦于天然产物衍生药物发现的独特挑战和进展,提供了前瞻性且全面的分析。认识到导航非核心资源的复杂性,同时明确了实现从发现到发展转变的关键技术。这种视角有意识地避免深入到更广泛的分子表征技术和通用AI框架,因为这些主题已在其他地方被广泛地覆盖。相反,文章专注于AI在天然产物药物开发中的具体应用和挑战,除了直接相关的情况外,不涉及合成药物发现的例子。本质上,本研究旨在吸引对AI在天然产物药物发现中作用有浓厚兴趣的研究人员,并对促进从发现到发展的关键技术提供独特的见解,同时强调这一动态领域的持续进展和持续挑战。图2展示了一些从天然来源获得的已知药物分子的结构。
【AI:开创药物发现的新纪元】
人工智能(AI)、机器学习(ML)和深度学习(DL)是计算机科学中相互关联的概念,它们在推动药物发现方面发挥着关键作用。AI专注于通过机器(尤其是计算机系统)模仿人类的认知过程,包括学习、推理、解决问题、感知、语言理解以及决策制定。其目标是创建能够感知环境并采取行动以实现特定目标的智能实体。AI的应用范围广泛,从自然语言处理(例如使用大型语言模型,如ChatGPT)到计算机视觉、机器人技术和自动化系统。在药物发现中,AI显著增强了活性预测、结构-活性关系(SAR)研究和分子设计的能力。例如,AI驱动的分类任务涉及根据药物候选性或毒性等属性对分子进行分类,这直接影响活性预测,能够快速识别具有理想特性的化合物。回归任务则预测连续值,如药物效力或与特定蛋白的结合亲和力,这对于细化SAR研究中的预测和优化分子设计至关重要。
ML是AI的一个子集,专注于开发能够使计算机从数据中学习并进行预测或决策的算法和统计模型。ML算法通过学习提升系统性能,而无需明确编程。ML的技术包括监督学习(从标记数据中学习)、无监督学习(识别未标记数据中的模式)、半监督学习(从少量标记数据和大量未标记数据中学习)以及强化学习(基于奖励或惩罚的试错学习)。图3a提供了应用于药物发现的AI/ML技术的概述,突出了支持向量机(SVM)、神经网络和决策树等特定算法及其在筛选过程不同阶段的用途。这些方法使研究人员能够构建预测模型,识别分子结构与生物活性之间的关系,这是SAR分析的基础。
DL是ML的一个子领域,专注于训练具有多层(深度神经网络)的人工神经网络,以理解复杂的数据表示。受人类大脑神经元结构和功能的启发,DL在图像和语音识别、自动驾驶等领域表现出色。在药物发现中,DL自动识别复杂模式和特征的能力使其在分子设计中具有不可替代的价值。例如,卷积神经网络(CNNs)在分析用于SAR研究的分子结构和虚拟筛选(VS)过程中特别有效,而循环神经网络(RNNs)则处理新分子设计中的序列到序列学习。此外,强化学习(RL)算法通过迭代学习和反馈循环优化药物发现中的决策制定,通过完善分子合成路径和化合物设计策略,直接促进了药物创制。生成对抗网络(GANs)是一种生成性AI模型,通过从现有化学数据中学习来生成新化合物,而自编码器则有助于分子表示学习,两者对于分子设计和SAR研究都至关重要。
自然语言处理(NLP)和计算机视觉作为AI的重要组成部分,在天然产物药物发现中也展现出巨大潜力。NLP算法能够分析科学文献、专利和天然产物相关数据库中的大量文本数据,提取化学结构、生物活性、合成路线和分子相互作用等关键信息。这些信息被输入到ML模型中,用于预测分析、虚拟筛选和SAR研究,帮助研究人员更好地理解分子结构如何影响生物活性。此外,基于NLP的聊天机器人(如基于大型语言模型的OpenAI的ChatGPT)和知识管理系统可以协助研究人员访问和检索相关数据,解答问题,并导航复杂的数据集,从而提高药物发现计划中的生产力和决策的科学性。例如,InsilicoGPT(https://papers.insilicogpt.com)是一个即时问答工具,它将回答与特定研究论文中的段落和参考文献联系起来,方便用户与论文及其他相关论文进行互动。据该网站信息,该工具于2023年6月首次发布,当时ChatGPT尚未具备此类功能。
AI中的计算机视觉技术可以通过分析来自各种天然来源的视觉数据来补充NLP的能力。例如,算法可以分析植物、海洋生物和微生物培养的图像和视频,识别独特特征,检测生物活性成分,并评估生长趋势和环境因素。这种视觉分析为研究人员提供了关于自然多样性的关键见解,有助于样本收集策略,并通过表型筛选方法支持药物发现,这些方法与活性预测直接相关。此外,将计算机视觉与光谱学方法(如质谱和色谱法)相结合,可以分析天然产物的化学轮廓和光谱,简化生物活性化合物的鉴定和表征过程。
结合基于NLP的数据挖掘和基于计算机视觉的图像分析,研究人员能够加速从广泛的天然来源中发现新药,最终有助于更高效的活性预测、SAR分析和分子设计过程。天然产物药物发现领域在数据库的组织、完整性和可访问性方面面临重大挑战。尽管存在像PubChem和ChEMBL这样的大型数据库,但它们的数据往往缺乏针对天然产物-特异性的全面文档,例如提取物和组分的生物测定信息。许多天然产物数据库对学术用户不可用,或者不允许下载完整数据集,这为AI模型的训练设置了障碍。此外,科学出版物通常是数据共享的主要方式,但这些数据通常以非机器可读格式发布,使得自动化数据提取变得复杂。在整理天然产物数据时的关键问题包括将图像转换为结构、解决命名冲突以及提取实验元数据。标准化的数据收集实践,例如使用一致的培养基,对于改善数据的可比性至关重要。像NCI60肿瘤细胞系用于抗癌药物筛选和社区驱动的CO-ADD方法等努力旨在生成标准化的数据集,但已发表的阴性结果的缺乏仍然引入了偏差。NP Atlas、COCONUT、LOTUS和MIBiG等数据库已成为化学结构和生物合成基因簇(BGCs)的不可或缺的资源,支持ML应用。图3b展示了将ML整合到工作流程中的示例,从识别微生物组数据集中的疾病相关BGCs到临床试验候选药物的实验验证和开发。同样,像GNPS和NP-MRD这样的光谱数据库增强了对质谱和NMR数据的可访问性。海洋特异性数据库也为药物发现工作做出了贡献。然而,要充分发挥AI在天然产物药物发现中的潜力,需要将研究数据数字化为开放、结构化的格式。为此,数据库必须采用标准化格式,包含注释的化学结构,并提供完整的元数据。这样的进步将使数据在研究中的整合和利用更加高效,从而在天然产物药物发现中取得重大进展。
【人工智能在天然产物药物发现中的应用】
在当前的药物发现和开发格局中,人工智能(AI)的融入从根本上改变了天然产物(NPs)的利用方式。AI算法能够快速高效地从复杂混合物中识别、分类和去重复化化合物,极大地促进了对新型生物活性分子的探索。此外,这些算法在预测分离化合物的生物活性方面表现出色,使研究人员能够根据药理学特性优先考虑潜在的候选药物进行进一步研究。此外,AI驱动的分子对接和虚拟筛选技术在预测化合物与蛋白质之间的相互作用方面发挥了重要作用,从而加速了药物开发中潜在化合物的识别工作。图4概述了药物发现中使用的各种机器学习(ML)框架。每个模型利用不同的输入数据来实现与药物开发相关的特定预测。该图展示了如何使用多样化的ML方法来预测,如估计结合亲和力、对NPs进行分类、评估生物活性、预测多靶点特性以及识别生物合成基因簇(BGCs)等不同目标。这种可视化表示突出了ML技术在药物发现过程中不同目标中的适应性。
此外,AI模型在预测合成路径方面发挥着关键作用,这对于天然产物的高效和可扩展生产至关重要。通过优化合成路线,AI有助于降低成本、提高可重复性,并促进新型天然产物及其衍生物的开发。此外,AI还助力于优化提取工艺、评估药代动力学、预测毒性以及整合生物数据。通过提供全面的工具包,AI推动了基于天然产物的药物发现和优化策略,促进了新型化合物的开发,并提高了药物开发的整体效率。
1.AI在天然产物靶点预测和去伪中的应用
由于天然产物(NPs)具有与生俱来的三维结构,与主要为“平面”结构的合成化合物形成鲜明对比,因此它们在发现活性化合物方面具有巨大潜力。这些天然来源的物质更有可能与转运系统有效相互作用,从而促进其递送至靶点。AI在天然产物研究中的一个重要作用是预测药物候选物的分子靶点、生物活性和潜在副作用。在这些领域的准确预测引导研究人员朝着药物开发最有希望的化学空间区域前进。这在基因组挖掘中尤为重要,因为大量的候选生物合成基因簇(BGCs)使得识别具有真正药物潜力的基因簇变得极具挑战性。AI与其他技术的结合可以帮助应对这种复杂性。
有前景的NPs向可行的药物候选物的进展通常由于对它们的靶点了解有限而受到阻碍,这使得临床前测试和优化变得复杂。鉴于在大规模分离和研究代谢物方面的挑战,通过实验确定这些分子的作用机制成本高昂且劳动密集。基于分子结构高效预测最可能的靶点的计算模型是当前研究的热点。各种计算药物发现方法已被证明在识别NP靶点方面非常有效,包括对接、聚类、生物活性指纹、药效团和机器学习。有时,这为已经处于临床试验中的NPs带来了新的见解。尽管目前存在局限性,但这种方法的成功以及先进机器学习模型准确性的不断提高表明,该领域的进一步发展是可能的。这些进展将导致更定制化和增强的模型。
NPs的具体结合位点通常是未知的,特别是因为生物活性NPs通常是通过基于可观察性状的测试发现的,缺乏对其蛋白质药物靶点的明确识别。在筛选技术的进步和实验室方法的创新下,“靶点垂钓”技术应运而生,旨在揭示NPs的潜在作用机制。计算上的进步,如机器学习模型和在线平台,在评估公共化学库中记录的NPs的治疗能力方面发挥了关键作用。这些工具被称为去伪预测器,利用监督或半监督机器学习算法,基于标记和未标记的特征进行训练,以预测NPs的蛋白质靶点。许多在线平台结合机器学习技术用于配体导向的靶点垂钓,主要依赖于化学相似性搜索。表1总结了用于这一任务的一些工具。
市场上有许多用于靶点和活性预测的软件工具,范围从基于结构的(例如对接)到基于配体的方法(例如基于亚结构、药效团、形状的方法)。虽然没有一种方法是完美的,但每种方法都有其独特的优势。其中最成功且应用最广泛的是TIGER,它适用于NPs。TIGER算法基于配体的二维化学结构(化学构成)工作,不考虑靶点结构,使其适用于广泛的靶点和配体。大多数靶点预测工具,包括TIGER,是使用小分子参考数据开发的。它们的预测准确性通常在应用于较大NP结构(如大环或肽)时受到影响。为了部分缓解这一问题,可以将大的NP虚拟分解为较小的部分,并对得到的“药物大小”的片段进行靶点预测。除了为大型NPs提供直接的靶点和活性预测外,基于片段的预测有时还指出了最重要的功能传递亚结构部分(图5中的蓝色部分),这些部分可用于化学衍生化和指导优化。
图5展示了使用TIGER识别新靶点的三个例子。对于小型NP白藜芦醇,预测并实验验证了其对雌激素受体β的拮抗作用。对于中等大小的抗癌多肽doliculide,软件识别出前列腺素E受体EP3的拮抗作用。对于聚酮类化合物archazolid A,已知其为V-ATPase抑制剂,软件识别出farnesoid X受体和其他先前未知的靶点。除了为大型NPs提供直接的靶点和活性预测外,基于片段的预测有时还指出了最重要的功能传递亚结构部分(图5中的蓝色部分),这些部分可用于化学衍生化和指导优化。
2.AI在天然产物基因组和代谢组挖掘中的应用
AI已被越来越多地用于从序列或光谱数据中预测生物合成基因和代谢物结构,显著加速了天然产物(NPs)的发现。基于规则的技术,如预测次级代谢组信息(PRISM)和antiSMASH,仍被广泛用于识别NPs中的生物合成基因簇(BGCs)。这些方法在发现未聚集的途径或新型BGCs方面表现出色,但在识别已知BGC类别方面存在不足。在这种更复杂的情况下,机器学习(ML)算法相较于基于规则的方法展现出显著优势。这一过程与图3b中描述的工作流程一致,其中ML在识别疾病相关的BGCs以及将其推进到验证和药物候选物开发方面发挥了关键作用。例如,基于深度学习(DL)或支持向量机(SVM)的方法,如ClusterFinder、DeepBGC、GECCO和SanntiS,以及针对核糖体合成和翻译后修饰肽(RiPPs)的基因组挖掘技术,已被用于识别传统基于规则的注释方法未能捕获的BGCs。这些方法通过序列特征(如基因家族、蛋白质结构域和氨基酸序列特征)进行训练,尽管其假阳性率高于基于规则的技术,且对已知BGCs形式存在假阴性,但它们已经在发现新型NP生物合成途径方面证明了自身的价值。例如,pristinin A3(图6)是通过decRiPPter算法发现的一种新型lanthipeptide类化合物,该算法旨在预测新的RiPP家族。此外,通过DeepRiPP及其基于DL的RiPP前体检测模块,还发现了RiPPs deepflavo和deepginsen,它们的前体肽编码位置与任何相关生物合成酶的距离较远。
代谢组学能够直接鉴定生物合成产物,即使其确切结构未知,而基因组挖掘技术只能暗示生物合成潜力。然而,从质谱(MS)数据中推断分子框架和亚结构并非易事。因此,AI被用于解决MS基础代谢组挖掘中的常见问题,如保留时间预测、分子式注释、分子类别注释以及使用MS相似性度量进行库搜索和匹配。这些算法的实用性仍受到标记有代谢物片段离子化学结构的串联质谱(MS/MS)光谱数量有限的限制。然而,通过输入缺失数据,例如直接从代谢物结构估算化学指纹或模拟光谱,可以改进这些方法。同样,AI也在推动核磁共振(NMR)代谢组挖掘任务的发展,深度学习为NMR光谱重建、去噪、峰提取、偶合预测和光谱去卷积开辟了新路径。
新的AI算法需要将基因组挖掘的BGCs和基因簇家族与非靶向代谢组挖掘的光谱和预测的分子类别联系起来。例如,最近的深度学习算法进展使得能够从NP化学结构预测生物合成途径成为可能,并为与BGCs的匹配奠定了基础。这些算法将在鉴定缺乏注释的BGCs和分子结构方面发挥关键作用,弥合基因组学和代谢组学之间注释的巨大差距。如图3b所示,这种AI驱动的工作流程展示了弥合基因组挖掘的BGCs与代谢组挖掘光谱之间差距的潜力,从而能够发现新的治疗化合物。
3.AI在天然产物合成规划中的应用
在自然世界中,许多分子结构复杂,通常包含多个环状结构和手性中心。例如,ciguatoxin CTX3C(图7)具有13个环和30个立体中心,其合成在2001年由日本的一个研究团队完成。而像维生素B12(图7)这样复杂的分子,其首次全合成在1972年完成,耗时12年,涉及超过90步反应,由100多名合作者共同完成。
此前,合成规划软件主要针对较为简单的类药分子,采用分步合成的方法。然而,对于更大、更复杂的纳米颗粒,需要采取独特的策略。为了应对这一挑战,Chematica/Synthia合成规划程序的开发者引入了四种基于历史专家合成经验的启发式规则。这些规则使程序能够更好地模拟复杂合成所需的策略性思维,成功为具有挑战性的天然产物(如callyspongiolide,图7)生成可信且创新的合成路径。
在过去五十年中,教会算法系统地设计多步有机合成一直是一个挑战。然而,随着软件开发的进步,例如逻辑和启发式应用于合成分析(LHASA),人类操作员可以在每个阶段对反应做出决策。如今,许多软件平台能够自主规划整个合成过程。然而,这些程序的功能是循序渐进的,目前仅限于人类化学家可以在没有计算机辅助的情况下快速设计的相对简单的目标。此外,这些算法尚未能够为复杂天然产物设计出可行的路径,因为这些分子需要广泛的多步规划,而仅依赖相关文献是不现实的。为了克服这一挑战,Barbara Mikulak-Klucznik及其同事展示了计算合成规划的潜力,前提是程序对有机化学的理解和数据驱动的AI能够通过因果关系进行深化。这种改进使程序能够跨多个合成步骤进行战略性规划。通过类似于图灵测试的测试,研究人员发现,由这种程序设计的路径与人类设计的路径几乎无法区分。此外,他们还在实际环境中成功验证了三种计算机生成的天然产物合成路径。这些发现共同表明,在专家水平上实现自动综合规划是可行的,这取决于不断增强的反应知识库和对代码的进一步优化。
Chematica程序自主设计了engelheptanoxide C(图7)的合成路径,这是一种从黄杞中分离出来但从未被合成过的天然产物。计算机规划的路线在实验室中成功执行。2020年,Synthia被改进以设计复杂天然化合物的合成路线。经过验证,其路线更加精细且独特,与化学家设计的路线相当。研究人员选择了三种复杂的天然化合物,包括(-)-dauricine、(R,R,S)-tacamonidine和lamellodysidine A(图7),其中后两者之前未被完全合成。他们从Synthia的建议中选择了最佳合成路线,并在仅调整反应条件的情况下验证了16条路线,成功合成了(R,R,S)-tacamonidine和lamellodysidine A。尽管没有算法能够为复杂天然产物设计出可行的路线,因为需要高级的多步规划和不可靠的文献先例,但该研究表明,通过增强有机化学知识和AI程序,计算合成规划是可行的。通过类似于图灵测试的测试,合成专家发现,计算机设计的路线与人类设计的路线几乎无法区分。此外,三种计算机设计的天然产物合成路线在实验室中成功验证,表明实现专家级自动化合成规划是可行的,前提是进一步改进反应知识库和代码优化。
另一种工具是ICSYNTH,它是一种基于从广泛化学研究中编译规则的软件。该工具协助用户识别可行的路径,类似于理解哪些道路畅通或拥堵。用户可以根据成本效率、速度或可靠性等偏好自定义路线。一项研究将ICSYNTH在建议新合成路线方面的表现与项目化学家的历史头脑风暴和文献数据进行了比较。研究结果表明,ICSYNTH显著提高了研发化学家的生产力,如在阿斯利康公司经常使用ICSYNTH设计AZD4635等化合物的路线(图7),这是一种腺苷A2A受体拮抗剂。
另一项研究提出了一种新方法,将蒙特卡洛树搜索和符号AI相结合,以发现逆合成路径。利用在大量有机化学反应数据集上训练的扩展和过滤网络,结合蒙特卡洛树搜索,该系统表现优于传统技术,成功识别的分子数量几乎是传统技术的两倍,并且速度显著加快。在盲法评估中,化学家验证了计算机生成的路径与文献中的路径相当,突显了该方法的有效性。尽管在天然产物合成规划方面仍有许多工作要做,但目前的软件程序可能会成为化学家的有价值工具。尽管取得了进展,但计算机辅助合成尚未完全解决,很少有AI工具专门用于天然产物合成,并且缺乏足够的训练数据限制了深度学习方法的应用。天然产物的复杂性使得即使是专家化学家也难以处理,因为它们的行为不可预测,且需要密集的方法。尽管工业制药合成路线的平均步数为8.1步,但一些复杂目标可能需要超过100步。然而,更强大的算法最终可能会克服这些挑战。有关更多信息,读者可以参考文献。一些用于分子合成规划的基于AI的工具总结在表2中。
4.AI在天然产物的分类、筛选和鉴定中的应用
天然产物(NPs)在自然资源中含量丰富,但如何从复杂的混合物中检测到它们仍然是一个挑战。例如,在生物活性导向分离过程中,弱活性化合物的聚集往往会阻碍进展。为了应对这些挑战,将AI与现有知识相结合可以显著加速生物活性化合物的发现和应用。用于评估化合物生物活性的常用方法是虚拟筛选(VS),它可以分为基于结构和基于配体的研究。基于结构的研究侧重于分子与靶标蛋白的相互作用,依赖于结合模式来估算活性,但需要大量的计算资源和详细的蛋白质数据。相比之下,基于配体的研究根据化学结构的相似性来预测活性,假设新的活性化合物与已知化合物相似。由于生物活性与化合物结构之间的相关性,大量计算研究致力于活性评价。然而,在基于配体的方法中,选择合适的相似性度量和分子指纹仍然是一个挑战。定量构效关系(QSAR)研究使用数学模型将结构与活性相关联,预测具体的活性值或活性的存在。判别模型特别适用于预测具有不同结构的化合物的活性。
与合成分子相比,天然产物具有独特的结构特征,包括多样的形状、复杂的环状系统、较高的氧含量以及较低的氮、硫和卤素含量,它们富含sp³杂化的碳原子、手性中心和氢键官能团。较小的天然产物往往表现出刚性,而较大的天然产物(如大环化合物)则提供了灵活性,从而增强了与蛋白质的结合和相互作用。这种结构优化归因于与蛋白质靶标的共同进化。用于聚焦化合物库的计算工具需要评分系统来评估天然产物的相似性。Ertl等人开发了天然产物相似性评分,基于天然产物特征结构片段评估相似性。通过与合成分子和DrugBank条目的比较验证了该评分,激发了天然产物相似性评分(NaPLeS)网络应用的开发。此外,扩展连通性指纹(ECFP)等方法也被用于衡量与天然产物的相似性。机器学习进一步完善了天然产物相似性评分,实现了对大型化合物库的类药性、类代谢物和类先导性的有效分析。除了经验规则外,机器学习还增强了分子组装(MA)指数等方法,该指数由Marshall等人引入,用于量化分子复杂性。该指数与质谱碎片复杂性高度相关,有可能作为设计天然产物启发药物的适应性函数。
通过AI技术,天然产物的生物活性研究取得了显著进展,为药物发现提供了新的见解和方法。例如,AI促进了靶向PLK1(细胞增殖的中心蛋白)的共价结合天然产物的识别,展示了AI在预测分子相互作用方面的精确性。AI的作用还扩展到了应对当前的紧迫挑战,例如通过基于配体的机器学习和基于结构的对接研究SARS-CoV-2的潜在活性,展示了这些技术的适应性和相关性。进一步证明AI潜力的研究表明,对来自Delisea pulchra的furanones的3D构效关系(3D-SAR)的实验数据与计算药效团假设之间存在高度一致性,强化了AI生成模型的可靠性。除了针对特定靶标的定义外,AI技术还促进了更广泛的生物活性分析。通过聚类化学结构,可以评估天然产物的治疗潜力,整合结构和生物活性数据,为药物发现提供有力的见解。
机器学习模型已被开发用于准确预测天然产物的靶标蛋白,利用广泛的数据库和预测框架提高准确性。例如,“STarFish”网络工具的创建展示了如何将这些模型应用于更广泛的科学研究。将来源生物体的基因组数据纳入其中,进一步丰富了生物活性预测。例如,机器学习已应用于从生物合成基因簇(BGCs)预测抗生素活性,展示了基因组信息和AI在药物发现中的动态整合。
在抗肿瘤治疗领域,天然微管抑制剂如紫杉醇(图1)和伊沙匹隆(图8)已成为天然产物在药物发现中的关键成功案例。最近,深度学习模型识别出其他β-微管抑制剂,如eleutherobin、bruceine D和phorbol 12myristate 13-acetate(PMA)(图8),强调了深度学习在揭示基于天然产物基础的有效药物中的作用。然而,仍有改进空间。通过扩大训练数据集以包含更多样化的分子,并在更广泛的化学空间中预训练深度学习模型,可以解决冷启动问题并提高命中率识别。此外,采用生成模型而不是有定向消息传递神经网络(DMPNN)提供了创新机会,可以在已知的化学空间之外生成新的分子结构。最近的研究还专注于利用AI识别COVID-19的治疗方法。例如,对4924种非洲天然代谢物的分析鉴定了15个针对SARS-CoV-2解旋酶的有前途的化合物,其中化合物1552(图8)在对接和分子模拟中显示出强大的潜力。这些发现强调了将分子模拟与AI结合以解决紧迫的健康挑战的有效性。
萜类化合物是一类多样化的天然产物,已通过数据科学方法进行了系统分析。研究人员应用随机森林(RF)、最近邻(k-NN)和多层感知器等机器学习算法,以高精度(F1分数>0.9)对萜类亚类进行分类,突出了它们在植物化学和生药学中的效用。
另一项研究旨在识别天然产物抑制剂,针对c-Jun Nterminal kinase 1(JNK1),这是2型糖尿病治疗的一个重要靶标。将AI工具与传统的计算机辅助药物设计(CADD)方法相结合,研究人员通过投票和堆叠策略构建了三个机器学习模型(支持向量机(SVM)、随机森林(RF)和人工神经网络(ANN))。然后,利用这些模型在ZINC数据库中筛选出4112个天然产物,随后进行类药性筛选和分子动力学(MD)模拟,以评估22种化合物的结合自由能。基于概率值和先前报告,确定了三种有前途的候选化合物(lariciresinol、tricin和4’-demethylepipodophyllotoxin,图8)。体外实验确认tricin对JNK1具有显著的抑制活性(IC₅₀ = 17.68 µM),表明其作为设计新型JNK1抑制剂的模板的潜力。表3展示了AI在天然产物发现中的重要成就。表4列出了用于AI驱动药物发现的几种专有AI工具和平台,如文献所述,未特别区分天然产物和非天然产物药物发现。
AI彻底改变了药物的重新定位和再利用,为发现现有药物的新治疗用途提供了一种强大的策略。借助多组学和实验研究产生的大量数据,AI驱动的药物重新定位展现出显著的潜力。与依赖化学相似性和对接的传统方法不同,现代方法利用先进的AI算法,提高了药物发现的精确性和范围。例如,BiRWDDA算法采用多相似性融合方法来识别现有药物的潜在新用途。同样,RepCOOL算法在乳腺癌二期药物再利用方面发挥了重要作用,成功突出了如他莫昔芬、曲妥珠单抗、紫杉醇和多柔比星等药物。在应对COVID-19大流行期间,AI在识别有前景的治疗候选药物方面发挥了关键作用。多模态深度学习方法确定了12个潜在的治疗靶点,而基于网络的方法识别了16种潜在的抗HCoV再利用分子。这些创新技术还加速了其他疾病(如青少年类风湿关节炎和阿尔茨海默病)的治疗方法的发现,通过如相似性网络融合-条件变分自编码器(SNF-CVAE)等模型,利用药物相似性网络融合。采用二分图卷积网络开发的BiFusion模型是计算机辅助药物再利用的前沿技术。此外,iDrug方法将药物-靶标预测的跨网络嵌入与药物再利用相结合,展示了AI在扩展治疗领域方面的转化潜力。
天然产物为曾经难以攻克的疾病提供了治疗方案,例如用于阿尔茨海默病(AD)的加兰他敏和用于多发性硬化症的芬戈莫德(见图1)。此外,大自然不仅提供了新的分子,还揭示了新的受体。由于有限的患者数量和错综复杂的病理,难治性疾病通常需要持续的过程,其潜在的机制通常不完全清楚。计算处理能够从现有数据中提取有价值的信息,帮助识别有证据支持的潜在化合物,即使是对于这些难以治疗的疾病也是如此。最近的计算研究专注于天然产物,以寻找针对阿尔茨海默病的新候选药物。这些研究突出了将AI与天然产物研究相结合以解决未满足的医疗需求的潜力。例如,通过多步骤的计算方法,从次级代谢产物中鉴定出了乙酰胆碱酯酶(AChE)抑制剂。最初,机器学习模型被用来筛选潜在的化合物,随后进行虚拟筛选和分子动力学计算。这种方法确定了两种具有前景的抑制特性的倍半萜内酯类化合物,证明了在药物发现中结合计算技术的有效性。同样地,对于传统上被认为具有认知增强特性的植物——假马齿苋(Bacopa monnieri),研究人员利用系统药理学和化学信息学来探索其有益的化合物及其分子作用机制。通过构建将靶蛋白与假马齿苋成分以及各种疾病相联系的网络,研究人员提出了潜在的相互作用和生物途径,揭示了这种植物的治疗潜力。此外,通过判别建模,有助于识别在阿尔茨海默病中作用于多个靶点的天然产物。这种方法强调了AI在发现多靶点疗法中的多功能性和潜力,这对于像阿尔茨海默病这样的复杂疾病至关重要。这些发现表明,将AI与天然产物研究相结合,在开发治疗选择有限的疾病的药物方面具有重要意义。尽管这些计划仍处于早期阶段,但计算方法的持续进步有望带来针对棘手疾病的高效药物,从而改变药物发现和治疗的格局。
5.AI在天然产物的结构表征(化学结构预测)中的应用
天然产物的结构复杂性给药物发现带来了巨大挑战,需要对分离的分子结构进行清楚的解释。需要收集、分析和汇编多样的数据,以便进行有效的结构解析。最近的创新包括微晶电子衍射(MicroED),它加速了对亚微米大小化学化合物晶体的研究,有望加快结构阐明的速度。机器学习也已成为估计化合物结构,特别是在模拟天然产物的核磁共振(NMR)特性的有用工具。目前,SciFinder等数据库提供了改进的预测,但复杂结构的实验值和预测值之间的差异仍然存在。为了提高NMR预测的准确性,人们已经做出了努力,例如开发用于检测错误化学位移分配的工具,以及基于¹³C NMR数据对化合物进行分类的ML程序。
计算机辅助结构解析(CASE)系统可以通过基于概率的方法对给定NMR数据集的所有可能结构进行排名,从而减少错误结构分配的可能性。例如,SMART-Miner和COLMAR工具能够识别和标记复杂混合物NMR谱中的初级代谢产物。此外,DP4-AI结合了基于量子化学的NMR化学位移理论计算和贝叶斯方法,为候选结构分配正确性概率,并采用客观的模型选择来选择峰值和减少噪声。同样,SMART 2.0是一个基于卷积神经网络(CNN)的工具,它指导了新型天然产物的发现和结构解析,例如symplocolide A(见图8)。然而,基于量子化学的NMR化学位移计算通常需要广泛探索构象空间,这对于柔性分子来说计算成本很高。ML模型如ASE-ANI通过构象筛选减少了计算成本。AI还在基于质谱(MS)的结构注释和解析中发挥着变革性作用。自20世纪60年代以来,AI补充了基于规则的方法,用于从MS数据中直接识别未知物质。最近,深度神经网络被用于将MS谱与分子数据库中的化合物进行匹配,预测化学特征,从MS1和碰撞截面(CCS)数据中识别小分子,并从MS/MS谱中从头解析结构为SMILES字符串。此外,人们还尝试使用MS/MS数据从混合物中确定物质的结构。例如,CANOPUS工具使用深度神经网络以高精度对化合物类别进行分类,即使对于缺乏结构参考数据的分子也是如此。ML还增强了对蜂胶的NMR数据分析,确保样品均一性并提高数据质量。在海洋微生物学中,液相色谱-串联质谱(LC-MS/MS)结合代谢组学和分子网络分析,发现了新的生物活性分子。对isoquercitrin(见图8)的研究表明,人工神经网络(ANN)、自适应神经模糊推理系统、支持向量机(SVM)和多元线性回归分析等预测模型在预测基于浓度、流动相组成和pH等变量高效液相色谱(HPLC)保留时间和峰面积方面表现出色。自适应神经模糊推理系统和ANN在预测峰面积和保留时间方面表现出色,展示了这些模型在定性和定量分析中的强大能力。这些进展强调了AI在应对天然产物结构解析复杂性方面的关键作用,为NMR和MS分析提供了强大的解决方案。
6.AI在天然产物去重复过程中的自动化应用
如前文所述,探索天然产物(NPs)涉及多个步骤,直至获得纯化、可测量且便于分析的分离物。筛选和优先选择含有生物活性化合物的提取物、馏分和分离物的过程一般由一个或多个生物测试指导。目前,在天然产物领域,研究人员正在开发AI方法,仅通过DNA序列来预测生物合成基因簇(BGC)产物的化学结构。这得益于对已知生物合成途径及其化学产物的数据来实现,这些数据越来越多地被标准化并保存在公共数据库中。虽然这种方法有助于识别具有新颖化学结构的分子,并将其与生物合成基因联系起来,但迫切需要更高效的策略,以筛选和优先考虑大量预测的天然产物生物合成多样性,以确定潜在的药物候选物。为了实现这一目标,科学家们设计了各种方法,通过使用靶向或非靶向NPs的早期化学表征来减少天然粗提取物的重复性。这些方法通常结合了先进的分析化学技术,如色谱法和光谱法。此外,随着数据数字化趋势的增加,数学和统计方法的应用也得到了促进。化学计量学利用多变量统计分析技术处理这些研究中收集到的数据,以及来自光学辐射源(如红外、可见光和紫外光)的数据,从而加速了已知和未知天然产物的识别。
除了天然粗提取物,科学家们还利用机器学习(ML)算法从代谢组学数据中提取信息,以产生新的生物学发现。在代谢组学研究中,监督学习方法(如遗传算法、人工神经网络(ANN)、随机森林(RF)和支持向量机(SVM))因其能够提供定量预测而显示出巨大潜力。这些算法的应用促进了生物学应用、组学数据的整合以及分析数据处理的简化。例如,ML算法被用于色谱图峰的整合、保留时间的预测以及缺失数据的填补。
7.AI在天然产物启发的全新药物设计中的应用
AI正在通过利用其先进的能力探索天然产物(NPs)的独特结构来转变天然产物药物开发,这些结构通常能与特定的药物靶点蛋白高效相互作用。AI增强了生物活性天然产物的识别能力,基于这些产物创造新化合物的能力,以及克服模仿天然产物设计的挑战(图9)。基于天然产物结构或亚结构开发的化合物可以引入与合成化合物不同的特性,增加化学多样性,并产生具有不同生物活性和靶标的分子。
天然产物具有与药物靶点蛋白有效相互作用的属性,使其成为合成化合物库的宝贵构建模块。然而,它们常常面临毒性、选择性和生物利用度等问题。在1980年至2014年之间,92%的天然产物衍生药物由于这些问题而被修改。天然产物的复杂结构,包括立体中心和稠环,使得类似物的合成和结构-活性关系(SAR)的研究变得复杂。为了克服这些挑战,人们已经开发出多种策略。生物学导向合成(BIOS)使用天然产物作为模板来创建衍生物和类似物。多样性导向合成(DOS)或转移全合成(DTS)旨在通过生成具有天然产物类似药效团的结构来探索新的化学空间。复杂性到多样性的策略(CtD)通过模仿酶促过程来产生结构多样的化合物,而功能导向合成(FOS)通过简化活性先导结构来改进BIOS,使其更易于合成和创新。将AI/ML预测建模整合到这些工作流程中,有助于增强候选物的选择和优化。例如,分子对接、定量构效关系(QSAR)分析和ADMET(吸收、分布、代谢、排泄和毒性)预测等技术使研究人员能够在合成之前优先考虑具有最佳药代动力学和药效学特征的化合物,显著减少实验验证所需的时间和资源。最近,Karageorgis等人引入了生成“拟天然产物”的原则,这些拟天然产物结合了多个天然产物衍生片段,创造出具有潜力的新骨架,并在药物发现中显示出良好的应用前景。
计算设计的进步,特别是创新药物设计的发展,旨在显著扩展化学空间并增强化学库。这种方法对于发现新的治疗化合物至关重要。这一领域的两个主要方法是构建模块方法和神经网络的使用。预测性AI/ML建模通过在合成之前评估生成化合物的性质来补充这些方法。例如,Lipinski规则验证、类药性评分和毒性预测等步骤确保只有可行的候选物才会进入实验测试。这种方法提高了生成性AI模型的效率和成功概率,如图9所示。构建模块方法涉及从具有特定官能团或亚结构的片段自动组装新化合物。这种方法利用这些片段的模块化特性,系统地创造出多样化的化学实体,有可能发现具有理想药理学特性的新结构。另一方面,神经网络,特别是自编码器,提供了通过学习和复制输入数据特征来生成新化学结构的复杂方法。例如,Gómez-Bombarelli等人的化学变分自编码器通过在大量数据集上进行训练来扩展化学空间,尽管其中一些生成的分子可能难以合成。AI的进步也在解决合成可行性问题。例如,DeepCure的自动化合成平台Inspired Chemistry将AI设计与自动化化学技术相结合,合成了像蛋白酶抑制剂尼马特雷韦(Paxlovid)及其类似物这样的复杂化合物(https://www.genengnews.com/topics/drug-discovery/deepcures-automated-synthesis-transforms-ai-drugdesigns-into-testable-compounds/)。此外,生成性AI被用于设计和合成新的抗生素,以对抗耐药性感染。尽管正在努力解决合成可行性问题,但需要进一步的算法改进,以优先生成化学友好的分子。
生成对抗网络(GAN)越来越多地被用于全新药物设计。特别是当结合条件技术时,GAN在生成具有理想药理学特性的化合物方面显示出希望。然而,确保生成样本的内在化学多样性存在挑战,因为一些模型(如生成网络复合体)难以准确复制药物发现所需的自然化学多样性。这些生成性方法的成功在很大程度上依赖于强大的预测建模,以筛选和优先考虑生成的结构。通过整合预测工具,研究人员可以识别具有高化学多样性、理想药理学特性和良好安全性的候选物,从而提高GAN在天然产物药物发现中的整体效用(图9)。尽管存在挑战,但最近的进展,如LatentGAN架构,在全新分子设计方面取得了成功,生成的化合物占据了与训练集相似的化学空间,同时产生了相当一部分新化合物。
利用计算方法设计具有天然产物类似特性的新化学物质对药物发现产生了重大影响。对拟天然产物的研究表明,这些合成化合物常常占据天然产物和传统药物相交的独特化学空间,允许通过片段组合来增强化学库的多样性。一种创新方法涉及准生物合成分子生成器,它使用循环神经网络(RNN)来复制天然产物的立体化学复杂性,从而创造出类似天然产物的结构。这种方法为创造具有理想生物活性的化合物开辟了新的可能性,尽管它们的合成可行性和独特性需要进一步评估。深度学习技术,例如用于开发类视黄醇X受体(RXR)调制器的深度RNN,展示了自动化全新设计的实际潜力。如图9所示,AI/ML预测建模对于弥合天然产物药物发现中的连接计算和实验工作流程至关重要。这些模型不仅改进了传统的BIOS和DOS/DTS方法,还通过确保生成的候选物符合类药性标准,解决了毒性、选择性和生物利用度等挑战。预测建模的整合显著减少了实验失败率,并加速了有前途的治疗化合物的识别。通过训练激活RXRα、RXRβ和RXRγ的合成化合物的神经网络,结果产生了天然产物类似物,这些类似物既具有合成可行性,又具有生物活性。例如,化合物1(图10)在所有RXR亚型中表现出微摩尔级的活性(RXRα的EC₅₀ = 29 ± 5 μM,RXRβ的EC₅₀ = 27 ± 1 μM,RXRγ的EC₅₀ = 19.1 ± 0.1 μM),没有明显的亚型偏好,并且具有适度的转录激活效能。相比之下,化合物2(图10)在RXRα和RXRβ上显示出完全激动活性,低微摩尔级的EC₅₀值(分别为16.9 ± 0.6和15.7 ± 0.8 μM),但在RXRγ上活性降低(EC₅₀ > 50 μM),表明其对RXRα和RXRβ有明显的偏好。此外,使用变分自编码器(VAE)和相似性搜索进行结构设计已被证明在产生抗紫外线分子方面是高效的,这使得能够快速创建虚拟天然产物库,并加速识别和优化药物先导化合物的过程。能够虚拟设计和测试大量类似天然产物的化合物是该领域的一个重大进步,有望简化发现和开发具有类药性和安全性概况的新药物的过程。
最近的一项研究引入了一个包含超过6700万种类似天然产物分子的数据库,这些分子是通过在已知天然产物上训练的RNN生成的,突出了深度生成模型在探索新化学空间和促进高通量计算机辅助发现生物活性化合物方面的潜力。为了管理由AI/ML生成的大量数据,采用了诸如可扩展云存储、分布式计算框架(例如Apache Hadoop和Spark用于高效处理)以及强大的提取-转换-加载(ETL)管道等策略用于数据整合和清理。特征选择、降维和数据采样等技术有助于在保留关键信息的同时管理数据量。数据治理框架确保数据的准确性和法规遵从性,而先进的工具如数据版本控制、谱系跟踪和AutoML则简化了模型开发。此外,协作工具和全面的文档支持有效处理和分析数据。深度生成神经网络通常与强化学习相结合,用于创建具有所需特性的新分子。尽管存在稀疏奖励和非活性预测的挑战,但强化学习的创新平衡了探索和利用,提高了发现新生物活性化合物的成功率。一个概念验证研究使用增强的深度循环神经网络架构设计了表皮生长因子(EGFR)的抑制剂,并通过实验验证了它们的活性。
使用天然产物(NP)启发的合成分子为直接使用天然产物提供了一种可持续的替代方案。由机器智能增强的全新设计弥合了生物活性天然产物和合成分子之间的差距。例如,使用来自海洋链霉菌的marinopyrrole A的研究通过一个三步过程生成了新的小分子。计算预测表明,marinopyrrole A和新设计的分子(图10中的3)均靶向环氧化酶(COX)。实验验证证实,这些化合物是有效的COX-1抑制剂,具有纳摩尔级活性(marinopyrrole A的IC₅₀ = 16.6 ± 2.3 μM,化合物3的IC₅₀ = 0.101 ± 0.051 μM)。X射线分析进一步揭示了选择性最高的化合物与COX-1的结合情况。这种方法为基于天然产物启发的药物发现中使用机器智能识别命中化合物和先导化合物设定了蓝图。
在另一项研究中,使用复杂的天然产物(-)-englerin A(一种瞬时受体电位(TRP)通道的抑制剂)作为模板,设计基因结构(DOGS)(框1)。通过两种不同的计算评分方法(基于形状和基于药效团的方法)选择了两个新化合物用于合成。化合物4和5(图10)分别按照程序推荐的3步和2步合成。天然产物和计算机生成的化合物都显示出对TRPM8的强抑制作用(Ki = 0.2-0.3 μM)。值得注意的是,基于规则的全新设计中使用的天然产物模板是自动化配体创建的唯一参考,这使得这种方法特别适用于深度学习(DL)模型难以应对的“低数据”场景。
为了自动化全新设计,已经开发了用于评估天然产物相似性的指标,以及用于评估候选化合物治疗潜力的类药性标准。目前,已有多个程序能够判断输入结构是否与天然产物相似,尽管基于天然产物骨架对化合物进行分类仍需要专业知识和努力。天然产物分类器(NPClassifier)这一深度学习工具已在自动化天然产物分类方面显示出高准确性,加速了生物活性物质发现和结构生成的研究。尽管有所改进,全新设计通常会提出超出传统天然产物化学家预期的结构,将自动化设计与天然产物结构相结合可能会揭示新的化学空间。
【当前AI方法在天然产物药物发现中的局限性】
AI已成为药物发现中的强大工具,引入了识别新型治疗药物的创新方法。然而,在天然产物(NP)药物发现中,当前的AI技术面临着几个局限性。这些挑战源于天然产物研究中固有的独特复杂性。本节概述了这些局限性,并强调了克服它们的努力。
1.数据有限
天然产物数据库通常缺乏关于化学结构、生物活性和药理特性的全面数据,这使得准确的AI模型训练变得复杂。数据密集型的深度学习方法在缺乏足够输入时会受到限制。为了缓解数据稀缺问题,提出了转移学习、主动学习、单样本学习、多任务学习、数据增强和数据合成等方法。联邦学习允许在不泄露隐私的情况下共享专有数据,从而帮助模型训练。然而,仍需要针对天然产物药物发现中数据稀缺问题的特定解决方案。
2.天然产物的复杂性
天然产物通常具有高度复杂的结构,包含多个立体中心、官能团和异构体,这使得AI算法难以预测生物活性、毒性和其他性质。为了应对这种复杂性,先进的计算工具如自动化统计分析、计算机辅助筛选和多变量数据分析是不可或缺的。研究人员探索了多种分子指纹方法,强调了测试多种算法以优化生物活性预测的重要性。此外,基于图的方法为探索天然产物化学空间提供了强大的手段。尽管存在挑战,创新的计算方法正在展示增强生物活性和性质预测的潜力。
3.合成难题
尽管AI在目标识别、虚拟筛选和化合物优化方面取得了显著进展,但合成复杂的天然产物结构仍然是一个挑战。例如,AiZynthFinder等工具在处理具有多个环系和手性中心的复杂天然产物时表现出潜力,但仍有局限性。创新的工具如Chematica/Synthia整合了专家启发式推理,以设计复杂分子的可行合成路径,但需要进一步改进以充分发挥AI在天然产物合成中的潜力。AI驱动的工具还预测化学性质以辅助药物发现,但其能力需要增强。关键步骤包括改进算法、整合多模态数据和开发稳健的模型。未来的工具必须整合多样化的反应数据集,同时考虑天然产物的结构复杂性。利用量子计算和化学信息学技术将是确定可行的合成路线的关键。
标准化度量、共享的数据集和结合机器学习与计算机辅助合成规划(CASP)工具的混合模型对于推进这一领域至关重要。自动化技术(如基于微孔板的化学技术)已经在提高生产力并为模型训练生成大数据集方面发挥了作用。然而,挑战仍然存在,特别是在全新设计中,AI经常生成难以合成或缺乏化学多样性的分子。GDB数据库和纳入约束条件及基于图的技术等方法正在帮助解决这些限制。强化学习、Transformer模型和多目标优化算法正在改进分子设计。混合AI系统和主动学习方法促进了AI与化学家之间的协作,平衡了药物设计中的新颖性、可行性和多样性。生成模型(如对抗性自编码器)在生成具有预定义性质的分子指纹方面优于变分自编码器,例如抗癌活性。同样,基于长短期记忆(LSTM)的循环神经网络(RNN)通过捕捉分子表示(如SMILES字符串)的语法,推进了有效分子结构的生成。未来的AI模型将需要天然产物特定的数据集和先进的技术,如生成对抗网络(GAN),以提高多样性和合成可行性。这些创新有望推动AI解决天然产物合成和设计的复杂性。
4.生物学复杂性
天然产物以复杂的方式与生物系统相互作用,涉及多个靶点、通路和作用机制。AI技术可能难以准确捕捉这种复杂性,从而限制了对疗效和安全性的预测。构建可靠的AI模型严重依赖于对相关数据的访问和稳健的“真实情况”。例如,大麻(Cannabis sativa)具有复杂的药理学成分,这对植物化学、合成化学、药理学和AI领域的专家来说都是一个挑战。建立明确的“真实情况”是困难的,这突显了对具有明确作用机制和药理效应的药物进行分类的复杂性。这一问题进一步被人类生物学的不断演变所复杂化。生物学研究的持续进展将完善机器学习模型并提高其预测能力。
5.可解释性和透明度
用于天然产物药物发现的AI模型通常缺乏可解释性和透明度,使得研究人员难以理解预测和决策背后的推理。解决深度学习模型的“黑箱”性质对于AI驱动的药物开发至关重要。正在部署的技术包括显著性图、可解释模型架构、特征归因(例如SHAP、LIME)和注意力机制,以增强可解释性。此外,不确定性估计、图神经网络(GNN)和基于规则的方法有助于提高模型透明度。AI专家与领域专家之间的协作在增强模型可靠性方面发挥着重要作用。
【结论与展望】
天然产物(NPs)一直是药物开发的基石。尽管现代医学取得了进步,但天然产物在药物发现中仍然发挥着关键作用,构成了许多治疗类别的基础。它们巨大的生物多样性提供了巨大的未开发潜力,可用于解决未满足的医疗需求。将人工智能(AI)整合到天然产物研究中显著增强了该领域,使得能够鉴定新的分子结构和生物活性。通过利用计算工具,AI加速了对未开发化学空间的探索,简化了药物发现过程。例如,自然语言处理(NLP)、生成对抗网络(GANs)和Transformer等技术在从复杂的数据集(包括化学光谱,DNA序列和生物活性数据)中提取见解方面特别有效。例如,深度生成模型可以自主设计受天然产物启发的药物候选物,这些候选物具有简化的结构和改进的药物特性。然而,在AI驱动的天然产物研究中,由于高质量数据集的稀缺性以及天然产物结构的复杂性,仍然存在重大挑战。尽管AI在合成分子方面取得了显著成功,但其在天然产物中的应用受到不完整数据库和缺乏全面预测模型的限制。当前的AI方法通常难以预测全新的化学组成或作用机制,这突出表明需要对核心生物化学研究进行持续的投资。此外,AI生成的预测必须经过实验验证,以确保其可靠性。结合传统基于规则的方法与AI驱动技术的混合方法对于解决天然产物的结构复杂性并提高预测准确性至关重要。努力保存、标准化并扩展天然产物数据库对于推进AI在天然产物研究中的应用至关重要。社区存储的数据集、可互操作格式和专门的存储库可以促进协作和数据共享。资助机构应优先考虑支持标准化数据格式的倡议,并促进跨学科合作。通过整合不同领域的专业知识,研究人员可以克服传统障碍,推动AI驱动的天然产物药物发现领域向前发展。
尽管AI尚未直接产生受天然产物启发的处方药,但其潜力与合成药物开发中见证的变革性进步相当。通过为天然产物的复杂性量身定制AI方法并扩展化学数据库,研究人员可以解锁新的创新机会。AI开发人员与药学科学家之间的合作对于设计复杂的算法、改进预测模型以及加速天然产物衍生治疗药物的发现方面发挥重要作用。这些进步有可能丰富制药产品线,改善患者结果,并解决关键的全球健康挑战。
【文章信息】
发表时间:2025年2月
影响因子:6.8
期刊:Journal of Medicinal Chemistry
中科院分区:1区top
题目:Artificial Intelligence in Natural Product Drug Discovery: Current Applications and Future Perspectives
【期刊介绍】
《Journal of Medicinal Chemistry》是由美国化学学会(ACS)主办的药物化学领域国际顶级期刊,创刊于1959年,专注于分子结构与生物活性或作用机制之间关系的研究,涵盖药物设计、合成、构效关系(SAR)分析、结构生物学、计算化学及药代动力学等方向。凭借其高质量的同行评审和广泛的研究内容,《Journal of Medicinal Chemistry》一直是药物化学领域的重要参考资源,对学术界和工业界的药物研发工作都有着深远的影响。
期刊网址:
Journal of Medicinal Chemistry - ACS Publications
四、人工智能(AI)赋能药物研发现状和挑战
(GBhouse GBhouse)
近期DeepSeek的横空出世,使得AI再一次成为关注焦点《Nature Medicine》2025年1月刊,题目为是“Artificial intelligence in drug development”,即人工智能在药物开发中的应用。文章详细探讨了人工智能技术,尤其是大型语言模型(LLMs)和生成式人工智能(Generative AI)在药物开发全流程中的应用现状、挑战和未来发展方向。
一. 背景知识
药物开发是一个复杂且耗时的过程,传统方法依赖于经验丰富开发者和一系列临床前以及临床实验来逐步验证,研发成功临床应用后还需上市后监测。开发一种新药约需要26亿美元的投资,耗时几年至十几年不等,且成功率低于10%。这一过程面临诸多挑战,包括疾病复杂性、药物开发流程复杂性、化学药物靶点筛查以及严格的监管要求。为了克服这些挑战,科学家们开始探索新技术,其中人工智能(AI)被认为具有彻底改变药物开发领域的潜力。
二. AI助力药物研发
文章综述AI在药物开发全流程中的应用,包括药物靶点识别、药物开发、临床前研究、临床试验和上市后监测。AI技术通过处理大量数据,加速并改善药物开发过程。以下是AI在药物开发各阶段的具体应用:
(图1 AI助力药物研发流程一览表)
2.1 疾病靶点识别(Target identification)
AI通过分析多组学数据(包括基因组学、转录组学、蛋白质组学)和生物网络,识别与疾病相关的分子模式和因果关系。例如,利用自然语言处理(NLP)技术将基因功能映射到高维空间,增强靶点识别的敏感性。此外,AI还可以结合知识图谱,将多组学数据与科学文献整合,从而发现疾病与基因之间的关联。利用生物医学大型语言模型(LLMs)与生物网络或知识图谱功能深度整合,为疾病、基因和生物过程之间的关联提供高效且精确的预测方法。例如,PandaOmics平(https://pharma.ai/pandaomics/)成功利用多组学数据和生物网络分析,识别出TRAF2和NCK相互作用激酶(TNIK)作为抗纤维化治疗的潜在靶点,并推动了特异性TNIK抑制剂(INS018_055)的开发。此外,在利用自然语言处理已发表文献中的数据时,注意潜在的发表偏倚,实际应用中仍需结合体外验证等方法来确保准确识别新颖且有效的药物靶点。
同时,真实世界数据(如病历资料、患者自我报告、电子健康记录 [EHRs]等)为理解复杂疾病和促进靶点发现提供了必要的文本背景信息。但真实世界数据通常也包含非结构化文本信息,其缺乏统一及标准化,并且可能存在信息偏差。利用真实世界数据训练出有效的模型,通过先进的数据挖掘算法,同时结合专家知识,将有助于进一步促进多维数据增和整合,提高药物靶点研发效能。
2.2 虚拟筛选(Virtual screening)
虚拟筛选是识别潜在药物候选分子的关键策略。AI技术通过预测配体-受体相互作用,优化对接(Docking)姿态,并生成结合构象。例如,基于AlphaFold2和RosettaFold的共折叠网络可直接从序列信息预测生物大分子复杂结构,同时适配配体结合位点。然而,这类方法可产生不切实际的配体受体结合构象,需要后处理或几何约束来优化对接姿态。
目前,精确预测受体-配体相互作用仍然是挑战。尽管早期在亲和力基于深度学习的机器学习算法模型备受关注,此类模型通过处理三维结构和非结构化数据,表现超越传统评分函数的性能,但其表现严重依赖于配体姿态的准确性,并且主要适用于已知的受体结构。当目标结构缺失或不完整时,基于对接的虚拟筛选的直接应用是不可取的。另外,对缺乏靶点的疾病(例如罕见病)和广泛表型疾病(例如衰老),基于表型的虚拟筛选至关重要。然而,此类模型通常依赖于特定病例的表型特征数据,仅依赖配体化学结构的基于AI的活性预测同样面临数据稀疏性、不平衡性和活性悬崖等问题。新进研究表明,整合细胞形态和转录组学等相关的生物学信息可提高模型预测性能,为更准确的活性预测提供新的研究方向。
2.3 从头设计(De novo design)
从头设计涉及自主创建满足特定分子特征的新化学结构。AI深度学习使自动化识别满足特定要求的新结构成为可能。例如,深度学习驱动的从头设计已成功应用于开发小分子抑制剂、PROTACs、肽和功能性蛋白质,并通过湿实验验证。
深度学习驱动的从头设计(见图2)中,分子生成组件是核心:
(1)利用化学语言模型将分子生成任务转化为序列生成任务,例如SMILES字符串(“简化分子线性输入系统”,一种基于以线性文本格式表示化学结构的符号系统)。尽管此类模型需要深度预训练,并且可因语法错误而产生无效的SMILES字符串,但该类错误可通过过滤样本来使模型进行自我修正。
(2)长短期记忆模型(一种分析序列数据的深度学习模型)存在信息压缩瓶颈,阻碍其学习全局序列特征,可通过Transformer架构来捕捉全局属性。最近的研究将结构化的状态-空间序列整合到化学语言模型中,揭示高化学空间相似性,并与天然产物设计关键特征一致,证明了模型在从头设计中的实用性。
(3)基于图数据模型将分子表示为图,使用自回归或非自回归策略生成结构。自回归方法以原子-原子构建分子,可导致化学上不合理的中间体并引入偏差。相比之下,非自回归方法一次性生成整个分子图,但需要额外步骤来确保图的有效性。然而,此类模型对分子拓扑结构的有限感知可导致结构缺陷。
(4)鉴于类药物化学空间的广阔性,从头生成通常会引导设计朝目标特征方向发展,使用基于相似性评分函数的优化机制,例如与已知活性分子的相似性和预测的生物活性。引入强化学习进行迭代优化是一种有效的方法,但设计合适的评分函数具有挑战性,因为难以直接量化合成可行性和类药性等目标。此外,强化学习的广泛优化步骤突出了样本效率的挑战,这可以通过主动学习或课程学习策略来缓解。
(5)除了引入评分函数外,还可以通过引入约束条件——例如疾病相关的基因表达特征、药效团、蛋白质序列或结构、结合亲和力以及蛋白质-配体相互作用——来引导模型生成所需的分子。例如,PocketFlow模型以蛋白质口袋为条件,有效地生成了针对HAT1和YTHDC1靶点的实验验证活性化合物,展示了其药物设计能力。此外,模型可以通过限制输出到特定的骨架或来自候选物的片段来优化先导化合物。
(图2 AI驱动药物分子从头研发流程)
2.4 ADMET预测
ADMET(吸收、分布、代谢、排泄和毒性)在决定药物疗效和安全性方面起着关键作用。AI通过使用预定义的特征(如分子指纹或描述符)预测ADMET特性。例如,拜耳公司in silico ADMET平台使用随机森林和SVM等机器学习技术,结合循环扩展连接性指纹等描述符,确保预测的准确性和相关性。
在过去的几十年中,人们已经开发了多种用于ADMET预测的描述符。然而,这些基于特征的方法所涉及的特征工程仍然复杂,限制了其通用性和灵活性。
如今,深度学习推动ADMET预测的发展,能从简单的输入数据中自动提取有意义的特征。
各种神经网络架构,包括用于有效处理序列数据的Transformer模型、用于图像和视频识别任务的卷积神经网络(CNN),以及图神经网络(GNN,用于处理图结构数据,如分子结构),在从SMILES字符串和分子图等格式建模分子特性方面表现出色。其中,SMILES字符串提供了紧凑的分子表示,能够明确表达分支、环和手性等亚结构,但缺乏拓扑感知能力;而图神经网络(如GeoGNN模型)则整合了几何信息,在ADMET预测中表现出更优的性能。新近研究显示,使用SMILES输入的Transformer模型在完整结构识别方面存在困难。
对于涉及毒性等特性的预测,这些模型可能在训练初期就达到性能瓶颈,训练后改进有限。
志得思考的是:
尽管新型深度学习算法推动了该领域的进步,但ADMET预测仍面临挑战。高昂的成本和大量的时间投入导致ADMET预测中标记数据稀缺,从而可能导致过拟合。无监督学习和自监督学习提供了可能的解决方案。
2.5 合成规划与自动化题
化学合成是小分子药物开发的瓶颈之一。AI驱动的计算机辅助合成规划(CASP)和有机化合物的自动化合成可以减轻化学家的重复性劳动。例如,基于Transformer模型的CASP工具可以用于逆合成分析,预测区域选择性和立体选择性,并提取反应指纹。
(图3 AI驱动药物研发合成和自动化流程)
(图4 多组学数据结合AI驱动药靶识别和预测)
三. AI在临床试验和真实世界实践中的应用
(图5 利用AI推动临床试验和真实世界研究进程)
1.标记物识别
2.预测药物的药代动力学特性
3.药物重定位
4. 提高临床试验效率和预测试验结果
四. 关键结论与观点
尽管目前AI在药物开发中取得了显著进展,但仍面临诸多挑战:数据质量与稀缺性:高质量的训练数据获取成本高,且存在隐私和数据共享限制,尤其是罕见疾病或新靶点的数据。模型可解释性:AI模型的“黑箱”特性限制了其在临床实践中的应用。增强模型的可解释性至关重要。多模态数据整合:当前的AI方法大多依赖单一数据类型,忽略了不同生物系统之间的复杂关系。整合多模态数据可以提取更全面的见解。计算资源与算法适配性:AI算法的高计算需求对小型研究团队构成障碍,需要开发更适合药物开发的算法。
五. 未来方向
解决数据稀缺问题:开发新的AI算法,如“稀疏”AI方法,以从有限数据中产生准确预测。多模态融合:整合多种数据类型(如基因组学、转录组学、临床记录)以发现新的药物靶点和生物标志物。物理定律融入AI:将物理定律纳入数据驱动的AI算法,减少对数据的依赖,提高模型的准确性和泛化能力。虚拟临床试验:通过计算机建模和生成对抗网络(GANs)创建数字孪生,优化临床试验设计,提高试验效率。个性化医疗:AI将通过分析健康数据和基因组学,提供精准风险预测和优化治疗方案。
六. 总结
文章强调,尽管AI技术在药物开发中取得了显著进展,但AI并非万能。AI的优势在于处理大数据和辅助快速决策,以补充人类功能并增强人类能力,而不是完全取代人类智慧。AI设计的药物和预测的特性仍需通过湿实验验证,人类的输入对于确定AI研究的方向至关重要。随着AI能力的不断提升和大型模型的开源,我们可以对AI在加速药物开发和改善人类健康方面的潜力持谨慎乐观的态度。
end
本公众号声明:
1、如您转载本公众号原创内容必须注明出处。
2、本公众号转载的内容是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请作者或发布单位与我们联系,我们将及时进行修改或删除处理。
3、本公众号文中部分图片来源于网络,版权归原作者所有,如果侵犯到您的权益,请联系我们删除。
4、本公众号发布的所有内容,并不意味着本公众号赞同其观点或证实其描述。其原创性以及文中陈述文字和内容未经本公众号证实,对本文全部或者部分内容的真实性、完整性、及时性我们不作任何保证或承诺,请浏览者仅作参考,并请自行核实。