在科技飞速发展的今天,机器学习正以强大的穿透力,为医药领域带来颠覆性变革。它打破了传统药物研发周期长、成本高的困境,也破解了临床诊断中复杂病例难以精准判定的难题。本文结合多篇权威文献与真实落地案例,带您直击机器学习在药物研发和临床诊断中的创新应用,用真实数据与实践成果展现科技如何为生命健康保驾护航。
1
机器学习加速药物研发,攻克传统瓶颈
传统药物研发往往需要耗费十余年时间和数十亿美元成本,且成功率极低。而机器学习通过挖掘海量数据中的隐藏规律,从靶点发现、化合物筛选到临床试验优化,全流程提升研发效率,已诞生多个落地成果。
精准筛选潜在药物分子
针对阿尔茨海默病,Jamal等在《Machine Learning From Molecular Dynamics Trajectories to Predict Caspase-8 Inhibitors Against Alzheimer’s Disease》中,创新性地从分子动力学轨迹中提取描述符,结合人工神经网络和随机森林算法构建模型。研究团队对43种配体进行分子对接和10纳秒的MD模拟,最终发现MD描述符与2D、3D描述符结合后,模型预测准确率显著提升,其中RF模型在MD描述符训练下AUC值达1.00,成功识别出化合物50267423为潜在强效抑制剂。
展示了caspase8-50267423复合物的RMSD、回旋半径、RMSF和SASA图谱,验证了化合物与蛋白结合的稳定性。
在JAK2抑制剂研发中,Yang等在《Machine Learning Models Based on Molecular Fingerprints and eXtreme Gradient Boosting Method Lead to the Discovery of JAK2 Inhibitors》中,基于三种分子指纹和XGBoost算法构建分类与回归模型。分类模型MCC值最高达0.97,回归模型R²值达0.80,从ZINC数据库中成功筛选出13种化合物,其中6种IC₅₀值小于100 nM,化合物9对JAK2的IC₅₀值小于1 nM,对JAK3的选择性达694 nM。
清晰展示了从数据库筛选到生物验证的全流程,体现了机器学习在药物发现中的系统性应用
针对帕金森病相关的α-突触核蛋白(αS)聚集抑制,Horne等在《Discovery of potent inhibitors of α-synuclein aggregation using structure-based iterative learning》中,采用结构基迭代机器学习方法。通过联合树状变分自动编码器、随机森林回归器(RFR)和高斯过程回归器(GPR),对约600万化合物进行筛选,经四轮迭代后,优化率从相似性搜索的4%提升至21.4%,发现化合物I4.05的KIC₅₀值仅0.52 μM,较临床药物Anle-138b(KIC₅₀=36.4 μM)potency提升70倍,且在患者脑源性种子诱导实验中仍保持高效抑制。
对比了I4.05与临床药物Anle-138b的聚集抑制动力学、KIC₅₀值及寡聚体抑制效果。数据显示,I4.05在亚化学计量比下效力远超Anle-138b
创新药物设计与优化
Xing等在《A Machine-learning-assisted Approach for Discovering Novel Inhibitors Targeting Bromodomain-containing Protein 4》中,开发了BRD4LGR机器学习模型。该模型结合已知抑制剂的结构和活性数据,以及筛选中的阴性样本,AUC-ROC比传统Glide方法高出20-30%。通过两轮虚拟筛选,成功发现15种新型BRD4抑制剂,其中DC_BD454的IC₅₀值低至0.73 µM,且能有效抑制癌细胞增殖。
展示了BRD4LGR模型对不同化合物的结合模式分析,揭示了结构-活性关系,为理性药物设计提供了直观依据
针对非小细胞肺癌(NSCLC)的EGFR-T790M突变耐药问题,Zhou等在《Machine learning-aided discovery of T790M-mutant EGFR inhibitor CDDO-Me effectively suppresses non-small cell lung cancer growth》中,整合贝叶斯推理的机器学习平台,筛选70413种化合物。通过SVM、XGBoost等5种算法集成建模,AUC值达0.96,成功识别出CDDO-Me为选择性抑制剂。体外实验显示,其对H1975细胞(EGFR-L858R/T790M)的IC₅₀=0.40 μM,较野生型EGFR细胞(IC₅₀=2.81 μM)选择性提升7倍;体内异种移植模型中,6 mg/kg剂量可抑制57%肿瘤生长,且无明显毒性。
展示了CDDO-Me在H1975异种移植模型中的肿瘤抑制效果及对EGFR-PI3K-Akt-mTOR通路的调控作用,证实了其体内有效性
临床试验与靶点发现的实战突破
机器学习的价值不仅体现在单一的筛选环节,更在于它能贯穿从理解分子机制到指导临床前验证的全过程,形成完整的证据链。
在药物作用机制的深度解析方面,机器学习模型能够揭示传统方法难以发现的细微规律。例如,在针对BRD4蛋白的研究中,研究者开发的BRD4LGR模型不仅能高效筛选抑制剂,更能通过分析模型内部的决策逻辑,量化不同分子相互作用对活性的贡献。其特征权重扇图清晰地显示,与Tyr97的极性相互作用以及结构水分子的氢键网络是决定抑制剂活性的关键因素。这种“可解释AI”的应用,为后续的药物分子优化提供了明确的、可量化的指导方向,将药物设计从“试错”引向“理性设计”。
在临床前验证的精准预测方面,机器学习能够有效评估候选药物的成药潜力,降低后期失败风险。在非小细胞肺癌EGFR-T790M抑制剂的研究中,机器学习不仅发现了CDDO-Me这一候选化合物,还通过分子动力学模拟预测了其与靶点的结合强度。模拟结果显示,CDDO-Me与突变型EGFR的结合自由能(ΔG_bind)高达-31.25 kcal/mol,显著优于其与野生型EGFR的结合,从理论上解释了其高选择性的原因。更重要的是,这一预测在后续的细胞实验和动物模型中得到了完美验证:CDDO-Me对携带T790M突变的H1975细胞抑制效果(IC₅₀=0.40 μM)是野生型细胞的7倍,并在小鼠异种移植模型中成功抑制了57%的肿瘤生长。这种从计算预测到实验验证的高度一致性,极大地增强了研发信心。
展示了CDDO-Me与EGFR突变体的结合自由能分解,从能量角度解释了其高选择性的分子机制
1
机器学习赋能临床诊断,提升精准医疗水平
临床诊断中,复杂疾病分型、罕见病确诊、未知原发灶判定等难题长期困扰医生。机器学习凭借强大的模式识别能力,已在多家医院落地应用,实现诊断效率与准确率的双重提升。
癌症精准分型与诊断
Alafeef等在《Machine-learning for Precision Breast Cancer Diagnosis and Prediction of the Nanoparticles Cellular Internalization》中,利用8种不同表面化学性质的碳纳米颗粒,结合人工神经网络算法,构建乳腺癌诊断平台。该平台能区分健康乳腺细胞与癌细胞,还能细分三阴性乳腺癌(TNBC)与非TNBC,对36个未知样本的诊断准确率超98%,且能预测纳米颗粒的细胞内化效率(Q²=0.9)。
展示了ANN模型对不同细胞类型的分类效果,其对健康细胞、TNBC和非TNBC的区分准确率极高,验证了模型的卓越性能
针对未知原发灶癌症(CUP),Nguyen等在《Machine learning-based tissue of origin classification for cancer of unknown primary diagnostics using genome-wide mutation features》中,开发了CUPLR分类器。该模型整合511种基因组突变特征,基于6756个全基因组测序样本训练,能区分35种癌症(亚)型,交叉验证召回率和准确率均达90%。在141例CUP患者中,成功确定58%患者的肿瘤起源组织,其中44例患者通过特征关联验证了诊断结果。
展示了CUPLR模型在训练集和测试集中对35种癌症类型的分类性能,显示出优异的准确性和召回率
罕见病诊断的革命性突破
罕见病诊断平均耗时 4-5 年,常因症状不典型被误诊。四川省人民医院将 DeepSeek 大模型与自主研发的 “人工智能罕见病辅助决策平台” 融合,整合全球医学知识库、真实世界数据和中国人群特征知识图谱,构建医学认知网络体系。该平台对重症肌无力、心脏淀粉样变等复杂病症的诊断准确率和召回率突破 90%,已成功将多名患者的诊断周期从数年缩短至几周。一位患病 10 余年的患者,经该平台筛查后,仅两周就确诊为罕见病心脏淀粉样变性。
北京协和医院联合华大基因推出首个罕见病人工智能大模型 GeneT,不仅整合海量罕见病数据集和文献,还融入临床一线诊疗经验,教会 AI 像遗传专家一样思考。该模型已用于协助基层医生开展罕见病诊疗,跳过传统诊断的 “试错” 阶段,实现症状与基因变异的精准匹配,大幅提升罕见病确诊效率。
疾病机制解析与治疗指导
机器学习不仅能辅助诊断,还能深入解析疾病机制。在BRD4抑制剂研究中,Xing等的BRD4LGR模型通过分解分子相互作用能量项,揭示了Tyr97极性相互作用、结构水分子氢键等关键结合位点,为药物优化提供明确方向。
展示了不同相互作用对抑制剂活性的影响,为理解药物作用机制和优化设计提供了关键洞见
斯坦福大学团队构建的多尺度神经网络模型,能高保真模拟分子、细胞和组织的行为。他们通过1635个“虚拟乳腺癌患者”,成功找到生物标志物指导临床治疗的优化路径,其模拟结果与真实数据高度一致,为个体化治疗方案制定提供了全新思路。
1
总结与展望
从药物研发的分子筛选、靶点发现到临床试验优化,从癌症精准分型到罕见病快速确诊,机器学习正以数据驱动的方式,重构医药领域的核心流程。文中数据显示,机器学习能将药物筛选准确率提升至90%以上,临床诊断准确率最高达98%,药物设计时间可缩短70%,成功率提升10倍,展现出巨大的应用价值。
未来,随着多组学数据的积累、算法的迭代以及“虚拟病人”“数字孪生”等技术的成熟,机器学习将在个体化治疗方案制定、药物耐药性预测、疑难病症早筛等领域发挥更大作用。在政策支持与技术创新的双重驱动下,机器学习与医药领域的融合将持续深化,有望攻克更多医学难题,让精准医疗惠及更多患者。
我们有理由相信,在科技与医学的深度融合下,更多疾病将被攻克,人类健康将得到更坚实的保障。让我们共同期待,机器学习持续为医药领域注入创新活力,书写生命健康的新篇章。
参考文献:
①Ahmad Z, Xie T, Maheshwari C, Grossman JC, Viswanathan V. Machine Learning Enabled Computational Screening of Inorganic Solid Electrolytes for Suppression of Dendrite Formation in Lithium Metal Anodes. ACS Cent Sci. 2018 Aug 22;4(8):996-1006. doi: 10.1021/acscentsci.8b00229 . Epub 2018 Aug 10. PMID: 30159396; PMCID: PMC6107869.
②Horne RI, Andrzejewska EA, Alam P, Brotzakis ZF, Srivastava A, Aubert A, Nowinska M, Gregory RC, Staats R, Possenti A, Chia S, Sormanni P, Ghetti B, Caughey B, Knowles TPJ, Vendruscolo M. Discovery of potent inhibitors of α-synuclein aggregation using structure-based iterative learning. Nat Chem Biol. 2024 May;20(5):634-645. doi: 10.1038/s41589-024-01580-x . Epub 2024 Apr 17. PMID: 38632492; PMCID: PMC11062903.
③Jabeen A, de March CA, Matsunami H, Ranganathan S. Machine Learning Assisted Approach for Finding Novel High Activity Agonists of Human Ectopic Olfactory Receptors. Int J Mol Sci. 2021 Oct 26;22(21):11546. doi: 10.3390/ijms222111546 . PMID: 34768977; PMCID: PMC8583936.
④Jamal S, Grover A, Grover S. Machine Learning From Molecular Dynamics Trajectories to Predict Caspase-8 Inhibitors Against Alzheimer's Disease. Front Pharmacol. 2019 Jul 12;10:780. doi: 10.3389/fphar.2019.00780 . PMID: 31354494; PMCID: PMC6639425.
⑤Nguyen L, Van Hoeck A, Cuppen E. Machine learning-based tissue of origin classification for cancer of unknown primary diagnostics using genome-wide mutation features. Nat Commun. 2022 Jul 11;13(1):4013. doi: 10.1038/s41467-022-31666-w . PMID: 35817764; PMCID: PMC9273599.
⑥Alafeef M, Srivastava I, Pan D. Machine Learning for Precision Breast Cancer Diagnosis and Prediction of the Nanoparticle Cellular Internalization. ACS Sens. 2020 Jun 26;5(6):1689-1698. doi: 10.1021/acssensors.0c00329 . Epub 2020 Jun 17. PMID: 32466640.
⑦Xing J, Lu W, Liu R, Wang Y, Xie Y, Zhang H, Shi Z, Jiang H, Liu YC, Chen K, Jiang H, Luo C, Zheng M. Machine-Learning-Assisted Approach for Discovering Novel Inhibitors Targeting Bromodomain-Containing Protein 4. J Chem Inf Model. 2017 Jul 24;57(7):1677-1690. doi: 10.1021/acs.jcim.7b00098 . Epub 2017 Jul 10. PMID: 28636361.
⑧Yang M, Tao B, Chen C, Jia W, Sun S, Zhang T, Wang X. Machine Learning Models Based on Molecular Fingerprints and an Extreme Gradient Boosting Method Lead to the Discovery of JAK2 Inhibitors. J Chem Inf Model. 2019 Dec 23;59(12):5002-5012. doi: 10.1021/acs.jcim.9b00798 . Epub 2019 Dec 4. PMID: 31746601.
⑨Zhou R, Liu Z, Wu T, Pan X, Li T, Miao K, Li Y, Hu X, Wu H, Hemmings AM, Jiang B, Zhang Z, Liu N. Machine learning-aided discovery of T790M-mutant EGFR inhibitor CDDO-Me effectively suppresses non-small cell lung cancer growth. Cell Commun Signal. 2024 Dec 5;22(1):585. doi: 10.1186/s12964-024-01954-7 . PMID: 39639305; PMCID: PMC11619116.
✦
END
✦
XIAOYAN周博
识别二维码
一对一解答
联系电话19521442064
点个喜欢吧