预约演示

药物开发中的人工智能：现状与未来展望

2023-06-17

医药出海

摘要人工智能的发展正在全面推动我们的生活新药研发过程中初始命中率低导致的成本升高是制药行业亟需解决的问题制药行业正在尝试与人工智能研究者合作来解决这一问题人工智能将提高药物开发过程的效率介绍人工智能（AI）是计算机对人类智能过程的模拟。该过程包括获取信息、制定使用信息的规则、得出近似或确定的结论以及自我校正。尽管有许多人担心人工智能的广泛应用会造成大规模的失业，但不可否认，从创新的教学方面到商业和工业流程自动化，人工智能已经被广泛应用于各个领域。在药物开发过程中采用AI的新思想已经从炒作变成了希望。这篇文章介绍了人工智能在药物开发策略和过程等环节能起到的作用。小编读书会：Artificial Intelligence in Drug Design扫描上方小编微信二维码，咨询读书会学习规则，符合要求者还可以加入AI 制药技术微信群。人工智能、机器学习和深度学习在发现类药物小分子中使用AI的方法涉及化学空间的利用。通过计算枚举可能的有机分子，化学空间为鉴定全新的优质分子提供了舞台。此外，机器学习技术和预测模型软件还有助于识别目标特异性虚拟分子，以及分子与各自目标的关联，同时优化安全性和功效属性。人工智能系统可以通过减少之后在体外或体内系统中测试的合成化合物的数量来降低损耗率和研发支出。经过验证的AI技术可用于提高药物开发的成功率，而正在开发中的AI技术必须在应用于药物开发过程之前进行验证。药物开发过程中最关键的部分是所选分子的合成。因此，人工智能具有很高的价值，因为它能够根据合成的难易程度对分子进行优先排序或开发出对最佳合成途径有效的工具。AI在合成类药物化合物中的意义图1简明地显示了AI在医疗行业中的整合。说起人工智能辅助新药研发，就不得不提到人工智能的子领域机器学习（ML）。1959年，机器学习的先驱之一亚瑟·萨缪尔（Arthur Samuel）将机器学习用作研究领域，使计算机无需进行显式编程即可学习。机器学习分为监督学习、无监督学习和强化学习。监督学习包括分类和回归方法，其中基于来自输入和输出源的数据来开发预测模型。监督性机器学习的输出需要在亚组分类下进行疾病诊断；以及药物功效和亚群回归下的ADMET预测。无监督学习包括通过仅基于输入数据对数据进行分组和解释来进行聚类和特征查找的方法。通过无监督的机器学习，可以实现诸如从聚类中发现疾病亚型和从特征发现方法中发现疾病目标的输出。强化学习主要由给定环境中的决策及其执行以最大程度地发挥其性能来驱动。这类ML的输出包括决策中的从头药物设计和执行中的实验设计——两者都可以通过建模和量子化学来实现。ML的另一个子领域是深度学习（DL），通过建立可以模拟人脑进行分析学习的神经网络，让它模仿人脑的机制来解释数据。大数据及关联数据挖掘算法方法可以为我们提供发现可能是新药的新化合物，发现或重新使用单独或组合使用时可能更有效的药物的能力，并基于遗传标记改善个性化药物的领域。随着数据量的增加和计算机性能的不断增长，DL逐渐成为AI子领域中非常重要的组成部分，尤其是其展示的神经网络架构的灵活性，例如卷积神经网络（CNN），递归神经网络（RNN）和完全连接的前馈网络。我们相信，通过与人工智能的结合，我们可以不断提高临床试验的成功率，以及打造更快、成本更低和更有效的药物开发流程。图1 机器学习和深度学习在医药领域的作用药物开发过程反馈驱动的药物开发过程始于从各种来源获得的现有结果，例如高通量化合物和片段筛选，计算模型以及文献中提供的信息。此过程在归纳和演绎之间交替进行。这种归纳—演绎循环最终获得优化的苗头化合物和先导化合物。在此循环中的特定部分的自动化可减少随机性和错误，并提高药物开发的效率。从头设计方法需要有机化学知识来进行合成路线设计和虚拟筛选可以代替品药效和毒性的生化和生物学测试。最终，主动学习算法可以鉴定对特定疾病靶标具有希望活性的新化合物。药物开发的第一步是识别具有生物活性的新型化合物。该生物活性可以由化合物与特定酶或与整个生物体的相互作用产生。针对给定生物学靶标表现出活性的第一种化合物称为“苗头化合物”。苗头化合物通常来源于对化学库的筛选、计算机模拟或对植物，细菌和真菌等天然产物的筛选。先导化合物的识别是药物开发的第二步。先导化合物是一种化合物，其有望开发为新药来治疗某种疾病。识别出的苗头化合物用处于疾病状态的细胞实验进行筛选，并用疾病动物模型表征其有效性与安全性。一旦发现先导化合物，其化学结构即就用作为结构修饰的起点，以发现具有最大治疗益处和最小潜在危害为目标。在生成先导化合物的过程中，研究者会对苗头化合物进行系统修饰以提高其对特定生物靶标的活性和选择性，同时降低毒性和副作用。源自苗头化合物相关的化合物称为衍生物，该过程称为苗头化合物扩展(Hit expansion)。药物化学家使用成熟的有机化学技术进行苗头化合物扩展。为了提高合成通量，化学家专注于特定的反应或一组反应，以将结构单元组装在一起以便快速制造一系列衍生物。“砌块”是具有反应性官能团与原子的一类化合物，它能与与生物靶标活性位点相互作用。该活性位点是生物靶标中与化合物（或底物）通过相互作用力结合的特定区域。底物与活性位点的结合可以被可视化为“锁和钥底物匙”或“诱导契合”模型。药物开发中的研发效率和损耗率虽然在药物开发中已严格采用完善的类药物性指南，但制药公司在提高研发效率方面仍然面临着巨大挑战。研发效率只是一个术语，用于描述每10亿美元研发支出可获得被FDA批准的新药数量。实际上，发现和开发一种药物的费用已从2001年的8亿美元增加到目前的约30亿美元。而如果将那些完全失败的研发成本也计算进来，那么每一种将要实际使用的新药的平均成本已经高得惊人。我们系统地分析了造成这种令人担忧的统计数据的主要原因，并将其缩小为影响研发效率低下的四个因素：1、现有疗法进行改进的门槛越来越高（the‘better than Beatles’ problem）2、监管机构对风险承受力的逐渐降低（the‘cautious regulator’ problem）3、新药研发需要的人员与资金越来越庞大（the‘throw money at it’ tendency）4、“基础研究-蛮力”偏见（basic-research–brute-force’ bias）而另一种理论解释被称为“悬而未决的问题”（‘low-hanging fruit’）。意思是常见的、易于被发现的药物已经被发现，剩下的药物靶标被发现的难度更大，因此研发的成本自然越来越高。AI在新药研发中的应用寻找成功新药的任务是艰巨，也是药物开发中最困难的部分。这是因为已知的化合物空间过于巨大，据估计约为含有10^60个分子。在新药研发中结合人工智能已经成为一种共识，并已经广泛应用于药物开发的各个阶段，例如药物靶标的识别与验证、药物设计、老药新用、提高研发效率、生物医学信息的汇总与分析、决策优化以及招募患者进行临床试验。人工智能强大的能力为抵消传统药物开发方法中出现的效率低下和不确定性提供了机会，同时将过程中的偏见和人为干预降至最低。人工智能在药物开发中的其他用途包括预测类药分子的合成路线、药理特性、蛋白特征以及药效、药物组合和药物-靶标关联分析和老药新用。此外，通过产生新的生物标记和治疗靶标、基于组学标记的个性化医学以及发现药物和疾病之间的联系，这使得利用组学分析识别新的通路和靶标成为可能。DL在提出有效的候选药物并准确预测其性质和可能的毒性风险方面显示出了巨大的成功。在过去，没有大数据集、没有高通量化合物筛选等技术，需要高达25亿美元的研发成本与超过十年的时间才能研发一种新药。而现在人工智能技术可以快而且低成本解决。随着人工智能技术的进步，新的研究可以在协助新的药物靶标、合理药物设计、药物再利用方面继续创新。AI在寻找分子靶标中的作用在药物开发中，人工智能已经通过整合基因组信息、生化属性和靶标追溯性(tractability)等方式改变了治疗疾病通路或靶标识别的方法。一项研究表明使用“Open Target”——一款基因疾病关联的数据平台——的计算预测应用程序可以用来预测治疗靶标的合理性。据报道，神经网络分类器对显示疾病相关表型的动物模型的预测准确率>71%，提供了最有效的预测能力。图2展示了AI在药物开发过程中的应用。人工智能平台IBM Watson for Drug Discovery已经识别出了五个新的与肌萎缩性侧索硬化（ALS）这种神经退行性疾病发病机理有关的RNA结合蛋白(RBP)。图2 在药物开发过程中利用人工智能 AI在寻找“苗头化合物”与“先导化合物”中的作用在发现类药物小分子中使用AI的方法涉及化学空间的利用。通过计算枚举可能的有机分子，化学空间为鉴定全新的优质分子提供了舞台。此外，机器学习技术和预测模型软件还有助于识别目标特异性虚拟分子，以及分子与各自目标的关联，同时优化安全性和功效属性。人工智能系统可以通过减少之后在体外或体内系统中测试的合成化合物的数量来降低损耗率和研发支出。经过验证的AI技术可用于提高药物开发的成功率，而正在开发中的AI技术必须在应用于药物开发过程之前进行验证。药物开发过程中最关键的部分是所选分子的合成。因此，人工智能具有很高的价值，因为它能够根据合成的难易程度对分子进行优先排序或开发出对最佳合成途径有效的工具。AI在合成类药物化合物中的意义类药分子指满足Lipinski 5规则的化合物：（i）分子量<500Da;(ii)H-Bond供体<5;(iii)H-bond受体<10;(iv)-2ClogP<5;(v)柔性键数量。化学家广泛使用逆合成法分析类药分子的合成方法。逆合成法的第一步是递归分析目标化合物，然后按顺序将其转换为易于购买或制备的较小片段或砌块。第二步是确认将这些片段转化为目标化合物的反应。第二步是最具挑战性的一步，因为人脑很难从文献中找到大量的有机反应来选择最合理的反应。人工智能通过填补预期有机合成（通常称为“超出范围”的化合物）高可能性失败的空白来帮助预测最佳的反应。不可预测的空间和电子效应以及对反应机理的不完全了解导致了有机合成的空白。当前，有几种计算机辅助的有机化合物合成（CAOCS）系统可用来帮助化学家选择合成途径。但是，它不是计算机辅助药物发现（CADD）工作流程的组成部分。Seglar等人开发了3N-MCTSAI平台，其将三种不同的深度神经网络与蒙特卡罗树搜索（MCTS）结合在一起用于CAOCS。该平台可以过滤出最有潜力的砌块，并仅选择众所周知的反应来合成目标化合物。结果表明，3N-MCTS平台比传统的计算机辅助逆合成系统更更好。该平台能够在相对较短的时间内提出可行的合成路线而跳过不合理的步骤。然而，该平台还不能满足对映异构体或非对映异构体比率的定量预测以及设计天然产物合成路线规划的需求。使用AI预测化合物的作用机理在合成之前预测化合物的在靶与脱靶作用以及体内安全性的AI平台的前景激励了参与药物开发过程各个环节的科研人员，尤其是药物化学家。此类平台的可用性减少了药物开发时间、研发成本和损耗率。比如DeepTox（预测新化合物的毒性）和PrOCTOR（预测在临床试验中毒性的概率）。如果可以提供有关各种化合物的毒性和治疗特征的更大、更完善的数据集，则可以改善这些平台的预测准确性。但是，只有整个行业都愿意共享这些数据的时候才能实现这一目标。最近，又有一种新的AI工具SPiDER被开发出来，作为化学蛋白质组学的替代品，以促进天然产物用于药物发现。为了进行概念验证，开发者使用SPiDER预测了β-拉帕酮()的分子靶标，β-拉帕酮是临床阶段的具有抗肿瘤活性的天然萘醌。该平台预测β-拉帕酮是 5-脂氧合酶（5-LO）的变构和可逆调节剂。使用5-LO功能分析验证了该预测。另一个AI工具是RASAR(Read-aross structure-activity relationships)据报道，该方法通过挖掘大型化学数据库将分子结构和毒性性质联系起来，可以准确预测未知化合物的毒性。人工智能用于选择临床试验人群理想的辅助临床试验AI工具应该可以识别患者疾病、确定基因靶标并预测所设计分子的药效以及在靶(on-targets)与脱靶(off-targets)作用。比如新AI平台AiCure是一款用于测量药物依从性的移动应用程序，已经用于精神分裂症受试者的II期临床试验中。据报道，与传统的“改良直接观察疗法”相比，AiCure的依从性提高了25％。临床试验患者的选择是至关重要的过程。探寻人类相关生物标志物与体外的关系表型提供了对特定患者治疗应答不确定性的更可预测、可量化的评估。开发用来识别、预测与疾病相关生物标记物的AI方法，使得在II期和III期临床试验中招募特定的患者群体成为可能。在选择患者人群时，人工智能预测性模型将提高临床试验的成功率。AI用于老药新用借助AI，药物再利用的过程变得更加有吸引力和务实。因为现有药物可以直接应用于II期临床试验，而无需再次通过I期临床试验和毒理学测试，这使得利用现有的药物治疗新的疾病这一概念非常有吸引力。已有文献报道通过度学习由各种生物系统与疾病的转录组学数据来计算预测药物的药理特性与老药新用。所描述的方法基于利用深度神经网络（DNNs）对数据的高级表示，其本质是一种高度自适应的多层系统，包括执行各种数据转换的相互连接和相互作用的人工神经元。Aliper 等人的一项研究表明，DNNs可以在通路水平上对复杂的药物作用机制进行分类，从而根据药物的功能类别、药效、治疗用途和毒性将其划分为不同的治疗类别。此外，精准医学的进步推动了新一代AI的出现，它具有用生成对抗网络（GANs）设计药物分子的能力。GANs是一种惊人的技术，它使用深度学习从文本描述中生成逼真的图片。因此，除了分析数据之外，该平台还可以执行其他任务，例如想象或创建以真实数据为模型的新数据。本质上，GAN技术是两个DNNs之间的对抗游戏，其中，一个DNN主要是迭代地评估另一个DNN的输出，在该对抗游戏中，两个网络学习如何生成更完美的分子。计算医学中使用的另一种AI技术是强化学习。这种AI技术的优点是它的学习较少依赖于数据集，因此网络可以识别药物分子设计中的某些策略。Zhavoronknov的团队设计了可以从半满数据集中重建缺失特征并解释复杂数据中正常状态下与患病状态下差异的算法。更让人感兴趣的是AI在设计副作用较小药物方面的可能性，还可使用不同药物孵育的细胞的基因表达数据来训练AI算法，以区分心脏毒性药物和非心脏毒性药物。该团队目前正在将其AI设计的分子与化学家设计的分子进行对比测试。他们试图通过使用移动脑电图来测量对分子的结构和数值特性的响应，研究那些经验丰富的药物化学家在筛选最佳候选药物时的数据。除此之外，它还寻找化学家偏爱的药物分子类型的偏倚迹象，而AI设计的分子此类偏倚不会很明显。AI用于多重药理学中随着人们在分子水平上对疾病的病理过程更深入的了解，当前，比之“一病一靶”的认知，人们更倾向于“一病多靶”。一病多靶被称为多重药理学。ZINC，PubChem，Ligand Expo，KEGG，ChEMBL，DrugBank，STITCH，BindingDB，Supertarget，PDB等许多数据库均可用于整合分子通路、晶体结构、结合活性，药物标靶，疾病相关性、化学性质和生物活性等多种信息。AI可以用来检索及分析这些数据库以设计多重药理学药物。最近还有文献提到AI在设计多重药理学药物方面的成功案例——作者开发了DeepPDI计算平台，以更好地理解药物相互作用以及相关机制，并预测可用于临床的替代药物，而不会造成不良健康效果。制药行业与AI公司之间的合作伙伴关系随着AI在医药行业的快速引入，尤其是在2016年和2017年，许多制药公司已经通过投资或与AI公司建立合资企业的方式，加速行业融合，开发更好的工具。这些措施包括诊断或生物标记物的改进以及药物靶标的确定和新药的设计。从普通医学到现代AI医疗保健的过渡着重于数据。随后将这些与机器学习或深度学习结合的基础数据的分析公式化为算法——从而为结合AI的先进现代医疗保健做出巨大贡献。最近在全球范围内出现了制药行业与AI公司之间的众多合作伙伴关系。例如，Google的子公司DeepMind Technologies与Royal Free London NHS Foundation Trust合作急性肾损伤的管理。英国的100000基因组计划是一个利用来自NHS罕见疾病患者的数据和AI的全球项目，该项目与Roche，Berg，Merck和Biogen合作。 Atomwise是大健康AI的先驱，并且是第个用于新型小分子药物发现的深度学习技术。Atomwise的DL以其快速、准确性和化学结构多样性而著称，它协助发明了针对27种疾病靶标的潜在药物，并与哈佛大学、斯坦福大学等顶级机构以及制药公司合作。Benevolent AI是目前在药物开发中使用的AI工具之一。它利用文本挖掘策略来分析可用的专利以及其他遗传学和生物学信息，以推断这些实体之间的关系，从而创建高度信息化的图形，该图形由具有十亿个关系的动态图组成。人们认为，由高度复杂的关系组成的结果图具有提供信息或识别可能产生新假设的新链接或知识缺口的能力。与存在偏见因素的人为干预相比，人工智能采用disease-agonistic方法，该方法会降低偏见因素对研究的干扰。Exscientia是一家AI公司，专门从事表型药物发现。对于高内涵表型药物发现产生的极其复杂的数据集分析， AI发挥的作用远远胜过人工分析。通过对每个新新设计化合物的测试，然后将其预期性能和其他分子进行比较，AI可以轻松地实现药物设计。另一个著名的AI初创公司是Numerate。他们致力于利用传统方法结合机器学习研究配体化学与ADMET，并通过应用算法分析与药物开发相关的大型数据集来填补重大的治疗空白，着重于新医学发现的转化。这种良性循环的伙伴关系涵盖了各个研究领域，例如新型小分子的鉴定、发现新的治疗方法、通过可穿戴技术监测健康数据等。预计这些进展将成为改善医疗保健服务、改善临床试验效率、增强分层医学等的促成因素。目前，一种新药从研究到推向市场需要15年的时间以及多达30亿美元的研发成本。如此高昂的成本是不可持续的，变革无可避免。而AI提供了这样的机会。这些合作证明了AI技术在帮助我们探索更大的设计空间并发现具有特性的稀有分子方面的重要性。图3 AI与制药公司之间的合作伙伴关系以及药物开发方面的合作领域结束语截止到目前，尚无使用AI方法开发的药物面世。但根据本文中描述的进展，可能未来的2-3年内我们就能改变这一局面。令人振奋的是，专家们坚信人工智能将永久改变制药业和发现药物的方式。但是，为了使个人能够使用AI高效进行药物开发，研究者需要了解人工智能，了解训练算法，这需要相关领域的专业知识。这相当于创造了新的工作岗位，使AI和药物化学家可以紧密合作，因为前者将能够帮助分析庞大的数据集，而后者可以训练机器、设置算法或优化分析的数据，从而加快药物开发过程的速度和准确性。另一方面，医药行业对AI需求的进一步加大，也意味着对于数据、算法、算力需求的提升。尽管AI有助于加快药物开发，仍然需要进行真实的实验。此外，AI可以用于辅助基因治疗或其他目前尚无法用作医疗保健工具的疗法。借助AI，出现了将再生医学与药理学和基因治疗相结合的可能性。原文链接：https://www.sciencedirect.com/science/article/pii/S1359644618300916?via%3Dihub