会议推荐
2026第三届中国医药企业项目管理大会
2026第二届中国AI项目管理大会
2026第十五届中国PMO大会
2026第五届中国项目经理大会
本
文
目
录
1、大语言模型如何助力药物开发? 哈佛George Church Lab最新综述
2、大语言模型 LLM 为药物研发赋能
3、AI大语言模型在药物发现与开发中的应用:从疾病机理到临床试验的全面革新
4、Y-Mol:一种基于大语言模型 LLM 的药物研发新范式
5、破解生命密码:基于多模态大语言模型(MLLM)的医疗大模型如何重塑药物研发的未来
一、大语言模型如何助力药物开发? 哈佛George Church Lab最新综述
(DrugAI DrugAI)
大语言模型因其展现出类人般的推理、工具使用和问题解决能力而备受瞩目,此外,它在化学、生物学等专业领域也展现出深厚的理解能力,进一步提升了其应用价值。本文阐述大语言模型可以在理解疾病机制、药物发现和临床试验三个药物发现的基本阶段展现出重要潜力。
首先,本文展示了过去、现在的药物研发与临床试验中的过程并展现了大语言模型(LLMs)未来在这些阶段的潜在应用。
理解疾病机制
过去:依赖手动文献和专利搜索。
现在:除了手动文献搜索,还加入了功能基因组学分析。
未来:LLMs将自动识别靶基因,发现生化和药理学原理。
药物发现:
过去:通过天然产物的发现和随机筛选进行药物研发。
现在:使用虚拟筛选和基于结构的手动药物设计。
未来:LLMs将设计新型治疗方法,自动生成药物设计,并自动进行实验。
临床试验:
过去和现在:手动匹配病人与试验、设计临床试验以及收集临床试验数据。
未来:LLMs将自动进行病人匹配、试验设计,并预测试验结果。
大语言模型的分类
本文将大语言模型分为两类: 科学大语言模型(Scientific Language Model)和一般大语言模型(General Language Model)。两者的对比和差异如下:
科学大语言模型
领域:涉及化学(分子)、生物学(蛋白质、基因)等专门领域。
训练数据:包括化学中的SMILES、IUPAC序列,蛋白质的FASTA序列,基因的FASTA序列等。
任务解决能力:能够处理分子、蛋白质、基因相关的任务,如逆合成规划、反应预测、分子设计、蛋白质结构预测、基因网络分析等。
工具型使用:作为工具,通过获取任务所需信息,生成预测结果(如蛋白质-配体结合亲和力评分)。
通用语言模型
领域:基于更广泛的文本数据,如书籍、互联网、社交媒体等。
训练数据:包括书籍、问答网站、社交媒体、百科等来源。
人类式能力:具备理解背景知识、推理、角色扮演(如化学家)、规划、使用工具和信息检索等能力。
助手型使用:可以像助手一样与用户互动,回答问题、解释复杂概念并帮助用户完成任务。
大语言模型在理解疾病机制中的作用
这张图表分为两部分,左边展示了疾病研究的关键流程,右边展示了大语言模型(LLM)在这些流程中的具体应用领域。
左侧:疾病研究流程
临床分型(Clinical Sub-typing)
通过多组学数据的收集(如基因、蛋白质、代谢组等),结合临床分析和伦理法规要求,对疾病进行分型。目的是更好地理解疾病的异质性,从而为后续的靶点发现打下基础。
靶点-疾病关联(Target-Disease Linkage)
通过基因表达谱分析、多通路分析等方法,结合实验工具(如CRISPR-Cas9、RNA干扰等),寻找并验证疾病与潜在治疗靶点的关联性。这一步对于药物开发至关重要。
靶点验证(Target Validation)
验证靶点的安全性与可行性,评估其药物开发潜力。涉及靶点安全、药物可及性(Drugability)和测试可行性。靶点的作用机制(如激动剂、拮抗剂、调节剂等)也会在这一阶段进行确认,从而选择合适的治疗方式,如蛋白质、小分子或RNA治疗。
右侧:LLM的应用领域
基因组分析(Genomics Analysis)
LLM可以帮助预测基因变异、启动子区域、转录因子结合位点等信息,从而帮助科研人员在基因组层面理解疾病机制。
转录组分析(Transcriptomics Analysis)
LLM可以处理mRNA表达分析、基因网络分析等复杂数据,辅助研究人员挖掘重要的转录组信息,了解基因的调控模式和表达差异。
蛋白质靶点分析(Protein Target Analysis)
LLM能够预测蛋白质结构、功能注释、蛋白质间相互作用以及配体结合位点等信息,帮助科研人员选择潜在的药物靶点。
疾病通路分析(Disease Pathway Analysis)
LLM在疾病通路分析中能够分析蛋白质与疾病之间的复杂相互作用,识别潜在的治疗靶点和干预途径,从而加速药物开发过程。
辅助功能(Assistance)
LLM还可以提供知识发现、信息检索等辅助功能,帮助科研人员快速获取相关信息,加快研究进程。
大语言模型在药物发现中的应用
这张图分为两部分,左边展示了药物发现的过程,右边展示了大语言模型(LLM)在药物发现各阶段的具体应用。
左侧:药物发现过程
药物类型选择
科学家可以选择不同的治疗方式,包括蛋白质、小分子药物和RNA。该图以小分子药物为例,展示了它们在药物开发中的应用。
药物发现流程
命中识别(Hit Identification):通过筛选大量化合物,找到与靶点有初步反应的分子。
命中到先导(Hit to Lead):进一步优化这些初步命中分子,以提高其与靶点的结合能力。
先导优化(Lead Optimization):对先导化合物进行结构改造,增强其疗效和药物特性。
临床前研究(Pre-clinical):在进入临床试验前,评估候选药物的安全性和有效性。
药物候选物(Drug Candidates):通过上述流程,产生最终可供临床试验的候选药物。
右侧:LLM的应用领域
化学领域(Chemistry)
LLM可以用于化学机器人自动化合成、逆合成规划和反应预测等任务,帮助化学家加速化合物的发现。
计算机模拟(In Silico Simulation)
LLM能够进行分子生成、蛋白质生成和蛋白质-配体相互作用预测,从而加快虚拟药物筛选过程。
ADMET预测
LLM能够预测候选药物的药代动力学(Pharmacokinetics)、毒性(Toxicity)和理化性质(Physicochemical Properties),帮助评估药物在人体中的行为。
先导优化(Lead Optimization
LLM能够通过优化分子结构和蛋白质相互作用,帮助改进候选化合物的疗效和安全性。
辅助功能(Assistance)
LLM还可以提供信息检索和知识解释,帮助研究人员快速获取所需信息,提升药物开发的效率。
大语言模型在临床试验中的应用
这张图表左侧展示了临床试验的不同阶段,右侧展示了大语言模型(LLM)在这些阶段中的应用。
左侧:临床试验阶段
第一阶段(Phase 1)
主要测试药物的安全性和最佳剂量水平。通常在15到50名健康志愿者中进行。
第二阶段(Phase 2)
探索药物的有效性以及可能的副作用,参与人数通常少于100人。
第三阶段(Phase 3)
将新治疗与现有治疗进行比较,验证新药物的效果,通常有超过100人参与。
第四阶段(Phase 4)
药物获批后,评估其长期效果,通常有超过1000名参与者。
右侧:LLM的应用领域
临床实践(Clinical Practice)
ICD编码:帮助生成和优化疾病分类编码。
病人-试验匹配:通过分析患者特征,自动匹配合适的临床试验。
临床试验预测:预测临床试验的成功率和结果。
临床试验规划:协助研究人员制定有效的临床试验计划。
患者结果(Patient Results)
患者结果预测:根据现有数据预测患者治疗的效果。
辅助功能(Assistance)
文件撰写:帮助生成临床试验相关文件和报告。
信息检索:快速查找和整理与试验相关的信息。
知识解释:对复杂的医学或药物信息进行解释,方便研究人员和医生理解。
成熟度评估:大语言模型在药物研发中的应用
这张图表展示了两种类型的大语言模型的应用成熟度:科学大语言模型(Specialized LMs)和一般大语言模型(General LMs),分别在理解疾病机制、药物发现和临床试验中的应用情况。应用成熟度分为四个等级:新生期、进展期、成熟期以及不适用(N/A):
不适用(Not Applicable)
该类大语言模型(LLM)的应用不适合或与给定的下游任务无关。在这种情况下,LLM的范式不被认为是有效或相关的工具。
新生期(Nascent)
该类大语言模型的范式已被初步应用于任务,通常是在计算机模拟环境(in silico)中,但缺乏通过实际实验验证的支持。此阶段的应用更多是理论上的或初步探索,尚未经过现实场景中的测试。
进展期(Advanced)
该类大语言模型的应用已经超越了理论,经过了实际场景中的实验验证。这些实验结果表明,LLM在现实中可以在特定的任务中起到一定的作用,但可能还未广泛部署。
成熟期(Matured)
该类大语言模型的应用已被集成到实际的工作环境中,如医院或制药公司,且有明确证据表明其在这些环境中的有效性和实用性。在这个阶段,LLM已被广泛使用,并产生了显著的实际成果。
理解疾病机制(Understanding Diseases Mechanism)
基因组分析(Genomics Analysis)、转录组分析(Transcriptomics Analysis)、蛋白质靶点分析(Protein-target Analysis)、疾病通路分析(Disease-pathway Analysis):
基因组分析(Genomics Analysis)、转录组分析(Transcriptomics Analysis)主要还处于早期
蛋白质靶点分析(Protein-target Analysis)、疾病通路分析(Disease-pathway Analysis)已经处于较为成熟的阶段
药物发现(Drug Discovery)
化学实验(Chemistry Experiment)、计算机模拟(In-silico Simulation)、ADMET预测(ADMET Prediction)、先导优化(Lead Optimization):两种模型在药物发现的各个环节中的成熟度也大多为进展期。其中,计算机模拟和ADMET预测的进展较快,有潜力进一步推动药物开发。
临床试验(Clinical Trial)
临床试验实践(Clinical Trial Practice)、患者结果预测(Patient Outcome Prediction)
大语言模型在这些任务上都已经被实际应用。
未来方向
未来大语言模型(LLM)在药物发现和开发中的应用方向集中在九个关键领域的改进上。首先,需要加强LLM对生物学知识的整合,包括对分子生成、临床试验数据以及科学术语的准确理解和操作。其次,需要解决伦理、隐私及模型误用的问题,确保数据的安全性并防止潜在的滥用。此外,还需关注公平性和偏见问题,避免模型在不同群体中的不平等表现。
其他方面的改进包括解决LLM生成虚假信息(即“幻觉”)的挑战,提升多模态处理能力,扩展上下文窗口以应对海量生物数据,以及增强对时空数据的理解,特别是在分子动力学模拟等领域。最后,整合专业化LLM和通用LLM的能力,以实现更精确的科学任务处理与广泛的用户交互,推动药物研发的自动化与高效化。
参考资料
Zheng, Y., Koh, H.Y., Yang, M., Li, L., May, L.T., Webb, G.I., Pan, S. and Church, G., 2024. Large Language Models in Drug Discovery and Development: From Disease Mechanisms to Clinical Trials. arXiv preprint arXiv:2409.04481.
二、大语言模型 LLM 为药物研发赋能
(原创 Student Chem 榴莲忘返 AIDD)
今天咱们重点聊聊这个大型语言模型(LLM)在化学方面都有哪些应用。主要包括 6 个方面:
用自然语言进行分子编辑
分子性质预测
交互式逆合成规划
分子生成
知识检索
计算工具输入文件生成1. 使用自然语言进行分子编辑
咱们先看看这样一个问题,分子优化:在药物研究中,想找到一种“完美”的分子可不容易,它得具备多种特性,比如溶解度好、渗透性强、吸收效果佳等等 [1] 。
我们经常面对的一个情况就是,一个分子的某种特性很好,但另一种特性就差强人意。我们想尽各种办法来改造分子,可是这个过程相当费劲!
这时候,ChatGPT 就派上用场了!它能根据给定的文本提示,把输入的分子修改成我们想要的样子。
比如,咱们告诉它“这个分子得易溶于水,而且渗透性不能太强”,然后它就会根据我们提的需求帮我们设计出符合要求的分子。是不是听起来很科幻?图片来源:arXiv:2212.10789
其中有个叫 MoleculeSTM 的模型,是由 Liu 团队做的 [2] 。大家知道,以前的机器学习模型大多只看分子的化学结构,却忽略了分子的文本描述。而这个 MoleculeSTM 模型就能同时学习化学结构和文本描述,让预测结果更加准确。
它既能做到单目标编辑,也就是只针对一个特性进行修改,比如“提高溶解性”。也能做多目标编辑,一次性修改多个特性,比如“既要溶解性高,又要渗透性强”。
单目标编辑 : 是文本提示使用单一的药物相关属性进行编辑,例如“具有高溶解性的分子”和“更像药物的分子”。图片来源:arXiv:2212.10789
多目标(组合性)编辑 : 是同时应用多个属性的文本提示,例如“具有高溶解性和高渗透性的分子”。图片来源:arXiv:2212.107892. 分子性质预测
什么是分子性质预测? 简单说就是预测量化相关属性的指标,比如说,咱们想知道一个分子溶解度怎么样,或者它的稳定性如何。
一般来说,这些性质都是通过实验室里的实验测出来的,可是这样做既耗时又耗资源。而且,有时候科学家只做了几个候选分子,这几个分子能测的性质也就那么多。这时候,LLM 就能派上大用场!
大家可能会问,为啥不用传统的机器学习或深度学习模型来预测分子性质呢?其实可以用的!
有一篇论文里,Wieder 团队讨论了 80 多种图神经网络的变体,它们都能预测分子性质 [3] 。
不过这些传统模型有两个小问题:
这些模型只看分子的化学结构,但忽略了有关化学的大量文本信息。其实化学家做决策时,不只是看分子结构,还会参考自己多年的经验。
数据不够用。获取高质量的数据集是个大难题,因为数据可能昂贵或者是专有的。数据不够,模型的预测能力也就有限啦。
但 LLM 有个优点,它能“学习”化学!因为它在大量的化学书籍和论文上接受了“培训”,所以它的知识就像化学家的直觉一样,帮助解决数据不足的问题。
有个叫 Galactica 的模型就是个很好的例子 [4] 。它是个大型语言模型,能存储、整合、推理科学知识。这个模型是在很多科学文献和资料上训练的,虽然它不只用于预测分子性质,但表现出了对化学和生物学的理解能力。评估时,它会把输入当作文本,然后进行预测。这种方法不仅可以用于分类任务,还可以扩展到其他问题,比如预测化学反应的产物和产率。图片来源:arXiv:2211.090853.交互式逆合成规划
新药研发可不是件容易事,要花好多钱、很多时间,十年八年的也很常见 [5] 。在这个过程中,一个关键限速步骤就是确定合成分子的最佳路径,也就是 逆合成规划。这个规划是让我们从目标分子反推回去,找出合成这个分子的原料和步骤。
这个工作听起来很简单,实际上挺复杂的。每一步的转化都有很多种可能,Szymkuć 团队估计每一步可能有上万次转换 [6] 。而且,有些反应物可能还得再逆合成。
过去,科学家们用一些预定的规则来引导反应,就像下图这样(红色突出显示的部分代表化学反应的反应中心):图片来源:doi:10.1016/j.eng.2022.04.021
可这种方法有个小问题,对于一些新的分子和反应类型,它可能不太准确 [7] 。
近年来,人工智能在预测合成路线上取得了不少进展,并总结了很多基于机器学习和深度学习的方法 [5] 。但这些方法一般不用文本信息,也不如 LLM 可以实时交互。
不过,现在有个好消息,LLM 能够帮助我们解决这个问题!因为它能理解化学,能和用户实时交互,还能解释为啥选择某个合成路线。这样一来,我们就能找到最佳的合成路径啦。
虽然目前我没找到已经完成的工作,但安德鲁·怀特教授的推文提到了一篇相关论文 [8] 。这篇论文提出了一种基于大型语言模型的交互式规划方法,在游戏 "Minecraft" 中训练多任务代理。这个游戏里的任务和逆合成有点像,都是多步骤的。如果哪个步骤失败了,我们可以请 LLM 给出新计划。
在这个游戏中,要执行一个特定的任务( 比如建造一张睡床 ),必须完成多个子任务( 比如获取用于床上用品的羊毛、获取木头、获取螺丝等 )。其中一些子任务本身可能需要额外的任务来完成( 比如在采矿场寻找铁来制造螺丝,这反过来可能需要找到一把铲子来挖掘 )。
逆合成有一些类似的过程。有一个确定最佳合成路径( 如建造床 )并实现它的目标,必须完成多个子目标( 如开采木材 )。有时,路径可能不可行( 目标失败 ),因此我们可以请 LLM( 解释者 )提出新计划。4. 从头分子生成
接下来咱们聊聊从头分子生成这个话题,它和之前咱们聊的分子编辑、分子特性预测、逆合成计划有点不同。
之前那些话题,都是已经有了目标分子,然后进行编辑、预测或合成。可是,如果咱们不知道哪个分子能和某个蛋白质结合,或者能治愈某种疾病,咱们该怎么办呢?
这时候,大型语言模型(LLM)就能派上用场!它可以根据我们给的文字提示,生成一个全新的分子结构。比如,我们可以告诉它分子的一些特性、结构、目标蛋白质等信息,它就会帮我们生成一个分子。
这个领域已经有不少成功的案例了。Grisoni 团队总结了很多用于从头设计药物的先进模型 [12] 。这些模型在 SMILES 字符串上训练,然后生成新分子的字符串表示。不过这些模型通常不会用到文献中的文本信息。
有个叫 Galactica 的模型,它尝试了一个有意思的任务:给定一个蛋白质序列,它会预测这个蛋白质的功能 [4] 。这个做法挺有创意的。图片来源:arXiv:2211.09085
还有一个非常出名的工作,是 Edwards 团队提出的 MolT5 模型 [14] 。这个模型有两个任务:
分子字幕:给定分子,生成描述它的文字。
基于文本的从头分子生成:生成分子,让它符合给定的文本描述。
这个模型既能理解分子字符串,也能理解自然语言文本,以下是一些相关示例:图片来源:arXiv:2204.118175. 知识检索
科学家在研究过程中,经常需要查找大量的化学反应、性质等信息,但是这些信息太多啦,人脑没法一下子全记住。所以,科学家需要手动去查资料、查数据库。可是,如果有了大型语言模型(LLM),这些事情就变得简单多啦!
LLM 可以帮我们找到两类信息:
静态知识:就是不会变的知识,比如碳原子的属性。LLM 能很好地处理这些信息。
动态知识:这些知识会随时间更新。比如一篇新发表的论文,LLM 可能不知道。这时候,我们可以把论文内容给它看,让它帮我们回答问题。这种方式还适用于一些特殊的实验室文档,它们有时候很长,人工阅读费时费力,LLM 可以帮我们总结、提取重要的点。
有个叫 Dan Shipper 的作者写了一篇文章 [18] ,里面展示了如何用 LLM 获取准确的信息。
还有一个工具叫 Paper-QA [19] ,它是个聊天机器人,能从 PDF 或文本文件里进行问答,用的是 GPT-4 模型。这里 [20] 有演示,大家可以试试。
比如有这样一个任务,是给定一个化学结构和几段文字描述,选择和化学结构最相关的描述(反之亦然) [2] 。这对于药物再利用或适应症扩展很有帮助。下图说明了整个过程。图片来源:arXiv:2212.10789
当然啦,网上还有很多其他的工具,比如 Paper Digest 、Content Mine 、Elicit 、SciSpace Copilot 、Scholarcy ,它们也能总结论文、提取见解。6. 输入文件生成
我们都知道,NWChem、Gaussian 这些软件都是用来做量子计算的,很多科学家都在用。不过,用这些软件的时候,需要写一些特殊格式的输入文件,而且还要懂一些计算机硬件和系统知识,对于科学家来说可能有点麻烦和繁琐。
好消息是,现在有了大型语言模型(LLM),这件事就变得简单啦!我们只要用自然语言告诉它,比如分子名称、基组、要计算的属性,LLM 就能帮我们生成 NWChem 的输入文件。
目前这方面的研究还比较少。当然有一些工具,比如 OpenBabel,可以生成这些文件,但它们有局限性,比如使用 NWChem 计算时,如果想用特定的基础组,还得自己知道属性名称和文件格式。
不过也有一些进展,比如 Hocky 和 White [9, 10] 的研究团队,他们用 Codex 这个基于 GPT-3 的模型,试着生成化学任务的代码,还成功地为 Gaussian 软件生成了输入文件。下面这张图就是一个例子:图片来源:doi:10.1039/D1DD00009H最后
LLM 真的有可能改变我们解决化学问题的方式,无论是分子编辑、逆合成计划,还是知识检索、预测任务,LLM 都能帮助科研人员提高效率。虽然现在已经有了很多新技术和模型,但还有很多可以挖掘的空间,咱们可以期待未来几年会有更多令人兴奋的化学应用出现。参考资料
He, J., You, H., Sandström, E. et al. Molecular optimization by capturing chemist’s intuition using deep neural networks. J Cheminform 13, 26 (2021). https://doi.org/10.1186/s13321-021-00497-0.
Shengchao Liu, Weili Nie, et al. Multi-modal Molecule Structure-text Model for Text-based Retrieval and Editing. arXiv:2212.10789, Dec 2022. https://doi.org/10.48550/arXiv.2212.10789.
Oliver Wieder, Stefan Kohlbacher, et al. A compact review of molecular property prediction with graph neural networks. Drug Discovery Today: Technologies, Volume 37, 2020, Pages 1-12, ISSN 1740-6749, https://doi.org/10.1016/j.ddtec.2020.11.009.
Ross Taylor, Marcin Kardas, et al. Galactica: A Large Language Model for Science. arXiv:2211.09085, Nov 2022. https://doi.org/10.48550/arXiv.2211.09085.
Zipeng Zhong, Jie Song, et al. Recent advances in artificial intelligence for retrosynthesis. arXiv:2301.05864, Jan 2023. https://doi.org/10.48550/arXiv.2301.05864.
Szymkuć S, et al. Computer-Assisted Synthetic Planning: The End of the Beginning. Angew Chem Int Ed Engl. 2016 May 10; 55(20):5904-37. https://doi.org/10.1002/anie.201506101.
Yinjie Jiang, Yemin Yu, et al. Artificial Intelligence for Retrosynthesis Prediction. Engineering, 2022, ISSN 2095-8099. https://doi.org/10.1016/j.eng.2022.04.021.
Zihao Wang, et al. Describe, Explain, Plan and Select: Interactive Planning with LLMs Enables Open-World Multi-Task Agents. arXiv:2302.01560, Feb 2023. https://doi.org/10.48550/arXiv.2302.01560.
Glen M. Hocky, Andrew D. White. Natural language processing models that automate programming will transform chemistry research and teaching. Digital Discovery, 2022, 1, 79-83. https://doi.org/10.1039/D1DD00009H.
M. Chen, J. Tworek, et al. Evaluating large language models trained on code. arXiv:2107.03374, Jul 2021. https://doi.org/10.48550/arXiv.2107.03374.
Andrew D. White, Glen M. Hocky, et al. Assessment of chemistry knowledge in large language models that generate code. Digital Discovery, 2023, 2, 368-376. https://doi.org/10.1039/D2DD00087C.
Francesca Grisoni. Chemical language models for de novo drug design: Challenges and opportunities. Current Opinion in Structural Biology, Volume 79, 2023, 102527, ISSN 0959-440X. https://doi.org/10.1016/j.sbi.2023.102527.
Noel M O'Boyle, Michael Banck, et al. Open Babel: An open chemical toolbox. Journal of Cheminformatics 2011, 3 (1). https://doi.org/10.1186/1758-2946-3-33.
Carl Edwards, Tuan Lai, et al. Translation between Molecules and Natural Language. arXiv:2204.11817, Nov 2022. https://doi.org/10.48550/arXiv.2204.11817.
Zeng Z, Yao Y, et al. A deep-learning system bridging molecule structure and biomedical text with comprehension comparable to human professionals. Nat Commun. 2022 Feb 14; 13(1):862. https://doi.org/10.1038/s41467-022-28494-3.
Aggarwal, S. Targeted cancer therapies. Nat Rev Drug Discov 9, 427–428 (2010). https://doi.org/10.1038/nrd3186.
https://every.to/chain-of-thought/the-knee-of-the-exponential-curve
https://every.to/chain-of-thought/how-to-build-a-chatbot-with-gpt-3
https://github.com/whitead/paper-qa
https://huggingface.co/spaces/whitead/paper-qa译者 | 柠檬青年策划 | Student Zero来源 | 榴莲忘返 2014
三、AI大语言模型在药物发现与开发中的应用:从疾病机理到临床试验的全面革新
(极客苦工 生物大模型)
在现代医药研究领域,人工智能正在掀起一场革命。其中,大语言模型(Large Language Models, LLMs)作为人工智能的前沿技术,正在药物发现和开发的各个阶段发挥着越来越重要的作用。深入探讨一篇最新发表在arXiv上的综述论文《Large Language Models in Drug Discovery and Development: From Disease Mechanisms to Clinical Trials》,全面了解LLMs如何正在重塑药物研发的未来。引言:LLMs在药物研发中的重要性
传统的药物研发是一个漫长而昂贵的过程。从初步研究到新药上市,通常需要10-15年的时间,耗资超过20亿美元。这个复杂的过程主要分为三个阶段:理解疾病机制并选择治疗靶点、开发针对靶点的治疗方法、在临床试验中测试治疗方法的有效性。
每个阶段都极其耗时耗力,这主要是由于生物系统的复杂性和每个阶段所需的广泛审查。这种缓慢而漫长的过程往往阻碍了能够改善和延长人类生命的新疗法的引入。因此,如果能够提高效率并扩展当前实践的能力,将会带来巨大的回报。
在这一背景下,人工智能工具,尤其是大语言模型(LLMs)作为预先训练的语言模型,已经成为加速药物发现和开发的突出创新。LLMs通过理解科学语言并执行药物发现和开发中必不可少的各种下游任务,展现出了卓越的能力。LLMs在药物研发中的两种主要范式
在药物发现和开发中,LLMs主要有两种应用范式:专门化语言模型和通用语言模型。
专门化语言模型(Specialized LLMs):这类模型经过特定科学语言的训练,能够直接解码原始形式的科学数据。例如,在理解疾病机制阶段,专门化LLMs可以从单细胞RNA转录组数据和DNA序列中提取基因组信息,帮助确定表观遗传标记、转录因子结合位点、功能性遗传变异等。
在蛋白质分析方面,像ESM这样的专门化LLMs通过简单的训练程序,能够直接从蛋白质序列注释功能和预测结构,显著推进了我们对蛋白质结构的理解,为下游的药物发现工作提供了重要信息。
通用语言模型(General LLMs):这类模型经过广泛的文本信息训练,包括但不限于科学论文、教科书和一般文献。这种广泛的训练使它们对人类语言有深入的理解,包括对科学背景的显著掌握。
例如,GPT-4和Galactica等模型已经表现出精通复杂的正式科学描述语言的能力,包括SMILES字符串和FASTA格式。利用这种能力,通用LLMs可以处理通常需要领域专业人员参与的任务,如进行推理、分析和应用跨不同科学领域的特定知识。
图1:大语言模型在药物发现和开发中的两种主要范式
这张图清晰地展示了专门化语言模型和通用语言模型在药物发现和开发中的不同应用方式。专门化语言模型主要用于处理特定的科学语言,如分子SMILES字符串或蛋白质序列,而通用语言模型则可以理解和生成更广泛的人类语言,包括科学文献和对话。LLMs在理解疾病机制中的应用基因组学分析
在基因组学分析中,LLMs展现出了强大的能力。例如,DNA-BERT等专门化LLMs通过对大量核苷酸序列的训练,能够有效地解码遗传学的"语言"。这些模型可以:
进行遗传变异分析,从DNA序列中直接检测重要的功能性遗传变异。
预测启动子区域、转录因子(TF)结合位点和剪接位点等重要的基因组区域。
预测表观遗传标记,如DNA甲基化和组蛋白修饰。
最新的HyenaDNA模型甚至能够在单核苷酸水平上建模长达100万个标记的极长基因组序列,这是对之前模型的重大突破。转录组学分析
在转录组学分析方面,专门化LLMs如Geneformer展现出了卓越的能力。Geneformer采用了创新的"rank value encoding"方法,将每个单细胞转录组映射为基于表达水平排序的基因序列。这种方法不仅提供了单个细胞内基因活动的独特表示,还促进了跨多样化数据集的基因表达全面比较。
Geneformer在实际应用中表现出色,例如它能够区分正常和心肌病心肌细胞,识别与肥厚性和扩张性心肌病相关的网络扰动负责的基因,提供潜在的治疗靶点如ADCY5和SRPK3。这些靶点的有效性已通过使用Titin截断突变的iPSC衍生心脏微组织的实验验证得到确认。蛋白质靶点分析
在蛋白质靶点分析方面,专门化LLMs如AlphaFold2和ESM取得了重大突破。AlphaFold2现在已经成为一个全面且易于访问的数据库,在基于结构的药物发现和疫苗开发中有广泛应用。例如,研究人员利用AlphaFold2,在没有实验结构的情况下,仅用30天就为一个新的靶点CDK20开发出了首创类的先导分子。
ESM则被开发成一个专注于GPCR蛋白的网络服务器,能分析这些蛋白的信号和功能谱系,并识别具有亚纳摩尔亲和力的化合物。疾病通路分析
在疾病通路分析方面,通用LLMs表现出了强大的能力。例如,GPT-4能够分析与红细胞相关的血液转录模块,展示了这些模型在知识驱动的通路分析中的效率。研究利用通用LLMs自动生成基因网络代码,总结基于关联测试排序的候选基因,为用户生成报告,并根据文献进行事实核查。LLMs在药物发现中的应用化学实验
在化学实验方面,LLMs正在revolutionizing化学机器人技术、逆合成规划和反应预测。
化学机器人技术:通用LLMs如GPT-4和CodeLlama已经展示了生成有效代码的能力,可以用于生成机器人可执行的计划。例如,CLARify利用GPT-3根据用户的描述性指令生成特定化学描述语言(XDL)的任务计划。
逆合成规划与反应预测:专门化LLMs如Molecular Transformer在这方面表现出色。它采用简单的编码器-解码器transformer框架,经训练可以将反应物和试剂作为输入,预测可以从反应中合成的化学产物。在反应预测方面,它的准确性甚至超过了人类化学家。体内模拟
在体内模拟方面,LLMs主要用于三个任务:从头分子生成、从头蛋白质生成和蛋白质-配体相互作用预测。
从头分子生成:专门化LLMs如MolGPT和REINVENT系列在这方面表现出色。MolGPT采用GPT架构,可以处理多个约束条件。REINVENT系列则更为先进,能够满足多达10个不同的目标,包括可合成性、选择性等。
从头蛋白质生成:在这方面,ProtGPT2等专门化LLMs表现突出。ProtGPT2经过广泛的蛋白质序列训练,擅长创建de novo蛋白质序列,这些序列在模式上与自然蛋白质相似。
蛋白质-配体相互作用预测:AlphaFold-multimer等工具在这方面展现了专门化LLMs的直接应用。PSICHIC模型更是展示了仅从序列数据学习就能超越依赖实验3D结构或蛋白质-配体复合物的方法。ADMET预测
在ADMET(吸收、分布、代谢、排泄和毒性)预测方面,LLMs展现出了强大的预测能力。专门化LLMs如ChemBERTa和SMILES Transformer在这方面表现出色。而通用LLMs如LLM4SD则可以从文献和数据源中综合规则,使得即使是随机森林模型也能在大多数任务中优于所有最先进的方法。先导化合物优化
在先导化合物优化方面,LLMs在分子优化和蛋白质优化两个方面都有应用。
分子优化:专门化LLMs如Reinvent系列和MERMAID使用强化学习来确保合成的分子保留所需的结构骨架,同时增强药效、稳定性或药物相似性等属性。
蛋白质优化:ESM等专门化LLMs被用于建议在进化上可行的突变,这些突变可能有助于提高蛋白质家族的适应度。例如,这项工作发现,通过仅两轮进化,成熟的IgG抗体对不同病毒抗原的亲和力就有显著提高。LLMs在临床试验中的应用
在临床试验阶段,LLMs主要应用于临床实践、患者结果分析和临床辅助。临床实践
在临床实践中,LLMs主要用于ICD编码、患者-试验匹配、临床试验规划和预测以及文档撰写。
ICD编码:LLMs通过分析大量电子健康记录(EHR)数据,可以为EHR预测最合适的编码,使临床医生能够做出更明智的决策并简化流程。
患者-试验匹配:LLMs如Med-monoT5和TrialGPT能够评估临床试验文件与患者描述的相关性,协助医生确定患者是否符合临床试验的资格。
临床试验规划和预测:AutoTrial利用GPT-2作为骨干,采用两阶段训练方法来自动化试验标准设计和临床试验规划。
文档撰写:LLMs在生成各种临床文档方面表现出色,如出院总结、临床笔记和放射学报告。例如,RadBERT是一个预先在数百万份放射学报告上训练的BERT样系统,可以生成简洁的报告,突出重要的观察结果和结论。患者结果
在患者结果预测方面,LLMs主要用于预测与医院相关的结果(如再入院、住院时间和死亡率)和与疾病相关的结果(如疾病发作、诊断和发病率)。
例如,ClinicalBERT利用BERT架构理解临床记录并进行再入院预测。NYUTron则是一个BERT样的语言模型,预先在全面的临床笔记集合上训练,并针对各种任务进行微调,如预测死亡率、并发症、医院再入院、保险拒绝和住院时间。辅助
在临床试验辅助方面,通用LLMs如GPT-4和Med-Palm2能够理解医学知识并用简单易懂的语言解释,这有助于患者更好地理解和参与临床试验机会。临床医生也可以利用LLMs高效检索相关临床试验文献,并使用先进的信息检索能力评估患者的适合性。LLMs在药物研发中的成熟度评估
论文对LLMs在药物研发各阶段的应用成熟度进行了评估,将其分为四个等级:不适用、nascent(新生)、advanced(先进)和matured(成熟)。
图2:LLMs在药物研发下游任务中的成熟度评估
这张图清晰地展示了专门化LLMs和通用LLMs在理解疾病机制、药物发现和临床试验三个主要阶段的各个任务中的成熟度评估结果。不同颜色代表不同的成熟度级别,从不适用到成熟。理解疾病机制阶段
在理解疾病机制阶段,LLMs在不同任务中表现出不同程度的成熟度:
基因组学分析: 专门化LLMs处于nascent阶段,已经创建了编码核苷酸序列信息的模型,但仍需进一步实验验证其有效性。通用LLMs也处于nascent阶段,在解释基因组数据的演化过程或设计DNA序列方面仍有改进空间。
转录组学分析: 专门化LLMs如Geneformer已经进入advanced阶段,在基因网络分析中发挥了重要作用,并通过实验验证了其有效性。通用LLMs则仍处于nascent早期阶段,正在探索辅助任务如自动化细胞类型分析。
蛋白质靶点分析: 专门化LLMs如AlphaFold2已经达到matured阶段,在结构预测和药物发现中得到广泛应用。通用LLMs如GPT-4在蛋白质分析方面仍处于nascent阶段,主要用于生成基于嵌入的信息性答案。
疾病通路分析: 专门化LLMs和通用LLMs都已达到advanced阶段。例如,Insilico Medicine公司的PandaOmics靶点发现平台已经整合了ChatGPT用于分析疾病通路。
辅助: 通用LLMs在这一方面已经达到matured阶段,在信息检索和知识发现方面为研究人员提供了巨大帮助。药物发现阶段
在药物发现阶段,LLMs的应用成熟度如下:
化学实验: 专门化LLMs处于nascent阶段,而通用LLMs已进入advanced阶段。通用LLMs在复杂化学实验中的应用已经得到验证,如分子合成和控制机械臂。
体内模拟: 专门化LLMs已经达到matured阶段,在工业中得到广泛应用。例如,AlphaFold Multimer被用于蛋白质-蛋白质复合物预测。通用LLMs在这一领域仍主要局限于体内环境,面临科学理解和定量分析方面的挑战。
ADMET预测: 专门化LLMs如IBM的Molformer已经建立了允许化学家进行实时分子筛选和高效分子性质预测的云平台,达到matured阶段。通用LLMs如LLM4SD也已进入advanced阶段,能从ADMET数据中提取有意义的假设。
先导化合物优化: 专门化LLMs已通过实际实验验证,进入advanced阶段。例如,在分子优化方面,研究人员开发了一种化学语言模型,促进了具有亚微摩尔活性的新型PI3Kγ配体的发现。通用LLMs仍处于nascent早期阶段,主要进行体内测试。
辅助: 通用LLMs在药物发现的信息检索和解释方面已达到advanced阶段。例如,BenevolentAI公司正在研究可搜索个人或公司文档以提供医学答案的ChatGPT检索插件。临床试验阶段
在临床试验阶段,主要涉及一般文本数据,因此专门化LLMs通常不适用于这个阶段。通用LLMs在以下方面的应用成熟度如下:
临床试验实践: 通用LLMs在ICD编码、患者-试验匹配和临床试验规划等任务中仍处于nascent早期阶段,但发展潜力巨大。
患者结果预测: 通用LLMs在这一领域已达到matured阶段。例如,NYUTriton平台已在纽约的医院和门诊设施网络中部署,用于预测院内死亡率、估算综合并发症指数和预测30天全因再入院等任务。
辅助: 通用LLMs在临床辅助方面已达到matured阶段。例如,已经有LLMs被用于生成临床笔记、为慢性病患者维持定期检查,以及总结患者问题。LLMs在药物研发中的未来方向
论文最后探讨了LLMs在药物发现和开发中的未来发展方向,主要包括以下几个方面:1. 整合生物学见解
提高LLMs的科学理解能力对于它们在药物发现和相关下游任务中的成功应用至关重要。无论是专门化还是通用LLMs,都需要对科学概念(如术语)和语言(如SMILES和IUPAC命名法)有深入的理解。
未来的研究应该更多地关注如何将统计力学等领域开发的先进计算技术整合到药物发现的大型语言模型中。例如,增强采样技术和多尺度建模等先进的计算策略可以克服传统分子模拟的局限性,提供对生物分子过程更准确和全面的洞察。2. 解决伦理、隐私问题和防止滥用
LLMs在药物发现中的应用涉及多个伦理问题,包括责任归属、公平性和潜在的意外后果。例如,当这些模型在药物开发中发挥越来越重要的作用时,谁应该为结果负责?这个问题尤其具有挑战性,因为LLM的决策过程往往是不透明的。
隐私问题也是一个重要的考虑因素,因为LLMs可能会记忆训练数据。例如,在收集患者分型的多组学数据时,确保数据的匿名化至关重要。
防止LLMs被滥用也是一个需要谨慎平衡的问题。虽然LLMs可能被用于恶意目的,但过于严格的监管可能会阻碍技术进步。需要在确保系统安全的同时,避免减缓技术发展。3. 解决公平性和偏见问题
在创建和使用LLMs进行药物开发时,公平性和偏见应该是首要考虑的问题之一。偏见可能来自数据收集、模型训练和应用渠道中的各种来源,可能会延续差异,从而对医疗治疗的完整性和有效性产生负面影响。
为解决这些问题,未来的研究应该致力于提高LLMs的透明度和可解释性。这可以通过使用各种数据源,采用包容性的数据收集和分析方法,以及进行严格的伦理评估来实现。4. 解决幻觉问题
LLMs的"幻觉"问题—生成不相关或不连贯的响应—是一个主要挑战。这些错误可能导致研究人员和临床医生被误导,产生严重后果。
为解决这个问题,未来的研究可以采用多种缓解策略,如知识编辑、检索增强生成(RAG)、在去偏数据集上进行微调、改进解码算法等。这些方法可以帮助LLMs生成更准确、更相关的答案。5. 改进定量分析
虽然LLMs在文本生成和分析方面表现出色,但在处理主要由数值组成的数据时,它们的成功有限。这对于药物研究中的数据密集型问题是一个重要挑战。
未来的研究应该探索各种方法来改进LLMs对数值信息的编码。这可能包括数字逐位编码、基数为10的格式化,以及嵌入距离与实际数值距离的对齐等方法。更重要的是,需要施加适当的归纳偏差,承认数字的连续性质,这是推进LLMs在药物发现中应用的关键一步。6. 改进多模态性
多模态大语言模型(MLLMs)在药物发现中具有巨大潜力,因为它们可以处理多种类型的数据,包括视频、图像和实验数据。这与药物发现的性质非常吻合,因为药物发现需要多样化的数据源,如化学结构、生物数据集和科学文献。
未来的研究应该关注如何进一步提高MLLMs处理复杂任务的能力,如分子建模或临床数据分析,这些任务涉及多种类型的数据,如3D蛋白质和分子结构以及2D医学图像。7. 改进上下文窗口
在药物发现中,LLMs通常需要处理大量的生物数据,如序列,这些数据很容易超过2048或4096个标记的限制。即使是具有大窗口大小(高达128k标记)的LLMs也无法彻底分析如此大量的输入数据。
未来的研究可以探索多种解决方案,如将输入分割成更小的块并分别处理,然后组合输出以生成最终结果。另一种解决方案是实现更复杂的内存和注意力机制,帮助模型更好地管理和利用更长的上下文窗口。8. 改进时空理解
改进LLMs的时空能力是发展理性药物设计和发现的重要前提。目前,LLMs在处理和解释文本信息方面表现得相当好,但在处理时空数据方面存在弱点,而这在药物发现领域起着重要作用。
未来的研究应该致力于提高LLMs在处理时空数据方面的能力,这将为更深入地理解空间-时间转录组学和分子动力学模拟等领域提供新的机会。9. 集成专门化LLMs和通用LLMs
结合专门化语言模型和通用LLM可以在药物发现中发挥独特优势。专门化LLMs在理解生物信息、估计分子相互作用或检查蛋白质构型等精确任务方面表现出色。而通用LLMs提供了可应用于各种主题和任务的多功能性和广泛的知识库。
未来的研究应该探索如何最有效地结合这两种类型的LLMs。例如,通用LLMs可以作为前端系统,负责用户交互和提供详细的案例特征描述,而专门化LLMs可以用于执行特定的下游任务,如QSAR分析或蛋白质折叠模拟。结语
大语言模型在药物发现和开发领域的应用正在迅速发展,显示出巨大的潜力。从理解疾病机制到优化临床试验,LLMs正在各个阶段发挥越来越重要的作用。尽管仍然面临许多挑战,如伦理问题、隐私问题、公平性和偏见问题等,但随着技术的不断进步和研究的深入,我们有理由相信LLMs将在未来的药物研发中发挥更加关键的作用,加速新药的发现和开发过程,最终造福人类健康。
Zheng Y, Koh H Y, Yang M, et al. Large Language Models in Drug Discovery and Development: From Disease Mechanisms to Clinical Trials[J]. arXiv preprint arXiv:2409.04481, 2024.
四、Y-Mol:一种基于大语言模型 LLM 的药物研发新范式
(榴莲忘返 2014 榴莲忘返 AIDD)导读
Y-Mol 是第一个利用多尺度生物医学知识构建信息丰富指令数据集的 LLM 范式,用于增强药物研发能力。
近年来,大型语言模型 (LLM) 在各个领域都取得了巨大成功,但其在药物研发领域的应用仍然受限。作者认为,主要障碍在于缺乏专用的数据集。为了克服这一限制,作者提出了 Y-Mol,这是一个多尺度生物医学知识引导的 LLM,旨在增强药物研发的潜力。
Y-Mol 基于 LLaMA2 模型构建,并在从各种生物医学知识来源构建的大型文本语料库和指令集上进行了微调。该模型的构建考虑了药物研发领域的三个主要挑战:
(i) 获取与药物相关的数据成本高昂,且药物研发涉及多个学科领域。 为了解决数据获取成本高的问题,Y-Mol 利用 PubMed 上公开发表的生物医学文献构建了一个大型文本语料库。该语料库涵盖了与药物研发相关的多个领域,例如生物信息学、计算化学和结构生物学。
(ii) 生物医学实体之间的交互数据,例如药物扰动的基因表达和蛋白质结合活性,需要精细的领域知识才能进行标注。 为此,作者利用一个大型生物医学知识图谱构建了生物医学交互指令。这些指令使用精心设计的提示来模拟生物医学实体之间的复杂交互以及药物扰动的表达数据。
(iii) 与自然语言处理领域不同,药物研发领域缺乏统一的标准范式。 针对这一挑战,Y-Mol 从现有的药物研发模型中提取专家知识,并将其整合到模型中,以增强不同药物相关信息表示的一致性。具体而言,作者设计了提示模板,并根据从小模型(例如 ADMET 预测模型和药物重定位模型)合成的数据构建了一组指令。
图 1:Y-Mol 提供了跨 24 个任务的药物研发大规模语料库和指令。
为了评估 Y-Mol 在药物研发中的有效性,作者设计了涵盖先导化合物发现、临床前和临床预测等各个阶段的任务。实验结果表明,Y-Mol 在各种药物研发任务上均取得了优异的性能,证明了构建指令数据集的价值,并展示了 Y-Mol 增强 LLM 对药物研发的理解和通用性的能力。Y-Mol:用于药物开发的 LLM
Y-Mol 是一个基于 LLM 的药物开发训练和推理框架,它利用生物医学出版物进行预训练,并使用构建的指令进行微调,以完成药物发现、临床前和临床预测等下游任务。
Y-Mol 采用两阶段训练和推理范例。首先,它在生物医学出版物语料库上对 LLaMA2 进行自监督预训练,使其具备药物开发背景知识。然后,利用从药物相关领域知识和专家合成数据构建的指令对 LLaMA2 进行监督微调,从而增强其对药物开发流程中相互作用机制的理解能力。
图 2:Y-Mol 架构。 Y-Mol 构建了用于药物开发的 LLM 范例,该范例包括两个过程:(a) Y-Mol 的预训练 - 微调框架首先基于生物医学出版物对 LLaMA2 进行自监督预训练,然后使用构建的指令对 LLaMA2 进行微调;(b) Y-Mol 在微调后的 LLaMA2 上评估下游任务。
为了全面探索出版物中潜在的生物医学知识,研究人员从 PubMed 等在线出版商处提取并预处理了超过 3300 万篇出版物。他们提取了可见的摘要和简要介绍作为生物医学文本,并使用命名实体识别 (NER) 工具和 PubTator 对药物实体进行标准化和 SMILES 序列替换。
为了使 Y-Mol 适用于药物开发,研究人员设计了多种类型的指令来对其进行微调。这些指令来自分子 - 文本对、知识图谱和专家合成数据。
来自分子 - 文本对的指令: 从 DrugBank 等药物数据库中提取分子 - 文本对,并将其构建为问题和答案形式的指令,以促进 Y-Mol 对药物的理解。
来自知识图谱的指令: 利用来自生物医学知识图谱的事实,将其转换为自然语言描述,并结合上下文信息构建成问题和答案对,以提高 Y-Mol 在药物相关任务上的性能。
来自专家合成数据的指令: 利用现有计算模型的输入和输出,构建包含药物性质和领域知识的信息性指令,并将这些知识蒸馏到 Y-Mol 中。
图 3:生物医学语料库和指令的构建过程: (A) 从药物发现领域的生物医学出版物中收集大规模生物医学语料库。(B) 从连贯的事实中构建指令,以增强药物相关相互作用的上下文。(C) 从现有小型模型的专家合成数据构建指令,以将药物的知识范围提炼到 Y-Mol 中。
在监督微调阶段,将生成的指令作为监督输入输入到 Y-Mol 中,以微调 LLM。
为了验证 Y-Mol 在药物开发中的有效性,研究人员设计了先导化合物发现、临床前和临床预测等方面的各种任务,包括虚拟筛选、药物设计、性质预测和药物相互作用预测。
图 4:Y-Mol 基于设计的指令进行监督微调的过程。
研究人员使用了多个数据集来评估 Y-Mol,包括用于 DTI 预测的 DrugBank 和 DrugCentral,用于 DDI 预测的 Ryu 数据集和 Deng 数据集。他们采用 ROC-AUC 评估 DTI 和 DDI 预测性能,使用 R 方评估性质预测性能,并使用有效性、唯一性、新颖性和多样性等指标评估药物设计性能。
图 5:Y-Mol 在预训练和监督微调阶段跨不同任务的数据分布。
实验结果表明,与基线方法 LLaMA2-7b 相比,Y-Mol 在 DTI 和 DDI 预测、性质预测以及药物设计方面均取得了优异的性能。
任务
数据集
Y-Mol
LLaMA2
DTI 预测
DrugBank
0.8199
0.7697
Drugcentral
0.8331
0.7918
DDI 预测
Ryu 数据集
0.6523
0.5031
Deng 数据集
0.6219
0.4973
表 1:DTI 和 DDI 预测在四个数据集上的性能比较 (ROC-AUC)。
单目标
有效性
唯一性
新颖性
多样性
BBB
1
0.999
0.751
0.921
LogP
0.997
0.999
0.39
0.913
QED
1
0.2
0.46
0.879
SAs
0.998
0.999
0.502
0.917
Is Valid
1
0.165
0.68
0.821
多目标
有效性
唯一性
新颖性
多样性
IsValid, BBB, QED
0.997
0.999
0.815
0.913
IsValid, BBB, QED, SAs
1
0.999
0.821
0.911
IsValid, LogP
0.999
0.999
0.522
0.911
IsValid, BBB
0.993
0.999
0.872
0.917
IsValid, QED
0.998
0.994
0.664
0.913
表 2:Y-Mol 在药物设计方面的性能。Y-Mol: 提升药物发现效率
与现有模型相比,Y-Mol 在药物靶点相互作用预测和药物设计方面表现更出色。
Y-Mol 能够准确预测分子的化学和物理特性,并能有效识别潜在的药物相互作用。
案例研究进一步证明了 Y-Mol 在解决药物研发实际问题方面的有效性。
Y-Mol 模型在药物靶点相互作用预测方面优于 LLaMA2,在 Drug-Bank 和 DrugCentral 数据集上的 AUC 分数分别提高了 5.02% 和 4.13%(见表 1)。结果表明,Y-Mol 通过多尺度数据源对生物医学知识进行监督调优,对药物靶点相互作用预测有积极的促进作用。
在药物设计方面,Y-Mol 也展现出优异的性能(见表 2)。与之形成鲜明对比的是,LLaMA2-7b 模型无法生成有效的分子,表明其领域适应能力较差。如方法部分所述,从专家模型构建的指令可以为药物设计引入多种限制条件。Y-Mol 在多目标(如 LogP 和 QED)药物设计任务中也表现良好。
图 7 显示了 Y-Mol 在预测 12 种理化性质方面的性能。Y-Mol 在所有任务上的 R² 分数均优于 LLaMA2,表明 Y-Mol 在预测化学和物理特性方面具有更强的泛化能力。
在预测潜在药物相互作用方面,Y-Mol 也取得了优异的成绩(见表 1)。这表明,Y-Mol 学习生物医学知识有利于临床预测。
图 6 和图 8 中的案例研究进一步评估了 Y-Mol 的性能。对于 Dronedarone 和 Abametapir 之间的相互作用,Y-Mol 发现 Abametapir 抑制了代谢 Dronedarone 的靶点 CYP2C9,从而导致 Dronedarone 与 Abametapir 联用时血清浓度升高。此外,Y-Mol 还准确预测了给定分子的 LogD7.4 值。这些案例表明,Y-Mol 能够有效解决药物研发中的实际问题。总结
尽管大型语言模型 (LLM) 在各个领域表现出卓越的通用任务性能,但它们在药物开发等特定领域的有效性仍然面临挑战。为了解决这些挑战,作者引入了 Y-Mol,这是一个为药物开发流程构建的完善的 LLM 范式。
Y-Mol 是一种多尺度生物医学知识引导型 LLM,旨在完成从先导化合物发现、临床前到临床预测的任务。通过整合数百万个多尺度生物医学知识并使用 LLaMA2 作为基础 LLM,Y-Mol 通过从出版物、知识图谱和专家设计的合成数据语料库中学习,增强了生物医学领域的推理能力。
Y-Mol 的能力通过三种类型的药物导向型指令得到进一步丰富:来自已处理出版物的基于描述的提示、用于从知识图谱中提取关联的基于语义的提示,以及用于理解来自生物医学工具的专家知识的基于模板的提示。
此外,Y-Mol 提供了一套 LLM 范式,可以在整个药物开发过程中自动执行下游任务,包括虚拟筛选、药物设计、药理特性预测和药物相关相互作用预测。
对各种生物医学来源的广泛评估表明,Y-Mol 在发现先导化合物、预测分子特性和识别药物相互作用事件方面明显优于通用 LLM。源代码可在 https://anonymous.4open.science/r/Y-Mol 获取(但是好像已经失效了)。
五、破解生命密码:基于多模态大语言模型(MLLM)的医疗大模型如何重塑药物研发的未来
(原创 极客苦工 医工交叉AI大模型)
在人类与疾病的永恒斗争中,新药研发一直是最具挑战性的领域之一。传统的药物发现过程往往耗时长达十年,耗资数十亿美元,却只有极低的成功率。然而,随着人工智能技术,特别是医疗大模型的崛起,这一领域正在经历一场静默的革命。本文将深入探讨医疗大模型如何在药物研发的各个阶段发挥颠覆性作用,以及这一技术可能带来的深远影响。医疗大模型:药物研发的新引擎
医疗大模型,特别是那些基于大语言模型(LLM)和多模态大语言模型(MLLM)的系统,正在药物研发领域展现出前所未有的潜力。这些模型不仅能处理和理解海量的生物医学文献和数据,还能模拟分子结构,预测药物-靶点相互作用,甚至设计全新的分子结构。深入剖析:医疗大模型如何"设计"新药
要理解医疗大模型在药物研发中的革命性作用,我们需要深入了解其工作原理。以一个典型的新药设计流程为例:
目标识别与验证:
大模型分析海量的基因组学、蛋白质组学和代谢组学数据,识别潜在的药物靶点。
通过整合多种生物信息学数据库和文献,模型可以预测靶点的生物学功能和疾病相关性。
利用自然语言处理技术,模型能够从未结构化的科学文献中提取关键信息,发现潜在的新靶点。
分子设计与优化:
基于已知的活性分子和靶点结构,大模型可以生成新的候选分子结构。
模型使用深度学习算法,如图神经网络(GNN)和变分自编码器(VAE),来探索化学空间,设计具有期望特性的新分子。
通过强化学习,模型可以不断优化分子结构,以提高其药效和安全性。
ADMET预测:
大模型可以预测候选药物的吸收(Absorption)、分布(Distribution)、代谢(Metabolism)、排泄(Excretion)和毒性(Toxicity)特征。
通过整合多种实验数据和计算模型,AI可以更准确地预测药物在人体内的行为。
临床试验设计与分析:
医疗大模型可以分析历史临床试验数据,优化试验设计,提高成功率。
模型可以预测可能的不良反应,帮助研究者提前制定风险管理策略。
在试验进行中,AI可以实时分析数据,提供早期预警和决策支持。
跨学科知识整合:
大语言模型的强大之处在于其跨领域知识整合能力。它可以将化学、生物学、医学、药理学等多个领域的知识无缝结合,为药物研发提供全新的视角。
多模态数据分析:
多模态大语言模型可以同时处理文本、图像(如蛋白质结构)、时间序列数据(如基因表达谱)等多种类型的信息,从而对药物-靶点相互作用有更全面的理解。案例分析:医疗大模型在抗生素发现中的突破性应用
让我们通过一个具体案例来看看医疗大模型如何在实际药物研发中发挥作用。
2023年,麻省理工学院(MIT)的研究团队利用一个基于大语言模型的AI系统,在抗生素发现领域取得了重大突破。这个AI系统不仅能分析已知抗生素的结构和作用机制,还能通过深度学习设计全新的分子结构。
在一项针对耐多药细菌的研究中,这个AI系统展现出了惊人的成果:
效率提升:AI系统在短短3天内筛选了超过10亿个潜在的分子结构,这个过程如果用传统方法可能需要数年时间。
新颖发现:系统成功识别出一种全新结构的抗生素分子,它对多种耐药菌株显示出强大的抗菌活性。
作用机制预测:更令人惊讶的是,AI不仅设计出了新分子,还准确预测了其作用机制,这大大加速了后续的实验验证过程。
这个案例清晰地展示了医疗大模型如何通过整合多维度信息,显著加速新药发现过程,并有可能解决长期困扰医学界的耐药性问题。医疗大模型在药物研发中的独特优势
超高效的数据处理能力医疗大模型可以在极短时间内分析海量的生物医学数据,包括科学文献、基因序列、蛋白质结构等,这大大加速了新药发现的初始阶段。
跨学科知识整合大语言模型的优势在于它可以无缝整合来自不同学科的知识,如化学、生物学、医学、药理学等,这种跨学科的视角常常能带来意想不到的发现。
创新分子设计通过深度学习和生成模型,AI能够设计出人类科学家可能想不到的新型分子结构,极大地扩展了可能的药物化学空间。
精准的预测能力基于大数据和复杂算法,医疗大模型可以更准确地预测药物的疗效和毒性,大大减少了后期临床试验的失败率。
动态学习与更新与静态的数据库不同,医疗大模型可以不断学习新的研究成果和实验数据,持续优化其预测和设计能力。挑战与局限性:医疗大模型在药物研发中的"软肋"
尽管医疗大模型在药物研发领域展现出巨大潜力,但我们也必须清醒地认识到它面临的挑战和局限性:
数据质量与偏见
AI模型的性能高度依赖于训练数据的质量。生物医学数据常常存在噪声、偏差和不完整性,这可能导致模型产生错误的预测。
历史数据中的偏见(如某些人群或疾病类型的数据不足)可能会被模型放大,导致药物研发方向的偏离。
可解释性问题
深度学习模型常被批评为"黑箱",难以解释其决策过程。在药物研发这样高风险的领域,缺乏可解释性可能会影响监管部门和医学界的信任。
提高AI模型的可解释性,让研究者理解AI是如何得出特定分子设计或预测的,是一个重要的研究方向。
模型泛化能力的局限
尽管大模型在已知数据范围内表现优秀,但面对全新的分子类别或作用机制时,其预测能力可能会大幅下降。
如何提高模型的泛化能力,使其能够应对"未知未知"的挑战,是一个关键问题。
计算资源需求
训练和运行大规模的医疗AI模型需要巨大的计算资源,这可能限制了其在小型研究机构或资源有限的地区的应用。
如何在保持模型性能的同时降低资源需求,是一个重要的技术挑战。
伦理和监管问题
AI设计的新药如何进行监管审批?传统的药物审批流程可能需要调整以适应AI驱动的创新。
如果AI设计的药物出现问题,责任如何划分?这涉及复杂的法律和伦理考量。
人机协作的平衡
过度依赖AI可能导致人类研究者创造力的衰退。如何在AI辅助和人类直觉之间找到平衡,是一个需要深思的问题。未来展望:AI与人类协作,开启药物研发新纪元
展望未来,医疗大模型在药物研发领域的应用前景广阔:
个性化药物设计
AI可能使得针对个体基因组设计的精准药物成为现实,大大提高治疗效果并减少副作用。
多靶点药物开发
通过复杂的网络分析,AI可以设计出同时作用于多个靶点的药物,这对于治疗复杂疾病(如癌症、神经退行性疾病)具有重要意义。
药物重定位加速
AI可以快速分析已上市药物的结构和作用机制,发现它们在治疗其他疾病方面的潜力,大大缩短了药物开发周期。
实时临床试验优化
在临床试验过程中,AI可以实时分析数据,动态调整试验方案,提高成功率并减少不必要的风险。
全新给药系统设计
AI不仅可以设计药物分子,还可以优化给药系统,如靶向递送、缓释制剂等,提高药物的有效性和安全性。
生物标志物发现
通过分析海量的多组学数据,AI可以发现新的生物标志物,为早期诊断和个性化治疗提供依据。结语:拥抱AI,但不忘人类智慧的价值
医疗大模型在药物研发领域的应用,无疑是一场深刻的技术革命。它不仅有望大幅缩短新药开发周期、降低研发成本,还可能带来全新的药物设计范式,为许多难治疾病带来希望。然而,我们也必须清醒地认识到,AI再强大,也无法完全取代人类科学家的创造力、直觉和洞察力。
未来的挑战在于,如何最大化地发挥AI的优势,同时保持人类在药物研发中的关键角色。这需要药物研发人员、AI专家、监管机构和伦理学家的共同努力。让我们携手迎接这个AI赋能的药物研发新时代,为人类健康事业谱写新的篇章。
end
本公众号声明:
1、如您转载本公众号原创内容必须注明出处。
2、本公众号转载的内容是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请作者或发布单位与我们联系,我们将及时进行修改或删除处理。
3、本公众号文中部分图片来源于网络,版权归原作者所有,如果侵犯到您的权益,请联系我们删除。
4、本公众号发布的所有内容,并不意味着本公众号赞同其观点或证实其描述。其原创性以及文中陈述文字和内容未经本公众号证实,对本文全部或者部分内容的真实性、完整性、及时性我们不作任何保证或承诺,请浏览者仅作参考,并请自行核实。