获取详情及资源:
• 📄 论文: https://doi.org/10.1038/s41467-025-62235-6
• 💻 代码: https://github.com/zhaoyanpeng208/EviDTI0 摘要
药物-靶标相互作用预测是药物发现过程中的关键环节。近年来,深度学习方法在该领域展现出巨大潜力,但同时也面临诸多挑战,包括如何为预测结果提供可靠的置信度估计,在面对未知且未见过的药物-靶标相互作用时提升模型的鲁棒性,以及缓解模型产生过度自信且错误预测的倾向。为解决这些问题,提出了一种名为EviDTI的新方法,该方法基于证据深度学习,用于神经网络驱动的药物-靶标相互作用预测中的不确定性量化。EviDTI融合了多维数据表征,包括药物的二维拓扑图和三维空间结构,以及靶标的序列特征。借助证据深度学习框架,EviDTI能够在给出预测结果的同时提供相应的不确定性估计。
在三个基准数据集上的实验结果表明,EviDTI在性能上可与11种基线模型相媲美。此外,研究结果显示,EviDTI能够对预测误差进行有效校准。更为重要的是,经过良好校准的不确定性信息可以通过优先筛选高置信度的药物-靶标相互作用用于实验验证,从而显著提升药物发现的效率。在以酪氨酸激酶调节剂为主题的案例研究中,基于不确定性引导的预测成功识别出多种潜在的新型调节剂,其靶向作用对象包括酪氨酸激酶FAK和FLT3。这些结果表明,证据深度学习在药物-靶标相互作用预测中的不确定性量化方面具有重要潜力,并在加速药物发现进程中展现出广泛的应用前景。1 引言
药物发现是一个旨在发现能够治疗疾病并改善人类健康的药物的过程.这一过程通常包含多个关键步骤,如靶点识别,化合物筛选以及先导化合物优化.在其中,药物-靶标相互作用的识别在化合物筛选阶段起着至关重要的作用.尽管基于体外实验的传统生物医学测量方法具有较高的可靠性,但其成本高昂且研发周期漫长,从而严重制约了药物研发的整体进度.因此,用于预测药物-靶标相互作用的计算方法,尤其是深度学习技术,因其在降低研发成本,缩短研发时间并提升新药成功率方面的潜力而受到广泛关注.
现有的药物-靶标相互作用预测方法大体可分为两类:基于网络的方法和蛋白-化学计量学方法.基于网络的方法通常将药物-靶标,药物-药物以及蛋白-蛋白相互作用等多种网络信息整合为统一的网络进行建模.近年来,蛋白-化学计量学方法逐渐受到更多关注.该类方法通过对药物和蛋白信息进行表征来提升相互作用预测的准确性,其性能在很大程度上依赖于分子和蛋白表征的有效性.在实际应用中,蛋白通常以氨基酸序列作为输入,而药物则多采用分子图或SMILES字符串进行表示.为了获得高质量的蛋白和药物表征,卷积神经网络,循环神经网络,图神经网络以及Transformer模型被广泛采用.围绕如何更有效地预测相互作用,已有大量创新性研究工作展开.
为了提升模型的可解释性并捕获药物与靶标之间的局部相互作用,门控交叉注意力机制逐渐受到关注.同时,针对药物-靶标相互作用预测中数据集规模较小以及表征信息不完整的问题,预训练模型被视为一种极具前景的解决方案.这类模型在多种预测任务中展现出良好的可扩展性和泛化能力.此外,为了获得更加全面和细致的表征,许多方法引入多模态技术,将不同类型的数据进行融合.
尽管深度学习在药物-靶标相互作用预测方面取得了显著进展,其实际应用仍面临一个关键挑战:预测概率高并不等同于预测置信度高.这一问题的根源在于深度学习模型与人类认知模式之间的本质差异.人类能够根据自身知识边界动态调整置信水平,对于熟悉的问题给出确定答案,而对未知领域明确表达不确定性.相比之下,传统深度学习模型会对所有输入给出预测,包括分布外样本和噪声样本,且往往缺乏良好的概率校准能力,即便在低置信度情形下也可能输出较高的预测概率.这种过度自信的现象容易将不可靠的预测结果引入下游流程,例如将假阳性结果推入实验验证阶段,在虚拟筛选中遗漏潜在活性化合物,甚至基于错误预测设计临床试验方案,从而造成资源浪费并延缓药物发现进程.
不确定性量化方法能够有效缓解上述问题,从而提升神经网络模型在科学应用中的鲁棒性,尤其是在药物发现领域.不确定性量化的核心价值在于通过区分可信预测与高风险预测,为决策提供可靠依据.常见的不确定性量化方法包括贝叶斯神经网络和基于采样的方法,但这类方法通常依赖多次随机采样来近似潜在的不确定性函数,计算成本高且运行时间长,在大规模药物-靶标相互作用预测任务中存在明显局限.证据深度学习提供了一种有前景的替代方案,能够在不依赖随机采样的情况下直接学习不确定性,并且可以在无需对网络结构进行大幅修改的前提下集成到现有模型中.已有多项研究表明,证据深度学习在药物发现与开发领域具有良好的应用潜力.
在此背景下,提出了一种基于证据深度学习的药物-靶标相互作用预测框架EviDTI.该框架结合预训练知识与多维度表征以提升模型性能,并通过引入证据深度学习实现预测置信度估计,从而帮助识别最有可能成功的候选药物,降低假阳性带来的风险与成本.该框架主要由三个部分组成:蛋白特征编码器,药物特征编码器以及证据层.在蛋白特征编码器中,采用蛋白语言预训练模型ProtTrans提取蛋白序列特征,并引入轻量级注意力机制以捕获残基层面的局部相互作用信息.在药物特征方面,利用此前提出的预训练模型MG-BERT获取药物的二维分子图表示,同时通过几何深度学习方法对药物的三维结构特征进行编码.随后,将学习得到的蛋白与药物表征进行拼接,并输入证据层以获得药物-靶标相互作用的预测概率及其不确定性.
在与11种药物-靶标相互作用预测模型的系统评估中,EviDTI展现出具有竞争力的预测性能.此外,基于证据的不确定性能够有效校准预测误差,并通过优先筛选高置信度的相互作用用于实验验证,加速药物发现与再定位过程.在针对酪氨酸激酶调节剂的应用研究中,基于不确定性引导的预测成功识别出多种潜在的新型调节剂,其靶向对象包括酪氨酸激酶FAK和FLT3,进一步验证了EviDTI在药物发现中的实用价值.通过在预测性能与可靠性之间建立桥梁,EviDTI为药物-靶标相互作用预测提供了一种值得信赖的解决方案.
图1|EviDTI的整体流程图. 对于给定的药物-靶标对,蛋白特征编码器首先采用预训练模型ProtTrans生成靶标的初始表示,并通过轻量级注意力模块进一步精炼该表示.药物特征编码器同时处理药物的二维拓扑表示和三维结构表示.其中,二维表示来源于预训练模型MG-BERT,并经由一维卷积神经网络进行特征提取;三维结构表示则通过GeoGNN获得.随后,将蛋白与药物的多维表示进行拼接并输入证据层,证据层输出参数α,用于计算预测概率及其对应的不确定性.2 结果2.1 总体概述
开发了一种基于证据深度学习的药物-靶标相互作用预测模型EviDTI.如图1所示,EviDTI框架主要由三个核心组件构成:蛋白特征编码器,药物特征编码器以及证据层.在输入一个药物-靶标对后,蛋白特征编码器首先采用蛋白序列预训练模型ProtTrans作为初始编码器,生成靶标的初始表示,随后通过轻量级注意力模块进一步提取特征,以增强对局部序列信息的建模能力.在药物特征编码器中,同时对药物的二维拓扑信息和三维结构信息进行编码.对于药物的二维拓扑图,首先利用此前提出的分子预训练模型MG-BERT获得初始表示,并进一步通过一维卷积神经网络进行特征提取.对于药物的三维空间结构,将其转化为原子-键图和键-角图,并通过GeoGNN模块学习相应的表示.最终,将蛋白与药物的表示进行拼接并输入证据层,证据层的输出为参数α,该参数用于计算药物-靶标相互作用的预测概率及其对应的不确定性.
表1|EviDTI与各基线模型在DrugBank数据集上的对比结果2.2 性能比较
为了评估EviDTI框架的有效性,在三个不同的实验数据集上对其进行了验证,分别为DrugBank,Davis和KIBA.数据集按照8:1:1的比例随机划分为训练集,验证集和测试集.采用七种评价指标对模型性能进行评估,包括准确率ACC,召回率,精确率,Matthews相关系数MCC,F1分数,ROC曲线下面积AUC以及精确率-召回率曲线下面积AUPR.
在对比实验中,EviDTI与三种传统机器学习方法进行了比较,包括随机森林,支持向量机和朴素贝叶斯,这些方法在药物-靶标相互作用预测中被广泛应用,也是评估新方法性能的重要基准.同时,EviDTI还与八种该领域的先进模型进行了对比,包括DeepConv-DTI,GraphDTA,MolTrans,HyperAttention,TransformerCPI,GraphormerDTI,AIGO-DTI以及DLM-DTI.
在DrugBank数据集上的性能结果如表1所示,EviDTI在各项指标上均表现出稳定而优异的整体性能,尤其是在精确率方面达到81.90%,同时在准确率82.02%,MCC64.29%以及F1分数82.09%等指标上也表现出较强的竞争力.此外,还在Davis和KIBA数据集上对EviDTI进行了评估,这两个数据集由于类别不平衡而更具挑战性,相应的结果分别列于表2和表3.在KIBA数据集上,EviDTI在准确率,精确率,MCC,F1分数和AUC等指标上均优于最佳基线模型,提升幅度分别为0.6%,0.4%,0.3%,0.4%和0.1%.在Davis数据集上,EviDTI在准确率,精确率,MCC,F1分数,AUC和AUPR等指标上分别取得了0.8%,0.6%,0.9%,2%,0.1%和0.3%的提升.这些结果表明,EviDTI在处理复杂且类别不平衡的数据集时具有良好的鲁棒性和优越性能.总体而言,EviDTI在三个基准数据集上均取得了稳定且领先的表现,进一步验证了其有效性和竞争力.
为了评估EviDTI在预测新型药物-靶标相互作用方面的能力,按照既有研究的做法引入了冷启动场景.补充表2给出了EviDTI在冷启动设置下的性能表现.在该场景中,EviDTI在多项评价指标上优于其他模型,尤其是在准确率79.96%,召回率81.20%,F1分数79.61%以及MCC59.97%方面表现突出,其AUC为86.69%,略低于TransformerCPI的86.93%.这些结果表明,EviDTI在冷启动场景下同样具有较强的竞争力.
表2|EviDTI与各基线模型在KIBA数据集上的对比结果2.3 多维特征融合与预训练模型提升预测性能
为探究不同维度特征组合以及预训练模型特征对药物-靶标相互作用预测性能的影响,开展了两组消融实验.首先,比较了仅使用单一维度特征的模型与采用多维特征融合策略的模型性能.补充图1和补充图2展示了所采用的不同特征组合结构.具体而言,在三个数据集上评估了三种多维特征组合方式:EviDTI同时融合小分子的二维拓扑表示,三维结构表示以及蛋白序列表示;EviDTI w/o drug 3D仅使用小分子的二维拓扑表示与蛋白序列表示;EviDTI w/o drug 2D仅使用小分子的三维结构表示与蛋白序列表示.如图2a和补充表3所示,EviDTI在三个数据集的大多数评价指标上均持续优于另外两种模型,表明多维特征融合能够显著提升药物-靶标相互作用预测性能.
进一步地,为了分析预训练模型作为初始特征提取器所带来的收益,对使用与不使用预训练模型的网络结构进行了对比.补充图3和补充图4展示了不同的消融结构:EviDTI-Protein Integer将蛋白预训练模型ProtTrans替换为整数编码并结合卷积神经网络进行特征提取;EviDTI-Drug 2D GCN则将小分子预训练模型MG-BERT替换为两层图卷积网络.图2b和补充表4给出了这些模型在三个数据集上的性能结果.可以看出,在所有评价指标上,采用预训练模型进行初始特征提取的结构均优于未使用预训练模型的结构,进一步凸显了利用预训练模型提升药物-靶标相互作用预测性能的价值.
表3|EviDTI与各基线模型在Davis数据集上的对比结果2.4 证据深度学习提供可靠的不确定性度量
在评估EviDTI在基准数据集上的预测性能之后,进一步验证模型是否能够为药物-靶标相互作用预测任务提供可靠的不确定性估计显得尤为关键.为此,提出并检验了两个假设:其一,预测正确的样本应具有较低的不确定性,而预测错误的样本应具有较高的不确定性;其二,不确定性较低的样本应表现出更高的预测准确率.这些假设基于证据深度学习的核心思想,即学习过程可视为证据不断累积的过程,证据越充分,预测置信度越高,预测概率也越大.
首先,在三个基准数据集上分析了不确定性与预测结果之间的关系.图3a展示了样本预测结果与不确定性数值的对应关系.横轴将样本划分为真阳性TP,假阳性FP,假阴性FN和真阴性TN四类,纵轴表示各类样本对应的不确定性分布.在所有基准数据集中,预测错误的样本FP和FN通常具有高于预测正确样本的不确定性.不过,不同数据集之间仍存在差异,DrugBank数据集中不确定性分布的离群点相对较多,这可能源于其包含了结构复杂且多样性更高的蛋白和小分子;相比之下,Davis和KIBA数据集主要由激酶相关的蛋白和小分子构成,多样性相对有限.
随后,在冷启动数据集上进一步分析了预测结果与不确定性之间的关系.补充图5显示,在冷启动场景中,预测错误的样本同样通常具有较高的不确定性,与基准数据集中的观察结果一致.接着,为验证第二个假设,分析了样本不确定性与预测准确率之间的关系.按照不确定性数值对样本进行排序,并划分为20个置信区间,每个区间包含5%的样本.例如,第一个区间包含不确定性最低的前5%样本,第二个区间包含不确定性排名6%至10%的样本.随后分别计算各区间内的预测准确率,结果如图3b所示.
结果表明,在不确定性最低的置信区间内,即模型预测置信度最高的区域,三个基准数据集的预测准确率均超过90%,其中KIBA和Davis数据集的准确率接近100%.相反,在不确定性最高的区间内,预测准确率仅介于0.5至0.6之间,说明模型已有效传达预测不可靠性,这些结果应被谨慎对待.总体而言,模型预测准确率随不确定性的增加而逐渐下降.上述结果表明,EviDTI生成的不确定性估计能够有效用于预测校准,并有助于降低错误预测带来的风险和成本,为药物发现中的决策提供重要支持.
图2|两组消融实验结果. a 在DrugBank,KIBA和Davis数据集上,采用单一维度特征与多维特征融合策略的性能对比.每种方法均进行了5次独立重复实验(n = 5),数据以均值±标准差的形式表示.b 在DrugBank,KIBA和Davis数据集上,使用与不使用预训练模型进行特征提取的性能对比.每种方法均进行了5次独立重复实验(n = 5),数据以均值±标准差的形式表示.源数据见Source Data文件.2.5 不确定性预测加速药物发现
在验证EviDTI能够有效校准预测结果之后,进一步探索了其在实际应用场景中的潜力.在真实应用中,模型在高置信区间内的表现尤为重要,因此目标在于实现良好的不确定性校准,并据此引导新型药物-靶标相互作用的识别.首先,采用out-of-fold rate方法评估模型在高置信区间内的预测性能.通过设置0.1至0.01的不同阈值,比较模型在不同置信水平下的表现.为阐明证据不确定性的作用,对比了两种策略:一种是不使用不确定性的基于概率的方法,另一种是利用证据不确定性获取概率的基于不确定性的方法.图4a至图4c展示了在三个数据集上基于五次随机数据划分得到的out-of-fold结果.
结果显示,在较低阈值下,基于概率的方法具有更高的预测性能;随着阈值增大,两种方法的out-of-fold率均下降,且基于不确定性的方法下降幅度更为明显.当阈值低于0.02时,基于不确定性的方法在三个数据集上的out-of-fold率均低于基于概率的方法,表明在高置信区间内,EviDTI通过更优的不确定性校准实现了更可靠的预测性能.
随后,通过多个案例分析展示了不确定性在提升预测可靠性方面的作用.如图4e所示,在部分药物-靶标相互作用中,仅基于概率的方法可能给出具有较高预测概率但实际错误的结果,从而误导实验验证.相比之下,基于不确定性的方法能够为这些预测分配较高的不确定性,从而标记其不可靠性,有效避免误导.这一能力在实际应用中尤为关键,尤其是在预测未见过的药物-靶标相互作用时,其样本分布往往与训练数据存在显著差异,证据深度学习在此类情形下评估不确定性的能力对于决策至关重要.
为进一步验证这一点,引入外部数据集评估证据不确定性在预测未知样本中的潜力.构建了一个独立测试集,包含2022年获美国食品药品监督管理局批准的所有新药及其靶标,确保这些药物未出现在训练集中.共收集24对真实的药物-靶标相互作用以及24对随机生成的负样本用于模型测试.由于这些新药通常具有新颖的骨架和靶标,其化学空间分布与训练数据存在明显差异.在该测试中,比较了两种排序策略:基于预测概率的排序和基于不确定性分数的排序,并通过命中率评估其性能.图4d显示了两种排序策略下的命中率曲线.基于不确定性的排序在Top3预测中实现了100%的命中率,在Top10预测中命中率超过80%,而基于概率的排序仅在Top1预测中达到100%命中率,在Top3预测中波动较大,反映出其预测鲁棒性不足.这些结果表明,基于不确定性的排序能够有效减少假阳性,从而提升高排名药物-靶标相互作用的可靠性.
需要指出的是,EviDTI在外部数据集上的整体预测性能并不突出.此外,还比较了引入不确定性量化与未引入不确定性量化的模型在三个基准数据集上的表现.未引入不确定性量化的模型采用相同的网络结构,但不包含证据层.结果显示,两种模型在标准评价指标上的性能基本相当,但不确定性信息本身依然具有重要价值.药物-靶标相互作用识别的核心目标并非穷尽所有可能性,而是优先筛选最有可能为真实相互作用的高置信度结果.将不确定性引入筛选过程能够提高命中率,减少假阳性,并通过将实验验证资源集中于最可靠的预测结果,显著提升药物发现的整体效率.
综上所述,这些结果表明,EviDTI通过对不确定性的量化,为提升药物-靶标相互作用预测的可靠性和筛选效率提供了一种具有前景的解决方案.
图3|证据深度学习提供了有利的不确定性度量. a 在三个数据集上,对样本在不同预测类别下的不确定性误差分布进行了Mann–Whitney检验,包括DrugBank(n = 3312),KIBA(n = 11639)和Davis(n = 2583).箱线图中,中位线表示中位数,箱体上下边界分别表示第25百分位和第75百分位,须线延伸至最小值和最大值(限定在1.5倍四分位距内),离群点以独立点形式显示.所有检验均为双侧检验,且未对多重比较进行校正.星号表示基于Mann–Whitney U检验p值的统计学显著性差异,其中****表示p ≤ 0.0001.具体而言,在DrugBank数据集中,TP与FN的p值为1.055e-10,FP与TN的p值为4.954e-74,TP与FP的p值为1.546e-51,FN与TN的p值为1.895e-26;在KIBA数据集中,TP与FN的p值为9.713e-30,FP与TN的p值为4.954e-74,TP与FP的p值为1.546e-51,FN与TN的p值为1.895e-26;在Davis数据集中,TP与FN的p值为3.502e-09,FP与TN的p值为5.662e-45,TP与FP的p值为6.667e-21,FN与TN的p值为7.434e-40.b 根据不确定性对测试数据进行排序并划分为20个置信区间,所有检验均为双侧检验且未进行多重比较校正.分别计算每个置信区间内样本的准确率ACC.在每个数据集中均进行了5次独立重复实验(n = 5),数据以均值±标准差表示.图中源数据见补充数据,并以Source Data文件形式提供.2.6 多靶点酪氨酸激酶调节剂研究中的应用
酪氨酸激酶是一类在细胞信号传导中发挥关键调控作用的酶,通过驱动细胞增殖与存活通路在肿瘤治疗中占据核心地位.酪氨酸激酶调节剂通常通过与其磷酸化位点结合来调控激酶活性,已被广泛应用于相关疾病的治疗.然而,由于生物体系的高度复杂性,单靶点酪氨酸激酶调节剂的疗效往往受到限制,且单靶点抑制剂容易诱导耐药性,从而削弱其临床应用价值.相比之下,多靶点酪氨酸激酶调节剂能够同时调控多种癌相关激酶,破坏肿瘤信号网络,从而提高治疗效果.基于此,系统研究了EviDTI在发现新型多靶点酪氨酸激酶调节剂方面的潜力.
首先,验证了EviDTI在预测酪氨酸激酶与其调节剂相互作用方面的有效性,随后将其应用于新型多靶点调节剂的筛选,并通过体外实验进行验证.在第一步中,基于专利数据对EviDTI的预测性能进行了验证.具体而言,从专利中获取了两种Lenvatinib类似物LYD2-45和LYD-2-49与11种酪氨酸激酶靶标之间的相互作用数据,共收集22对药物-靶标组合,其中包括20对已确认的正相互作用和2对负相互作用.利用在DrugBank数据库上训练的EviDTI模型,计算了这些药物-靶标对的预测概率和不确定性,结果如补充表6所示,EviDTI对其中16对药物-靶标相互作用给出了正确预测.
其次,基于文献数据进一步验证了EviDTI的预测性能.从文献中整理了67种已知的酪氨酸激酶靶标,并从TargetMol酪氨酸激酶调节剂文库中选取了51种潜在调节剂.利用在DrugBank数据集上训练的模型,计算上述激酶与调节剂之间相互作用的预测概率和不确定性,并按照不确定性得分对预测结果进行排序.预测性能从三个方面进行了评估.第一,统计不确定性最低的预测相互作用中有多少已在文献中报道.如补充表7所示,在预测排名前10的药物-靶标相互作用中,有两对得到了文献验证,分别为Flumatinib mesylate与c-Kit之间的相互作用以及Flumatinib mesylate与Bcr-Abl之间的相互作用.第二,评估文献中已报道的酪氨酸激酶调节剂与酪氨酸激酶靶标之间的相互作用有多少能够被EviDTI成功预测.在67个酪氨酸激酶靶标与51种调节剂之间共整理出27对已知相互作用,其中21对被EviDTI正确预测,且在这21对预测结果中有10对具有较高置信度,即不确定性得分低于0.1.第三,分析预测排名前10的药物及其在文献中报道的所有靶标之间的相互作用是否能够被EviDTI识别.共收集到10对相关相互作用,其中7对被EviDTI成功预测,且其中4对具有较高置信度.上述分析表明,EviDTI在预测文献中已报道的药物-靶标相互作用方面表现良好,尤其在发现酪氨酸激酶调节剂方面展现出显著潜力.
在此基础上,根据EviDTI对67种酪氨酸激酶靶标与51种潜在调节剂之间相互作用的预测结果,选取不确定性最低的候选相互作用进行实验验证.重点关注了两个关键酪氨酸激酶靶标FAK和FLT3.对于每个靶标,优先选择与其不确定性最低的7种潜在调节剂进行实验测试.所有实验均采用ADP-GloTM Kinase Assay Kit进行验证.在FAK激酶实验中,选用PF-562271作为阳性对照,其在实验体系中的半数有效浓度为2.91 ± 0.47 nM,与已报道的抑制活性值相当.实验结果显示,Tyrphostin 975和Vodobatinib对FAK活性具有显著抑制作用,其半数有效浓度分别为35.7 ± 3.4 nM和85.7 ± 8.2 nM,此外,Flumatinib mesylate对FAK的抑制半数有效浓度为14.9 ± 2.1 nM.在FLT3激酶实验中,以Sorafenib作为阳性对照,其半数有效浓度为51.7 ± 8.47 nM,与文献报道值一致.结果表明,Tyrphostin 975和Vodobatinib对FLT3活性具有调节作用,其半数有效浓度分别为1265.9 ± 244.6 nM和406.8 ± 74.5 nM.总体而言,EviDTI不仅在预测层面验证了现有药物的潜在靶标,还通过实验结果证明了其在提高药物发现效率和降低研发风险方面的实际价值.
图4|证据深度学习有助于在决策过程中降低错误预测带来的风险. a 在不同阈值条件下,基于不确定性框架与基于概率框架在DrugBank数据集上的OFR对比.每种方法均进行了5次独立重复实验(n = 5),数据以均值±标准差表示.b 在不同阈值条件下,基于不确定性框架与基于概率框架在KIBA数据集上的OFR对比.每种方法均进行了5次独立重复实验(n = 5),数据以均值±标准差表示.c 在不同阈值条件下,基于不确定性框架与基于概率框架在Davis数据集上的OFR对比.曲线表示平均OFR,阴影区域表示标准差.每种方法均进行了5次独立重复实验(n = 5),数据以均值±标准差表示.d 基于不确定性排序策略与基于概率排序策略得到的Top20预测结果的命中率对比.每种方法均进行了5次独立重复实验(n = 5),数据以均值±标准差表示.e 案例分析.列interaction表示DTI的真实标签;列Uncertainty-based表示基于不确定性方法得到的预测概率及预测标签,括号中给出了模型预测的不确定性;列Probability-based表示基于概率方法得到的预测概率及对应的预测标签.源数据以Source Data文件形式提供.2.7 轻量级注意力机制的可解释性
EviDTI的另一项优势在于能够在残基层面提供可解释性信息,揭示药物设计中的关键因素.轻量级注意力模块使模型能够量化各氨基酸残基对最终预测结果的贡献,从而实现可视化分析.首先,通过一个可视化案例研究展示了注意力权重与结合残基之间的关系.从DrugBank数据集中随机选取了四对药物-靶标相互作用,并从PDB数据库中获取其三维结构,对应的PDB编号分别为1y91,1d6n,1czh和1z83.将注意力值映射至这些结构并通过PyMOL进行可视化,结果如图6所示.可以观察到,具有较高注意力值的残基通常位于蛋白与小分子的结合口袋区域,表明注意力机制能够有效捕获与相互作用相关的关键位点.
进一步地,为系统评估模型的可解释性,收集了DrugBank数据集中所有已知的药物-靶标复合物结构,并采用结合位点命中率指标评估高注意力残基与真实结合位点之间的一致性.具体做法为,首先根据注意力值对残基进行排序,选取注意力值排名前N%的残基计算命中率.若残基中任一原子与药物分子的欧氏距离小于4 Å,则该残基被视为真实结合位点.在不同阈值下的结合位点命中率结果如表4和补充图8所示.当以真实结合位点数量作为阈值时,命中率为0.125,且超过70%的结合位点位于注意力值排名前50%的残基中.这些结果表明,由于模型仅使用一维蛋白序列作为输入,其在精确刻画三维结合构象方面仍存在一定局限,但对于主序列层面的解释性结果仍具有积极意义.可以合理预期,在模型中进一步引入蛋白三维结构信息将有助于提升其对药物-靶标相互作用网络的解释能力.
图5|EviDTI在多靶点酪氨酸激酶调节剂发现中的应用. a 多靶点酪氨酸激酶调节剂的验证流程.首先,基于专利中报道的数据进行验证,从专利中收集了两种Lenvatinib类似物及其11个已知靶标用于验证.随后,利用文献中报道的数据开展验证,通过EviDTI预测67个酪氨酸激酶靶标与51种酪氨酸激酶调节剂之间相互作用的预测概率和不确定性得分.最后,从上述67个靶标中选取两个关注靶标,并基于其与51种调节剂之间的不确定性结果,筛选出不确定性最低的7种调节剂与这两个靶标之间的相互作用进行实验验证.b Tyrphostin 9,Vodobatinib,Flumatinib和PF-562271在FAK激酶ADP-Glo实验中的半数有效浓度,其中PF-562271作为阳性对照.结果以三次独立实验的均值±标准误表示(n = 3).c Vodobatinib,Tyrphostin 9和Sorafenib在FLT3激酶ADP-Glo实验中的半数有效浓度,其中Sorafenib作为阳性对照.结果以三次独立实验的均值±标准误表示(n = 3).源数据以Source Data文件形式提供.
图6|四个随机选取的药物-靶标复合物中所有残基注意力得分的可视化结果. a–d 显示了围绕相应配体(以棒状表示)且被正确预测的氨基酸残基.图中对位于配体周围并被正确预测的残基进行了高亮显示,其颜色表示这些残基对预测结果的贡献程度.所有结构的三维表示均使用Pymol软件进行可视化.3 讨论
尽管当前深度学习模型在药物-靶标相互作用预测方面已取得显著进展,但普遍缺乏对预测结果置信度的量化能力,这一不足严重限制了其在实际应用中的有效性.为弥合预测模型与实际应用之间的差距,提出了EviDTI这一融合证据深度学习的新型框架.该方法不仅能够实现高精度的药物-靶标相互作用预测,还能够对预测不确定性进行可靠量化,从而显著提升模型的实用性与可信度,这对于提高实验成功率并降低研发成本具有重要意义.
EviDTI综合利用了药物的二维拓扑结构,三维分子几何信息以及靶标蛋白序列特征进行预测,并通过证据深度学习对预测不确定性进行建模.在三个基准数据集上的对比实验表明,EviDTI在11种预测模型中表现出具有竞争力的性能,并验证了证据深度学习在药物-靶标相互作用预测中进行不确定性量化的有效性.更重要的是,基于不确定性引导的预测能够在药物发现和药物再定位研究中优先筛选最具潜力的候选相互作用.在实验验证中,针对两个酪氨酸激酶靶标与七种潜在调节剂之间的14对预测相互作用进行了测试,其中5对显示出明确的结合活性,且4对达到了纳摩尔水平,充分证明了EviDTI在加速理论预测向实际药物开发转化过程中的价值.
同时,该模型仍存在一定局限性.目前,EviDTI尚无法区分化合物对靶标的激活或抑制效应. 未来可通过引入更多分子生化性质信息,并构建能够同时预测激活与抑制作用的多任务学习框架来加以改进.此外,在区分化合物与野生型靶标及其突变体之间的相互作用时,EviDTI的判别能力仍然有限,这与其仅依赖一维蛋白序列表示有关.通过引入蛋白三维结构信息以及药理扰动转录组数据,有望更有效地刻画突变效应.
展望未来,随着蛋白三维结构预测技术的快速发展,将三维结构信息引入药物-靶标相互作用预测有望显著提升预测精度和解释能力.尽管三维结构建模在计算复杂度和时间成本方面仍具挑战,但结合结合口袋信息的结构特征将有助于深入理解相互作用机制.此外,将跨注意力机制与证据深度学习相结合,有望在提升模型性能和可解释性的同时实现更可靠的不确定性校准.进一步地,结合迁移学习以改善分布外样本的预测能力,将显著增强模型在药物发现和再定位中的应用价值.最后,EviDTI框架具有良好的通用性,未来可扩展至其他相互作用预测任务,例如酶反应动力学参数预测和药物-药物相互作用预测,为相关领域的研究与应用提供新的思路.
表4|不同阈值下高注意力残基命中结合位点的比例
往期精彩:ACS Cent. Sci. 2025 | 利用大型语言模型中的提示工程加速化学研究JACS 2026 | 优化动态小分子结合蛋白的稳定性Cell 2024 | AMPSphere:基于机器学习的全球微生物组抗菌肽发现写作:Z排版:Barry