化学信息学杂志
文章Alphappimi:一个用于预测PPI调节剂相互作用的综合深度学习框架研究开放获取发布日期:2025年8月29日文章
抽象的
蛋白质-蛋白质相互作用(PPI)通过复杂的界面调控重要的生物过程,其功能障碍与多种疾病相关。因此,识别PPI及其界面靶向调节剂已成为一种关键的治疗策略。然而,发现靶向PPI及其界面的调节剂仍然面临挑战,因为传统的基于结构相似性的方法无法有效表征PPI靶点,尤其是那些目前尚无活性化合物的靶点。本文提出了AlphaPPIMI,一个综合性的深度学习框架,它结合了大规模预训练语言模型和领域自适应技术,用于预测PPI-调节剂相互作用,特别是针对PPI界面的相互作用。为了实现稳健的模型开发和评估,我们构建了全面的PPI-调节剂相互作用基准数据集(PPIMI)。我们的框架整合了来自Uni-Mol2的综合分子特征、源自最先进语言模型(ESM2和ProTrans)的蛋白质表征以及由PFeature编码的PPI结构特征。 AlphaPPIMI 通过专门设计的跨注意力架构和条件域对抗网络 (CDAN),能够有效地学习 PPI 靶标和调节因子之间的潜在关联,同时确保稳健的跨域泛化能力。大量的评估表明,AlphaPPIMI 在 PPIMI 预测方面始终优于现有方法,为优先筛选候选 PPI 调节因子(尤其是靶向蛋白质-蛋白质相互作用界面的调节因子)提供了一种很有前景的方法。科学贡献
本文提出了一种名为 AlphaPPIMI 的新型深度学习框架,用于精确预测靶向蛋白质-蛋白质相互作用 (PPI) 及其界面的调节剂。其核心贡献包括:一个专门的交叉注意力模块,用于协同融合多模态预训练表征;以及创新性地应用条件域对抗网络 (CDAN),显著提升了模型在不同蛋白质家族间的泛化能力。AlphaPPIMI 在精心设计的基准数据集上展现出卓越的性能,为靶向 PPI 疗法的发现提供了一种强大的计算工具。
其他人也在浏览类似内容基于进化尺度模型(ESM)特征的蛋白质-蛋白质接触预测深度学习章节 © 2024基于多模态深度表征的蛋白质相互作用识别和蛋白质家族分类文章 开放获取 2019年12月2日利用深度学习方法区分和预测蛋白质-蛋白质结合亲和力本章 © 2018
探索相关主题利用机器学习技术,发现相关主题的最新文章、书籍和新闻。生物化学网络计算智能智能增强预测标志物蛋白质功能预测蛋白质-配体相互作用请使用我们的提交前检查清单
避免在稿件中犯常见错误。
介绍
蛋白质-蛋白质相互作用(PPI)是所有生物过程的基石,它们协调信号转导、代谢调控、基因表达和细胞周期控制。作为复杂生物网络的组成部分,PPI在生理和病理条件下都发挥着关键作用,包括癌症、神经退行性疾病和传染病[ 1 , 2 , 3 , 4 ]。PPI调节剂的治疗潜力已通过成功靶向MDM2-p53和BCL2-BAX等相互作用得到显著证实,尤其是在解决先前被认为“不可成药”的靶点方面[ 5 ]。然而,准确预测PPI与调节剂之间的相互作用仍然是一个巨大的挑战[ 6 , 7 , 8 ]。与传统药物靶点不同,PPI靶点通常缺乏明确的结合口袋,其特征是扁平的疏水性相互作用界面[ 9 ]。此外,传统药物靶点和蛋白质-蛋白质相互作用(PPI)靶点的界面特性表现出不同的生化特征,进而影响PPI与其调节剂之间的相互作用模式[ 10 , 11 , 12 , 13 , 14 , 15 , 16 , 17 ]。由于缺乏已知的活性化合物和高分辨率界面结构数据,新型或研究不足的PPI在界面调节剂的发现方面面临着巨大的挑战。因此,开发能够有效识别和靶向PPI及其界面的深度学习模型对于推进靶向PPI调节剂的发现至关重要[ 18 , 19 , 20 ]。
由于蛋白质-蛋白质相互作用(PPI)界面面积大、平坦且疏水,传统的计算方法面临诸多挑战,这使得设计能够调节这些相互作用的小分子变得复杂。值得注意的是,突变研究的进展表明,这些界面内的特定“热点”驱动着分子间的相互作用。这些区域通常具有疏水性和构象灵活性,是小分子调节剂的理想靶点,并已成为计算药物设计的关键所在[ 21 , 22 , 23 , 24 ]。近年来,机器学习(ML)和深度学习(DL)的快速发展,通过利用大规模数据集和复杂的算法框架,显著提升了PPI调节剂的预测能力[ 25 , 26 , 27 , 28 , 29 , 30 , 31 , 32 ]。早期研究包括 2P2IHUNTER,这是一种新型的基于支持向量机的工具,专门用于筛选正构蛋白-蛋白相互作用调节剂,在识别真正的 PPI 抑制剂方面展现出很高的准确性 [ 33 ]。随后是 PPIMpred,这是一个网络服务器,能够对靶向蛋白-蛋白相互作用的小分子进行高通量虚拟筛选,为 PPI 调节剂的发现提供了一个便捷的平台 [ 34 ]。近期进展包括 PDCSM-PPI [ 35 ] 和 Sharma 等人提出的 SMMPPI,这是一种基于机器学习的方法,成功预测了蛋白-蛋白相互作用的调节剂,并展示了其在识别 SARS-CoV-2 中 RBD:hACE2 相互作用的新型抑制剂方面的实际应用 [ 36 ]。值得注意的是,Wang 等人引入了一种专门为 PPI 调节剂设计的界面感知分子生成框架,这代表了基于结构的药物设计领域的一项重大进展 [ 37 ]。这些计算范式彻底改变了 PPI 调节剂发现领域,提供了强大的框架,可以高精度、高效率地预测调节剂-PPI 相互作用。
尽管用于发现靶向蛋白质-蛋白质相互作用(PPI)调节剂的计算方法取得了显著进展,但仍存在一些关键挑战。传统的计算方法主要依赖于基于结构相似性的筛选,通过将候选化合物与已知调节剂进行比较来预测其活性。然而,这种方法无法充分捕捉PPI界面及其分子识别机制固有的复杂且多方面的特征。现有方法通常使用浅层的分子描述符(例如RDKit指纹)或简单的几何特征,缺乏有效整合来自不同来源的多种尺度特征的复杂策略。这种局限性严重阻碍了对精确界面识别至关重要的细微化学和生物相互作用进行准确建模。
一个更根本、更关键的限制是现有模型在不同蛋白质家族间的泛化能力较差。蛋白质-蛋白质相互作用(PPI)调节剂的数据集本身就具有碎片化特征,不同蛋白质结构域之间的化学空间和界面性质分布存在显著差异。因此,基于特定结构域训练的模型在应用于缺乏足够参考化合物的新型界面靶点时,性能往往会急剧下降。这种结构域适应性挑战极大地限制了目前有限的界面靶向调节剂库的扩展,并且仍然是实际药物研发应用中的一大障碍。
近年来,基于Transformer的预训练语言模型取得了显著进展,例如ESM[ 38 , 39 , 40 , 41 ]、Uni-Mol[ 42 ]和ProtTrans[ 43 ],展现出巨大的潜力,能够从蛋白质序列和分子结构中编码丰富的进化信息。这些模型无需大量的结构数据即可揭示界面区域的隐藏相互作用模式,从而有望解决传统方法的关键局限性。然而,仅仅应用这些预训练模型是不够的。目前的研究重点在于开发一个统一的计算框架,该框架能够通过专门的融合机制协同整合这些强大的多模态嵌入,并明确解决跨领域泛化问题。
为了应对这些挑战,我们构建了一个全面的蛋白质-蛋白质相互作用(PPI)-调节因子相互作用基准数据集,并开发了AlphaPPIMI——一个综合性的深度学习框架。该框架结合了大规模预训练语言模型和先进的领域自适应技术,用于预测靶向PPI界面结合位点的调节因子。我们的架构首次协同整合了多模态预训练表征、双向交叉注意力融合机制以及条件域对抗学习(CDAN)[ 44 ],用于界面特异性调节因子的预测。交叉注意力模块动态地对调节因子和PPI界面之间的相互影响进行建模,从而实现深度、上下文感知的相互作用建模。此外,AlphaPPIMI在该领域引入了CDAN的新应用,显著增强了模型在不同蛋白质家族和靶域间的泛化能力。基准测试验证表明,AlphaPPIMI性能优异,能够有效识别界面特异性调节因子,为靶向PPI疗法的发现提供了一种极具前景的工具。
结果与讨论AlphaPPIMI 的模型架构
我们提出了一种名为 AlphaPPIMI(图 1)的新型框架,用于预测蛋白质-蛋白质相互作用(PPI)调节剂的相互作用,特别是那些靶向界面结合位点的相互作用。该框架集成了多个先进组件,用于全面提取 PPI 特征并进行表征学习。具体而言,我们采用先进的 Uni-Mol2 模型,通过整合原子、键和几何信息以及分子指纹来构建分子表征。在蛋白质特征提取方面,我们结合了两种互补的方法:进化模式通过预训练于大型序列数据库的先进语言模型(ESM2-150M 和 ProTrans)进行捕获,而结构特征则使用 PFeature 方法进行编码。这种集成方法确保了对预测靶向界面调节剂至关重要的序列和结构信息的全面捕获。为了有效地对蛋白质和调节剂之间复杂的相互作用进行建模,我们设计了一个专门的交叉注意力模块,该模块能够动态学习相互作用模式,同时保留模态特异性信息。然后,将集成特征通过优化的全连接层进行处理,以进行最终的 PPIMI 预测。值得注意的是,我们引入了 CDAN [ 44 ] 来增强模型在不同蛋白质家族间的泛化能力,从而解决了界面靶向药物发现中的一个关键挑战。图 1
AlphaPPIMI架构概述。A .总体框架,展示了调节因子和蛋白质特征提取流程的集成。B .交叉注意力模块的详细结构,说明了调节因子和PPI特征之间的动态交互。C .条件域对抗网络(CDAN)模块完整尺寸图片AlphaPPIMI 与现有 PPIMI 预测器的性能比较分析
为了进行领域内评估,我们将 AlphaPPIMI(未嵌入 CDAN)与五种基线方法——SVM [ 45 ]、XGBoost [ 46 ]、MLP [ 47 ]、RF [ 48 ] 和 MultiPPIMI [ 49 ]——在随机划分和冷配对划分两种配置下进行了比较。如表 1所示,AlphaPPIMI 在随机划分中取得了近乎完美的分数(例如,AUROC 为 0.995)。如此高的分数部分归因于训练集和测试集之间存在实体级重叠,即某些蛋白质或调节因子可能同时出现在两个划分中。尽管两个集合中没有完全相同的 PPI-调节因子对,但重叠的单个蛋白质或调节因子的存在可能会使模型在训练过程中接触到熟悉的实体,从而导致实体级信息泄露,进而造成性能膨胀。因此,我们着重研究更具挑战性的冷配对配置,以评估模型的真实泛化能力。在该配置中,PPI-调节剂组合严格互不重叠,从而模拟药物发现中的真实场景。在此设置下,AlphaPPIMI 实现了稳健的泛化,AUROC 为 0.827,AUPRC 为 0.781,与基线方法相比,泛化能力有所提升。值得注意的是,SVM 和 MultiPPIMI 等模型表现出对预测阳性相互作用的强烈偏好。其特征是灵敏度高,但特异性极低且不稳定。这表明,虽然这些模型能够有效地识别阳性相互作用,但代价是极高的假阳性率,从而削弱了其实际应用的可靠性。为了确保结果的透明度,补充材料 S1 中提供了这些模型混淆矩阵的逐折分析。
与此形成鲜明对比的是,AlphaPPIMI展现出更为均衡稳定的性能。它在保持高灵敏度和特异性的同时,方差也较低,展现了其正确识别真阳性和真阴性的能力。AlphaPPIMI的卓越性能可归功于其精细的特征提取能力,它利用大规模预训练模型(例如,用于分子表征的Uni-Mol2以及用于蛋白质特征的ESM2、ProtTrans和PFeature)来全面表征界面靶向调节剂。虽然现有方法(例如MultiPPIMI)也利用了预训练模型,但它们主要依赖于浅层的分子表征(例如,RDKit描述符),无法捕捉PPI-调节剂结合所需的复杂特征。相比之下,我们的框架实现了一个专门设计的交叉注意力模块,该模块旨在动态捕捉调节剂和蛋白质界面特征之间的复杂相互作用,从而有助于更深入地理解稳健预测所需的细微相互作用。此外,AlphaPPIMI 还整合了 CDAN,能够对不同蛋白质-蛋白质相互作用域的特征分布进行比对。这种均衡的性能表明其在实际药物发现环境中具有更高的泛化能力。表 1 AlphaPPIMI 与基线方法在 DLiP 数据集上的性能比较(采用随机分割和冷配对分割,5 折交叉验证)全尺寸桌子绩效评估
为了评估我们框架在PPI调节器预测中的跨域泛化能力,我们评估了模型直接从源域(DLiP)迁移到未知目标域(DiPPI和iPPIDB)时的性能。如图 2所示,域迁移导致所有模型的性能显著下降。值得注意的是,AlphaPPIMI始终表现出更优异的鲁棒性,在DiPPI基准测试中,其AUROC和AUPRC均较MultiPPIMI有了显著提升。尽管基线性能良好,但域内和跨域结果之间的差距凸显了采用显式域自适应策略的必要性。
为了应对这一挑战,我们开发了 AlphaPPIMI-CDAN,一种域自适应架构,它将条件特征对齐显式地集成到学习过程中。如图 2A所示,该模型成功地对齐了跨域的特征分布,同时保持了清晰的类可分性。这种对齐直接促成了其在 DiPPI 和 iPPIDB 数据集上优于所有基线模型的预测性能(图2B)。与传统的边缘对齐方法不同,我们的模型利用类条件分布来指导域自适应,从而产生更具区分性和任务相关性的特征表示。这种条件对齐在 PPI 研究中尤为重要,因为域的转换通常对应于细微但功能上显著的变化。此外,该模型通过在域自适应过程中保留类特定的结构来减少负迁移,这有助于在清晰区分不同类别的同时保持一致的全局模式。这些结果表明,AlphaPPIMI-CDAN 有效地利用了条件域自适应,从而增强了跨域 PPI 预测的稳定性、鲁棒性和泛化能力。图 2
跨域特征分布分析及性能比较。A . 应用 CDAN 前后学习到的特征表示的 t-SNE 可视化图(左图,右图)。B .小提琴图比较了不同方法下的模型性能。上图显示了 DiPPI(蓝色)和 IPPDB(橙色)数据集上的 AUROC 得分,下图显示了 AUPRC 得分。完整尺寸图片消融研究
为了系统地评估两种蛋白质语言模型(ESM2 和 ProtTrans)以及一种结构特征提取方法(PFeature)在 PPIMI 预测中的贡献,我们利用交叉注意力网络,对六种不同的特征嵌入进行了全面的基准测试。这些嵌入包括分别源自 ESM2 和 ProtTrans 的两种独立表示,以及通过组合多种来源构建的四种集成嵌入:ESM2 + ProtTrans、ProtTrans + PFeature、ESM2 + PFeature 以及 ESM2 + ProtTrans + PFeature 的综合集成。图 3 展示了三个基准数据集(DLiP、DiPPI 和 iPPIDB)的性能比较 。结合所有三种方法的集成方法(ESM2+ProtTrans+PFeature)始终取得了最佳性能。具体而言,与 ESM2、ProtTrans、ESM2+ProtTrans、ProtTrans+PFeature 和 ESM2+PFeature 相比,该方法平均 AUROC 值分别提升了 0.136、0.117、0.029、0.065 和 0.090。AUPRC 指标也观察到了类似的提升。值得注意的是,在各个特征中,ProtTrans 表现最为出色,并且它与其他特征的结合能够持续提升所有数据集的预测精度。图 3
六种特征嵌入在三个数据集上的AUROC和AUPRC值。误差线代表五折交叉验证的标准偏差。完整尺寸图片
我们选择 ESM2-150 M 模型(640 维嵌入)以获得最佳计算效率。对不同 ESM2 模型规模的比较分析(补充图 S6)表明,尽管计算成本显著增加,但更大的模型规模仅带来微弱的性能提升。语言模型之间的维度差异远小于它们互补的信息内容。表 2 DiPPI 数据集上的领域自适应策略消融全尺寸桌子
基于优化的骨干网络,我们进一步研究了领域自适应策略的贡献,从而分离出 CDAN 模块的影响。具体而言,我们将 AlphaPPIMI-CDAN 与两个基线模型进行了比较:(1) AlphaPPIMI(直接迁移),以及 (2) AlphaPPIMI-PL,后者是一个更强的基线模型,它使用与最终模型相同的数据进行训练,但采用了更简单的伪标签技术。这项受控消融研究的详细设置见补充材料 S7。如表 2所示,在 DiPPI 数据集上,AlphaPPIMI-CDAN 不仅优于直接迁移基线模型,而且优于性能更强的 AlphaPPIMI-PL 基线模型。这些结果表明,性能提升主要归功于 CDAN 框架,而不仅仅是目标领域数据的加入。AlphaPPIMI在筛选PPI界面调节剂中的应用
为了展示AlphaPPIMI的实际预测能力,我们开展了一项深入的案例研究,重点关注热休克蛋白90 (Hsp90) 和细胞周期蛋白37 (Cdc37) 之间的蛋白质-蛋白质相互作用(PPI) [ 50 ]。Hsp90-Cdc37 PPI界面具有结构清晰的结合口袋,其中包含特征性的沟槽和疏水区域,使其成为典型的PPI界面的理想范例。这种相互作用是破坏分子伴侣功能和抑制致癌信号转导的关键治疗靶点。
我们利用 AlphaPPIMI 对 ChemDiv 化合物库中的潜在调节剂进行了评估,并筛选出预测活性评分高于 0.8 的分子。通过 t-SNE 投影可视化的化学空间分析表明,这些预测化合物与已知的活性抑制剂具有相似的化学特征(图 4A)。我们选择经验证的 Hsp90-Cdc37 相互作用抑制剂 DCZ3112 [ 51 ] 作为参考化合物,并基于结合最大公共子结构 (MCS) 分析、Tanimoto 系数计算和药效团特征的综合评估,筛选出结构相似性评分最高的三个化合物(0.65–0.67)(图 4B)。有关我们结构相似性评估方法和评分系统的详细信息,请参见补充材料 S6。
使用 UCSF DOCK 6.9 [ 52 ] 对 Hsp90-Cdc37 复合物的晶体结构(PDB ID:1US7) 进行分子对接研究。之前的研究已鉴定出蛋白质-蛋白质相互作用(PPI)界面上的关键热点氨基酸残基(图4C)。对接分析表明,DCZ3112 与界面残基 Arg32、Ser36、Asp40、Arg167 和 His197 建立了关键相互作用(图 4D)。值得注意的是,所有三个预测化合物均表现出相似的结合模式,并与这些关键残基结合(图 4E )。这些化合物一致的相互作用模式和良好的预测结合亲和力为我们的筛选策略及其作为 Hsp90-Cdc37 抑制剂的潜力提供了强有力的支持。所有结构可视化均使用 UCSF ChimeraX [ 53 ]生成,以展示蛋白质-蛋白质界面的分子相互作用。图 4
上传失败,网络异常。
重试
潜在Hsp90-Cdc37蛋白-蛋白质相互作用(PPI)抑制剂的鉴定和结构分析。A.预测化合物(蓝点)和已知活性化合物(红点)的t-SNE化学空间分布可视化图。B .参考化合物DCZ3112和三个具有高结构相似性评分的预测化合物的化学结构。C . Hsp90-Cdc37复合物的整体结构,结合界面高亮显示(方框),金色区域表示热点氨基酸残基。D .参与DCZ3112在PPI界面结合的关键残基。E .三个预测化合物的分子对接姿势,显示其与Hsp90-Cdc37界面关键残基的相互作用。完整尺寸图片AlphaPPIMI在筛选变构PPI调节剂中的应用
蛋白质-蛋白质相互作用(PPI)通常具有一些对药物发现构成挑战的特性,例如结合口袋较浅和构象柔性较高,这使得传统的基于结构的药物设计方法效果不佳[ 54 ]。传统小分子化合物库筛选的低命中率进一步印证了识别有效界面靶向调节剂的难度。在此背景下,AlphaPPIMI的预测结果为优先筛选可能与特定PPI活性位点结合的化合物提供了宝贵的指导,显著提高了PPI靶向抑制剂虚拟筛选的效率。
为了验证我们方法的实用性,我们研究了HIV-1包膜糖蛋白gp120与CD4之间的关键相互作用,该相互作用是具有重要治疗意义的蛋白质-蛋白质相互作用(PPI)靶点。这种相互作用对于病毒进入宿主细胞至关重要,并在多种病理过程中发挥核心作用,包括病毒感染、免疫逃逸和T细胞功能障碍。通过靶向gp120上gp120/CD4相互作用的特定区域来破坏该相互作用,是一种很有前景的阻断HIV-1入侵的治疗策略。这种PPI靶向策略旨在通过特异性抑制gp120与CD4之间的相互作用来阻止病毒附着和后续感染,而不是靶向整个蛋白表面[ 55 , 56 ]。
在本研究中,我们利用AlphaPPIMI从ChemDiv数据库中筛选gp120/CD4相互作用的潜在抑制剂,并选择预测概率大于0.8的化合物进行后续分析。我们使用t-SNE投影图(图 5A)可视化了gp120/CD4活性抑制剂与预测化合物之间的化学空间相似性。然后,我们选择与已知活性抑制剂化学空间重叠的先导化合物进行实验验证。我们使用具有非典型表面结构的gp120/CD4(PDB ID:6L1Y)进行分子对接。之前的研究已经确定了gp120上的活性结合口袋(图 5B)[ 54 ]。我们使用UCSF DOCK6.9[ 52 ]程序进行虚拟筛选,并使用ChimeraX可视化对接结果。如图 5C所示,先导化合物和参考化合物均能与由残基 THR51、LEU52、PHE53、CYS54、ALA73、GLN103、GLU106 和 ASP107 形成的口袋结合。这些结果表明,AlphaPPIMI 有潜力用于探索非经典 PPI 表面,并为这类具有挑战性的靶点发现候选小分子抑制剂。图 5
gp120/CD4 PPI抑制剂的虚拟筛选。A.使用t-SNE分析的化学空间可视化。B . gp120 /CD4复合物的晶体结构(PDB ID:6L1Y),显示了非典型结合界面。gp120和CD4分别以青色和鲑鱼色显示。C .参考化合物与三种代表性先导化合物在gp120结合口袋中的结合模式比较。关键相互作用残基已标记并以棒状模型显示。完整尺寸图片
方法数据集
我们使用 DLiP 数据集 [ 49 , 57 ] 训练了我们的模型,该数据集包含 12,605 个独特的调节剂,靶向 120 个不同的 PPI。该数据集整合了每个调节剂-PPI 对的蛋白质序列、三维结构信息和实验活性数据(IC50/EC50 值或结合常数)。
为了进行独立验证,我们从 DiPPI [ 58 ] 和 iPPIDB [ 59 ] 数据库中创建了两个基准数据集。这些经过整理的数据库包含实验验证的 PPI 界面调节剂,并具有详细的结构和结合信息,为我们的模型提供了严格的测试集。数据整理过程遵循三个关键的质量控制标准。首先,我们专注于异源蛋白-蛋白相互作用,排除相互作用伙伴具有相同 UniProt 标识符的情况。其次,我们删除了界面结合位点不明确的条目。第三,我们将分析范围限定于人类 PPI。为了确保靶标注释的准确性,我们将具有多个 PPI 靶标的化合物条目拆分(例如,“β-catenin/Tcf4 和 Tcf3”被拆分为单独的相互作用)。
如表3所示 ,最终整理的数据集包括:DiPPI数据集,其中包含201个不同的界面靶向调节剂,作用于1316个PPI靶点,每个样本包含调节剂的分子结构、蛋白质序列、界面三维结构信息以及二元活性标签(活性/非活性);以及iPPIDB数据集,其中包含2203个调节剂,靶向34个PPI。所有蛋白质序列均来自UniProt数据库,以保持标准化。补充图S1展示了这些数据集中分子的详细理化性质分析,包括分子描述符分布和化学空间表征。分析表明,这两个基准数据集中调节剂的界面靶向性质和化学空间分布均存在显著的异质性,这给开发通用预测模型带来了重大挑战。此外,我们使用ECFP4指纹图谱计算了化合物之间的成对Tanimoto相似性(补充图S2),以评估数据集中的分子多样性。分析结果显示平均 Tanimoto 相似性较低,表明调节因子之间存在高度结构多样性。表3 本研究中使用的训练数据集(DLiP)和基准数据集(DiPPI和iPPIDB)的统计信息全尺寸桌子
为了构建阴性样本,我们开发了一种基于化学选择性原理的策略。具体而言,对于每个PPI家族,我们筛选出能够选择性结合其他PPI家族的调节剂,并将其指定为目标家族的潜在非活性化合物。为了最大限度地降低假阴性结果的概率,我们实施了严格的过滤流程,排除了任何与目标PPI家族已知活性调节剂具有结构相似性或重叠的潜在阴性调节剂。随后,我们将这些潜在非活性调节剂与其对应的PPI靶标配对,构建了阴性样本。为了解决数据集中的类别不平衡问题,我们对阴性样本进行了下采样,以创建一个正负界面靶向对比例相等的平衡数据集。为了评估假阴性可能造成的偏差,我们对不同的正负采样比例进行了敏感性分析。如补充材料S8和表S4所示,该模型在不同的配置下均保持了其预测优势,表明其对任何特定采样比例的依赖性都很小。值得注意的是,实验验证的非活性化合物被特意排除在阴性样本库之外,因为此类验证数据在不同 PPI 靶标上的稀缺性和分布不均可能会在模型训练过程中引入偏差。
我们还通过筛选ChemDiv的蛋白质-蛋白质相互作用库(包含205,497个针对PPI靶向设计的化合物[ 60 ])评估了AlphaPPIMI在药物发现中的实际应用价值。该化合物库包含专门靶向PPI界面的化合物,这些界面具有大而平坦的表面以及关键的“热点”区域。补充图S4提供了该化合物库的分子性质和骨架多样性的详细分析。通过将我们的模型应用于该商业化合物库的筛选,我们旨在识别新型PPI调节剂,并在真实的药物发现环境中验证我们的方法。蛋白质和调节因子的特征提取
AlphaPPIMI框架采用了三种互补的蛋白质特征提取方法。ESM2模型利用Transformer架构(36个注意力层,每层20个注意力头)来捕获对界面形成至关重要的氨基酸关系。完整的ESM2模型包含30亿个参数,这些参数是在6000万条UniRef50序列上训练得到的[ 61 ]。为了平衡计算效率和性能,我们采用了ESM2-150 M变体来生成640维的特征向量。
ProtTrans模型(24层,每层32个节点)使用来自BFD[ 62 , 63 ]和UniRef50[ 61 ]的超过4500万条蛋白质序列进行预训练,生成1024维嵌入,以捕捉互补的进化模式。这两个Transformer模型并行工作,以提取与界面区域相关的全面序列特征。
PFeature 通过 19 个描述符类别提供额外的结构和理化表征,包括:(1) 基于组成的特征,(2) 序列顺序耦合数,(3) 理化性质,(4) 结构特征,以及 (5) 进化信息。PFeature 描述符与 Transformer 嵌入的整合生成了 3366 维蛋白质表示,该表示同时捕捉了序列模式和界面特异性。
对于调制器表示,我们利用 84 M 参数 Uni-Mol2 模型,该模型通过原子类型、度和化学属性的嵌入生成原子级特征 :(1)
成对特征包含键类型、最短路径距离和几何信息:(2)
其中编码原子对之间的距离。该模型为每个分子生成一个 768 维的全局特征向量。我们通过引入 ECFP4 指纹 [ 64 ] 进一步增强分子表征,ECFP4 指纹提供了一个 1024 维的二进制向量,用于捕获环状子结构信息。最终得到的 1792 维特征向量整合了分子拓扑结构、三维几何结构以及对界面结合预测至关重要的化学子结构信息。PPIMI预测的交叉关注
在对调节器和PPI目标对进行特征编码之后,我们引入了一个双向交叉注意力模块,以有效地建模调节器和目标对之间的交互作用,从而捕获增强的交互表征,用于调节器-PPI交互预测。该模块促进了目标注意力和调节器注意力键值对之间的双向信息交换,实现了全面的特征融合。这种架构设计捕捉了调节器和PPI之间复杂的交互作用,确保了两个组件的上下文一致性。
在此过程中,PPI特征会利用调制器衍生的注意力权重进行自适应细化,而调制器特征也会通过PPI衍生的注意力机制进行动态调整。这种双向交互使得交叉注意力模块能够促进特征图之间的高效信息交换,从而有效地整合调制器-PPI特性,并生成更全面的特征表示。交叉注意力模块的架构如图 1B所示。
具体来说,调制器特征矩阵和目标特征矩阵分别经过线性变换层后,再分别输入到相应的注意力子模块。在调制器注意力组件中,调制器特征按照以下公式进行处理:(3)
并利用蛋白质特征通过线性投影生成键向量和值向量(4)
这里,W表示每个注意力头的权重矩阵,表示每个注意力头的维度,(表示注意力头的数量)。类似地,对于目标特征 FP,注意力机制的计算方式如下:(5)
这里,权重矩阵W与调制器注意力共享相同的权重。
每个注意力头的调制器/目标对特征图是通过相应的注意力矩阵和值矩阵相乘计算得到的:(6)
同样地,对于目标特征:(7)
将所有注意力头的特征图沿通道维度连接起来,并通过线性层进行变换,生成两个互补的表示:调制器-PPI 交互表示和 PPI-调制器交互表示。
为了保持原始特征信息,我们通过将交互表示与其初始特征相结合来实现残差连接:添加到原始调节因子特征得到,同时与初始蛋白质特征相结合得到。然后,这些特征矩阵进行最大池化操作,分别生成紧凑表示和。最后,将池化后的表示连接起来,形成最终的联合特征表示f。
这种双向交叉注意力设计,结合了调节因子和蛋白质之间的特征交互、残差连接和最大池化操作,建立了一个可靠的框架来预测调节因子-蛋白质的相互作用。
最后,将联合表示f通过由全连接层组成的解码器网络进行处理,以预测 PPI-调制器对之间的相互作用。相互作用概率p的计算公式如下:(8)
其中W和b分别代表可学习的权重矩阵和偏置向量。最终预测结果通过 softmax 变换进行归一化:(9)
该模型通过预测概率和真实标签之间的交叉熵损失进行优化。跨领域适应
由于数据采集条件、环境和标准的差异,不同的数据集在特征分布和标签空间方面常常存在差异。DiPPI专注于界面靶向调节剂,能够捕捉界面结合所需的独特分子特征,而像DLiP这样的通用PPI数据集可能缺乏此类特定的界面靶向信息。此外,传统模型的泛化能力有限,因为它们对分布变化高度敏感,当应用于新的结构域时,尤其是在预测靶向新型PPI界面的调节剂时,会导致性能显著下降。这给在不同的PPI系统中识别有效的界面靶向化合物带来了严峻挑战。为了克服这一挑战,我们将CDAN集成到AlphaPPIMI中,从而实现了对新型界面靶向调节剂的稳健跨家族预测。
CDAN 通过将域判别器置于特征嵌入和分类器预测的联合表示上(图 1C),扩展了传统的对抗域自适应方法。这种条件架构有助于在保持判别特性的同时,更精确地对齐源域和目标域之间的分布。具体而言,CDAN 使用极小极大优化范式来最小化源域和目标域之间的差异,其中特征编码器和交叉注意力模块旨在生成域不变的表示,而判别器则试图区分不同的域。图 1C右侧面板可视化的对抗训练过程展示了源域和目标域特征如何通过相同的编码器和解码器架构进行处理,其中判别器优化对抗损失以实现有效的域对齐。
在此框架下,领域特定特征表示f和分类器预测g被组合成一个联合变量。领域判别器D以该联合变量h为条件,从而使模型能够捕捉复杂的跨领域依赖关系。对抗目标函数表述如下:(10)(11)
其中T ( h ) 表示应用于联合变量h 的条件化策略,而用于平衡源分类损失和域对抗损失。我们采用多线性条件化,其定义如下:(12)
其中表示外积,能够捕捉特征与预测之间复杂的交互作用。为了解决高维空间中的维度问题,我们采用随机多线性映射:(13)
其中和是随机矩阵,表示逐元素乘法。
此外,我们应用熵条件化来优先考虑置信度高的预测样本,并使用熵感知权重重新加权判别器损失,其中H ( g ) 是预测的熵。该技术强调高置信度样本,进一步增强了模型的鲁棒性。
CDAN模块的集成使AlphaPPIMI能够有效地比对不同PPI系统中的特征分布,从而促进在新型蛋白质家族中发现靶向界面调控剂。这种设计增强了模型对不同界面类型的泛化能力,提高了其识别特异性调控蛋白质-蛋白质界面化合物的性能。实施细节
我们使用 Python 3.8 和 PyTorch 1.13.1 实现了 AlphaPPIMI,并集成了 Scikit-learn 1.0.2、Numpy 1.21.5 和 Pandas 1.3.3 等其他库。我们的训练方案采用 AdamW 优化器,初始学习率为 5e-4,权重衰减为 1e-5,批大小为 64,这些参数是通过大量的超参数调优确定的。模型架构采用 8 个注意力头,隐藏层维度为 256。对于所有数据集,我们使用早停机制训练模型最多 500 个 epoch,该机制通过监测验证集 AUROC 值来判断模型是否达到最佳状态,耐心值为 50 个 epoch。为了防止过拟合,我们应用了 dropout(dropout 率为 0.1)和层归一化。最终,我们根据验证集 AUROC 值选择了性能最佳的模型。通过全面的超参数敏感性分析,我们的模型在不同配置下均展现出稳健的性能,通常在 150-200 个 epoch 内即可达到最佳收敛(详细分析见补充材料 S4)。所有实验均在配备 40GB 显存的单个 NVIDIA A100 GPU 上进行。评估策略和指标
我们使用五折交叉验证在DLiP数据集上进行了领域内模型评估,首先将数据划分为训练集、验证集和测试集。为了评估模型在不同泛化难度下的性能,我们采用了两种划分策略:随机划分和冷配对划分。在随机划分设置中,PPI-调节因子对被随机分配到训练集和测试集,确保完全相同的相互作用对不会同时出现在两个集中。然而,这种方案允许单个蛋白质或调节因子同时出现在两个集中,这可能导致由于实体层面的信息泄露而高估模型性能。我们在补充图S3中报告了蛋白质层面和调节因子层面的重叠统计数据,以量化这种影响。尽管存在这种局限性,随机划分仍然适用于评估模型在已知生物实体存在的情况下学习成对相互作用模式的能力。这反映了早期筛选或药物重定位中的常见场景,即在新的环境中重新组合已知的蛋白质或化合物。因此,我们报告了随机分割和冷配对分割的结果:前者反映了在宽松假设下的性能,而后者则作为更严格的泛化基准。
为了克服随机分割的局限性,我们实施了一种冷对分割策略,其中训练集和测试集中不共享任何蛋白质-蛋白质相互作用(PPI)-调节剂相互作用对。尽管单个蛋白质或调节剂之间可能仍然存在重叠,但它们的组合被严格隔离。这种设计更好地模拟了预测新型相互作用的挑战,并突出了模型的泛化能力。虽然理论上存在更严格的分割方法,例如冷蛋白分割或冷实体分割,但它们可能无法反映药物发现中的实际情况,因为在药物发现中,治疗假设通常涉及已知蛋白质或小分子的新组合。我们相信,冷对分割设计提供了一个实用且具有挑战性的基准,兼顾了泛化能力和应用相关性。
为防止数据泄露,20% 的测试集严格地不参与所有训练和调优过程。对于随机划分,超参数在从 80% 训练数据中划分出的内部验证集上进行优化。对于更为严格的冷对划分,我们采用了嵌套方法,在训练集上执行内部 5 折交叉验证以选择最佳超参数。在这两种情况下,最终模型均使用最优参数在完整的 80% 训练集上重新训练,并在未见过的测试集上进行一次评估。
此外,各数据集内调节剂的化学空间分布呈现出显著的聚类现象(补充图S1),表明仅凭领域内指标不足以反映泛化能力。为了进行更严格的评估,我们使用两个具有挑战性的数据集DiPPI和iPPIDB进行了跨领域测试,测试场景旨在反映真实药物发现应用中固有的复杂性。
参考以往的领域自适应研究,我们使用完整的DLiP数据集,并结合80%的未标注目标域数据(来自DiPPI或iPPIDB)进行训练,剩余20%的已标注目标域数据用于测试。为了平衡训练过程中源域和目标域的数据分布,我们采用了分层批次抽样策略。具体而言,每个训练批次都保持源域和目标域样本的固定比例()。对于批次大小为N的情况,我们从源域随机抽取个样本,其中代表源域的比例。这种方法确保了模型在训练过程中能够均匀地接触到源域和目标域,从而避免模型偏差,并促进有效的领域自适应。
我们使用标准指标评估模型性能:受试者工作特征曲线下面积(AUROC)和精确率-召回率曲线下面积(AUPRC)。此外,我们还计算了准确率、灵敏度和特异性:(14)(15)(16)
其中,真阳性 (TP) 和真阴性 (TN) 分别表示正确预测的相互作用对和非相互作用对,而假阳性 (FP) 和假阴性 (FN) 表示错误的预测。
结论
本研究提出了一种名为 AlphaPPIMI 的综合深度学习框架,旨在解决发现特异性靶向蛋白质-蛋白质相互作用界面的调节剂所面临的根本性挑战。我们构建了基于 DiPPI 和 iPPIDB 的基准数据集,并进行了严格的质量控制,重点关注结合于 PPI 界面而非一般蛋白质表面的化合物,从而为开发靶向 PPI 界面调节剂预测模型奠定了坚实的基础。我们的框架利用预训练的大规模模型和专门的交叉注意力模块,能够有效地模拟复杂的结合模式。此外,CDAN 的集成显著增强了模型在不同 PPI 家族间的泛化能力。大量的评估结果表明,AlphaPPIMI 在域内和跨域场景下均优于现有方法。该框架成功应用于Hsp90-Cdc37复合物这一结构明确的界面以及gp120/CD4这一复杂的非界面,验证了其在真实世界PPI药物发现中的实用性,并展现了其识别靶向不同PPI(界面)的潜在调节剂的能力。然而,需要指出的是,目前的验证尚处于计算机模拟阶段,这些识别出的化合物应被视为有潜力的候选药物,仍需实验验证。
展望未来,AlphaPPIMI 为蛋白质-蛋白质相互作用 (PPI) 调节剂的发现奠定了坚实的基础。未来的发展将聚焦于两个关键领域。在计算方面,我们将继续改进特征融合策略,并扩展训练数据中化学和生物学空间的覆盖范围。至关重要的是,在实验方面,未来的一个关键方向是通过生物物理分析(例如表面等离子共振)和后续的基于细胞的功能分析来验证高分候选药物。这一转化步骤对于将计算预测结果转化为切实可行的治疗先导化合物至关重要。这些改进将进一步增强框架的预测能力,并加速新型 PPI 靶向疗法的发现。
数据可用性
所有数据均来自公开资源。DLiP 数据集可从https://skb-insilico.com/dlip下载。DiPPI 和 iPPIDB 数据集可分别从https://github.com/ku-cosbi/DiPPI/和https://ippidb.pasteur.fr/下载。本文结论所依据的数据集和源代码可在 [ https://github.com/Bigrock-dd/AlphaPPIMI ] 代码库中找到。
缩写PPI:
蛋白质-蛋白质相互作用PPIMI:
PPI调节剂相互作用CDAN:
条件域对抗网络ML:
机器学习DL:
深度学习AUROC:
受试者工作特征曲线下面积AUPRC:
精确率-召回率曲线下面积t-SNE:
t分布随机邻域嵌入Hsp90:
热休克蛋白90Cdc37:):
细胞分裂周期 37MCS:
最大公共子结构ECFP4:
直径为 4 个键的扩展连接指纹TP:
真阳性TN:
真阴性FP:
假阳性注:
假阴性
参考
Wells JA, McClendon CL (2007) 在蛋白质-蛋白质界面上寻找药物发现中的高垂果实。Nature 450(7172):1001–1009
文章 CAS PubMed 谷歌学术
Stelzl U, Worm U, Lalowski M, Haenig C, Brembeck FH, Goehler H, Stroedicke M, Zenkner M, Schoenherr A, Koeppen S 等 (2005) 人类蛋白质-蛋白质相互作用网络:蛋白质组注释资源。Cell 122(6):957–968
文章 CAS PubMed 谷歌学术
Rual JF、Venkatesan K、Hao T、Hirozane-Kishikawa T、Dricot A、Li N、Berriz GF、Gibbons FD、Dreze M、Ayivi-Guedehoussou N 等人 (2005) 绘制人类蛋白质-蛋白质相互作用网络的蛋白质组规模图。自然437(7062):1173–1178
文章 CAS PubMed 谷歌学术
Titeca K、Lemmens I、Tavernier J、Eyckerman S (2019) 发现细胞蛋白质-蛋白质相互作用:技术策略和机遇。质谱评论 38(1):79–111
文章 CAS PubMed 谷歌学术
Vassilev LT, Vu BT, Graves B, Carvajal D, Podlaski F, Filipovic Z, Kong N, Kammlott U, Lukacs C, Klein C et al (2004) mdm2 小分子拮抗剂体内 p53 通路激活。科学 303(5659):844–848
文章 CAS 谷歌学术
Ivanov AA、Khuri FR、Fu H (2013) 靶向蛋白质-蛋白质相互作用作为抗癌策略。Trends Pharmacol Sci 34(7):393–400
文章 CAS PubMed PubMed Central 谷歌学术
Ashkenazi A、Fairbrother WJ、Leverson JD、Souers AJ (2017) 从基础细胞凋亡发现到先进的选择性 Bcl-2 家族抑制剂。Nat Rev Drug Discov 16(4):273–284
文章 CAS PubMed 谷歌学术
Shin WH、Christoffer CW、Kihara D (2017) 基于计算机结构的蛋白质-蛋白质相互作用靶向药物发现方法。Methods 131:22–32
文章 CAS PubMed PubMed Central 谷歌学术
Nero TL、Morton CJ、Holien JK、Wielens J、Parker MW (2014) 致癌蛋白界面:小分子,大挑战。Nat Rev Cancer 14(4):248–262
文章 CAS PubMed 谷歌学术
Scott DE、Bayly AR、Abell C、Skidmore J (2016) 小分子,大靶点:药物发现面临蛋白质-蛋白质相互作用的挑战。Nat Rev Drug Discov 15(8):533–550
文章 CAS PubMed 谷歌学术
Mignani S、Rodrigues J、Tomas H、Jalal R、Singh PP、Majoral JP、Vishwakarma RA (2018) 药物化学中先导化合物优化过程中的类药性筛选:它们可以简化到什么程度?Drug Discov Today 23(3):605–615
文章 PubMed 谷歌学术
Lipinski C、Lombardo F、Dominy B、Feeney P (1997) 用于筛选候选药物的体外模型——药物发现和开发中溶解度和渗透性的实验和计算方法。Adv Drug Deliv Rev 23(1):3–25
文章 CAS 谷歌学术
Lipinski CA (2004) 先导化合物和类药化合物:五规则革命。药物发现与技术 1(4):337–341
文章 CAS PubMed 谷歌学术
Morelli X, Bourgeas R, Roche P (2011) 从蛋白质-蛋白质相互作用抑制 (2p2i) 的最新成功中汲取的化学和结构经验。Curr Opin Chem Biol 15(4):475–481
文章 CAS PubMed 谷歌学术
Bickerton GR、Paolini GV、Besnard J、Muresan S、Hopkins AL (2012) 量化药物的化学之美。Nat Chem 4(2):90–98
文章 CAS PubMed PubMed Central 谷歌学术
Kosugi T, Ohue M (2021) 蛋白质-蛋白质相互作用的定量评估及其在药物相似性中的应用。载于:2021 年 IEEE 生物信息学与计算生物学计算智能会议 (CIBCB),第 1-8 页。IEEE
王杰,毛杰,王敏,乐晓,王勇(2023)利用深度生成模型探索类药空间。方法 210:52–59
文章 CAS PubMed 谷歌学术
Andrei SA、Sijbesma E、Hann M、Davis J、O'Mahony G、Perry MW、Karawajczyk A、Eickhoff J、Brunsveld L、Doveston RG 等 (2017) 药物发现中蛋白质-蛋白质相互作用的稳定性。Expert Opin Drug Discov 12(9):925–940
文章 CAS PubMed 谷歌学术
Gainza P、Sverrisson F、Monti F、Rodolà E、Boscaini D、Bronstein MM、Correia BE (2020) 利用几何深度学习从蛋白质分子表面解读相互作用指纹。Nat Methods 17(2):184–192
文章 CAS PubMed 谷歌学术
Lyu J, Wang S, Balius TE, Singh I, Levit A, Moroz YS, O'Meara MJ, Che T, Algaa E, Tolmachova K 等 (2019) 超大型化合物库对接用于发现新的化学类型。Nature 566(7743):224–229
文章 CAS PubMed PubMed Central 谷歌学术
Kozakov D, Hall DR, Napoleon RL, Yueh C, Whitty A, Vajda S (2015) 成药性新领域。医学化学杂志 58(23):9063–9088
文章 CAS PubMed PubMed Central 谷歌学术
Keskin O, Gursoy A, Ma B, Nussinov R (2008) 蛋白质-蛋白质相互作用原理:蛋白质相互作用的首选方式是什么? Chem Rev 108(4):1225–1244
文章 CAS PubMed 谷歌学术
Cukuroglu E、Engin HB、Gursoy A、Keskin O (2014) 蛋白质-蛋白质界面热点:迈向药物发现。Prog Biophys Mol Biol 116(2–3):165–173
文章 CAS PubMed 谷歌学术
Winter A、Higueruelo AP、Marsh M、Sigurdardottir A、Pitt WR、Blundell TL (2012) 基于生物物理和计算片段的蛋白质-蛋白质相互作用靶向方法:在结构导向药物发现中的应用。Q Rev Biophys 45(4):383–426
文章 CAS PubMed 谷歌学术
Cheng Y, Gong Y, Liu Y, Song B, Zou Q (2021) 药物发现中的分子设计:深度生成模型的综合综述. Brief Bioinform 22(6):344
文章 谷歌学术
Tong X,Liu X,Tan X,Li X,Jiang J,Xiong Z,Xu T,Jiang H,Qiao N,Zheng M(2021)从头药物设计的生成模型。医学化学杂志 64(19):14011–14027
文章 CAS PubMed 谷歌学术
Wang M, Wang Z, Sun H, Wang J, Shen C, Weng G, Chai X, Li H, Cao D, Hou T (2022) 深度学习方法在从头药物设计中的应用:概述. Curr Opin Struct Biol 72:135–144
文章 CAS PubMed 谷歌学术
Yamanishi Y, Araki M, Gutteridge A, Honda W, Kanehisa M (2008) 基于化学和基因组空间整合的药物-靶标相互作用网络预测。生物信息学 24(13):232–240
文章 谷歌学术
Huang K, Fu T, Glass LM, Zitnik M, Xiao C, Sun J (2020) Deeppurpose:用于药物靶点相互作用预测的深度学习库。生物信息学 36(22–23):5545–5547
CAS PubMed Central 谷歌学术
Milroy LG、Grossmann TN、Hennig S、Brunsveld L、Ottmann C (2014) 蛋白质-蛋白质相互作用的调节剂。化学评论 114(9):4695–4748
文章 CAS PubMed 谷歌学术
Soleymani F, Paquet E, Viktor H, Michalowski W, Spinello D (2022) 基于深度学习的蛋白质-蛋白质相互作用预测:综述. Comput Struct Biotechnol J 20:5316–5341
文章 CAS PubMed PubMed Central 谷歌学术
胡晓,冯超,凌涛,陈敏(2022)用于蛋白质-蛋白质相互作用预测的深度学习框架。计算机结构生物技术杂志 20:3223–3233
文章 CAS PubMed PubMed Central 谷歌学术
Hamon V, Bourgeas R, Ducrot P, Theret I, Xuereb L, Basse MJ, Brunel JM, Combes S, Morelli X, Roche P (2014) 2p2ihunter:一种通过专用支持向量机过滤正构蛋白-蛋白相互作用调节剂的工具。JR Soc Interface 11(90):20130860
文章 PubMed PubMed Central 谷歌学术
Jana T、Ghosh A、Das Mandal S、Banerjee R、Saha S (2017) Ppimpred:用于高通量筛选靶向蛋白质-蛋白质相互作用的小分子的网络服务器。皇家学会开放科学 4(4):160501
文章 谷歌学术
Rodrigues CH、Pires DE、Ascher DB (2021) Pdcsm-ppi:利用基于图的特征识别蛋白质-蛋白质相互作用抑制剂。J Chem Inf Model 61(11):5438–5445
文章 CAS PubMed 谷歌学术
Gupta P, Mohanty D (2021) Smmppi:一种基于机器学习的蛋白质-蛋白质相互作用调节因子预测方法及其在SARS-CoV-2中RBD:HACE2相互作用新型抑制剂鉴定中的应用。Brief Bioinform 22(5):111
文章 谷歌学术
Wang J, Mao J, Li C, Xiang H, Wang X, Wang S, Wang Z, Chen Y, Li Y, No KT 等 (2024) 面向蛋白质-蛋白质相互作用调节剂的界面感知分子生成框架. J Cheminform 16(1):1–18
文章 谷歌学术
Lin Z, Akin H, Rao R, Hie B, Zhu Z, Lu W, Smetanin N, Verkuil R, Kabeli O, Shmueli Y 等 (2023) 利用语言模型进行原子级蛋白质结构的进化尺度预测。Science 379(6637):1123–1130
文章 CAS PubMed 谷歌学术
Rives A, Meier J, Sercu T, Goyal S, Lin Z, Liu J, Guo D, Ott M, Zitnick CL, Ma J 等 (2021) 将无监督学习扩展到 2.5 亿条蛋白质序列,从而揭示生物结构和功能。美国国家科学院院刊 118(15):2016239118
文章 谷歌学术
Rao RM、Liu J、Verkuil R、Meier J、Canny J、Abbeel P、Sercu T、Rives A (2021) MSA Transformer。载于:国际机器学习会议,第 8844–8856 页。PMLR
Meier J、Rao R、Verkuil R、Liu J、Sercu T、Rives A (2021) 语言模型能够零样本预测突变对蛋白质功能的影响。神经信息处理系统进展 34:29287–29303
谷歌学术
Zhou G, Gao K, Hu J, Liu M, Gao J (2023) Uni-mol:一种通用的三维分子表征学习框架。载于:国际表征学习会议
Elnaggar A, Heinzinger M, Dallago C, Rehawi G, Wang Y, Jones L, Gibbs T, Feher T, Angerer C, Steinegger M 等 (2021) Prottrans:通过自监督深度学习和高性能计算破解生命密码语言。IEEE模式分析与机器智能汇刊 44(7):3195–3211
谷歌学术
Long M, Cao Z, Wang J, Jordan MI (2018) 条件对抗域适应. 神经信息处理系统进展 31:1640–1650
Cortes C, Vapnik V (1995) 支持向量网络.机器学习20:273–297
文章 谷歌学术
Chen T, Guestrin C (2016) Xgboost:一种可扩展的树提升系统。载于:第22届ACM SIGGDD国际知识发现与数据挖掘会议论文集,第785-794页。
Popescu MC、Balas VE、Perescu-Popescu L、Mastorakis N (2009) 多层感知器和神经网络。WSEAS Trans Circuits Syst 8(7):579–588
谷歌学术
Breiman L (2001) 随机森林.机器学习 45:5–32
文章 谷歌学术
Sun H, Wang J, Wu H, Lin S, Chen J, Wei J, Lv S, Xiong Y, Wei DQ (2023) 用于预测 ppi-调节剂相互作用的多模态深度学习框架. J Chem Inf Model 63(23):7363–7372
文章 CAS PubMed 谷歌学术
王莉,张莉,李莉,姜娟,郑志,尚健,王超,陈伟,包强,徐晓等(2019)小分子抑制剂靶向结直肠癌中hsp90-cdc37蛋白-蛋白相互作用。Sci Adv 5(9):2277
文章 谷歌学术
Chen X, Liu P, Wang Q, Li Y, Fu L, Fu H, Zhu J, Chen Z, Zhu W, Xie C 等 (2018) 新型 HSP90 抑制剂 Dcz3112 通过破坏 HSP90-CDC37 相互作用,对 HER2 阳性乳腺癌发挥强效抗肿瘤活性。Cancer Lett 434:70–80
文章 CAS PubMed 谷歌学术
Balius TE、Tan YS、Chakrabarti M (2024) Dock 6:通过预先计算的配体构象进行分层遍历以实现大规模对接。J Comput Chem 45(1):47–63
文章 CAS PubMed 谷歌学术
Goddard TD、Huang CC、Meng EC、Pettersen EF、Couch GS、Morris JH、Ferrin TE (2018) Ucsf chimerax:应对可视化和分析方面的现代挑战。蛋白质科学 27(1):14–25
文章 CAS PubMed 谷歌学术
Duan LW, Zhang H, Zhao MT, Sun JX, Chen WL, Lin JP, Liu XQ (2017) HIV-1 gp120 核心与 CD4 复合物晶体结构中的非典型结合界面。Sci Rep 7(1):46733
文章 PubMed PubMed Central 谷歌学术
Kwong PD、Wyatt R、Robinson J、Sweet RW、Sodroski J、Hendrickson WA (1998) HIV gp120 包膜糖蛋白与 CD4 受体和中和性人抗体的复合物结构。Nature 393(6686):648–659
文章 CAS PubMed PubMed Central 谷歌学术
Myszka DG、Sweet RW、Hensley P、Brigham-Burke M、Kwong PD、Hendrickson WA、Wyatt R、Sodroski J、Doyle ML (2000) HIV gp120-CD4 结合反应的能量学。美国国家科学院院刊 97(16):9026–9031
文章 CAS PubMed PubMed Central 谷歌学术
Ikeda K, Maezawa Y, Yonezawa T, Shimizu Y, Tashiro T, Kanai S, Sugaya N, Masuda Y, Inoue N, Niimi T 等 (2023) Dlip-ppi 库:一个整合了靶向蛋白质-蛋白质相互作用的小分子至中分子的化学数据库。Front Chem 10:1090643
文章 PubMed PubMed Central 谷歌学术
Cankara F, Senyuz S, Sayin AZ, Gursoy A, Keskin O (2024) Dippi:蛋白质-蛋白质界面中类药分子的精选数据集。J Chem Inf Model 64(13):5041–5051
文章 CAS PubMed PubMed Central 谷歌学术
Labbé CM、Laconde G、Kuenemann MA、Villoutreix BO、Sperandio O (2013) ippi-db:一个人工整理的交互式小分子非肽类蛋白质-蛋白质相互作用抑制剂数据库。Drug Discov Today 18(19–20):958–968
文章 PubMed 谷歌学术
ChemDiv Inc (2024) ChemDiv:研究与发现筛选库。商业化合物库。https ://www.chemdiv.com/。访问日期:2025年8月14日。
Suzek BE、Wang Y、Huang H、McGarvey PB、Wu CH、Consortium U (2015) Uniref 集群:一种用于改进序列相似性搜索的全面且可扩展的替代方案。生物信息学 31(6):926–932
文章 CAS PubMed 谷歌学术
Steinegger M, Söding J (2018) 在线性时间内对海量蛋白质序列集进行聚类分析。Nat Commun 9(1):2542
文章 PubMed PubMed Central 谷歌学术
Steinegger M、Mirdita M、Söding J (2019) 蛋白质水平组装可显著提高宏基因组样本中蛋白质序列的回收率。Nat Methods 16(7):603–606
文章 CAS PubMed 谷歌学术
Rogers D, Hahn M (2010) 扩展连接指纹。J Chem Inf Model 50(5):742–754
文章