PocketFlow:一个数据和知识驱动的基于结构的分子生成模型

2024-03-26
今天给大家讲一篇2024年2月在nature machine intelligence上发表的基于深度学习方法设计药物分子的文章的文章。作者提出了一个在给定蛋白质结合口袋条件下、纳入化学知识约束的分子生成框架PocketFlow,并通过消融实验表明了化学知识在生成分子的有效性和类药性方面起到的关键作用。通过设计与表观遗传调控相关的两个新的靶蛋白(HAT1YTHDC1)抑制剂的实验表明活性化合物与靶蛋白的结合模式与分子对接预测的结果非常接近。因此,该方法的提出有助于提高药物设计的准确性,以发挥其特异性的治疗效果。分子生成模型的研究背景目前基于配体的分子生成模型(DGMs)首先利用神经网络从大量已知活性化合物中学习这些结构信息的概率分布,然后通过对学习到的分布进行采样来生成新的分子结构。此外,基于结构的方法则会将目标受体的结构信息作为特征引入模型中,这将有助于提高药物设计的准确性。特别是当某些蛋白质只有极少数或没有已知的配体分子,对于这些情况,基于结构的方法可以在蛋白质结合口袋内生成新的配体分子,这将能够克服基于配体的方法的缺点。不过现有基于结构的方法仍存在一定的问题,其一是现有的数据绝大多数由实验测定过的蛋白质-配体复合物组成,数量不足以训练生成模型。其二是目前基于结构的的方法仍然是一种数据驱动的方法,因此还存在着缺乏鲁棒性和可解释性等问题。此外,大多数分子生成模型在训练和生成过程中都没有考虑化学键信息,即输出为一组没有连通性的离散原子,然后将其组装起来形成分子,这种策略可能导致合成较困难,且类药性差。虽然所生成的分子已经在理论上得到了验证,但它们的生物活性和结合模式尚未经过湿实验的验证。设计流程2.1  PocketFlow设计流程PocketFlow是一种自回归生成流模型,可以逐步生成蛋白质口袋内的小分子。在给定的三维口袋的条件下,该方法建立了一个从正态分布到原子类型和共价键分布的可逆映射。在生成过程的每一步,模型从正态分布中采样以生成一个新的原子,同时生成相应的坐标和共价键。首先将结合位点和分子片段作为语境信息输入至模型(图1a),并利用上下文编码器模块对其进行编码以提取特征(图1b),然后利用一个焦点网络从当前环境选择一个焦点原子作为生成新原子的参考点(图1c)。在生成的每一步都将原子类型、坐标、共价键作为下一代步骤的输入,如果新生成的子结构不满足化学知识约束则重新采样(图1g)。如果满足以下任何一个条件,将停止采样。其一是没有原子可以预测为焦点原子,其二是生成的原子数量达到预定义的最大值,其三是采样步达到预定义的最大值。图1模型设计流程实验结果3.1化学结构合理性评估作者从键长、键角和环结构几个方面评估了生成分子的化学结构的合理性,并分析了九种常见的共价键。如图(2a-2i)所示,由PocketFlow生成的分子的键长分布更接近于CrossDocked2020、及三个基线生成的分子。尽管Pocket2Mol生成特定共价键类型的分子能力更好,但PocketFlow生成分子结构的合理性整体仍优于Pocket2Mol。同样,由PocketFlow生成的分子的键角分布比由三个基线生成的分子的键角分布更接近于CrossDocked2020数据集。此外,在环结构中,五元环、六元环及融合环在类药物分子中最常见,而环如三、四元、七元、更大的环则有合成可及性差、毒性高、代谢不稳定等特点,如图(2j-2o)所示,可以发现PocketFlow生成的分子生成不常见、稳定性差的环结构的分子比例较低。图2 评估生成分子的几何性质3.2 小分子构象合理性评估为了评估生成的分子的结合位点和结合亲和度/配体效率(LE),作者利用PocketFlow生成10000个分子,并随机选择了1000个分子来进行统计分析。如图3所示,其中目标蛋白及其活性口袋为白色,绿点表示分子中的重原子。可以发现由PocketFlow生成的分子主要位于蛋白质口袋内,而由GraphBP生成的分子则分散地分布在蛋白质口袋周围,大量分子位于口袋外部。由Pocket2Mol生成的分子也主要位于口袋内部,但Pocket2Mol的原子分布比其他三种模型更稀疏,特别是2ah9,这可能是由于Pocket2Mol生成的分子多样性较低,不同分子之间的原子坐标非常接近,导致空间中有许多原子重叠在一起。图3  不同生成模型生成分子的原子位置分布3.3 YTHDC1抑制剂设计YTHDC1是一种特异性识别n6-甲基腺苷(m6 A)RNA修饰的表观遗传调控蛋白。研究表明,YTHDC1的失调与许多病理状态相关,尤其是急性髓系白血病。因此,YTHDC1被视为治疗急性髓系白血病的潜在靶点,而针对YTHDC1的小分子抑制剂可能成为潜在的疾病干预药物。作者利用PocketFlow对YTH结构域蛋白1(YTHDC1)设计小分子抑制剂。首先选择PDB ID为4r3i作为晶体结构,并选择YTHDC1的底物结合位点作为活性口袋来生成1000个分子,筛选条件为分子量为250到400之间、类药性大于0.9、可合成性小于3,再对筛选后的235个分子进行分子对接,并根据预测的LE值进行排序,选择排名最高的五个化合物。图4e展示了Y3的IC50为32.6 μM,通过DSF和等温滴定量热法进一步测得Y3解离常数(KD)值为108μM,图4f显示了由PocketFlow生成的结合模式与由分子对接预测的结合模式相互叠加,表明其结合模式非常相似。图4 PocketFlow设计出的YTHDC1小分子抑制剂结论本文提出了一个基于结构的分子生成模型,PocketFlow。它利用等变图神经网络用于建模蛋白质-配体复合物的几何结构。为了捕捉蛋白质和配体之间的相互作用信息,还引入了三角自注意机制以增强模型学习合理化学结构的能力。此外,由PocketFlow生成的分子在可合成性、键长分布、键角分布和环结构等方面更接近真实的类药物分子(CrossDocked2020)。此外,与基准模型相比,PocketFlow能够生成具有更好的结合位点(在口袋内)和更高的配体效能的分子。未来可以通过引入强化学习来提升生成分子的结合亲和力,并将生成分子的药代动力学性质和毒性纳入优化指标。参考文献Moret, M. et al. Leveraging molecular structure and bioactivity with chemical language models for de novo drug design. Nat. Commun. 14, 114 (2023).版权信息本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。本文为原创内容,未经授权禁止转载,授权后转载亦需注明出处。有问题可发邮件至sixiali@stonewise.cn关注我,更多资讯早知道↓↓↓
更多内容,请访问原始网站
文中所述内容并不反映新药情报库及其所属公司任何意见及观点,如有版权侵扰或错误之处,请及时联系我们,我们会在24小时内配合处理。
机构
-
药物
-
立即开始免费试用!
智慧芽新药情报库是智慧芽专为生命科学人士构建的基于AI的创新药情报平台,助您全方位提升您的研发与决策效率。
立即开始数据试用!
智慧芽新药库数据也通过智慧芽数据服务平台,以API或者数据包形式对外开放,助您更加充分利用智慧芽新药情报信息。