现代药物研发的宏大叙事中,天然产物始终扮演着不可或缺的角色,它们是地球生态系统中无数独特化学结构的宝库,蕴藏着发现创新药物的无限潜力。
然而,天然产物结构复杂、多样性庞大,传统筛选和发现方法效率低下,难以充分挖掘其价值。正是在这一背景下,人工智能的崛起为天然产物药物发现注入了前所未有的活力。
2023年11月,《Nature Reviews Drug Discovery》(IF=112)发表了一篇题为《人工智能在天然产物药物发现中的应用》的重量级综述文章。
该文章汇集了来自全球学术界、研究机构和领先制药企业(如芝加哥大学、莱顿大学、海德堡欧洲分子生物学实验室、辉瑞、拜耳等)的60余位顶尖专家,涵盖了人工智能、计算生物学、天然产物化学、药物设计与药理学、生物信息学等多个前沿领域。作者们通过整合不同领域的知识与技术,共同探索AI如何优化和加速天然产物从发现到开发的各个环节。
文献速览
这篇综述深入探讨了AI如何变革天然产物药物发现。文章核心在于强调计算组学(基因组、代谢组)与AI(特别是机器学习)的深度融合,以高效发现、表征天然产物,并预测其生物活性。
文中亮点包括:AI在生物合成基因簇(BGCs)挖掘、质谱/核磁数据结构解析以及宏分子靶点和生物活性预测中的应用,如利用图神经网络进行药物-靶点结合亲和力预测,或借助NLP进行生物活性预测。
它创新性地提出了跨学科协同模型,旨在克服天然产物数据稀疏性和标准化难题。文章不仅展示了AI带来的巨大潜力,也坦诚指出当前挑战,如数据质量、标准化和算法过拟合问题,并建议采用“奥卡姆剃刀”原则,选择适合数据量的简单模型。未来需加强高质量数据积累、标准化和跨领域合作。
在过去五年里,人工智能在天然产物药物发现领域取得了令人瞩目的进展。主要的研发方法集中在运用机器学习(ML)和深度学习(DL)技术,以实现更高效的生物活性预测、全新的从头(de novo)分子设计、对基因组和代谢组数据进行深入挖掘,以及对天然产物复杂结构进行精准表征。
这些先进的计算工具,如利用图神经网络进行药物-靶点结合亲和力预测、基于SMILES和图结构的生成模型进行分子生成,以及利用自然语言处理(NLP)从海量文献中提取信息和预测生物合成基因簇(BGCs)的活性,极大地提高了药物发现的效率。
本文作为一篇综述文章,其核心创新在于综合性与前瞻性。它首次系统地将计算组学与AI在天然产物药物发现中的应用进行了深度整合,明确提出了两者之间“协同增效”的巨大潜力。
文章并非简单罗列技术,而是深入探讨了实现这些协同效应的关键挑战,如高质量数据集的构建、数据标准化、算法验证策略以及稀疏数据和不完整标签的处理。
作者团队通过一个跨学科研讨会的形式,构建了一个整合性的视角,旨在连接不同研究领域,共同利用AI的力量来发掘生物圈中广阔的化学多样性,用于新药开发。这为领域提供了宝贵的指导原则,强调了数据质量和标准化是AI成功的基石,并鼓励采用“主动学习”、迁移学习和强化学习等策略应对数据限制。
综合解读
Explanation
本文深入探讨了人工智能(AI)在天然产物药物发现领域的应用前景、当前挑战及未来发展方向。文章指出,尽管计算组学技术取得了显著进展,能够揭示天然产物的多样性,且机器学习等AI方法在计算药物设计中展现出巨大潜力,但将两者有效结合以识别药物候选分子仍面临诸多挑战。
为此,本文提出利用一个整合的视角,探讨如何利用AI的力量来发掘生物圈中庞大的化学多样性,以开发新药。
第一节:引言
这篇综述指出,天然产物,包括肽、聚酮、糖类、萜烯和生物碱等,在细菌、真菌、植物和动物界中构成了数十万种不同的化学结构,它们在生物间的复杂相互作用中扮演着关键角色,并历史上成功地被应用于抗生素、化疗药物和免疫抑制剂等领域。
尽管在1990年至2010年间,天然产物药物发现因组合化学和高通量筛选的兴起而一度式微,但随着大规模组学数据的出现,天然产物研究迎来了复兴。
目前,已超过2500个生物合成基因簇(BGCs)及其产物被实验表征,这为通过计算基因组分析发现数百万个新型分子的潜在生物合成途径提供了可能。
文章强调,人工智能(AI)方法,特别是机器学习,正被应用于天然产物研究中,以预测BGC产物的化学结构、揭示结构-活性关系以及预测天然产物的靶点和生物活性,这在计算药物设计领域取得了令人兴奋的进展,从而促进了组学驱动的天然产物发现与计算药物设计之间的“交叉融合”。
图1直观地展示了AI如何通过整合基因组学、转录组学、蛋白质组学、代谢组学、结构数据和生物活性等多种数据类型,来学习复杂的特征关系并形成有意义的假设,从而在天然产物和药物发现中发挥关键作用,涵盖了从非机器学习方法到传统机器学习再到深度学习的广泛应用。
Box 1指出,“垃圾进,垃圾出”是机器学习中的一个重要概念,强调了在评估模型时数据平衡和独立测试集的重要性。它详细说明了数据不平衡如何导致不准确的模型评估,并提出了在模型开发三个阶段(训练和测试集的数据选择、模型训练期间的采样和数据加权、模型训练后的类别特定模型评估)解决这些问题的策略。
多组学数据融合
图1. 人工智能在天然产物与药物发现中的应用
图1全面展示了人工智能(AI)如何整合多组学和生物活性数据,通过非机器学习、传统机器学习和深度学习方法,赋能天然产物药物发现,实现化合物分类、化学结构解析,以及生态角色与大分子靶点预测等关键应用。
“数据(Data)”部分展示了用于AI分析的六种主要数据类型。基因组学(Genomics)数据代表了生物体的完整DNA序列信息,这些序列中包含编码天然产物生物合成途径的生物合成基因簇(Biosynthetic Gene Clusters, BGCs)。
生物合成基因簇是指在微生物基因组中编码天然产物(Natural Products, NPs)生物合成途径的基因集合,这些天然产物通常是具有生物活性的次级代谢产物。
1.转录组学(Transcriptomics)数据反映了基因的表达水平,通常以热图形式展示,揭示了在特定条件下哪些基因是活跃的。
2.蛋白质组学(Proteomics)数据提供了蛋白质的序列和表达信息,这些蛋白质是基因组指令的执行者。
3.代谢组学(Metabolomics)数据通过质谱(Mass Spectrometry, MS)等技术,检测和量化生物体内的小分子代谢产物,即天然产物本身。
4.组学技术(Omics Technologies)是一系列计算方法,通过大规模分析生物分子的集合(如基因组、转录组、蛋白质组和代谢组)来获取生物系统的全面视图。
5.结构数据(Structural data)包括了天然产物的三维结构(如核磁共振(Nuclear Magnetic Resonance, NMR)谱图)以及蛋白质靶点的结构信息。
6.生物活性(Bioactivity)数据来源于实验检测,如细胞筛选,用于评估天然产物对生物系统的影响。
而在AI方法(AI Methods)部分,图将AI技术分为三类。
1.非机器学习(Non-machine learning)方法主要关注数据间的直接统计关系。
其中,相关与回归(Correlation and regression)用于分析不同数据集之间的线性或非线性关系,以发现潜在的联系。
代谢基因组学(Metabologenomics)是一种整合基因组和代谢组数据的方法,旨在将基因组中预测的生物合成基因簇与代谢组中检测到的特定代谢物联系起来,从而“去孤儿化”(de-orphan)那些已知基因簇但未知产物的代谢物。
2.传统机器学习(Traditional machine learning)方法则侧重于从数据中学习模式并进行预测。机器学习(Machine Learning, ML)是AI的一个子领域,通过算法从数据中识别模式来生成洞察力。
降维(Dimension reduction)技术,如主成分分析(PCA)、t-分布随机邻域嵌入(t-SNE)和均匀流形近似与投影(UMAP),用于将高维数据投影到低维空间,以便可视化和识别数据中的主要变异模式,例如在化学空间(Chemical Space)中对化合物进行可视化和导航。化学空间是一个巨大的、多维度的概念空间,由所有可能存在的化学化合物构成,通常通过化合物的理化性质来定义。
聚类(Clustering)算法用于将相似的数据点分组,例如将生物合成基因簇归类到基因簇家族中,以发现共同的生物合成途径。
基于自组织映射(Self-Organizing Maps, SOM)的靶点预测(SOM-based target prediction)利用自组织映射这种神经网络模型,将高维化学描述符映射到低维网格,从而预测天然产物的生物活性或大分子靶点。
基因簇家族(Gene cluster families)是指通过计算分析将相似的生物合成基因簇(BGCs)归类分组,以识别共享的生物合成逻辑并预测其产物的化学结构与生物活性。
3.深度学习(Deep learning)是近年来发展迅速的一类机器学习方法,它使用多层人工神经网络(Artificial neural networks)来学习数据中的复杂、非线性模式。深度学习具有捕获非线性关系和接受非表格输入的能力,扩展了AI在天然产物计算研究中的适用性。
SMART NMR是基于卷积神经网络(Convolutional Neural Network, CNN)的工具,用于核磁共振谱图分析,辅助天然产物的结构解析,能够从复杂的谱图中识别和注释分子结构。
计算机视觉(Computer vision)技术,例如DECIMER(Deep Learning for Chemical Image Recognition),能够自动识别并解析化学结构图像,将其转换为机器可读的格式,如SMILES字符串(Simplified Molecular Input Line Entry Specification),这是一种用短ASCII字符串描述化学物种结构的线性符号系统。
自然语言处理(Natural Language Processing, NLP)方法,如MS2LDA(Mass Spectrometry-based Molecular Networking with Latent Dirichlet Allocation),通过分析序列或谱图数据中的模式,类似于处理文本中的词语,用于化学亚结构探索和注释,例如从串联质谱(Tandem Mass Spectrometry, MS/MS)数据中识别分子碎片模式,这对于天然产物的结构推定至关重要。
最终,这些AI方法将数据转化为有价值的知识和应用。首先,通过化学空间和化合物分类(Chemical space and compound classification),研究人员可以可视化和导航庞大的化学分子库,识别具有特定性质或生物活性的化合物类群。
其次,化学结构解析(Chemical structure elucidation)是天然产物药物发现的核心环节,AI辅助的谱图分析和图像识别极大地加速了未知天然产物的结构确定过程。
最后,AI能够预测天然产物的生态角色和大分子靶点(Ecological roles and macromolecular targets),这对于理解天然产物在生物系统中的功能以及开发新药物至关重要。通过预测天然产物可能结合的蛋白质靶点,可以指导药物筛选和机制研究,从而加速新药研发进程。
Box 1. 评估机器学习模型的标准实践
本图(Box 1)详细阐述了评估机器学习模型(machine learning model)的关键规范,主要聚焦于通过数据平衡(data balancing)来解决数据集偏差问题,以及利用独立测试集(independent test set)和交叉验证(cross-validation)来避免模型过拟合(overfitting),确保模型评估的可靠性与准确性。
在人工智能(Artificial Intelligence, AI)驱动的药物发现,特别是天然产物(natural product)研究中,高质量数据集的构建和模型评估的严谨性至关重要。
Box 1强调了“垃圾进,垃圾出”(Garbage in, garbage out)的机器学习基本原则,并指出若缺乏适当的模型验证,很难识别模型的真实预测能力。文章提出了两个核心评估点:数据平衡和独立测试集的使用。
首先,在数据平衡方面,机器学习数据集通常存在不均匀性,即数据不平衡(data imbalance)。这主要体现在两种情况:
一是“一个或多个数据标签的过度代表”(over-representation of one or more data labels),例如,在药物-靶点相互作用的二分类问题中,如果正样本远多于负样本,模型可能会倾向于总是预测正向交互,即使其本身没有实际预测能力,也能达到很高的表面准确率。
二是“一个或多个数据特征的过度代表”(over-representation of one or more data features),这在生物学数据中尤为常见,因为某些物种或分子类型已被更广泛地研究,导致数据集中存在特定序列或分子结构的过度代表。
针对这些数据不平衡,Box 1提出了在模型开发三个阶段采取的策略:
1. 模型训练前的数据选择(Data selection for training and test sets before model training):在此阶段,应首先过滤掉重复或近似重复的数据点,然后根据类别和特征标签按比例划分训练集(training set)和测试集(test set),例如80%用于训练,20%用于测试。
这能避免训练集和测试集中的(近似)重复数据导致模型自动做出正确预测,并确保模型在各个子类别上都能得到独立评估。
2. 模型训练期间的采样和数据加权(Sampling and data weighting during model training):如果模型未被明确指示,它将优先考虑整体准确性。为了防止模型在少数类别上的预测错误被忽视,可以对数据进行加权,使少数类别获得更高的权重或在损失函数中贡献更多,从而惩罚这些类别的预测错误。
另一种方法是欠采样(undersample)或过采样(oversample)数据集,以人工调整数据点的比例,使其均匀分布,从而使模型更具普适性且不易偏向过度代表的标签或特征。
3. 模型训练后的类别特异性评估(Class-specific model evaluation after model training):为了评估模型在每个数据子类别上的表现,无论该类别的数据点数量多少,都必须单独评估每个类别的预测能力。
这可以通过计算真实/假阳性率或真实/假阴性率(true or false positive or negative rates)来完成,对于数据特征则可以通过评估每个序列或化合物聚类的性能来完成。
其次,Box 1强调了交叉验证(Cross-validation)和独立测试集(independent test sets)的重要性。在机器学习算法开发过程中,开发人员通常会尝试不同的输入特征、模型参数和模型类型。
一个常见的不准确之处是,同一个测试集(test set)常被重复用于评估中间模型和最终模型,这使得测试集不再真正独立,可能导致模型过拟合(overfitting)而不被察觉。因此,在任何训练开始前,预留一个真正的“独立测试集”至关重要,该测试集仅用于开发结束时评估模型的最终性能。
在开发过程中,可以通过从训练数据中选择一个验证集(validation set)或对所有训练数据进行交叉验证来监控模型性能。在选择(交叉)验证集时,同样需要考虑数据不平衡问题,并建议进行多次运行以获得具有代表性的标准偏差,从而统计检验观察到的改进是否显著。
例如,对于具有结构-活性关系(structure–activity relationship)的合成化合物,随机分割验证会高估模型的泛化能力,因此采用化学聚类或时间分割对于真正验证模型至关重要。这些实践是确保AI模型在天然产物药物发现等复杂领域中发挥其全部潜力、并建立对其预测信任的基础。
第二节:AI在天然产物研究中的应用
AI在天然产物研究中展现了广泛的应用潜力,涵盖从基因组和代谢组挖掘到结构表征,再到生物活性和靶点预测等多个环节。2.1 天然产物基因组和代谢组挖掘
为了加速天然产物的发现,AI技术被开发用于从序列或光谱数据中预测生物合成基因和代谢物结构。传统的基于规则的方法(如antiSMASH和PRISM)在识别已知BGC类别方面表现良好,但在识别新型BGC或非聚类途径方面存在不足。
机器学习算法,如基于隐马尔可夫模型的ClusterFinder以及深度学习方法DeepBGC、GECCO和SanntiS,通过训练序列特征(如基因家族、蛋白质结构域和氨基酸序列特性),在识别这些复杂BGC方面显示出显著优势,尽管其假阳性率可能高于基于规则的方法。例如,decRiPPter算法预测了一种新型的肽类化合物pristinin,而DeepRiPP则发现了deepflavo和deepginsen。
在代谢组学领域,AI被用于解决质谱(MS)数据分析中的常见挑战,包括库匹配、分子式标注、分子类别标注和保留时间预测。尽管这些算法的效率受限于带标注的串联质谱(MS/MS)光谱数据集相对较小,但可以通过预测分子指纹或从代谢物结构模拟光谱来增强。
类似地,NMR代谢组学挖掘任务也正通过深度学习进行变革,以改善NMR谱图重建、去噪、峰选择和J耦合预测。最终目标是开发能够将基因组挖掘的BGCs与非靶向代谢组挖掘的光谱和预测分子类别联系起来的AI算法,从而解决基因组学和代谢组学之间巨大的注释空白。
图2展示了一些利用人工智能方法发现的化合物实例,例如合成化合物halicin、rivulariapeptolides和symplocolide A等。
机器学习发现实例
图2. 利用人工智能方法发现的示例化合物
该图展示了人工智能(AI)在天然产物药物发现中的多样化应用,通过深度学习、监督机器学习和自然语言处理等技术,成功发现或表征了Halicin、Rivulariapeptolide 1155、Symplocolide A、Pristinin A3、Deepflavo和Deepginsen等化合物。
本图通过具体化合物的发现案例,系统阐释了人工智能(Artificial Intelligence, AI)在天然产物(Natural Product, NP)药物发现研究中的核心应用及其背后的研究逻辑和方法。AI方法,如机器学习(Machine Learning, ML),正被广泛应用于预测生物活性、从头(de novo)药物设计、基因组和代谢组挖掘以及结构表征等方面,以有效识别和优化天然产物药物候选物。
首先,在深度学习(Deep Learning, DL):神经网络(Neural Networks, NN)的应用中,研究人员利用多层神经网络模型处理复杂的化学结构和光谱数据。例如,Halicin是一种合成化合物,其抗生素活性是通过训练一个深度神经网络(Deep Neural Network, DNN)来预测化学结构与抗生素活性之间关系而发现的。
这种方法的核心逻辑是让DNN从大量化学结构数据中学习并识别出与特定生物活性相关的模式,进而预测未知化合物的潜在活性。对于Rivulariapeptolide 1155和Symplocolide A这两种天然产物,它们的结构是从复杂的微生物提取物中,利用卷积神经网络(Convolutional Neural Network, CNN)进行预测和阐明的。
CNN是一种特别适用于处理图像和光谱数据(如质谱(Mass Spectrometry, MS)和核磁共振(Nuclear Magnetic Resonance, NMR)数据)的深度学习模型。研究逻辑在于,CNN能够从这些复杂的原始数据中提取特征,并将其与已知化合物的结构信息进行关联,从而实现未知天然产物的快速、准确结构解析,例如通过CANOPUS这样的基于深度神经网络的结构分类注释工具,整合MS光谱数据进行结构类别注释。
其次,监督机器学习(Supervised Machine Learning, SML):支持向量机(Support Vector Machine, SVM)则被应用于基于基因组数据的天然产物发现。Pristinin A3的发现便是一个典型案例,研究人员利用支持向量机(SVM)对泛基因组(pangenomes)进行挖掘,以优先识别新型核糖体合成和翻译后修饰肽(Ribosomally Synthesized and Post-translationally Modified Peptides, RiPPs)的前体。
RiPPs是一类由前体肽经广泛翻译后修饰而形成的天然产物。泛基因组是指一个物种或进化枝中所有基因的集合。该研究逻辑是通过SVM模型学习基因组特征与RiPPs前体之间的关联,从而在海量的基因组数据中高效地筛选出具有生物合成潜力的基因簇(Biosynthetic Gene Clusters, BGCs),进而指导新型天然产物的分离和鉴定。
最后,自然语言处理(Natural Language Processing, NLP)方法被创新性地应用于基因组序列的分析,将其视为一种“生物语言”。Deepflavo和Deepginsen的发现部分得益于NLP技术,用于预测它们的RiPPs前体及其在基因组中的裂解模式。自然语言处理(NLP)是AI领域的一个分支,旨在使计算机理解、解释和生成人类语言。
在此应用中,NLP方法(如word2vec,一种用于文本中词嵌入的工具)被扩展到生物序列,用于嵌入生物合成基因簇(BGCs)中的蛋白质结构域(pfam2vec)。研究逻辑是将基因组序列的特征(例如蛋白质结构域的排列组合)类比为自然语言中的词语和句子结构,通过NLP模型识别这些“生物语言”模式,从而预测RiPPs的生物合成途径和产物。
例如,DeepRiPP框架整合了多组学数据,利用深度学习和NLP来自动化发现新型RiPPs,即使其前体肽与相关的生物合成酶编码距离遥远。这种方法为从基因组数据推断天然产物结构和功能提供了新的视角。2.2 天然产物的结构表征
天然产物药物发现的成功离不开对分离化合物结构的明确解析,这对于化学结构复杂的代谢物而言是一项挑战,需要整合NMR、IR、UV、ECD、X射线光谱、HRMS、MS/MS以及对编码酶的计算分析等多种数据类型。微晶电子衍射(MicroED)技术的引入进一步加速了结构解析。
AI在结构表征中发挥着越来越重要的作用,自1960年以来,AI已被用于辅助从MS数据中从头识别未知化合物、预测分子式、通过深度神经网络匹配MS光谱到化合物数据库、从MS/MS光谱中从头解析SMILES字符串以及预测化学性质和识别小分子。
在NMR辅助结构解析和注释方面,AI同样有所贡献。例如,计算机辅助结构解析(CASE)程序通过生成基于概率的排名来减少错误的结构分配。
卷积神经网络工具SMART 2.0指导了新型大环内酯symplocolide A的发现和结构解析,而SMART-Miner和COLMAR则用于从复杂混合物的NMR谱图中识别和注释初级代谢物。
DP4-AI结合了量子化学理论计算和贝叶斯方法,为候选结构分配正确性概率。针对构象柔性分子计算成本高的问题,ASE-ANI等机器学习模型通过过滤力场生成的构象来降低计算成本。
2.3 靶点和生物活性的预测
AI在天然产物药物发现中最重要的应用领域之一是预测天然产产物的宏分子靶点、相关生物活性以及潜在毒性。
准确的预测能够为药物发现中最有前景的化学空间(如Box 2中讨论的,通常由化合物的理化性质定义,天然产物在此空间中展现出更高的三维复杂性)提供直接线索,从而有效筛选和优先排序药物候选物。
图3详细展示了如何从基因组学、代谢组学和表型数据中预测生物活性和宏分子靶点。
化学空间导航
Box 2. 可视化与导航化学空间
本图探讨了化学空间(chemical space)的广阔性及其在药物发现中的导航挑战,重点介绍了主成分分析(Principal Component Analysis, PCA)、t-分布随机邻近嵌入(t-distributed stochastic neighbor embedding, t-SNE)、均匀流形近似与投影(Uniform Manifold Approximation and Projection, UMAP)和树状图(Tree MAP, TMAP)等无监督机器学习(unsupervised machine learning)降维技术,以可视化、探索化学空间并发现潜在药物。
化学空间是一个由化合物的多种性质(如理化性质)定义的广阔且 largely unexplored 的概念,估计包含约10^60种化合物。其中,“类药”(drug-like)化学空间指的是符合利平斯基五法则(Lipinski’s ‘rule-of-five’ guidelines)的化合物,该法则用于评估口服生物利用度。然而,天然产物(natural products, NPs)通常具有更大的分子尺寸和三维复杂性,常常是这些规则的例外。
探索如此庞大的化学空间面临巨大挑战,不仅因为化合物数量庞大,还因为化合物的描述和标记是一个多维度问题,难以直观理解。为解决这一问题,研究逻辑转向采用降维技术来简化数据表示,从而识别新的药物候选物。
无监督机器学习方法在此背景下发挥关键作用。主成分分析(PCA)是一种常用的降维技术,通过将高维数据投影到低维空间,揭示了药物分子与天然产物在拓扑多样性分布上的相似性,但与组合化学化合物不同。t-分布随机邻近嵌入(t-SNE)是另一种成功的降维算法,已应用于新药类别(例如激酶抑制剂)的设计。
为了处理更大规模的数据集,开发了均匀流形近似与投影(UMAP)算法,它比t-SNE的计算成本更低,效率更高。最新的进展是树状图(TMAP)算法,它能以树状布局可视化多达10^7个样本的大型数据集,例如可在10分钟内对包含113万个化合物的ChEMBL数据库进行可视化。
这些无监督学习方法的核心研究逻辑在于,通过将化学空间数据的高维度特性降低,可以推断化合物的潜在生物活性,并识别新的分子骨架(scaffolds)。这种方法已在小分子发现领域取得成功,并被认为在天然产物研究中具有巨大潜力。
未来的方法学将侧重于整合大型类药分子数据库(如Papyrus)与现有天然产物数据库,进行分子标准化,并验证这些降维方法在合成分子和天然产物中的有效性,以实现跨领域知识的转移和利用。
组学预测靶点
图3.基于基因组、代谢组和表型数据预测生物活性及大分子靶点
本图系统阐述了人工智能(AI)在天然产物药物发现中的应用流程,通过整合多组学、结构和生物活性等多样化数据,经过特征提取和机器学习模型的训练,最终实现对天然产物大分子靶点和生物活性的高效预测。
该图详细描绘了利用人工智能加速天然产物(Natural Product, NP)药物发现的综合研究逻辑和方法。整个流程从多源数据获取开始,经过特征提取和数据标准化,最终通过机器学习模型进行预测。
首先,研究的起点是数据获取,涵盖了来自实验和数据库的多种信息。这包括组学数据集(Omics datasets),如基因组学(Genomics)中的DNA序列、转录组学(Transcriptomics)中的RNA信息以及蛋白质组学(Proteomics)中的蛋白质序列和结构。这些数据为天然产物的生物合成提供了基础信息。
其次是代谢组学/结构数据(Metabolomics/structural data),主要通过质谱(Mass Spectrometry, MS)和核磁共振(Nuclear Magnetic Resonance, NMR)等技术获取,用于解析天然产物的分子结构和亚结构。质谱数据可用于分子式注释、分子类别注释,而核磁共振则在谱图重建、去噪、峰识别及结构解析中发挥关键作用。
最后是来源于生物和生物活性(Source organism and bioactivity)数据,指天然产物的产生微生物、植物或动物信息,以及通过体外实验(如培养皿中的抗菌活性、剂量-反应曲线)获得的生物学效应数据,这些是评估潜在药物价值的直接依据。
这些原始数据随后被转化为不同类型的特征(Features)。遗传特征(Genetic features)主要从组学数据中挖掘,包括生物合成基因簇(Biosynthetic Gene Clusters, BGCs),它们是编码天然产物生物合成途径的基因集合;抗性基因(Resistance genes),指示生物体对自身或环境中天然产物的抵抗机制;转运蛋白(Transporters),影响天然产物在细胞内外的运输;以及与初级代谢(Primary metabolism)相关的基因,这些都与天然产物的生成和功能紧密相关。
研究通过机器学习算法(如DeepBGC、GECCO)来识别新型或未聚类的BGCs,超越了传统的基于规则的方法。其他组学特征(Other omics features)可能包括蛋白质的三维结构信息(例如通过AlphaFold预测的)或其他量化组学数据。
化学特征(Chemical features)则直接来源于代谢组学和结构数据,包括分子的三维结构、理化性质、以及各种分子指纹(如圆形指纹、MAP4指纹)和药效团(pharmacophores)。
AI在此阶段被用于从MS/MS谱图中进行de novo结构解析,或从NMR数据中辅助结构鉴定。表型模式(Phenotype patterns)是生物活性实验结果的抽象表示,如不同药物浓度下的细胞生长抑制模式,为预测生物活性提供了宏观依据。
接下来是数据特征化(Featurization of data),这是一个将异构的生物学和化学信息转化为统一的、机器可读的数值格式的关键步骤,形成特征矩阵(Featurization matrix)。这使得不同类型的数据能够被AI模型同时处理。
文中强调,分子特征化方法(如将分子结构转换为位序列或计数)的选择对于机器学习算法的成功至关重要,不同的指纹类型(如圆形指纹、MAP4指纹)适用于不同的分析目的,甚至分子动力学模拟产生的特征也能用于预测分子的理化性质。
最后,特征矩阵被输入到机器学习(Machine learning)模型中。这些模型涵盖了多种AI方法,包括:
1.非机器学习方法(Non-machine learning methods),如用于关联代谢组学和基因组数据的相关性与回归分析。
2.传统机器学习方法(Traditional Machine Learning methods),如用于大分子靶点预测的自组织映射(Self-Organizing Maps, SOMs)和用于基因簇家族分组的聚类分析。
3.深度学习(Deep Learning),如用于化学结构解析的卷积神经网络(Convolutional Neural Networks, CNNs)、用于图像识别的计算机视觉(Computer Vision)。
4.用于文本挖掘的自然语言处理(Natural Language Processing, NLP,如DeepBGC中利用pfam2vec嵌入蛋白质结构域来预测BGCs)。
深度学习因其捕捉非线性关系和处理非表格数据的灵活性而备受关注,例如分子图神经网络用于预测药物-靶点结合亲和力,以及AlphaFold在蛋白质结构预测上的突破。
通过这些AI模型,最终实现对大分子靶点和/或活性预测(Macromolecular target and/or activity prediction),即预测天然产物可能结合的蛋白质靶点及其潜在的生物学功能(如抗菌活性)。这对于筛选和优化潜在的药物候选分子至关重要。2.3.1 天然产物靶点阐明
缺乏对天然产物靶点的了解常阻碍其临床前测试和优化。计算模型可以根据分子结构快速预测最可能的靶点,这已成为活跃研究领域。对接、聚类、生物活性指纹、药效团和机器学习等几乎所有计算药物发现方法都已成功应用于阐明天然产物的靶点。2.3.2 基于经典化学信息学和药效团的生物活性预测
预测天然产物生物活性的方法众多。例如,PASS和SEA等流行预测方法的直接应用已取得一定成功。SPiDER方法基于自组织映射,专门用于预测分子的生物活性,并成功应用于大环天然产物和片段样天然产物。
其他成功的应用包括结合深度神经网络的3D药效团匹配和生物活性特征。Chemprop消息传递神经网络等深度学习模型能够捕获分子的基本性质,从而预测出halicin和abaucin等具有抗菌活性的化合物,这些化合物的结构与已知抗生素类别截然不同。2.3.3 分子动力学模拟和基于结构的生物活性预测
基于结构的方法利用蛋白质靶点的空间信息(可通过实验确定或AlphaFold等深度学习模型获得)来预测化合物的结合模式。虽然计算成本高昂,但硬件和软件的改进使得这些方法更具可行性。分子对接、分子动力学和自由能微扰(FEP)方法有望扩展到研究天然产物的亲和力。2.3.4 基于序列或BGC的生物活性预测
越来越多的方法利用BGCs的DNA和/或蛋白质序列数据结合机器学习来预测生物活性。例如,PRISM通过预测BGC的最终产物并推断其活性。
此外,自然语言处理(NLP)领域的方法,如word2vec,已被扩展到用于BGCs内蛋白质结构域的嵌入,例如pfam2vec,并被DeepBGC和Deep-BGCpred等工具用于预测天然产物活性。2.3.5 基于自抗性、调控或进化特征的生物活性预测
细菌常含有抗性基因,使其能够抵抗自身产生的抗生素天然产物。CARD、NDARO和ResFinder等数据库提供了抗微生物抗性决定因素的信息。通过将这些抗性基因与BGCs关联起来,可以预测天然产物的生物活性。
此外,转录因子网络及其相关的调控元件可用于根据BGCs的控制方式和响应信号进行分类,提供天然产物功能的关键信息,例如预测在病原体入侵时共生微生物中表达的基因簇,从而优先用于抗生素发现。2.4 天然产物药物发现中的新兴AI方法
在上述所有应用领域,AI技术仍处于起步阶段,并且面临着缺乏高质量标准化数据的挑战。然而,通过改进的机器学习模型构建方法和社区驱动的高质量数据集生成倡议,AI方法的准确性有望大幅提高。2.4.1 分子特征化方法
复杂的分子数据通过特征化变得可供机器读取,其关键在于能否简洁地捕获数据中的最重要信息,这对于机器学习算法的成功至关重要。
如图4所示,多种特征化技术可用于编码化学信息,从简单的理化性质到常用的圆形指纹,再到高级的3D和基于神经网络的编码器。例如,圆形指纹在识别结构相关的天然产物方面表现最准确,而MAP4指纹则结合了子结构和原子对概念,可用于区分细菌和真菌天然产物。此外,从短分子动力学模拟中创建的特征也可用于准确预测分配系数、溶剂化自由能甚至配体亲和力。
分子特征化技术
图4.化学特征提取技术
本图系统性地展示了在天然产物药物发现中,如何将复杂的化学信息通过多种特征化技术转化为机器学习可处理的格式。这些技术涵盖了从理化性质到三维结构、文本表示及分子拓扑结构等,最终生成化学特征矩阵,以预测生物学相互作用,为AI驱动的药物研发奠定基础。
该图详细阐述了在人工智能(AI)辅助天然产物药物发现过程中,将分子结构转化为机器学习模型可识别和处理的数值特征(即特征化,Featurization)的关键研究逻辑和方法。这一过程旨在通过提取分子的多维度信息,构建一个全面的化学特征矩阵(Chemical feature matrix),进而用于预测和理解生物学相互作用(Biological interactions)。
首先,图的左上方展示了药效团(Pharmacophores)和理化性质(Physicochemical properties)的特征化。药效团是分子中能够与特定生物靶点结合并产生生物效应的必要空间和电子特征的抽象表示,例如氢键供体、受体、疏水区域或带电基团。
理化性质则涉及分子的固有物理和化学特性,如pH依赖性电离曲线、溶解度、脂溶性(logP)、分子量等。研究逻辑是通过识别和量化这些关键特征,来预测分子在生物系统中的行为和活性。这些性质通常被编码为数值描述符或二值指纹,作为机器学习模型的输入。
其次,图的中间上方描绘了三维结构表示(3D representations)和分子动力学(Molecular dynamics)。三维结构表示捕捉了分子中原子的精确空间排列,这对于分子与靶点的特异性结合至关重要,例如药物如何精确地“插入”蛋白质的结合口袋。
分子动力学是一种计算模拟方法,用于模拟分子随时间变化的动态行为,包括其构象变化、柔韧性以及与周围环境(如溶剂水分子,图中方形框内所示)或生物大分子的相互作用。研究方法是利用这些动态信息来预测分子的结合模式、结合亲和力以及复合物的稳定性。从这些模拟中提取的特征(如形状描述符、相互作用能)为AI模型提供了更深层次的结构信息。
接着,图的右上方呈现了文本表示(Textual representations)和自然语言处理(NLP,Natural Language Processing)技术。文本表示将化学结构编码为线性字符串格式,其中最常见的是SMILES(Simplified Molecular Input Line Entry System,简化分子输入行录入系统)字符串。
自然语言处理技术,最初应用于人类语言,在此处被创新性地用于解析和理解这些化学字符串。研究逻辑是将复杂的化学结构信息转化为类似文本的数据,利用深度学习模型(如编码器-解码器架构或Transformer模型,图中所示模型图标)来学习分子间的内在模式和关系。这种方法能够实现从头设计新分子、预测分子性质等任务,而无需手动进行复杂的特征工程。例如,ChemBERTa等预训练模型便利用了此类方法。
此外,图的左下方展示了拓扑结构(Topologies)和片段(Fragments)的特征化。拓扑结构关注分子中原子的连接模式,而片段则是分子中具有特定化学意义或功能的较小子结构。
研究方法是通过将复杂分子分解为更小的、可识别的单元,或将其连接性表示为数值“指纹”(如圆形指纹、MAP4指纹)。这些指纹是二值向量,每个位代表特定子结构或拓扑特征的存在与否。这种方法在评估化学相似性、分子聚类以及基于已知活性片段预测分子性质方面非常有效。
所有这些不同类型的特征化方法最终汇聚到图的中心——化学特征矩阵。这个矩阵是一个结构化的表格,其中每一行代表一个天然产物(或待研究的分子),每一列则代表一个特定的化学特征或描述符。
研究逻辑在于,通过将多源、多维度的化学信息统一整合到这个数值矩阵中,为下游的机器学习算法提供了标准化、高质量的输入。模型的性能和对结果的解释性都将直接依赖于这个特征矩阵的质量和所选特征的恰当性。
最终,这些经过AI模型处理的化学特征矩阵被用于预测生物学相互作用,如图右下方所示的配体与蛋白质结合的示意图和相互作用热图。这是整个药物发现过程的最终目标,即准确预测天然产物与生物靶点(如蛋白质)的结合亲和力、作用机制以及潜在的生物学效应。通过这种方式,AI能够显著加速天然产物的筛选、优化和药物先导化合物的发现,为医疗应用带来新的希望。2.4.2 深度学习
过去十年中,各种AI算法得到了发展,其中许多已成功应用于天然产物研究。深度学习作为一种机器学习技术,因其能够捕捉非线性关系并接受非表格输入,极大地扩展了AI在天然产物计算研究中的适用范围。
深度学习在分子功能预测、从头药物设计和性质预测方面表现出色,并产生了如AlphaFold(图1c)这样的里程碑式成果,能够从氨基酸序列高精度预测蛋白质的3D结构。这对于天然产物研究具有重要意义,例如预测天然产物生物合成酶家族的底物特异性。
然而,深度学习在天然产物计算研究中仍处于早期阶段,其预测结果应谨慎对待。为了建立信任并充分发挥深度学习的潜力,文章强调了以下最佳实践:将新深度学习模型的性能与更简单模型进行比较、明确模型适用范围、通过交叉验证和真实保留集进行评估,以及解释模型结果以方便实验科学家理解。
2.4.3 解决数据限制的方法
深度学习在天然产物研究中面临的最大挑战之一是缺乏大规模、高质量的开放数据集。为了克服数据稀疏性问题,可以采用多种方法:
1.预训练模型:使用在较大化学数据集上预训练模型的权重(如ChemBERTa或MoleculeNet)可以减少从头训练新模型所需的计算量,并提高预测准确性。
2.半监督学习:结合有标签和无标签数据,有助于在标签不完整的的数据集上进行学习,例如用于改进天然产物生物合成酶的底物特异性预测。
3.迁移学习:将从大量数据任务中学到的知识迁移到数据较少的相关任务中,可以提高模型效率并缓解低数据量带来的问题,例如在从头分子设计中。
4.主动学习:通过实验指导无标签数据的选择和标注,可应用于标注训练数据有限的情况。例如,CANOPUS(基于MS光谱的深度神经网络结构类别注释工具)利用其他AI工具(如ClassyFire和NPClassifier)来标注数据,从而训练网络,实现了复杂混合物中新型rivulariapeptolide蛋白酶抑制剂的结构解析。随着实验分辨率和自动化程度的提高,主动学习有望在未来的天然产物研究中发挥核心作用。
5.强化学习:通过预定义的奖励函数,将机器学习算法的输出引导至用户定义的优化区域,在从头设计中展现出潜力,例如用于规则型有机化学和逆合成预测。
第三节:数据来源和标准化
高质量的训练数据集是AI算法成功的关键。非结构化数据集可用于无监督学习,而监督学习则需要准确标注且范围足够的数据。天然产物领域面临的特殊挑战在于化学空间广阔但已发布数据集的覆盖率较低。
如表1所示,概述了天然产物数据资源,包括化学结构、基因组学、光谱学以及与天然产物相关的有用资源。许多大型通用数据库(如PubChem、ChEMBL)中天然产物数据代表性不足或未明确标注。
天然产物数据库
表1. 天然产物数据库
本表(Table 1)全面概述了人工智能(AI)在天然产物(Natural Product, NP)药物发现中所需和利用的关键数据库资源,涵盖了化学结构、生物合成基因簇(BGC)、谱学数据及通用化学信息,并详细列举了这些数据库的特性,揭示了高质量数据对AI模型训练的基石作用及其面临的标准化挑战。
该表详细分类并列举了与天然产物(Natural Product, NP)研究相关的多种数据库资源,这些资源构成了人工智能(AI)驱动天然产物药物发现的基石。整体研究逻辑在于,通过整合和标准化这些多源异构数据,为AI模型提供高质量的训练集,从而加速天然产物的发现、结构解析、活性预测和药物开发。
化学特异性资源(Chemical-specific resources)
这一类数据库,如LOTUS、COCONUT和Natural Products Atlas,专门聚焦于天然产物的化学信息。它们提供了丰富的化学标识符(Chemical identifiers)、化学结构(Chemical structures)以及大量的文档化条目(Documented entries)。
这些数据库的共同特点是高度专注于天然产物,并且大多数提供应用程序编程接口(Application Programming Interface, API)和完整数据下载(Full dump available)功能,这对于研究人员进行大规模数据获取、自动化处理以及训练复杂的AI模型至关重要。
例如,LOTUS和COCONUT不仅包含生产生物的分类学信息(Producer taxonomy),还提供分子描述符(Molecular descriptors)、化学分类(Chemical classification)和生物活性(Bioactivities)等计算数据。Natural Products Atlas则侧重于微生物来源的天然产物。
在研究逻辑上,这些数据库是AI进行定量构效关系(Quantitative Structure-Activity Relationship, QSAR)建模、分子相似性搜索、从头设计(de novo design)以及预测天然产物“类药性”(natural product-likeness)的基础。
AI模型可以从这些结构和活性数据中学习,识别结构-功能关系,从而指导新药的发现。例如,文献指出NP Atlas、COCONUT和LOTUS已被用作训练数据集,用于预测分子的天然产物相似性以及自动化化学分类。
生物合成基因簇(BGC)资源 (BGC resources)
这一类别包括MIBiG、antiSMASH database和PRISM gold standard BGCs,它们的核心是天然产物的生物合成基因簇(Biosynthetic Gene Cluster, BGC)。
BGC是指在基因组中编码特定天然产物合成途径的基因群。这些数据库记录了BGC的基因组坐标、基因功能注释以及其产生的化合物信息。例如,MIBiG是一个广泛使用的数据库,提供了实验验证的BGC信息,支持API和完整数据下载。
antiSMASH database则是一个强大的生物信息学工具,用于自动识别和注释基因组中的BGC。PRISM gold standard BGCs则提供了高质量的BGC数据集。研究逻辑上,这些BGC资源对于AI进行基因组挖掘(genome mining)至关重要,旨在从基因序列数据中预测生物合成基因和代谢物结构。
AI算法,如基于深度学习的DeepBGC和GECCO,能够识别传统规则方法难以发现的新型BGC。通过整合基因组和代谢组数据,AI有望将基因组中挖掘到的BGC与未明确的代谢物谱图和预测的分子类别关联起来,从而“去孤儿化”(de-orphan)那些已知BGC但其产物未知,或已知产物但其BGC未知的天然产物,这对于发现新的活性分子具有颠覆性意义。谱学资源 (Spectral resources)
此部分数据库,如GNPS、MassBank、NP-MRD、CH-NMR-NP和MetaboLights,专注于天然产物的质谱(Mass Spectrometry, MS)和核磁共振(Nuclear Magnetic Resonance, NMR)谱学数据。这些数据是解析天然产物化学结构的关键。
例如,GNPS(Global Natural Product Social Molecular Networking)和MassBank提供了大量的MS和串联质谱(MS/MS)数据,而NP-MRD(Natural Products Magnetic Resonance Database)和CH-NMR-NP则专注于NMR数据。MetaboLights和Paired Omics Data Platform则提供了更广泛的代谢组学数据,包括MS和NMR。
研究逻辑上,AI在谱学数据分析中的应用旨在克服从复杂谱图中推断分子结构和亚结构(substructure)的挑战。AI算法被用于质谱库匹配、分子式注释、分子类别注释以及保留时间预测。
对于NMR数据,AI则有助于谱图重建、去噪、峰识别和J耦合预测。这些AI方法通过学习海量谱图与已知结构之间的模式,可以显著加速未知天然产物的结构鉴定过程。例如,文献提到CANOPUS是一个基于MS谱图的深度神经网络工具,用于结构类别注释。
天然产物友好型通用资源 (NP-friendly useful resources)
这一类别包含了一些更广泛的化学和生物学数据库,如ZINC、ChEBI、ChEMBL、WikiPathways、Reactome、CO-ADD和Wikidata。尽管它们并非完全专注于天然产物,但包含了大量对天然产物研究有用的信息。
例如,ChEMBL是一个广泛的生物活性数据库,包含大量化合物的生物活性数据,对预测天然产物的宏分子靶点(macromolecular targets)和生物活性至关重要。ZINC提供了大量可用于虚拟筛选的化合物。WikiPathways和Reactome则专注于代谢通路和反应网络。
CO-ADD是一个社区驱动的抗生素发现平台,提供了标准化的生物活性测试数据。研究逻辑上,这些通用资源可以作为AI模型的补充训练数据,尤其是在天然产物特异性数据稀缺时。
AI可以通过迁移学习(transfer learning)或半监督学习(semi-supervised learning)的方法,利用这些大型通用数据集的知识来增强其在天然产物领域的预测能力。此外,这些数据库提供的生物活性和通路信息有助于AI理解天然产物的机制,并指导药物重定位(drug repurposing)和靶点发现。
3.1 天然产物数据库现状
天然产物数据库种类繁多但高度分散,缺乏全面且精心策划的数据资源。许多大型通用数据库(如PubChem、ChEMBL)中天然产物数据代表性不足或未明确标注。截至2023年1月,只有8,951种天然产物具有ChEMBL标识符。
此外,大多数天然产物数据库缺乏数据来源、采集和变更的记录(数据溯源),例如文献引用或来源生物体和相关BGCs信息可能缺失。
虽然部分数据库(如ChEMBL和BindingDB)包含纯化合物的生物活性数据,但很少有数据库包含天然产物提取物和组分的生物活性数据。这些问题严重限制了可用于训练AI模型的数据集的可用性。3.2 天然产物数据传播的挑战3.2.1 文献整理
科学出版仍是传播新天然产物信息的主要机制。然而,由于数据并非机器可读格式,从天然产物期刊中自动提取数据通常是不可能的。数据库的完整性也受到涉及天然产物研究期刊范围广泛的阻碍。因此,数据库开发者必须手动整理文章以转换为结构化数据格式。3.2.2 数据沉积
尽管一些大型天然产物数据存储库(如MIBiG、NP Atlas、GNPS、NP-MRD和Norine)提供了用户数据沉积机制,但由于缺乏明确的激励,沉积率较低。如图5所示,展示了天然产物数据的沉积和共享基础设施及激励措施,强调了标准化沉积的重要性。
管理数据沉积的基础设施以及策划和纠正错误复杂且耗时,常超出学术数据库开发者的能力。作者建议,可以通过提供“附加值”(如数据“整理马拉松”中的作者身份、增加引用、合作机会)或“强制要求”(如期刊和/或资助机构强制要求数据沉积)来激励数据沉积。
数据共享框架
图5.天然产物数据的存储与共享:基础设施与激励机制本图全面展示了人工智能(AI)在天然产物药物发现中的数据生态系统,从多组学原始数据收集到结构化数据库存储,再到促进数据共享与互操作性的激励机制,构建了支持AI驱动发现的完整逻辑链条。
该图以层级结构清晰地阐述了人工智能在天然产物药物发现中的应用基础,核心在于数据的生成、组织、共享与整合,从而为AI模型的训练和应用提供高质量的输入。
首先,图的顶部“Data”层描绘了天然产物研究中主要的原始数据来源。这些数据包括基因组学(Genomics),即生物体的DNA序列信息,其中包含编码天然产物的生物合成基因簇(biosynthetic gene clusters, BGCs)潜力。文本指出,计算组学技术已为获取天然产物隐藏多样性提供了新途径。
其次是质谱(Mass Spectrometry, MS)数据,通过测量分子质量和碎片模式来推断代谢物的结构。原文提及AI被用于解决质谱代谢组学挖掘中的常见挑战,如谱库匹配、分子式注释和分子类别注释。核磁共振(Nuclear Magnetic Resonance, NMR)数据则提供化合物的详细结构信息,AI在此领域被用于改进谱图重建、去噪、峰值拾取和谱图去卷积。
最后,出版物(Publications)代表了传统的研究成果发布形式,其中蕴含大量有价值但非结构化的数据。这些多样的原始数据是AI在天然产物发现中进行模式识别、预测和结构解析的基石。
接下来,图的中间层“Database types”和“Database submission and interoperability”展示了如何将这些原始数据结构化并存储于专门的数据库中,以提高其可访问性和互操作性。针对不同数据类型,建立了相应的数据库:
1.基因组(Genomes)数据被存储在NCBI GenBank/RefSeq、ENA、DDBJ等通用基因组数据库,以及MGnify、JGI IMG、MycoCosm和Phytozome等更专业的数据库中。
2.生物合成基因簇(BGCs)则有antiSMASH和MIBiG(Minimum Information about a Biosynthetic Gene cluster)等数据库进行特异性注释和管理。MIBiG被原文描述为“一个社区驱动的、旨在注释实验验证的生物合成基因簇的努力”。
3.质谱数据(Mass spectrometry data)存储于MassIVE、GNPS(Global Natural Product Social Molecular Networking)和MetaboLights等平台,这些平台支持质谱数据的共享和社区策展。
4.核磁共振数据(NMR data)主要汇集在NP-MRD(Natural Products Magnetic Resonance Database)中。
5.化学结构和元数据(Chemical structure and metadata)则通过NP Atlas(Natural Products Atlas)等数据库进行整理,该数据库专门收录微生物来源的天然产物结构信息。
“Paired omics”部分,如Paired Omics Data Platform、NCBI BioSample和EBI BioSamples,则专注于整合来自同一生物样本的不同组学数据,例如基因组学与代谢组学数据,以实现更全面的关联分析。
原文强调,高质量的训练数据集对AI算法的成功至关重要,而目前天然产物数据库的碎片化、互操作性差和缺乏标准化是主要挑战。因此,建立这些结构化的数据库并确保它们之间的互联互通是AI应用的关键一步,它为AI模型提供了可理解和可处理的输入格式。
最后,图的底部“Incentives to submitting and sharing data”强调了促进数据提交和共享的重要性及其驱动因素。为了克服数据不足的挑战,需要激励研究人员将他们的数据贡献到公共数据库中。这些激励包括:
1.发起合作(Initiating collaborations):数据共享可以促进跨机构、跨学科的合作。
2.与参考数据比较生物合成基因簇(Comparison of biosynthetic gene clusters with reference data):共享数据有助于更广泛地验证和理解BGCs。
3.识别相似化学结构或生物合成基因(Identification of similar chemical structures or biosynthetic genes):共享数据有助于天然产物的去重复化和新分子的发现。
4.社区注释(Community annotation):集体力量可以提高数据的质量和丰富度。
5.增加引用量(Increasing citations):数据贡献者将因其数据被重用和引用而获得学术认可。3.3 数据标准化的必要性
高质量数据集的基础始于实验设计和实践的一致性。目前,公共领域中大多数高质量的天然产物相关数据集由少数实验室生成,但由于样本多样性不足和单一研究中可用数据类型有限,其价值受到限制。即使使用适当的对照和重复,不同实验室间检测到的特征质量和数量也可能存在根本差异。
实现标准化,关键在于现有天然产物数据库之间的互操作性。除了特定的持久标识符,数据互操作性还需要通用语言(即受控词汇表)。开放标准在定义交换格式、词汇表和本体以及实验协议方面发挥着重要作用。
例如,它们可以促进天然产物结构表征的准确描述和报告。如表2所推荐的本体和受控词汇表,涵盖了生物学、化学、组学、医学/生物医学以及整合等多个领域,旨在为天然产物研究提供标准化术语。
推荐本体词汇
表2.天然产物研究推荐的本体论与受控词汇
该图展示了自然产物研究中推荐使用的本体(Ontologies)和受控词汇(Controlled Vocabularies)清单,旨在通过标准化生物学、化学、组学、医学/生物医学及数据整合等领域的术语和格式,提升数据质量、互操作性和可整合性,从而加速人工智能驱动的药物发现。
生物学(Biology)
在生物学(Biology)领域,一系列本体和受控词汇被推荐用于标准化生物学信息,这对于理解自然产物的来源、生物背景及其功能至关重要。
例如,植物本体(Plant Ontology, PO)提供了一套受控词汇、格式和标准,用于结构化描述植物的解剖学、形态学、生长和发育,以便处理植物基因组数据。
BRENDA组织本体(BRENDA Tissue Ontology, BTO)则通过受控词汇和格式,详细描述了酶的来源,如组织、细胞系、细胞类型和细胞培养。基因本体(Gene Ontology, GO)提供了一个框架和一套概念,用于描述基因产物的功能。PIERO酶反应本体(PIERO Enzyme Reaction Ontology)专注于酶促反应的部分反应特征。
表型和性状本体(Phenotype And Trait Ontology, PATO)用于描述表型特性,而NCBI分类法(NCBI Taxonomy, NCBITAXON)则提供了NCBI生物体分类的受控词汇。最后,生物测定本体(BioAssay Ontology, BAO)**提供了生物筛选测定方法的结构化描述,这在原文中被提及为生物活性数据标准化存储的关键。
这些生物学本体的研究逻辑在于,通过对生物来源、功能和实验条件的标准化描述,AI模型能够更准确地关联自然产物的结构与生物活性,并预测其潜在靶点。例如,对“样本分类学”(sample taxonomy)的精确注释是重要元数据的一部分,而BAO在标准化纯化合物生物活性数据方面发挥了作用。
化学(Chemistry)
化学(Chemistry)领域本体主要关注自然产物的化学结构、分类和表征方法。生物学兴趣的化学实体(Chemical Entities of Biological Interest, ChEBI)提供了一个受控词汇、化学类别和标准,用于对具有生物学意义的“小”化学化合物进行结构化分类。
自然产物分类器本体(NPClassifier Ontology)则为自然产物中的次生代谢提供了语义词汇和分类。ChemOnt(源自ClassyFire)通过提取科学文献和现有化学数据库中常见的化学分类类别术语,提供结构化描述。
化学信息本体(Chemical Information Ontology, CHEMINF)为化学信息学软件应用和算法中常用的描述符提供了术语。化学方法本体(Chemical Methods Ontology)描述了化学实验中用于收集数据的方法和仪器。反应本体(Reaction Ontology, RXNO)则提供了反应名称的本体。
这些化学本体在研究中的逻辑和方法是为自然产物的结构表征、从质谱和核磁共振数据进行从头鉴定以及将化学特征与生物活性联系起来提供统一的语言。原文强调了“将化合物结构准确注释到代谢组学数据集”的重要性,并指出“自然产物的化学结构和生物合成数据目前已相当标准化和集中化”。ChemOnt的前身ClassyFire在CANOPUS工具中被用于结构类别注释。
组学(Omics)
组学(Omics)本体专注于标准化不同组学数据(如基因组学、蛋白质组学、代谢组学)的实验设计、数据格式和注释。实验因子本体(Experimental Factor Ontology, EFO)提供了对EBI数据库中许多实验变量的系统描述。
代谢组学标准倡议本体(Metabolomics Standards Initiative Ontology, MSIO)支持基于质谱和核磁共振的代谢组学实验和通量研究的描述和注释。序列类型和特征本体(Sequence types and features ontology, SO)为序列注释提供了结构化受控词汇。
RNA本体(The RNA Ontology, RNAO)涉及RNA功能。GENO本体提供了基因型、其序列组分以及与相应生物学和实验实体链接的OWL模型。PRIDE受控词汇(PRIDE Controlled Vocabulary)是针对PRIDE(蛋白质组学鉴定)的本体。这些本体的研究逻辑在于,组学技术是自然产物发现的核心,但其数据固有的异质性(heterogeneity)带来了巨大的标准化挑战。
通过使用这些本体,可以确保实验条件、序列数据和代谢物数据的标准化注释,从而实现大规模数据整合,并为AI算法提供可靠的训练数据。原文指出,基因组学、蛋白质组学和转录组学领域已经发展出色的社区标准,促进了数据标准化,并特别提到了MSIO在代谢组学中的应用。
医学/生物医学(Medical/Biomedical)
医学/生物医学(Medical/Biomedical)本体旨在将自然产物与疾病治疗、药物作用机制和耐药性等生物医学概念联系起来。生物医学调查本体(Ontology for Biomedical Investigations, OBI)提供了对生物医学调查的描述。药物本体(The Drug Ontology, DRON)包含了药物的成分、作用机制、生理效应和治疗意图。
抗生素耐药性本体(Antibiotic Resistance Ontology, ARO)描述了抗生素耐药基因及其突变。这些本体的研究逻辑在于,它们是连接自然产物与药物开发、临床应用的关键桥梁。
通过标准化描述药物属性、作用机制和耐药性信息,AI模型可以更好地预测自然产物的治疗潜力、可能的不良反应以及克服耐药性的策略。原文提到了通过预测“耐药基因”(resistance genes)来预测生物活性的方法,并提到了“综合抗生素耐药性数据库(Comprehensive Antibiotic Resistance Database, CARD)”等利用这些概念的数据库。
整合(Integration)
最后,整合(Integration)本体则着眼于实现不同数据类型之间的无缝连接和互操作性。语义科学整合本体(Semanticscience Integrated Ontology, SIO)提供了一个受控词汇,用于对对象、过程及其属性进行丰富描述的类型和关系整合本体。单位本体(Unit Ontology, UO)标准化了测量单位。
引用类型本体(Citation Typing Ontology, CiTO)描述了科学研究文章和其他学术著作中参考文献引用的性质。这些本体的研究逻辑和方法是为跨领域、多源数据的整合提供基础架构。
文中强调了“现有自然产物数据库之间的互操作性”以及“语义网方法”在标准化知识传播和数据整合方面的重要作用。SIO作为一种通用本体,其目标是提供一个统一的框架,将来自不同本体和数据库的信息连接起来,从而克服数据碎片化(fragmentation)的挑战,为AI模型提供更全面、互联的数据视图。3.4 数据注释的必要性
除了基本的元数据(如样本分类、提取制备协议和仪器参数),添加上下文注释可以大大增加天然产物数据集的价值。例如,对代谢组学数据集进行准确的化合物结构注释,将为构建整合结构、生物学和/或基因组数据的机器学习模型提供大量机会。
然而,创建带注释的数据集面临两个主要障碍:一是大多数数据集可以以多种不同方式进行注释,使得将不同研究的注释聚合到一个单一的训练集中不切实际;二是大多数注释方法包含偏差和错误分配的元素,这将影响模型结构和准确性。3.5 数据整合的必要性
随着组学技术日趋成熟,平台间的数据整合需求日益增长,这对于AI模型的发展至关重要,因为某些问题只有通过考虑多种数据类型才能解决。例如,NMR光谱和MS碎片化数据的大规模整合可以显著提高自动化化合物识别平台的准确性和覆盖范围。
数据整合涉及两项核心活动:数据集配对用于分析(如配对组学数据平台),或跨数据类型链接原始或处理过的数据(如肽基因组学、糖基因组学、代谢基因组学或NPLinker平台)。虽然NPLinker、GraphOmics和anvi'o等早期工具正在克服部分挑战,但促进和简化链接数据分析和解释的工具数量仍然非常有限。3.6 AI模型训练集和基准测试
机器可读数据对于创建AI模型训练集至关重要。虽然数据通常已经收集,但它们要么以非标准化书面形式发布,要么根本未报告。精心策划和一致的元数据也是训练成功模型的关键。
现有天然产物训练和基准测试集,例如NP Atlas、COCONUT和LOTUS数据库提供化学结构信息,MIBiG数据库包含BGCs信息。这些资源已被应用于广泛的机器学习应用,包括预测分子的天然产物相似性、从头BGC预测、化学结构与质谱匹配、天然产物结构的自动化化学分类以及从NMR光谱匹配中识别未知代谢物。
然而,在催化活性生物合成修饰酶(预测天然产物结构的关键)和生物活性(理解结构-活性和结构-性质关系的关键)方面,天然产物数据库覆盖不足。前者缺乏精心策划的数据限制了我们从BGC数据预测核心结构及其修饰的能力。
后者缺乏标准化生物活性训练集阻碍了我们预测新发现天然产物或生物信息学工具预测的天然产物结构的潜在靶点空间。尽管用于化学结构和BGCs的训练集已逐渐满足AI模型构建需求,但几乎没有高质量的数据集可用于基准测试基因组挖掘或MS数据中的AI模型性能。
天然产物的生物活性和作用模式数据可能是指导未来天然产物药物发现最关键的数据类型,但目前标准化和系统记录最少。尽管ChEMBL等数据库可以存储此类数据,但绝大多数天然产物活性数据从未被沉积,只能在手稿的文本或补充材料中找到。
此外,活性数据生成协议高度多样化,进一步阻碍了不同实验室生成数据集的直接比较。统一的数据标准化工作也呼吁使用标准化的生长培养基和培养条件。
例如,国际链霉菌项目(ISP)培养基就是为此目的设计的。填充生物活性数据库与目标标准化数据集和培养条件将非常有益。目前已有一些努力在生成特定类型的数据,例如NCI60肿瘤细胞系面板和CO-ADD(一个社区驱动的抗生素发现方法),它们允许化合物被送往中心地点,根据标准化协议测试其活性。
结论
Conclusion
AI在天然产物药物发现领域的进展主要受限于缺乏大规模、高质量的数据集,而非创新算法的匮乏。对于该领域,文章建议不要盲目追随最新的AI趋势,而应仔细考虑何种算法最适合可用数据的类型和数量。鉴于天然产物数据集通常远小于通用计算机视觉相关数据集,参数较少的简单模型可能更成功,且不易出现过拟合。
尽管如此,通过跨学科借鉴算法(如自然语言处理),该领域已取得突破。算法的进步尤其需要从化学光谱、DNA序列、结构和生物活性信息等多种异构数据源中提取有意义的特征。
另一个机会是采取“主动学习”方法来生成数据集,即表征序列、化学、结构或生物活性空间中未充分探索的领域,以增加有效数据点的数量。同时,认识到AI方法通常无法预测全新的化学、前所未见的作用机制或全新的酶催化活性也很重要。因此,需要投入基础生物化学研究,以阐明AI目前尚无法提供有意义见解的生化空间部分。
数据驱动的AI新发现依赖于基础数据库的长期保存和维护。然而,尽管AI完全依赖于高质量数据,但数据库维护的长期稳定资金支持却难以获得。因此,为了未来的AI进展,持续支持数据库维护和互操作性应成为国际和国家资助机构的优先事项。
鉴于天然产物研究涉及的数据类型繁多,单一的整体存储库不太可能满足整个天然产物社区的需求。相反,专门针对天然产物数据不同方面(如结构、BGCs、光谱数据和生物活性)的存储库必须注重提高互操作性,以构建一个分布式的数据资源网络。
这种互操作性不仅应涉及数据库之间条目的连接,还应考虑集成数据沉积和核心数据类型的通用标准化协议。天然产物社区必须优先并推动这些努力,才能从AI技术提供的新兴和令人兴奋的应用中受益。
最后,文章强调,全球科学界的集体资源远超任何单个实验室的能力。如果提供适当的激励和指导方针,社区生成和策划的数据集在推动AI驱动的天然产物药物发现领域方面具有巨大的潜力。
原文链接:https://doi.org/10.1038/s41573-023-00774-7