Basic Information
英文标题:Integrated multi-omics with machine learning to uncover the intricacies of kidney disease Open Access
中文标题:整合多组学与机器学习以揭示肾脏疾病的复杂机制
发表日期:31 July 2024
文章类型:Review
所属期刊:Briefings in Bioinformatics
文章作者:Na
文章链接:https://academic.oup.com/bib/article/25/5/bbae364/7724464Abstract
组学技术的发展极大地推动了生物数据规模的扩展以及内部维度复杂性的增加,促使人们利用机器学习(ML)作为提取知识和理解潜在生物学模式的强大工具包。
肾脏疾病是当前全球主要的、日益严重的健康威胁之一,其发病机制复杂,且缺乏基于精确分子病理学的治疗手段。
因此,需要先进的高通量方法来捕捉隐含的分子特征,以补充当前的实验和统计方法。
本综述旨在阐明将多组学数据与适当的机器学习方法相结合的策略,重点介绍关键的临床转化场景,包括预测疾病进展风险以改善医疗决策、全面理解疾病的分子机制,以及图像识别在肾脏数字病理学中的实际应用。
分析当前整合工作的优势与挑战,有望揭示肾脏疾病复杂性,并推动临床实践的进步。IntroductionPara_01
肾脏疾病是一个重大的全球健康问题,在过去十年中,其死亡率在所有类型疾病中增幅最大之一。
然而,慢性肾病(CKD)仍然未被患者和医疗服务提供者充分认知。
在2018至2019年间,中国约有8200万名成年人患有慢性肾病,但知晓率仅为10%。
在全球范围内,由于缺乏有效的肾脏疾病治疗方法,每年导致超过500万人死亡。
事实上,肾脏病学领域缺乏针对特定肾脏疾病具体病理生理过程的靶向诊断和治疗方法。
因此阻碍了靶向治疗和精准医学的实施。Para_02
组学研究构成了精准医学的基石,使得个体化的治疗方法成为可能
肿瘤学领域是精准医学进展和应用的典范
但在肾病学中的临床应用仍显不足
在当前的临床实践中,采集血液、尿液(一种针对肾脏疾病的独特无创方法,被称为‘液体活检’)和活检组织作为生物样本,可以提供详细的分子组学数据
在过去十年中,这促使肾脏疾病的研究大幅增加,并积累了大量而复杂的数据集
随着技术的不断进步,多组学研究与新兴的单细胞和空间组学、影像组学、数字病理学以及计算图像分析的整合已成为当前肾脏研究的主要方法之一
不同类型数据的综合分析对传统分析方法提出了挑战,也加速了人工智能(AI)技术和机器学习(ML)的应用,以增强对内在且关键信息的理解
通常可以获得超越传统统计方法范围的结果Para_03
本综述概述了多组学数据与机器学习整合以改善临床实践的各种方式。我们通过技术实践及其在疾病发生和进展的精准预测、肾脏分子机制的深入理解以及肾脏数字病理图像分析策略方面的临床应用实例进行了阐述。Integrating and elucidating multi-omics data
整合并阐明多组学数据Para_04
作为维持体液稳态、清除代谢废物以及维持血压的重要器官,肾脏因其极其复杂的解剖结构、多样的细胞类型以及与多个系统疾病相关的复杂分子机制而具有独特性。
这种复杂性使其非常适合在数据驱动的生物医学多组学研究中整合大数据。
具体来说,多组学一词通常涵盖广泛的生物学数据,包括基因(基因组学)、基因表达的广泛变化(表观基因组学)、核糖核酸(RNA,转录组学)、蛋白质(蛋白质组学)以及DNA复制、转录、翻译和翻译后修饰过程中产生的下游小分子代谢物(代谢组学)。
与传统测量单一生物分子的实验不同,组学技术能够全面揭示来自同一生物来源的细胞、组织或器官中的所有基因、转录本、蛋白质和代谢物,提供覆盖整个肾脏的详细分子图谱、调控因子、细胞类型注释以及空间定位信息。Para_05
多组学整合利用先进的计算技术结合各种组学层面,使得患者亚群得以重新分类,从而更好地揭示肾脏病学中的潜在分子机制,并支持临床诊断和靶向治疗(图1)。
每种组学数据类型通常提供一系列可能与疾病相关的差异因子,例如差异表达基因(DEGs)、差异表达蛋白和差异DNA甲基化区域。
例如,通过比较健康人和患病个体之间的转录水平,可以在两个或多个样本集中识别出差异表达基因[21]。
广泛的差异因子范围将进一步缩小,随后通过实验方法或外部患者队列进行验证[22],最终可以识别出与肾脏疾病相关的关键基因和调控元件[23–25]。
例如,为了识别关键生物标志物,最近一项关于膜性肾病(MN)和泛癌分析的研究[26]采用机器学习方法将一组318个衰老相关基因与366个差异表达基因相交。
这种方法识别出了13个衰老相关的差异表达基因,进一步交叉并通过对人类肾活检组织的免疫组化分析验证,最终发现了六个核心基因。
图片说明
◉ 图1 从临床生物样本中生成和利用多组学层次的概述,进而发现新的机制和分子亚型,从而支持临床诊断、靶向治疗和预后改善。以下列出了一些常见的相关方法,但并非全部。◉ Listed below are some common related methods, not exhaustive.Powerful open data and online tools
强大的开放数据和在线工具Para_06
公共数据是推动医学研究向前发展的关键力量。
各种通用分子数据库以及针对肾脏疾病的专业数据库(见表1)代表了有关病理机制和分子靶点的丰富信息来源。
- 图片说明
◉ 表1 通用和肾脏病学专用的分子数据存储库
[001-table]Tool . Data types/features . Purpose . Website . General repositories Sequence Read Archive (SRA) DNA sequencing data, especially ‘short reads’ (<1000 base pairs) Archive raw reads from high-throughput sequencing ncbi.nlm.nih.gov/sra Gene Expression Omnibus (GEO) Microarray, next-generation sequencing, and other forms of high-throughput functional genomics data ·Store high-throughput functional genomic data and gene expression profiles·Offer easy submission procedures and formats for complete, well-annotated data·Provide tools to query, review, and download studies and gene expression profiles ncbi.nlm.nih.gov/geo Encyclopedia of DNA elements (ENCODE) Functional elements in the human genome, including protein and RNA levels, regulatory elements Organize and search functional annotations encodeproject.org Online Mendelian Inheritance in Man (OMIM) Mendelian disorders and over 16,000 genes Discover the relationship between phenotype and genotype omim.org GeneCards Gene-centric data including genomic, transcriptomic, proteomic, genetic, clinical and functional information Provide information on all annotated and predicted human genes genecards.org The Cancer Genome Atlas (TCGA) 20 000+ primary cancer and matched normal samples, 33 cancer types, 2.5 petabytes of data Improve cancer diagnosis, treatment, prevention cancer.gov/tcga ArrayExpress Functional genomics data (both processed and raw data), metadata, sample annotations, protocols Store data from high-throughput genomics experiments ebi.ac.uk/arrayexpress Expression Atlas Gene and protein expression data Provide RNA/protein abundance across species and conditions ebi.ac.uk/gxa/home Human Protein Atlas (HPA) Protein expression data, high-resolution immunohistochemistry images Map all human proteins in cells, tissues, and organs proteinatlas.org Human Metabolome Database (HMDB) 114 100 metabolite entries, water-soluble and lipid-soluble metabolites, protein sequences Metabolomics, clinical chemistry, biomarker discovery hmdb.ca UK Biobank Data from 500 000 participants, blood, urine, saliva samples, lifestyle information Large-scale biomedical database and research resource ukbiobank.ac.uk Nephrology-specific repositories Nephroseq Transcriptomic profiles of biopsy samples from patients with kidney disease Clinical metadata from patients including age, sex, UPCR, eGFR Transcriptomic profiles of kidneys from model systems Identifying disease-related signatures Correlation of gene expression with clinical features nephroseq.org NephQTL Gene expression profiles from biopsy samples, 187 NEPTUNE cohort participants, SNP genotype frequency Discover glomerular and tubule eQTLs nephqtl.org Nephrocell scRNA-seq data from kidney biopsy samples and organoids Cell-selective gene marker identification nephrocell.miktmc.org Human Kidney eQTL Atlas Compartment-specific (glomeruli and tubulointerstitial) gene expression profiles Compartment-specific as well as whole kidney eQTL discovery susztaklab.com/eqtl Kidney Interactive Transcriptomics Single-cell and single nuclear RNA-seq datasets Cell-selective gene marker identification humphreyslab.com/SingleCell Kidney-Omics(Renal Epithelial Transcriptome and Proteome Databases) Renal Epithelial general proteomics, Specialized Proteomics, Categorized Gene Lists, Chip-Seq Data, Transcriptomic Data, Meta Analysis, Urinary Exosomes, Phospho-proteomics Gene and protein centred queries in kidney tissues, cells and segments esbl.nhlbi.nih.gov/Databases/KSBP2/ Rebuilding a Kidney Consortium scRNA-seq visualizations from kidney biopsy samples Coordinate studies and data relevant to nephron regeneration Primary data access rebuildingakidney.org [001-table-description]This table presents some, but not all, of the commonly used database and online website tools. eGFR: glomerular filtration rate; UPCR: urine protein-creatinine ratioIdentified genetic variants associated with kidney disease
已鉴定出与肾脏疾病相关的遗传变异Para_07
许多因素会影响肾脏功能和疾病状态,其中遗传背景是一个关键的决定性因素
先前的研究已经发现许多单基因突变会导致肾脏疾病,例如Alport综合征和Fabry病
遗传变异这一术语包含三种情况:(1)单核苷酸替换,包括罕见突变、常见多态性或单核苷酸多态性(SNPs);(2)插入/缺失(indels);(3)结构变异
例如,大量研究发现,APOL1中的遗传变异显著增加了非洲血统人群中多种严重肾脏疾病的患病风险,其中APOL1 G1变异包括两个改变氨基酸的SNP(突变),而APOL1 G2变异则涉及一个六个核苷酸的缺失
单核苷酸替换是研究最多的遗传变异类型
术语SNP通常指基因组特定位置上的单核苷酸变化
虽然某些单核苷酸替换可能对表型没有明显影响,但另一些可能是致命的Para_08
识别表达数量性状位点分析(eQTLs)是研究遗传变异对疾病影响的关键分析方法。
分析这些位点上表现出的多态性可以揭示特定基因产物在RNA或蛋白质表达水平上的部分变异。
将基因组测序数据与转录组或蛋白质组表达数据整合,可以确定这些位点。
重要的是,这些研究有助于阐明基因变异在调控肾脏疾病转录机制中的功能后果。
例如,利用从人类肾活检中获得的240个肾小球和311个小管间质区显微解剖样本,可以构建肾脏疾病的基因组调控图谱,并通过全基因组关联研究(GWAS)对目标位点进行精细定位。Para_09
目前,肾脏特异性的eQTL已被用于识别潜在的新型疾病修饰因子和靶点,例如溶酶体β-葡萄糖苷酶的表达[34]和疾病严重程度。
此外,特定于细胞区室的eQTL[35]有助于识别与慢性肾病(CKD)进展相关的新基因靶点和细胞通路,例如TGF-β和DAB2。
越来越多的遗传学和转录组学研究将进一步加深我们对肾脏疾病的遗传决定因素的理解,并有助于识别导致遗传易感人群中疾病进展的初始损伤和转录通路。Epigenomics mediates crosstalk between genes and environmental factors in the kidney
表观基因组介导肾脏中基因与环境因素之间的相互作用Para_10
越来越多的证据表明,表观遗传调控通过在基因与环境之间的相互作用中发挥重要作用,并诱导表型变化,从而参与各种肾脏疾病的发生发展[36,37]。
表观基因组学研究的是不改变初级核苷酸序列的情况下控制基因表达的可遗传机制,这些机制被认为在细胞分裂过程中是稳定的、可遗传的且可逆的[37]。
最深入研究的表观遗传标记包括胞嘧啶的DNA甲基化[39,40]、组蛋白翻译后修饰(PTMs)[41,42]以及非编码RNA[43,44]。
传统上,密集的启动子区域DNA甲基化被认为与转录抑制相关[45]。
例如,超甲基化导致HOXA5的丢失,进而引发JAG1表达和NOTCH信号通路激活,促进肾脏纤维化的发展[46]。
然而,越来越多的证据表明,启动子区域的超甲基化似乎也与高水平的转录活性有关[47]。
总体而言,靶向DNA甲基化和其他表观遗传机制被认为能有效影响肾脏病的发展进程[48]。
此前的一项全表观基因组关联研究(EWAS)发现了19个DNA甲基化位点,这些位点显著且可重复地与eGFR或慢性肾病(CKD)相关联[49]。
最近的一项研究进一步表明,甲基化风险评分可以改善疾病状态注释及肾脏疾病发展的预测能力[50],为开发新的风险分层方法提供了潜在路径,提示EWAS能够补充全基因组关联研究(GWAS)所揭示的基因型变异,并提供关于疾病易感性和因果关系的有力信息。Para_11
表观遗传学、表观基因组学和代谢记忆的研究可能会填补我们在肾脏疾病发展理解上的一个关键空白,尤其是在糖尿病、高血压和肥胖相关的肾脏疾病领域。
遗传易感性以及衰老都会导致表观遗传变异,而包括运动和饮食在内的多种环境因素也会进一步与人类表观基因组相互作用。
高血糖通过代谢记忆产生的持续效应仍是有效管理糖尿病肾病(DKD)的主要障碍。
在高糖环境下持续诱导表达的基因中,与细胞衰老相关的周期素依赖性激酶抑制剂p21(Cdkn1a)位居首位,并且与p53-p21通路的激活有关。
最新研究表明,在糖尿病肾病中,肾小管p21的长期表达增加与其启动子区域的去甲基化及DNA甲基转移酶1(DNMT1)表达减少相关。
同时,肾小管和尿液中的p21水平与糖尿病肾病的严重程度相关,即使人体血糖水平得到改善后,这些水平仍保持较高状态。
这些研究不仅支持了表观遗传机制在肾脏疾病发展中的作用,还表明表观遗传改变也是对疾病的响应,这为未来的治疗策略带来了希望。Proteomics and metabolomics relate directly to the pathological symptoms and clinical parameters
蛋白质组学和代谢组学与病理症状和临床参数直接相关Para_12
作为基因组的下游分子,蛋白质组和代谢组代表了基因功能的综合效应,也被称为‘功能性基因组’。
其目的是在全基因组范围内理解基因型与表型之间的关系,并反映超出基因编码之外的环境暴露的影响[54]。
蛋白质组和代谢组在肾脏疾病中具有独特的优点[55]:用于肾脏疾病临床检测的核心标本如血液和尿液中含有代谢物(例如尿素、肌酐、葡萄糖和尿酸)和蛋白质(例如白蛋白、胱抑素C、补体和甲状旁腺激素)。
这些分子与患者观察到的病理症状和临床参数更为直接相关,也可以作为对疾病和治疗变化作出反应的动态治疗靶点,以及用于代谢生物标志物和通路分析的专用工具[56]。
此外,与基因组相比,蛋白质组和代谢组在不同的时间和空间提供生物学信息:作为基因表达的功能产物,它们表现出显著的动态性和变异性。
在不同的部位如肝脏、肌肉、肾脏、血液和尿液中会产生不同的结果,并且在肾小球细胞、内皮细胞和小管细胞等组织间表现出显著的异质性[57]。
因此,靶向蛋白质组学在识别临床表现背后的异质性疾病机制以及确定用于靶向治疗的药物靶点方面具有优势。Para_13
值得注意的是,与基因组研究相比,蛋白质组和代谢组无法推断因果关系。
在尿液中发现的蛋白质可能表明肾脏中存在不同的生物活性,但它们也可能因肾小球滤过屏障的损伤而受到影响。
尽管如此,蛋白质组和代谢组对于理解疾病的发展阶段以及指导诊断和治疗至关重要。
肾病蛋白质组学研究的一个重要里程碑是在膜性肾病(MN)患者血清中发现并精确鉴定了抗PLA2R抗体。
这些自身抗体的血清水平与MN疾病的活动性和对免疫抑制治疗的反应相关,使其成为临床中广泛使用的无创性MN检测标志物。
类似的方法还识别出其他标志物,例如THSD7A和淀粉样蛋白A1,它们可以根据PLA2R抗体水平提供额外的预后信息。Single cell and spatial multi-omics: defining the atlas of cell states and niches in kidney
单细胞和空间多组学:定义肾脏中细胞状态和微环境的图谱Para_14
了解肾脏疾病需要认识不同肾细胞类型和状态的复杂性、它们相关的分子特征以及在组织微环境中的相互作用。
当肾脏功能在损伤后逐渐下降时,肾小管及其周围的间质微环境会发生动态的急性与慢性变化,从而在单细胞水平上产生分子多样性[60]。
细胞间的异质性由复杂的多种细胞内和细胞间相互作用、层次结构和环境变量构成,并受到时间和空间信息调控的多重影响[61]。
因此,迫切需要采用精细的单细胞和具有空间分辨能力的多组学方法,来理解从基因组到表型组的单细胞分子层级结构。
特别是RNA测序技术,作为基因组工具箱中使用最广泛的技术,已经从经典的群体RNA测序发展为流行的单细胞RNA测序,以及最新出现的空间RNA测序[62]。Para_15
近年来,单细胞技术的飞速发展揭示了此前未被充分认识的细胞异质性,并发现了新的细胞状态与性别、疾病、发育及其他过程之间的关联。
目前最为成熟的单细胞组学方法——单细胞转录组学,最初通过个体细胞的转录特征重新定义了肾脏中的细胞类型和亚型,构建了全面的细胞图谱,并鉴定了细胞类型特异性标记物。
近期的研究进展广泛利用这些细胞特异性基因图谱来描绘疾病发展过程中的路径,并识别新的分子靶点。
例如,对早期糖尿病肾病中巨噬细胞转录组的综合分析揭示了疾病进程中细胞表型的动态变化,并以特定亚群的方式增强了促炎或抗炎基因的表达。Para_16
空间组学被广泛誉为生命科学领域的新前沿。
尽管scRNA-seq技术在揭示组织类型内细胞异质性方面提供了重要发现,但组织环境中空间信息仍然难以捉摸,这推动了空间组学的发展。
结合单细胞和空间组学的方法有助于更深入地理解复杂组织中特定细胞类型的代谢过程,并清晰地展示细胞和基因的空间特征和分布模式。
例如,人类肾脏的单细胞空间基因组学研究能够识别细胞类型以及与分子特征相关的复杂状态,并通过建立健康和受损细胞状态及生态位的多维单细胞参考图谱,揭示肾脏疾病中组织微环境内的相互作用。
因此,'空间多组学'的兴起建立在空间单组学(如空间基因组学、空间蛋白质组学、空间代谢组学等)的基础上,并涵盖了一系列新兴技术,包括基于芯片的空间转录组学、微流控确定性条形码标记策略、DNA抗体标记技术以及多重单分子荧光原位杂交技术,为从多个层级维度更深入地理解复杂肾脏组织的分子模式提供了可能。How to select proper machine leaning strategies
如何选择合适的机器学习策略Para_17
传统分析方法过去的困难突显了计算机具备自主获取知识能力的必要性。
机器学习(ML)产生于统计学与计算机科学的交汇点,前者从数据中学习关系,而后者强调高效的计算算法。
此外,对于过于庞大(包含大量独立数据点)和复杂(涉及多种不同特征)而无法进行人工检查的数据集,或者需要开发自动化、可复制且高效的研究路径的情况,机器学习也占据着至关重要的地位。
例如,基于计算机的方法可以识别药物-靶标相互作用(DTI),从而减少传统的实验成本,尤其是在新药开发过程中发挥重要作用。
利用组学数据结合机器学习方法,可以建立各种类型肾脏疾病的分类模型。
甚至可以参与患者疾病管理的多个步骤,例如预测临床风险、改善临床护理、协助临床医生进行诊断和治疗。
在实际临床应用中,美国食品药品监督管理局(FDA)已经允许临床医生在多个领域使用人工智能(AI),例如糖尿病视网膜病变,在这些领域中,人工智能可以执行常规诊断而无需眼科医生进行确认。Para_18
机器学习正成为分析生物数据工作流程中不可或缺的工具。
随着其应用的爆炸式增长,理解机器学习理论、根据生物学理论适当选择机器学习策略以及评估这些方法的适用性变得越来越重要(图2)。
图片说明
◉ 图2 训练机器学习模型的步骤:总体而言,使用生物医学数据训练机器学习模型的过程包括三个主要步骤。◉ 第一步需要全面理解输入数据以及需要执行的任务,从而从生物医学的角度把握问题本身及其重要性。◉ 第二步涉及将数据划分为训练集、验证集和测试集,以用于不同的目的。◉ 训练集直接用于训练模型,验证集用于监控训练过程,测试集则用于评估模型的表现。◉ 同时,也可以采用带有独立测试集的k折交叉验证方法。◉ 第三步是模型选择,这取决于数据和预测任务的性质,例如每个数据点所包含的特征数量以及是否存在标签。◉ 随后,对选定模型在测试集上的准确性进行评估和验证。◉ 注意:此示意图仅展示了一个基本流程,并非适用于所有情况。◉ 还需要考虑其他一些问题,例如过拟合和超参数调优等。Supervised learning versus unsupervised learning
监督学习与无监督学习Para_19
根据数据集中标签的存在与否,机器学习可以分为有监督学习和无监督学习(图2,步骤3)。Para_20
监督学习利用标记数据的力量来训练模型。
通过训练,机器学习特征与标签之间的关系,使其能够预测新出现的未标记特征数据的标签。
例如,使用经典已标记基因基于基因组基因进行基因表达预测,或基于现有蛋白质数据库进行蛋白质二级结构预测。
监督学习还可以进一步分为分类任务和回归任务。
常见的算法包括支持向量机(SVM,一种强大的回归和分类模型,它使用核函数将不可分问题转化为易于求解的可分问题)、K近邻法(最简单的分类方法之一)以及朴素贝叶斯模型(参数估计少且分类效率稳定)。
此外,广泛使用的基于树的模型利用一系列“如果-那么”规则,从一个或多个决策树生成预测结果。
例如随机森林(RF,一种并行构建多个决策树的集成方法),以及极限梯度提升(XGBoost,一种顺序构建多个决策树的集成方法,以其在速度和准确性方面的卓越性能而闻名)。Para_21
相比之下,无监督学习侧重于揭示未标记数据中的隐藏结构和模式。
无监督学习模型主要用于三种任务:聚类、关联分析和降维。
例如,基于新患者的基因表达谱预测药物反应性,其中不同的患者亚组仅根据其表达谱进行识别,而没有任何关于药物反应性的信息[91]。
随后可以进一步研究这些识别出的亚组在药物反应性上的差异,并根据新患者自身的表达谱将其分配到最相似的聚类中。Traditional ML versus deep learning
传统机器学习与深度学习Para_22
之前提到了一些基本的机器学习(ML)算法,并在图2的第3步中进行了说明,这些通常被称为‘传统机器学习’。
在为生物数据开发机器学习方法时,传统机器学习仍被视为主要的探索领域,用于寻找最适合特定任务的方法。
许多软件包都可以用来训练这类模型,包括Python中的scikit-learn,R语言中的caret,以及Julia中的MLJ。Para_23
近年来,深度学习(DL)已成为许多任务中最有效的解决方案,并引领了发展的趋势。
由于生物学和医学中的数据通常具有体量大、多样性高、异质性强、复杂且难以理解的特点,深度学习技术可能特别适合解决这些数据丰富的学科中的问题[95]。
作为机器学习(ML)的一种具体形式,深度学习将广阔的世界概念化为以层级嵌套方式存在的系统,用简单概念定义复杂概念。
其具体操作是在可见层呈现输入信息,随后在隐藏层中提取一系列越来越抽象的特征,最终建立输出层。
人工神经网络(ANNs)是深度学习的一种方法,也是主要采用的模式。
其中卷积神经网络(CNNs)专门设计用于处理具有网格状结构的数据,使其非常适用于图像类数据,并广泛应用于各种医学影像领域,包括放射学、超声波、内窥镜检查、眼科以及病理学等。
目前流行的算法包括R-CNN、Fast R-CNN、Faster R-CNN、PFN、PSPNet、SSD、YOLO、CenterNet和EfficientNet[96]。Para_24
然而,尽管深度学习具有众多优势,其应用仍然局限于某些特定领域,这些领域通常具备大规模数据集(例如数百万个数据点)、每个数据点包含大量特征以及特征结构高度有序等特点(例如图像中相邻的像素点)。
生物数据,例如DNA、RNA和蛋白质序列[97]以及显微图像[98],符合上述条件,并已成功应用。
然而,即使满足其他所有条件,对大规模数据集的需求也可能导致深度学习效果不佳。
因此,设计深度神经网络架构并进行训练仍然是一个耗时且计算资源消耗巨大的任务。
相比之下,SVM和RF等传统模型能够更快地完成特定问题的开发与测试。
因此,在探索和选择人工神经网络(ANN)模型时,建议同时训练一个传统机器学习模型,并与基于ANN的模型进行系统性比较[99]。Para_25
数据增强[100]显著扩展了可用于训练的数据量和多样性,而无需实际收集新的样本。
这对于生物和医学数据尤为重要,因为由于隐私问题和标注成本,收集大型数据集具有挑战性。
数据增强技术从基础但非常有效的变换方法(如裁剪、填充和翻转)到高级生成模型[101]不等。
这些数据增强技术可以分为两大类:原始数据的变换(包括仿射变换、擦除、弹性变换和像素级变换)以及人工数据的生成(包括生成模型、特征混合、基于模型的方法以及基于重建的方法)。
根据输入数据和视觉任务的性质,不同的数据增强策略可能会表现出不同的效果。
因此可以设想,每种生物医学任务都需要特定的增强策略,以生成合理的数据样本并有效正则化深度神经网络。
例如,由于肾脏的形状多样性和图像强度分布不同,在不同的临床成像模态中自动分割肾脏仍然是一个重大挑战。
为了构建一个稳健的肾脏分割模型,已有若干研究分别被提出用于计算机断层扫描[102, 103]、磁共振成像[104]和超声成像[105]。
最近的一项系统文献综述发现,从最简单的仿射变换到最复杂的生成模型,使用数据增强在所有器官、成像模态和任务中均显示出一致的益处[106]。Current applications and clinical insights in kidney research
肾脏研究中的当前应用与临床见解Para_26
总之,肾脏疾病的应用有三个关键方面(图3):(1) 准确预测:预测疾病进展的风险并改善医疗决策;
(2) 机制阐释:强调从生物内部机制中提取规律,以进一步了解疾病的分子机制;
以及 (3) 肾脏的数字化病理图像分析。
图片说明
◉ 图3 运用机器学习整合多组学分子数据和临床数据用于肾脏疾病研究。Making accurate prediction
做出准确的预测Predicting the risk of disease progression
预测疾病进展的风险Para_27
风险预测模型不仅有助于临床医生进行诊断和治疗,还能识别新的风险因素,以便在疾病管理中及时干预。
急性肾损伤(AKI)是肾脏疾病中一种常见的危及生命的状况,由于未能及时识别和治疗,导致11%的住院患者死亡。
因此,早期识别、及时发现风险因素以及早期干预对其生存和预后至关重要。
一个常见的框架是将每个时间点的特征输入统计模型,并输出未来某一时间内发生任何严重程度阶段AKI的概率。
当该概率超过选定的操作阈值时,即产生阳性预测。
例如,基于深度学习的连续AKI风险预测模型可以提前48小时预测任何严重程度的AKI事件,准确率达到55.8%,并能预测90.2%需要透析的AKI病例。
这表明该模型具有通用性,并有望作为临床决策支持工具,用于改善AKI的检测和预后。Para_28
终末期肾病(ESRD)标志着肾功能衰竭的最终阶段。
早期预防和干预可以显著推迟肾脏替代治疗的开始时间,从而改善患者的生活质量。
最近的研究利用人工神经网络(ANNs)开发了神经网络分类器,也被称为临床决策支持系统,通过基于肾活检的临床数据和组学数据来预测终末期肾病,从而识别高风险人群,预测事件发生的时间终点,并通过随访进行外部验证。
例如,对于1型糖尿病患者,目前开发的终末期肾病风险预测模型可以根据常规临床数据(年龄、性别、糖尿病持续时间、估算的肾小球滤过率、微量和大量白蛋白尿、糖化血红蛋白、吸烟以及心血管疾病史)预测未来5年发展为终末期肾病的风险,为临床决策提供依据。
然而,对1型糖尿病患者而言,5年的预测周期相对较短(其中大多数为年轻人,而终末期肾病的发展过程非常漫长),这是此类预测模型面临的普遍挑战。
一个解决方案是考虑建立终身预测模型以覆盖更长的时间跨度,这不仅可以提高预测准确性,还能评估生活方式改变和预防性药物使用(如降低血压、HbA1c水平等)的影响。Predicting response to treatment
预测治疗反应Para_29
作为慢性疾病,肾脏疾病亟需新的方法来阐明其内在治疗效果并评估治疗结果。
在某种治疗后,转录组和代谢组数据可以定量比较患者在不同时间点某条通路中的激活水平,以预测对特定疗法的反应。
具体来说,通过共同的基因表达特征将基因、药物和疾病状态联系起来,小分子的作用机制可以从转录表达水平上推断出来,从而实现疾病相关基因变异的功能注释,并为药物研发的临床试验提供依据。
转录特征的量化评分已被用于识别与肾脏疾病相关的多种特征,包括肾小球疾病患者中足细胞发育特征的重新激活,以及局灶性节段性肾小球硬化症患者中表明对类固醇治疗反应的内皮细胞特征。
这些特征对于识别特定通路的激活情况以及评估疾病环境中药物的疗效至关重要。Para_30
用于肾替代治疗的预测模型是另一个重要的研究领域。
例如,移植肾功能障碍是肾移植后常见的不良结果。
基于深度学习的计算机辅助诊断系统可以早期检测急性肾移植排斥反应。
一种结合临床、功能、免疫和组织学参数的无监督原型分析学习方法,可以根据不同长期移植物存活率对移植肾功能障碍的异质性进行分层,并基于真实患者数据建立用于临床实践的在线应用。Prognostic biomarkers prediction
预后生物标志物预测Para_31
慢性肾病(CKD)通常经历多年的发展过程,常常有一个较长的潜伏期,在此期间疾病在临床上保持静默状态。
诊断、评估和治疗主要依赖于生物标志物,这些标志物作为机体结构和功能变化的重要指示指标,在疾病分期、药物开发和治疗效果评估中至关重要。
已有研究尝试预测多种肾脏相关疾病中的潜在靶点和新的分子标志物,例如IgA肾病(IgAN)中的FOSL1/2[121]、狼疮性肾炎中的IFI27[122, 123]、高血压肾病中的DUSP1[124]以及糖尿病肾病中的RPTOR[125]。
然而,尽管这些生物标志物具有理论上的重要性,它们仍需要通过高质量的前瞻性队列研究来验证其临床实用性和机制意义。Para_32
新型生物标志物的开发有助于推动现有临床诊断的进步。
目前,慢性肾病(CKD)的诊断类型及其严重程度主要基于临床特征,如估算肾小球滤过率(eGFR)、蛋白尿以及肾活检样本的病理特征。
然而,这种分类方法未能捕捉可能导致表型相似的肾脏疾病的分子通路多样性,从而妨碍了我们预测长期预后或测试和应用靶向治疗的能力。
因此,越来越多的研究致力于开发新的生物标志物以识别慢性肾病的进展,并改进慢性肾病的诊断分类。
基于差异网络富集分析的算法可以将与慢性肾病进展严重程度相关的脂质组学特征进行划分,这表明甘油三酯和心磷脂-磷脂酰乙醇胺的变化可能在数年前就已发生,并先于终末期肾病(ESRD)的临床结果。
此外,在尿液蛋白质组学中识别肾脏损伤特征也是一个重要的研究方向。
将尿液蛋白质组数据与肾脏活检组织转录组数据及其他临床信息整合,可以构建用于预测慢性肾病进展风险的模型。
尿表皮生长因子(uEGF)可能是预测儿童慢性肾病进展的有效生物标志物,其中低水平的uEGF可预测慢性肾病的进展,并反映小管间质损伤的程度。Identify novel disease mechanisms
识别新的疾病机制Para_33
对于肾病等复杂疾病而言,区分致病因素对于明确诊断和指导治疗选择至关重要。
然而,在相同的诊断条件下,疾病进展风险和治疗反应存在显著差异,这突显了潜在分子机制的异质性。
因此,识别复杂多因素疾病的關鍵治療途徑并阐明其内在机制仍然是巨大的挑战[133]。
高通量分析为理解这些复杂病理生理过程所对应的内在分子机制提供了新的机遇。
整合的多组学方法可用于新疾病分类[127],将患者重新归类为分子定义的亚组,从而揭示各种疾病的内在分子机制和生物途径。
例如,将IgAN基因表达数据集整合到血细胞中,并通过实验验证系统地验证,以识别异常表达的基因和生物通路[134]。
研究发现,这些异常表达的基因和通路主要富集在肠道免疫网络中,并参与IgA产生和自噬过程。
此外,B细胞中的PTEN可能参与Gd-IgA1产生的机制。
另一项转录组分析发现了狼疮患者干扰素刺激基因的表达特征和可能的调控机制[135]:单核细胞、B细胞、树突状细胞和粒细胞显著增加,而某些T细胞亚群显著减少。
基因组和表观基因组学研究也已确认由高血压易感基因介导的肾脏机制,揭示了179个参与血压控制的独特肾基因[136]。Radiomics and image analysis: digital pathology
放射组学与图像分析:数字病理学Para_34
随着在病理数据的收集、分析和整合方面开展协作努力,肾脏病理学正在进入数字化时代。
载玻片上的常规染色图像正被转化为数字格式图像,这类图像被称为全切片图像(WSI),其涉及四个连续的过程:图像获取、存储、处理和可视化。
WSI 包含了来自传统染色、单通道或多通道免疫组化染色以及多组学数据的丰富信息。
数字扫描仪技术、图像可视化方法的持续进步及其与算法的结合,为 WSI 的应用和发展提供了机遇。
WSI 已经广泛应用于数字诊断、远程会诊和研究辅助等多个方面,相关研究也证实其在诊断方面与传统光学显微镜(CLM)具有高度一致性。Para_35
数字成像在肾病理学中的主要用途可以分为三种主要操作模式:远程病理学、数字病理学和计算图像分析。
数字病理学包括数字化工作流程和成像解决方案,旨在创建一个应用环境,用于访问、管理、解读和搜索全切片图像(WSI)或其他数字内容。
远程病理学是全切片图像最早的几种应用之一,涉及将数字图像传输到另一个远程站点进行分析。
如今它已成为一种常见工具,用于实时评估活检组织的充分性和诊断,并得到了广泛验证。
特别是对于肾脏移植而言,评估模型通过评估肾小球硬化比例,可以快速准确地判断活体供体肾脏组织是否适合移植。
这可能成为活体供体肾脏活检临床评估的重要组成部分。
远程病理学可以显著优化肾脏科医生在肾脏获取和评估过程中的工作流程。
计算图像分析能够生成大量数据,它严重依赖先进的机器学习(ML)技术来全面提取组织病理学中的特征、模式和信息。Para_36
过去,机器学习(ML)通常用于定量分析,以协助识别病理特征,例如大鼠糖尿病肾病的组织学特征[142],以及识别肾小球病变和固有肾小球细胞类型[143]。
然而,随着算法的迅猛发展,机器学习的应用有望将数字图像从其作为疾病状态视觉评估的基本角色,提升到更为复杂和全面的角色,例如促进IgAN(免疫球蛋白A肾病)的疾病轨迹预测和风险评分[144]。
这些新工具的实施正在使肾脏病理学处于定义新的、整合的、生物学和临床同质性疾病分类的前沿,并有助于识别具有疾病进展风险的患者,同时改变当前肾脏疾病治疗和预防的模式。Challenges and perspectives
挑战与展望Para_37
值得注意的是,一项荟萃分析显示,在预测急性肾损伤(AKI)方面,机器学习(ML)模型并未表现出优于传统统计预测模型(如逻辑回归,LR)的效果[145]。
我们必须认识到,各种人工智能(AI)技术仍处于发展阶段,距离实现理想的人工智能形态仍存在一定差距。
尽管深度学习(DL)能够解决某些单一问题,但它并不能作为各种不同类型问题的全面解决方案[146]。
在干细胞领域,大约有33%的研究结果无法再现[147],而在肾脏病学领域,大数据和大科学的发展也明显滞后(如前所述)[148]。
因此,在这一领域中有一些普遍性和特定性的问题需要考虑(图4)。
图片说明
◉ 图4 多组学肾脏分析中当前面临的挑战及相关方法的框架。总体而言,由于肾脏疾病的结构和机制复杂,以及相关研究和数据相对匮乏,因此在数据可获得性、数据异质性和模型可解释性方面存在诸多挑战。◉ 此外,鉴于该疾病具有长期慢性特征,隐私保护问题也更加突出。◉ 应对这些挑战需要各领域之间的广泛合作以及全球协作。Data availability
数据可用性Para_38
肾脏疾病面临的主要挑战之一是大型、多样化数据集的相对匮乏,尤其是在基于医学影像的深度学习领域。
此外,由于涉及多个技术领域,数据的质量和可靠性常常面临批次效应、缺失值和测量误差等问题。
而且,不仅初始模型训练需要数据支持,持续的模型训练也依赖于数据的不断补充、验证和改进。
因此,为科研和临床界生成更多全球性、安全且实时更新的宝贵资源势在必行。
为了实现对各种慢性肾病亚型肾活检的全面表征,已经开展了多项倡议,包括肾病综合征研究网络、糖尿病肾病转化研究、治愈肾小球肾炎项目以及肾脏精准医疗项目。
当可获得的数据量更大时,就可以考虑使用参数更多、潜力更大的模型,这具有巨大的变革潜力。
例如,将分子数据与电子健康记录关联起来,可以揭示肾脏疾病的分子表型,从而实现有针对性的监测、个性化治疗以及更有效的家庭咨询。Data heterogeneity
数据异质性Para_39
具体而言,患有肾脏疾病的患者通常伴随多种其他疾病,这使得肾病队列具有高度异质性。
因此,具备任意整合多模态数据集能力的数据标准化和数据协调方法显得尤为重要。
此外,由于模型训练过程也受到经典的‘维度灾难’问题的影响,有效降低维度并选择最具影响力特征和变量至关重要。
为应对这些挑战,人们提出并应用了多种新的机器学习方法,例如一种新的深度神经-模糊系统,该系统在规则层中包含深度结构,并在模糊化层中采用新颖架构,用于对肾癌亚组进行分类。
此外,还包括用于减少单细胞RNA测序(scRNA-seq)数据噪声的RECODE算法,以及用于分析呈指数增长的单核苷酸多态性(SNPs)的多因子降维算法。Model interpretability
模型可解释性Para_40
虽然病理影像放射组学研究在肾脏病理学研究中具有重要意义,但当前深度学习模型的一个主要局限性是其相对于基础统计回归模型缺乏可解释性。
这使得理解每个网络节点的重要性及其在模型效能中的作用变得困难。
相比之下,训练非神经网络的低成本支持消融编程,这有助于识别有用的特征。
通过揭示不同模型组件的重要性,使决策过程更加透明,从而构建出更稳健、高效且可解释的模型。Para_41
认识到这一挑战,机器学习领域也致力于开发新技术以阐明‘黑箱’深度学习模型。例如,激活最大化涵盖了一系列算法,这些算法使用梯度下降法来寻找能够最大化模型响应的输入,旨在生成最能代表预期结果的输入数据。Privacy preserving and data accessibility
隐私保护与数据可访问性Para_42
随着出于训练目的的数据传播不断增加,安全数据存储、检索和访问的标准化变得至关重要。
敏感的医疗信息(如包含长期私人信息的慢性肾病数据)在不确保患者保密性和数据安全的情况下不能共享。
因此,在数据可访问性与隐私保护之间实现适当的平衡至关重要,这也带来了重大挑战。
人们已经开发出高效的联邦学习算法,其中许多客户端在中央服务器的协调下协同训练一个模型,同时保持训练数据的分散性,包括FedAvg、FedBN以及最新的MetaFed。
此外,还引入了加密技术和其他替代模型(如虚拟化技术),使得可以在不共享实际数据的情况下进行分析。Interdisciplinary collaborations
跨学科合作Para_43
为了更好地了解肾脏疾病的发病机制和预后,最终实现临床部署,研究人员、临床医生和数据科学家需要共同努力,并联合包括医疗机构、政府部门以及制药和生物技术产业在内的多个利益相关方的参与。
肾脏病学界必须积极行动起来,开展更多的多中心合作研究,并收集更多用于监测诸如急性肾损伤(AKI)和慢性肾病(CKD)等疾病的指标数据。ConclusionsPara_44
理解并优化这些机器学习方法和多组学技术的优势、策略、实施方式及局限性,对于将研究成果转化为临床实践至关重要。
总体而言,这种整合在高通量肾脏研究时代已成为一种革命性的工具。
这一新的综合科学范式的成功无疑需要各学科之间的积极合作与交流。
我们相信,这些具体措施将对肾脏疾病的临床预防、早期诊断、疾病管理和监测工作做出重要贡献,从而促进精准诊断和个性化治疗方案的实现。