引言
衰老,往往伴随着大脑功能的悄然退化。在记忆逐渐模糊、行动变得迟缓的背后,神经退行性疾病 (Neurodegenerative diseases) 正如同一场无声的风暴。面对这类疾病,临床上最大的挑战之一在于:许多患者的病理改变并非单一存在。如何能在患者还活着的时候,准确、无创地识别出大脑深处的复杂病变?
3月31日,《Nature Medicine》的研究报道“A deep joint-learning proteomics model for diagnosis of six conditions associated with dementia”,研究人员展示了一种全新的可能性。他们开发了一个名为 ProtAIDe-Dx 的基于血液蛋白组学的人工智能模型。仅仅通过抽取一管外周血,该模型就能同时对六种与痴呆相关的病理状态给出概率性诊断。这项研究不仅为我们提供了一个极具潜力的临床工具,更向我们揭示了血液中隐藏的、能够反映大脑健康状态的深层分子密码。
面对这项突破,我们不禁要问:人工智能是如何在数千种血液蛋白中大海捞针的?它看到的“疾病”,和我们临床上定义的“疾病”是一回事吗?
迷雾中的大脑与血液中的信使
我们的大脑被一层严密的血脑屏障 (Blood-brain barrier, BBB) 保护着,这层屏障在阻挡有害物质进入大脑的同时,也使得大脑内部的分子变化极难被外界捕捉。长期以来,想要确诊阿尔茨海默病 (Alzheimer's disease, AD)、帕金森病 (Parkinson's disease, PD) 等神经退行性疾病,临床医生往往需要依赖昂贵的正电子发射断层扫描 (Positron emission tomography, PET) 或是有创的脑脊液 (Cerebrospinal fluid, CSF) 穿刺。
更令人棘手的是疾病的“共病”现象。现实世界中,疾病很少按教科书上的分类孤立出现。临床数据显示,在80岁以上的患者中,高达70%的人同时携带多种神经退行性病理改变。比如,一个表现出记忆衰退的患者,他的大脑里可能不仅有淀粉样蛋白的沉积,还可能同时存在微血管的梗死或路易体 (Lewy body) 的蓄积。这种病理的重叠,导致即便是专业的痴呆症门诊,误诊率也高达25%到30%。在针对特定病理的靶向药物(如靶向AD的单克隆抗体)不断涌现的今天,如果不能精准识别患者底层的共病状态,不仅无法对症下药,甚至可能因为治疗不当而引发严重的副作用。
为了穿透这层迷雾,研究人员将目光投向了外周血等离子体中的蛋白质。虽然血脑屏障限制了脑源性蛋白的直接释放,但大脑的病变不可避免地会引发全身性的系统反应,包括免疫系统的激活、代谢通路的改变等。这些变化,最终都会以“信使”的身份,汇聚在血液的蛋白组谱中。
这项研究的规模前所未有。研究人员汇总了全球神经退行性蛋白组学联盟 (Global Neurodegenerative Proteomics Consortium, GNPC) 的庞大队列,纳入了来自19个不同临床中心的17,187名参与者。这些参与者的平均年龄为70.3岁(上下浮动11.5岁),女性占53.2%。为了尽可能全面地捕获血液中的信息,研究团队使用了高通量的 SomaLogic 7k 蛋白组学平台,对每位参与者血液中的7,595种蛋白质的相对丰度进行了精密测量。
7,595种蛋白质,17,187个样本,这意味着研究人员面对的是一个维度极高、充满噪音且蕴含着复杂非线性关系的庞大数字空间。传统的单变量统计学方法在这里显得捉襟见肘,这就轮到深度学习 (Deep learning) 登场了。
突破单一视角的深度联合学习架构
面对六种截然不同又可能相互交织的临床状态——认知正常 (Control)、阿尔茨海默病 (AD)、帕金森病 (PD)、额颞叶痴呆 (Frontotemporal dementia, FTD)、肌萎缩侧索硬化 (Amyotrophic lateral sclerosis, ALS) 以及既往卒中或短暂性脑缺血发作 (Stroke/TIA)——传统的分类模型通常会采用“多分类”策略,即强行将一个患者归入某一个特定的类别中。
但研究人员巧妙地放弃了这种非黑即白的逻辑。他们为 ProtAIDe-Dx 设计了一种 多任务联合学习 (Multi-task joint-learning) 架构。在这个架构下,模型并不是输出一个单一的诊断标签,而是同时并行处理六个独立的诊断任务,最终为每一位患者输出这六种疾病各自的患病概率。
这种设计的优势在于,它允许模型在底层共享提取到的蛋白质特征,从而在样本量极其不平衡的情况下(比如ALS患者远少于AD患者),依然能够稳健地学习。更重要的是,输出多维度的概率,完美契合了神经退行性疾病“共病”的临床现实——一个患者完全可以同时拥有80%的AD概率和60%的脑血管病概率。
数据给出了有力的证明。在不输入任何年龄、性别、认知评分或基因数据,仅仅依靠血液蛋白浓度的情况下,ProtAIDe-Dx 在十折交叉验证中展现出了惊人的诊断能力。模型在预测ALS时的平衡分类准确率 (Balanced classification accuracy, BCA) 高达95%,预测PD的BCA 达到了92%。即便是对于病理机制极其复杂的AD、FTD和卒中,其BCA也分别达到了81%、72%和70%。在受试者工作特征曲线下面积 (Area under the curve, AUC) 这一评价指标上,除卒中外的所有疾病的AUC均突破了0.8。横向对比显示,该深度学习模型的整体表现显著优于随机森林 (Random Forest) 和 XGBoost 等传统机器学习基线模型。
为了验证这些由AI计算出的“概率”是否真正具有生物学意义,研究人员做了一系列验证。众所周知,载脂蛋白E (APOE) 基因的ε4等位基因是AD最强的遗传风险因子,而ε2则是保护因子。数据清晰地表明,无论参与者是否已被确诊为AD,携带更多 APOE ε4 基因拷贝的人,模型赋予他们的AD概率显著更高;相反,携带 ε2 基因的人,其AD概率显著降低。此外,模型输出的AD概率与简易精神状态检查 (MMSE) 评分呈现显著的负相关——AD概率越高,意味着认知功能越差。
这些结果提示我们:ProtAIDe-Dx 输出的并非冷冰冰的数学分类,而是能够动态反映疾病严重程度和遗传风险的连续生物学指标。
疾病谱系上的“岛屿”与隐藏的亚型
如果我们把 ProtAIDe-Dx 输出的六维概率数据进行降维,映射到一个二维的平面图上,会看到怎样的一幅图景?
研究人员利用 t-SNE 算法对测试集中的受试者进行了降维投影。在这个由概率构建的疾病拓扑图上,不同临床诊断的患者自然地聚集成了不同的“岛屿”。认知正常的受试者群聚在一处,而AD、PD、ALS的患者各自占据了特定的区域。
然而,真正令人深思的,是那些游离于“主岛”之外的非显性聚类(亚群)。这往往揭示了传统临床诊断标签下隐藏的生物学异质性。
例如,在AD患者中,除了占据绝大多数的主聚类外,模型还识别出了两个较小的AD亚群:一个在概率空间上更靠近卒中/TIA区域,另一个则更靠近PD区域。进一步的蛋白组学差异分析显示,占据主导地位的AD亚群,其体内与细胞死亡、损伤应答和线粒体活性相关的蛋白丰度较高,而免疫防御相关蛋白丰度较低;但那两个非显性亚群的特征,则是与能量代谢相关的蛋白丰度显著下降。这提示我们,同样是被诊断为“阿尔茨海默病”,患者底层的分子病理驱动因素可能完全不同。
另一个引人注目的发现是在ALS群体中。模型识别出了一个较小的ALS亚群,在空间位置上它更偏向FTD(额颞叶痴呆)区域。临床数据比对发现,这个亚群的患者含有更高比例的 C9orf72 基因突变,并且有着更高的轻度认知障碍 (MCI) 发生率。在蛋白表达上,他们表现出细胞死亡相关蛋白的上调,以及代谢和免疫相关蛋白的下调。事实上,现代医学已经认识到 ALS 和 FTD 在临床表现和基因图谱(尤其是 C9orf72 突变)上存在着紧密的重叠,它们被认为是一个疾病谱系的两端。ProtAIDe-Dx 仅仅通过血液中的蛋白质,就敏锐地捕捉到了这一深层的生物学联系。
当我们还在努力将患者塞进一个个固定的诊断名称里时,血液蛋白组学和AI正在告诉我们:疾病是一个连续变化的图谱。认识到这种异质性,对于未来精准入组临床试验和开展个性化治疗,无疑具有巨大的价值。
解码黑匣子:从预测标志物到认知守护者
深度学习模型常被诟病为“黑匣子”,但通过特征归因算法,研究人员成功揭示了在模型做决定的过程中,哪些蛋白质发挥了最关键的作用。
在提取出的最具区分度的蛋白质列表中,许多结果与我们现有的生物学认知高度吻合。比如,神经丝轻链蛋白 (NEFL) 极大地贡献了FTD的预测;而与突触功能、细胞凋亡和组织重塑相关的 CPLX2、CLU 和 SMOC1 则成为区分AD的核心蛋白;SUMF1 是鉴别PD的关键;而多个 NPTXR 适体(代表神经元正五聚体受体)则在多种神经退行性疾病中都显示出预测价值,印证了突触丢失是这些疾病的共同特征。
更有意思的是,模型“盲看”数据找出的关键蛋白,居然与当前临床使用的药物靶点不谋而合。在鉴别AD时,乙酰胆碱酯酶 (ACHE) 表现出了极强的预测重要性,这正是目前临床上最常用的AD治疗药物(胆碱酯酶抑制剂)的直接靶点。在ALS的鉴别中,KCNIP3 蛋白发出了最强的信号,而近期的研究刚好将 KCNIP3 的表达与 ALS 常用药物利鲁唑 (riluzole) 的治疗作用联系了起来。数据统计显示,在模型筛选出的高权重蛋白中,有12种蛋白质与52种不同的神经退行性或血管类药物存在已知的关联。这说明模型确实抓住了疾病的核心病理生理机制。
除了寻找“疾病”的标志物,研究人员还关注了那些将“认知正常”人群与其他所有疾病区分开来的蛋白质。这些蛋白质或许代表着大脑的健康储备与韧性 (Resilience)。
分析结果浮现出了一批与大脑功能或认知储备密切相关的名字:包括乙二醛酶1 (GLO1)、转化生长因子β1 (TGFB1)、囊泡胺转运蛋白1 (VAT1)、突触融合蛋白1A (STX1A) 以及少突胶质细胞髓鞘糖蛋白 (OMG) 等。尤其是 OMG 蛋白,它不仅能将正常人与痴呆患者区分开,还能将正常人与主观/轻度认知障碍 (SCD/MCI) 人群区分开。这提示 OMG 在维持认知功能稳定、抵抗神经退化方面可能扮演着关键的“守护者”角色。理解为什么有些人的大脑能够在衰老中保持健康,其临床意义不亚于理解疾病本身。
跨越地域与临床现实的终极考验
在医学AI领域,一个模型在训练数据上表现优异并不罕见,真正的试金石在于它能否泛化到全新的、未曾见过的外部数据集中。
为了模拟真实的临床转化场景,研究人员采用了“留一中心法” (leave-one-site-out) 进行交叉验证。虽然由于不同临床中心在样本收集、处理上的客观差异,模型在跨中心测试时的整体表现有所下降,但 ProtAIDe-Dx 依然维持了对传统机器学习模型的优势地位。
真正的亮点来自于对外部独立队列 BioFINDER-2 的验证。这是一个包含1,786名参与者的真实记忆门诊队列,最宝贵的是,这里的患者拥有包括PET影像和脑脊液在内的详尽且金标准级别的生物标志物支持。
当把 ProtAIDe-Dx 直接应用于这个从未见过的队列时,令人振奋的数据出现了。对于那些在临床上被诊断为“认知正常 (CU)”的人群,如果 ProtAIDe-Dx 给出的“正常概率”较低,实际上并不意味着模型预测错了。影像学和脑脊液数据揭示,这些被模型打出低分的“正常人”,其实体内已经出现了显著的淀粉样蛋白 (Aβ)、路易体或神经血管病理的积累。
这说明,模型看似给出的“假阳性”结果,实际上是它比传统的临床症状学评估更早地洞察到了疾病的分子萌芽。模型识别出的是底层的神经病理状态,而非仅仅是外在的临床症状。同样的,在非AD诊断的患者中,如果他们合并有Aβ和Tau蛋白的病理改变,模型赋予他们的AD概率也会显著升高;而卒中/TIA的概率,则在受试者中与核磁共振测量的脑白质高信号 (WMH) 负荷表现出强烈的正相关。
在临床实践的考量中,ProtAIDe-Dx 能够为现有的诊断流程提供多大的附加价值?数据给出了确切的答案。在仅使用年龄和性别作为基线模型时,对于复杂疾病的诊断力极其有限。当在基线模型中加入目前最前沿的血液临床标志物(包括 MMSE 评分、血浆 p-tau217、血浆 NEFL 以及核磁共振测量的特定皮层厚度)后,对各类痴呆的鉴别能力大幅提升。
然而,即便在结合了上述所有先进的单一临床标志物之后,如果进一步整合 ProtAIDe-Dx 模型提供的蛋白组学信息,诊断准确率还能实现再突破。具体而言,针对非AD型痴呆,联合模型的 BCA 获得了显著提升:鉴别PD的准确率从 48.3% 跃升至 65.5%,鉴别FTD的准确率从 50.0% 提升至 64.7%,鉴别AD的准确率也从 78.2% 提升到了 82.4%。这证明,高通量蛋白组学捕捉到的全局分子网络信息,与单一靶点的生物标志物(如 p-tau217)之间是互补关系,而非替代关系。
不仅如此,模型在基线时的预测结果,还能有效区分患者未来的认知下降轨迹。在纵向追踪中,那些被模型预测为AD的受试者(无论其当前的临床诊断是什么),其认知评分 (MMSE) 的下降速度显著快于被预测为正常的人群。这种预测疾病走向的能力,对于临床干预窗口的选择具有不可估量的价值。
一份写满分子密语的诊断报告
为了将这项前沿技术推向临床应用,研究团队构建了一个极具未来感的个性化诊断报告的原型。通过一个具体的临床案例,我们可以直观地感受到这种技术带来的变革。
以报告中的“病例A”为例:这是一位75到80岁的老年男性,他因为主观感觉自己的认知能力下降来到了记忆门诊。但他完成的认知量表 (MMSE) 评分为26-30分,处于完全正常的区间。如果按照传统的临床路径,他可能会被贴上“主观认知下降 (SCD)”的标签,并被建议“回家观察”。
但当他的血液样本经过 ProtAIDe-Dx 模型的分析后,概率图谱发出了警报:模型预测他同时具有很高的AD和PD患病概率。在模型的二维疾病定位图上,他的位置明显偏离了健康人群,落在了典型的病理区域。
更有价值的是,报告利用可解释性算法 (SHAP值),清晰地列出了导致模型做出这一诊断的“幕后推手”。在推动该患者AD概率升高的贡献榜上,诸如 NPTXR 这样的蛋白名列前茅,并提示医生需要关注患者的胱抑素C和肌酐水平;而在推动PD概率升高的因素中,LTA4H 蛋白表现突出,关联着脂质代谢的异常。
这份基于血液蛋白的报告为医生提供了强有力的后续检查依据。随后,该患者接受了昂贵的正电子发射断层扫描 (PET) 和腰椎穿刺脑脊液检查。影像学结果显示,他的大脑中确实已经存在广泛的 β-淀粉样蛋白沉积和局部的 Tau 蛋白缠结(证实了AD病理);同时,脑脊液的种子扩增试验 (SAA) 呈阳性,证实了路易体病理(即α-突触核蛋白)的存在。
一管外周血,成功“预判”了大脑深处两种不同的、甚至还未引起明显症状的病理风暴。
结 语
从庞杂的蛋白质丰度中提取特征,到输出多维度的疾病概率,再到揭示隐藏的亚型和指引金标准检测,ProtAIDe-Dx 向我们展示了人工智能与多组学数据结合的巨大威力。它清晰地表明,神经退行性疾病不应仅仅被视作一组基于症状的综合征,而是有着明确且可测量的分子基础的连续体。
诚然,这项技术要真正走进日常体检,还有很长的路要走。跨临床中心的数据协调、血脑屏障对关键脑源性蛋白的阻滞效应,以及非神经系统疾病(如全身性炎症)对血液蛋白的干扰,都是未来需要攻克的难题。我们依然需要依靠传统临床标志物来作为金标准的锚点。
但毫无疑问,医学的视角正在发生转移。过去的我们,往往是在记忆的大厦彻底倾覆之后,才在废墟中寻找病因;而现在,借助人工智能的洞察力,我们终于有机会在风暴尚在酝酿之时,通过解读血液中流淌的分子密语,提前构筑起守护大脑的防线。
参考文献
An L, Pichet Binette A, Hristovska I, Vilkaite G, Xiao Y, Zendehdel R, Dong Z, Smets B, Saloner R, Tasaki S, Xu Y, Krish V, Imam F, Janelidze S, van Westen D; Global Neurodegenerative Proteomics Consortium (GNPC); Stomrud E, Whelan CD, Palmqvist S, Ossenkoppele R, Mattsson-Carlgren N, Hansson O, Vogel JW. A deep joint-learning proteomics model for diagnosis of six conditions associated with dementia. Nat Med. 2026 Mar 31. doi: 10.1038/s41591-026-04303-y. Epub ahead of print. PMID: 41917159.
声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!
往期热文:
Nature | 从基因突变到晶格坍塌:CPL高分辨图谱为母源性不孕症提供原子级视角
Nature | 免疫治疗新纪元:被遗忘的胸腺如何决定抗癌成败
Nature Biotechnology | 工程化细菌如何重塑肿瘤微环境并点燃免疫疗法
Nature | 细胞治疗的新突破:活体基因组工程彻底蹚平“现货型”CAR-T的制造门槛
Nature Biotechnology | 突破千万亿级物理合成瓶颈:当人工智能“接管”试管
Nature Methods | 具备自省与纠错能力的AI智能体CellVoyager,如何改变生信分析工作流?
Cell | 打破单一靶点执念!AI基于全转录组逆转,开启从头药物发现新范式
Science | 自噬与胞吐的致命错位:癌细胞如何亲手将“隐蔽靶点”暴露于表面?
Nature Methods | 告别RNA-seq数据依赖:混合专家模型ANNEVO如何重塑从头基因注释“金标准”?
Nature Medicine | 重磅颠覆:血液p-tau升高绝非阿尔茨海默病独有,竟是淀粉样变性的通用“求救信号”