引言
肌萎缩侧索硬化症(Amyotrophic lateral sclerosis, ALS),即人们熟知的“渐冻症”,是一种高度致命的神经退行性疾病。尽管医学界在寻找ALS致病基因的道路上跋涉多年,但对于大多数患者而言,其背后的遗传病因依然是一个未解之谜。以往的研究线索提示我们,低至中等外显率的罕见变异(Rare variants)可能在ALS的遗传风险中占据了主导地位。为了捕获这些隐秘的基因信号,研究人员完成了一项堪称里程碑的工作。
3月31日,《Nature Genetics》的研究报道“Large-scale exome analyses reveal new rare variant contributions in amyotrophic lateral sclerosis”,该研究整合并分析了来自全球22个队列的庞大外显子数据。通过严苛的发现与复制阶段验证,研究团队不仅鉴定出多个全新的风险基因,证实了具有极端临床破坏力的罕见变异,更进一步揭示了ALS累积性的寡基因(Oligogenic)遗传架构。
跨越数据的鸿沟:在二十二万人海中捞取基因遗珠
在遗传学研究中,寻找罕见变异最大的敌人是“统计效力(Statistical power)的匮乏”。当一个突变在人群中的发生频率低于千分之一甚至万分之一时,传统的全基因组关联分析(Genome-wide association studies, GWAS)往往无能为力。唯一的解决之道,就是不遗余力地扩大样本量。
这项研究的震撼之处,首先在于其构建了迄今为止规模最大的ALS外显子测序数据集。研究人员巧妙地将18个全外显子组测序(WXS)和全基因组测序(WGS)的数据集进行了深度整合。整个发现队列(Discovery cohort)容纳了高达 94,545名 参与者。为了消除不同测序平台和批次带来的技术噪音,研究团队将所有原始测序数据统一重新比对至GRCh38参考基因组,并采用了严格的联合变异调用(Joint variant calling)流程。
经过极其严苛的样本与变异质量控制——包括剔除基因型检出率低、性别不一致、杂合度异常以及亲缘关系过近的样本后,最终进入发现阶段分析的数据集包含了 13,138名 无血缘关系的ALS患者和 69,775名 对照组个体。在这八万多人的基因组中,研究人员锁定了 5,207,138个 变异,其中 2,367,861个 被预测为具有中等或高影响(Moderate or high impact),例如错义突变、无义突变或移码突变。
然而,发现仅仅是第一步。为了确保结论的可靠性,研究团队还构建了一个完全独立的复制队列(Replication cohort),包含了 4,781名ALS患者 和 130,928名对照组个体。总计 17,919名患者与200,703名对照 的惊人规模,为后续的统计推断奠定了坚实的基础。如此庞大的对照组不仅能有效过滤掉人群中自然存在的良性罕见变异,还能极大地提高识别致病性罕见变异的信噪比。
锁定罕见突变:五个全新风险变异的破茧而出
在单变异分析(Single-variant analyses)中,研究人员将目光聚焦于次等位基因频率(Minor allele frequency, MAF)介于十万分之五到百分之五之间的罕见变异。为了处理这类罕见事件在病例对照不平衡时容易出现的统计学偏倚问题,研究采用了一种名为Firth逻辑回归(Firth's logistic regression)的分析方法,并对性别、十个主成分(Principal components, PCs)以及个体携带的罕见同义变异总数进行了校正。
最终,在全外显子组范围内,有 15个变异 在11个不同基因中达到了极高的统计学显著性阈值(P值小于 1.83乘以10的负7次方 )。这15个变异的次等位基因均与ALS风险增加呈正相关。其中,有10个变异位于我们已经熟知的ALS致病基因中,如SOD1、CFAP410、NEK1、KIF5A、FUS和TBK1。这种对已知基因的高度重现,从侧面印证了该分析体系的稳健性。
更令人振奋的是,另外5个达到显著性的变异是此前从未在ALS中被报道过的全新发现。这五张新面孔展现出了不同梯度的效应大小。其中,HTR3C基因的p.T186A变异(比值比,即Odds Ratio为3.41)和YKT6基因的p.Y64C变异(Odds Ratio为2.84)属于中等频率、中等效应的变异。
三大全新极高风险效应变异:
而另外三个新变异则展现出了惊人的高风险效应:GBGT1基因的p.R152L变异 使患病风险增加了 26.9倍;CAPN2基因的p.I530V变异 使风险增加了 25.3倍;KNTC1基因的p.W287R变异 更是将风险推高了 27.7倍。
在这些新发现中,YKT6基因的p.Y64C变异尤为引人注目。它不仅在发现阶段表现优异,在随后的独立复制队列中依然展现出高度一致的效应方向,并在整合两阶段数据的荟萃分析(Meta-analysis)中达到了复制级别的显著性。从生物学功能来看,YKT6编码一种高度保守的SNARE蛋白,该蛋白在囊泡运输途径中扮演着核心角色,特别是对于自噬体与溶酶体的融合(Autophagosome-lysosome fusion)至关重要。此前已有研究表明该基因在纯合状态下会导致神经发育障碍,而此次发现其杂合错义变异与ALS发病风险显著相关。所有的计算机模拟致病性预测工具均一致认为p.Y64C变异具有破坏性。这一发现有力地支持了囊泡融合和细胞内运输机制受损在ALS发病机制中的关键作用。
确立争议基因的真正地位:以临床表型为印证
除了全外显子组层面的盲搜,研究人员还针对由ALS基因专家组(ALS Gene Curation Expert Panel, GCEP)收录的51个已知与ALS相关的基因进行了靶向分析。这其中,有一些基因在过去的文献中仅获得了“有限证据(Limited evidence)”的支持,其真实致病性一直存在争议。
通过超大规模的数据洗礼,这项研究为其中几个边缘基因提供了强有力的、独立的验证。最典型的例子是 ARPP21基因。研究人员在该基因上鉴定出两个罕见的高效应变异:p.P563L 和 p.P747L。
对于p.P747L变异,这是一个在以往文献中从未被报道过的新变异,其使ALS发病风险激增了 75.8倍。而另一个变异p.P563L,此前仅在英国和西班牙的零星家族研究中被提及过。这项研究不仅将其确认为高度显著的风险变异(Odds Ratio高达44.8),更重要的是,通过对临床表型数据的生存分析(Survival and age of onset analyses),研究人员揭示了该变异极其残酷的临床破坏力。
携带ARPP21 p.P563L变异的患者,其发病年龄平均提前了 12.7年,而生存期更是大幅缩短了 19.5个月。这种效应强度甚至可以与大名鼎鼎的SOD1 p.A5V变异相提并论。
进一步的人群分布分析显示,该变异并不仅仅局限于英国和西班牙,在荷兰、美国、意大利以及以色列的队列中均发现了携带者,极大地扩展了其在人群中的流行病学意义。为了排除潜在的样本重叠导致的假阳性,研究人员在分析时严格排除了可能与既往家族研究重叠的个体,结果关联依然高度显著,这为ARPP21作为确切的ALS致病基因提供了坚实的证据。
同样获得“转正”的还有 DNAJC7 和 CFAP410。DNAJC7编码一种热休克蛋白,研究人员通过剔除与过往研究可能重叠的近一万五千名样本后,在缩减版的发现队列和独立的复制队列中依然观察到该基因极罕见变异的显著富集。而CFAP410基因中的低频错义变异p.V58L(次等位基因频率为0.013)也在排除了所有可能与原始GWAS研究存在亲缘关系或重复的样本后,保持了极高的统计学显著性(荟萃分析P值为 1.34×10^-14 )。这种通过极端严苛的排他性策略来验证结果独立性的做法,充分体现了该研究的严谨性。
极罕见变异的聚合力量:从全基因视角到特定功能域
在单变异分析之外,研究人员还采用了负荷检验(Burden tests)的方法来评估 极罕见变异(Ultrarare variants, URVs) 的累积效应。所谓的极罕见变异,被定义为在全部数据集中携带者不超过5人的变异。由于单个极罕见变异的频率太低,无法进行有效的统计推断,研究人员将其在特定功能单元(如整个基因或特定蛋白质结构域)内的效应聚合起来进行整体评估。
在针对17,324个蛋白质编码基因的URV负荷分析中,有8个基因达到了全外显子组级别的显著性。除了我们熟知的SOD1、TBK1、NEK1和TARDBP,以及前文提到的DNAJC7之外,还有三个全新的候选基因脱颖而出:TTC3、UNC13C和KIF4A。在这些基因中,URV的较高负荷均显著增加了ALS的发病风险。
为了确保不遗漏任何有价值的信号,研究人员采用了四种不同的变异过滤策略(仅限单体变异vs所有URV;仅限高影响变异vs高与中等影响变异),并利用ACAT多重检验方法将这些策略的结果巧妙结合。这种分析策略不仅捕捉到了整体的负荷信号,还揭示了变异类型的内在驱动力。例如,NEK1和KIF4A在仅包含单体变异(Singletons only)的分析中显示出明显更高的比值比;而只有NEK1和TBK1在仅限高影响(High-impact)变异的分析中仍保持显著,这提示不同基因的致病机制可能存在本质差异,有些可能依赖于彻底的蛋白质功能丧失(如无义突变引起),而有些则可能是因为错义突变导致的异常功能获得。
更有启发性的是,研究人员将聚合分析的颗粒度从“全基因”细化到了“蛋白质结构域(Protein domains)”。在对65,071个结构域进行扫描后,他们发现了几个高度显著的区域,包括 TBK1的蛋白激酶结构域、SOD1的Cu/Zn结合结构域,以及 VCP基因的CDC48 domain 2-like结构域。
VCP基因的发现特别值得深思。在全基因水平的URV负荷分析中,VCP基因并未达到全外显子组显著性阈值(P值为0.008)。但是,当分析范围缩小到CDC48 domain 2-like结构域时,统计学显著性飙升至 2.16乘以10的负7次方。这说明什么?这表明某些关键基因在整体上可能不允许过多的致病突变存在(可能导致胚胎致死或极端的其他表型),因此ALS相关的突变高度集中在其特定的具有独特生物学功能的亚区域内。如果仅仅停留在基因层面进行分析,这种极其关键的局部信号就会被整体的噪音所淹没。
剪接体危机与风险叠加:揭示渐冻症的寡基因本质
基因在细胞内并不是孤立工作的。为了探究这些极罕见变异是否在某些特定的生物学通路中扎堆,研究团队对MSigDB数据库中的11,777个基因集(Genesets)进行了基因集负荷分析。
结果非常明确:在排除了由单一极度显著基因主导的假象后,有两个基因集脱颖而出,分别是 “通过剪接体调节mRNA剪接(regulation of mRNA splicing via spliceosome)” 及其父级词条 “RNA剪接的调节(regulation of RNA splicing)”。通过条件分析确认,即便在更广泛的RNA剪接背景下,剪接体相关的信号依然具有独立的统计贡献。
这一发现具有深刻的病理学意义。众所周知,ALS病理学中的一个核心标志物就是TDP-43(由TARDBP基因编码)和FUS等RNA结合蛋白的异常聚集与功能障碍。此次URV在剪接体相关基因中的显著富集,从遗传学底层逻辑上强力呼应了这一病理现象,表明RNA加工处理机制的全面崩溃可能是推动ALS发生发展的核心源动力。这不仅验证了现有的致病假说,更为寻找新的治疗靶点提供了系统性的方向。
此外,该研究还对ALS的遗传架构进行了深入探讨。一直以来,关于ALS究竟是单基因突变主导,还是多个变异共同作用的结果,学界存在探讨。研究人员针对GCEP划定的“明确致病”基因中的中高影响变异,进行了一项剂量反应关系(Dose-response relationship)分析。
数据呈现出令人惊叹的规律性:随着个体携带的低频风险变异数量的增加,其患ALS的风险呈现出阶梯式的上升。携带1个变异的Odds Ratio为 1.19;携带2个时升至 1.35;携带3个时达到 1.84;当携带4个符合条件的变异时,发病风险激增至 4.26倍。
那么,这些变异之间是否存在相互作用(Interaction)?即1+1是否大于2?为了解答这个问题,研究人员对具有足够统计效力的变异对进行了配对共现与交互作用分析。结果显示,没有任何一对变异在经过多重检验校正后表现出显著的非相加效应。置换检验(Permutation analysis)的P值为0.39,完全符合相加模型(Additive model)的预期。
这意味着,ALS在很大程度上符合累积性的 “寡基因(Oligogenic)” 风险模型。患者体内的遗传风险就像是不断在天平一端添加的砝码,几个具有中等到极高外显率的罕见变异相互叠加,最终压垮了运动神经元的生存底线。当研究人员将本次发现的所有单变异、URV基因以及C9orf72基因重复扩增状态综合起来计算时,发现 高达26.9%的ALS患者 携带至少一种可识别的遗传风险因素。这使得我们对ALS遗传病因的解释度迈上了一个崭新的台阶。
从发现走向干预:基因组学指引下的精准治疗图景
纵观这项庞大的研究,它向我们展示了罕见变异分析在解开复杂神经退行性疾病谜团时所蕴含的巨大潜能。与同等规模的常见变异GWAS相比,罕见变异分析能够捕获显著更高比例的遗传风险,并且鉴定出的基因往往具有更明确的生物学功能和更大的效应量。
这并非仅仅是统计学上的胜利,更是临床转化路上的破局之匙。当前,针对ALS的基因靶向治疗已经取得了实质性进展,例如针对SOD1突变的寡核苷酸(ASO)药物 Tofersen 已经获得批准,针对FUS基因的 Jacifusen 也在临床试验中展现出希望。
这项研究所确认的全新风险基因(如YKT6、GBGT1等)以及那些具有极大效应量且被独立验证的基因(如 ARPP21 ),直接扩充了潜在的ASO治疗靶点库。特别是像ARPP21这样携带能够极大缩短生存期突变的基因,理应成为未来药物研发体系中优先考量的战略要地。
虽然这项研究主要聚焦于外显子区域的生殖细胞突变(Germline variants),尚未涉及非编码区变异和体细胞突变(Somatic mutations),但它已经为构建一幅完整的ALS遗传全景图拼上了最核心的几块拼图。随着全球范围内全基因组数据的不断积累,我们有理由相信,在这个由数据驱动的精准医学时代,彻底攻克渐冻症的曙光正在这些隐秘的基因代码中逐渐清晰。
参考文献
Hop PJ, Kooyman M, Kenna BJ, Zwamborn RAJ, van Eijk KR, Wang Y, van Dijk CH, Bekema E, van Rheenen W, Beele P, van Vugt JJFA; Project MinE ALS sequencing Consortium; NYGC ALS Consortium; FALS sequencing Consortium; GTAC Consortium; Khleifat AA, Iacoangeli A, Cooper-Knock J, Smith BN, Topp S, van der Kooi AJ, Fominykh V, Drory V, Lerner Y, Shovman Y, Rowe DB, Williams KL, McLaughlin RL, Hurt J, Huang Y, Chen CY, Tsai E, Runz H, Aronica E, Groen EJN, van Es MA, Pasterkamp RJ, Farhan SMK, Garton FC, McRae AF, McCombe PA, Henderson RD, Fan D, Šlachtová L, Høyer H, Nishimura AL, Cauchi RJ, Brylev L, Rogelj B, Koritnik B, Zidar J, Salas T, Mora Pardina JS, Gotkine M, Povedano M, Corcia P, Vourc'h P, Couratier P, Weber M, Kiernan MC, Pamphlett R, Blair IP, de Carvalho M, Başak NA, Ingre C, Andersen PM, Zinman L, Rogaeva E, MacKenzie IR, Dupre N, Rouleau GA, Traynor BJ, Ticozzi N, Chiò A, Silani V, Hardiman O, Phatnani H, Harms MB, Dalgard CL, Glass JD, Landers JE, Van Damme P, Morrison KE, Shaw PJ, Shaw CE, Al-Chalabi A, van den Berg LH, Kenna KP, Veldink JH. Large-scale exome analyses reveal new rare variant contributions in amyotrophic lateral sclerosis. Nat Genet. 2026 Mar 31. doi: 10.1038/s41588-026-02535-9. Epub ahead of print. PMID: 41917433.
声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!
往期热文:
Nature Methods | 告别RNA-seq数据依赖:混合专家模型ANNEVO如何重塑从头基因注释“金标准”?
Nature Medicine | 重磅颠覆:血液p-tau升高绝非阿尔茨海默病独有,竟是淀粉样变性的通用“求救信号”
Nature | 为何靶向药常在老年患者中折戟?衰老压力下的代谢重编程与谷氨酰胺回补机制给出答案
Science | 告别“细胞分拣”假说:全胚胎空间转录组揭示组织边界形成的原位转录重塑机制
Nature Genetics | 破解“化疗致癌”的生死悖论:药理学静止重塑造血干细胞的克隆演化轨迹
Nature | 告别无差别免疫抑制?新型双特异性激动剂实现抗原特异性pTreg的活体精准扩增
Cell | 老药新用的极致跨界:伟哥如何通过PRKG1通路挽救致死性线粒体缺陷?
Nature | 从真实世界临床监测实时捕捉病原体与噬菌体的协同进化军备竞赛
Nature Genetics | 告别单纯“比长短”:序列降维图像+双向LSTM网络,开启结构变异智能检出新纪元
Nature | 打破“大脑中心论”:肠道微生态演替与局部低度炎症如何剥夺大脑记忆能力