引言
当我们凝视人类基因组那浩瀚的三十亿个碱基对时,自闭症谱系障碍 (Autism Spectrum Disorder, ASD) 始终是其中最复杂、最引人入胜的谜题之一。过去十年间,基于大规模测序技术的突破,我们在寻找与自闭症高度相关的罕见有害编码变异方面取得了惊人的进展。然而,一个悬而未决的问题始终萦绕在医学界的上空:不同血统、不同族裔的人群,其自闭症的底层基因架构是否相同?
3月30日,《Nature Medicine》的研究报道“Deleterious coding variation associated with autism is shared across ancestries”,提供了一个清晰的答案:自闭症的生物学基础在不同人群中是高度一致的,并不受祖先血统的显著影响。
基因组学的“偏科”与拉丁美洲的破局
在探讨这项研究的震撼之处前,我们必须先直面现代基因组学研究中一个长期的“隐秘痛点”:数据的极端偏态。尽管欧洲血统人群仅占全球总人口的约16%,但目前绝大多数的基因发现工作、公开的基因数据库,以及由此衍生的临床诊断工具,都压倒性地以欧洲人群的数据为主。这种“偏科”不仅限制了我们对人类基因组整体多样性的理解,更在无形中加剧了不同族裔在罕见病诊断和精准干预上的不平等。
如果一种致病机制只在欧洲人群中被反复验证,我们如何确信它同样适用于亚洲人、非洲人或是美洲原住民?为了打破这一局限,拉丁美洲祖先自闭症基因组学 (Genomics of Autism in Latin American Ancestries, GALA) 联盟应运而生。
该联盟的成立,标志着迄今为止在拉丁美洲人群中开展的规模最大的自闭症基因测序研究。拉丁美洲人群,在基因组学上对应的是混合美洲 (Admixed American, AMR) 超级人群。他们不仅是全球最大的近期混合人群,包含了原住民、欧洲和非洲的多重血统,更是验证“基因突变效应是否跨血统共享”的完美试金石。
这项研究所涵盖的数据量是极其庞大的。研究人员共纳入了超过15000名个体的测序数据。在核心的家系分析中,共有14359名AMR个体的全外显子组测序 (WES) 和全基因组测序 (WGS) 数据被深度挖掘。这其中包括了4450名自闭症先证者、1459名神经发育典型的兄弟姐妹,以及8450名父母。此外,为了进一步补充论证,研究还设置了病例对照分析框架,纳入了267名自闭症患者,并严格匹配了801名非精神疾病对照组。如此庞大且经过严格质量控制的非欧洲血统队列,为探寻自闭症的普适性规律奠定了坚实的基础。寻踪新生变异:隐藏在进化约束中的致病密码
要寻找自闭症的遗传根源,研究人员将目光锁定在了一种特殊的基因变异上:新生变异 (De novo variants)。这类变异并非遗传自父母的生殖细胞(或者仅仅存在于精子或卵子形成的极晚期),而是首次出现在患者的基因组中。由于它们往往会对蛋白质功能造成严重的破坏,在漫长的进化过程中通常会被自然选择所淘汰,因此在普通人群中极为罕见。
在对比分析中,研究团队在患者及其兄弟姐妹中,共鉴定出6555个罕见的、独特的新生编码序列变异。其中,5062个出现在自闭症先证者身上,而仅有1493个出现在健康的兄弟姐妹身上。不仅如此,数据还显示出极高的复杂性:有36个新生变异在自闭症患者中出现了两次(其中18个与生殖系嵌合一致,18个发生在无血缘关系的个体中)。在较长片段的染色体改变方面,研究还在2191名先证者中观察到了211个罕见的常染色体新生小片段拷贝数变异 (CNVs),而在707名健康的兄弟姐妹中,这一数字仅为15个。
仅仅比较数量是不够的,核心的洞察力来自于对“进化约束 (Evolutionary constraint)”的理解。如果一个基因对人类的生存和繁衍至关重要,它在人群中积累的变异就会远低于根据其序列特征所预测的理论值。这种对功能丧失变异的容忍度,可以通过一个称为 LOEUF (Loss-of-function observed/expected upper bound fraction) 的指标来量化。LOEUF得分越低,说明该基因越保守,越不容忍突变。
数据呈现出令人惊叹的规律:在那些高度受约束的基因(LOEUF排名前30%的基因)中,自闭症先证者携带新生蛋白质截短变异 (PTV) 的比例,显著高于其发育正常的兄弟姐妹。同样,那些被预测为具有高度破坏性的错义变异(MPC得分≥2),也呈现出在患者群体中富集的趋势。而在非约束基因中,这种显著差异则消失了。
这里有一个需要读者深思的方法学挑战:现有的LOEUF约束得分主要是在以欧洲血统为主的队列中计算出来的。不同人群的有效种群规模存在差异,欧洲标准的“约束尺子”去衡量拉丁美洲人群,会不会出现偏差?研究人员通过严密的统计模型证实,尽管现有的LOEUF得分在应用于AMR样本时显得略微保守,但在关注最核心、最受约束的基因区间时,预期的变异数量与观测到的变异数量依然保持着高度的对应关系。这一关键验证,确保了后续基于进化约束进行的基因发现工作在方法论上的合法性。三十五个核心基因:跨越地理与血统的分子共振
基于庞大的家系数据和进化约束指标,研究人员运用了一种名为 TADA (Transmission and de novo association) 的贝叶斯统计算法,对基因层面的致病风险进行了系统评估。TADA算法的巧妙之处在于,它能够整合新生变异、遗传变异以及病例-对照变异,从而最大化发现疾病相关基因的统计效能。
在严苛的多重假设检验校正后,分析结果锁定了35个达到全基因组显著性(错误发现率 FDR < 0.05)的自闭症相关基因。如果将标准进一步收紧,有16个基因达到了 FDR < 0.01 的极高显著性水平;而放宽至 FDR < 0.1,则有61个基因浮出水面。
令人振奋的是,当我们对比这些在拉丁美洲人群中找到的基因与以往在欧洲主导的队列(非AMR补充队列)中发现的基因时,看到了极高的重合度。在这35个 FDR < 0.05 的基因中,有19个在非AMR队列中同样展现出了显著的关联信号。此外,对于那些在两个队列中都呈现显著关联的基因,其在GALA队列中观测到的各类变异数量,与基于非AMR队列计算出的理论预期值惊人地一致。
在这份基因名单中,我们既看到了自闭症研究领域的“老熟人”,也发现了一些正在逐渐显露其关键作用的“新面孔”。例如,PTEN、SHANK3、SCN2A、CHD8 以及 SYNGAP1 等早已被确立为自闭症核心风险的基因,在本次AMR队列中再次以极其显著的统计学证据(如 PTEN 的P值达到了极低水平)证明了它们的跨人群致病性。
而对于那些新兴基因,研究提供了更强有力的数据支撑。以 MARK2、YWHAG、PACS1、RERE、SPEN、GSE1、GLS、TNPO3 和 ANKRD17 为代表的基因,不仅在本次队列中脱颖而出,其中许多还在严重的神经发育障碍队列中得到了独立数据的支持。通过交叉比对不同数据库中的致病表现,研究确认这并不是某种统计学上的偶然,而是真实的生物学信号。
这表明,自闭症的核心风险基因及其驱动的病理过程,深深植根于人类共同的神经发育底层逻辑中。无论这些先证者的祖先是在几万年前跨越白令海峡抵达美洲,还是留在亚欧大陆繁衍生息,当这些维持大脑正常运转的关键齿轮发生严重破损时,引发的临床表型走向了同一条道路。错义变异与信号通路:重塑大脑发育的微观轨迹
在深入解析这些核心基因时,研究人员发现了一个显著的特征:除了直接导致蛋白质完全失去功能的截短变异 (PTVs) 之外,罕见的错义变异(即仅仅改变了蛋白质中某一个氨基酸的突变)同样是重要的致病驱动力。
在GALA队列中,多个排名靠前的基因的关联信号,完全或几乎完全来自于错义变异。例如 MTOR、YWHAG、GRIN1、PACS1 和 CACNA1D。错义变异占据主导地位这一现象,往往暗示着这些突变并非简单地让基因“罢工”(功能丧失),而是可能引发了“捣乱”效应——比如显性负效应(坏的蛋白质干扰了正常蛋白质的工作)或功能获得性突变(蛋白质过度活跃或获得了错误的非预期功能)。
我们不妨以具体基因的功能为切入点,看看这些微观的变异是如何在宏观层面重塑大脑发育的轨迹的。研究富集分析凸显了三大核心生物学过程:基因表达调控、神经元通讯以及细胞骨架功能。
例如,CACNA1D 基因编码电压门控钙离子通道的一个关键亚基,研究在AMR个体中发现了两个全新的新生错义变异。钙离子通道在调控神经递质的释放和神经元的电活动中扮演着核心角色。这种微小的氨基酸替换,可能直接改变了通道的开关频率或离子通透性,进而扰乱了发育早期神经突触的成熟过程。同样引人注意的还有 GLS 基因。它负责编码谷氨酰胺酶,这种酶是将谷氨酰胺转化为谷氨酸(大脑中最主要的兴奋性神经递质)的关键分子。研究人员在该基因上发现了两个独立的新生错义变异。由于谷氨酸代谢同时还紧密参与着MTOR信号通路的调节,这些变异极有可能通过打破脑内兴奋性-抑制性神经递质的精细平衡,最终导致了自闭症相关的行为特征。
此外,大量涌现的转录调控基因(如 SPEN、RERE 和 GSE1)证实,大脑皮层在胚胎期的构建是一个需要极其严密指令时序的系统工程。任何关键转录因子的缺失或错配,都会引发下游成百上千个靶基因表达水平的震荡。
这种错综复杂但又高度收敛的分子机制说明,虽然自闭症在临床诊断上被称为“谱系”,表现为千差万别的行为模式和智力水平,但如果我们将其还原到分子层面,它其实是由有限的几条核心高速公路(信号通路)发生拥堵或断裂所导致的。而在不同血统的人群中,这些“高速公路”的分布和重要性是完全相同的。临床诊断的隐形鸿沟:相同生物学背后的数据偏见
如果生物学机制是跨越血统共享的,那么这是否意味着我们在临床实践中,可以对所有人群一视同仁,提供同等水平的基因诊断服务?
数据的深层分析揭示了一个冷酷的现实:并非如此。相同生物学逻辑的背后,隐藏着由数据偏见带来的隐形鸿沟。为了评估这些基因发现对临床的实际指导意义,研究人员利用了临床遗传学分析平台(如VarSome和Neptune),模拟了在现实医疗环境中,根据美国医学遗传学与基因组学学会 (ACMG) 的指南,对这些变异进行致病性分类的过程。
分析囊括了基因组范围内的20571个新生变异,包括了所有蛋白质截短、错义和同义变异。当研究人员将目光聚焦于那些明确关联自闭症及广泛神经发育障碍的基因时,在总共20571个新生变异中,有926个(4.5%)被系统判定为致病或可能致病 (Pathogenic/Likely Pathogenic, P/LP)。
然而,当按血统对数据进行分层时,差异显现了:
• 在AMR(混合美洲)队列中,被鉴定为P/LP的新生变异占比为 3.8%;而在非AMR队列中,这一比例为 4.75%。
• 欧洲血统 (EUR) 参与者中有 4.83% 的新生变异被判定为P/LP,而非欧洲血统参与者中这一比例仅为 3.92%。EUR患者中被检出至少一个P/LP变异的比例为 5.61%,而非EUR患者仅为 4.54%。
当进一步放宽疾病范畴,将更广泛的神经发育障碍表型纳入考虑后,差异依然存在甚至更为明显:AMR参与者中有6.07%获得了至少一个P/LP发现,而非AMR参与者为7.99%。EUR参与者(8.22%)的诊断率依然显著高于非EUR参与者(6.24%)。我们甚至在使用另一套临床分类软件Neptune时看到了同样的趋势。
这种现象促使我们提出一个尖锐的问题:既然底层的致病基因是共享的,为什么非欧洲血统的患者,其基因变异更难被明确地诊断为“致病”?
答案在于我们当前使用的临床评估体系,严重依赖于“历史先例”。临床变异数据库(如ClinVar)的构建,极大程度上是由欧洲人群的数据喂养出来的。当一个来自欧洲患者的突变被反复报道和研究后,它更容易在系统中被升级为P/LP。相反,即便是一个生化后果同样严重的突变,如果它首次出现在一个缺乏前期数据积累的拉丁美洲患者身上,系统往往会因为缺乏足够的人群频率数据或功能验证文献,保守地将其归类为“临床意义未明” (Variant of Uncertain Significance, VUS)。
此外,在过滤所谓“罕见变异”时,如果仅仅依赖单一的全球人群频率阈值,而不去细分其在特定亚群中的频率,极容易产生误判。某个在欧洲人群中极为罕见的突变,可能在某个特定的美洲原住民群体中属于正常的多态性。如果不整合所有亚群的数据进行严密的等位基因频率注释,我们将不可避免地在非充分研究的人群中引入更高的假阳性率,同时又因为解释能力的不足而带来更高的假阴性率。这正是为什么即便在测序技术如此发达的今天,非欧洲裔患者的基因检测报告上,依然经常出现令人困惑和无助的“意义未明”结论。撕开数据偏见的面纱,重构精准医疗的真实图景
自闭症的遗传拼图,正在一块块被拼接完整。从《自然·医学》这项涵盖超1.5万名拉丁美洲相关人群的研究中,我们不仅看到了35个跨越血统的核心致病基因,更深刻地认识到,自然选择在塑造人类大脑时的法则,对所有族裔都是一视同仁的。无论皮肤的颜色、所处的半球或是语言的差异,破坏了那些高度受进化约束的基因,都会引发相似的神经突触信号紊乱与皮层网络连接异常。底层生物学的“大一统”,为全球范围内的罕见病药物研发与基因靶向治疗提供了坚实的理论依托。
然而,数据中展现出的诊断收益率鸿沟,也为全体医学界敲响了警钟。科学的本质是客观的,但科学数据的积累过程却可能带有历史的惯性。如果我们在推进精准医疗的浪潮中,不能有意识地将测序探头伸向更多未被充分代表的群体,如果我们的临床数据库不能兼容并蓄全球各地的基因多态性,那么所谓的高科技,不仅无法填平现有的健康不平等,反而可能因为算法的偏见,制造出新的系统性鸿沟。
面对多重祖先混合的基因组,我们需要更精确的变异频率数据库,需要更少依赖专有既往数据的判读模型,需要进一步剥离背景噪音、认清真正的致病密码。每一次对罕见致病变异的精准确认,都是在重塑某个患者、某个家庭对未来的认知。
从这个意义上讲,GALA联盟所做的工作,远超出一项单纯的分子遗传学研究。它是在为整个生命科学领域纠偏。只有当我们的基因库真正能够反映全人类的多样性时,那些隐藏在庞大ATCG碱基序列中的生命真相,才能毫无保留地向每一个人敞开。科学的真理,从不偏袒任何一个大陆;而医学的使命,正是要确保这份真理的光芒,平等地照亮每一个角落。
参考文献
Natividad Avila M, Jung S, Satterstrom FK, Fu JM, Levy T, Sloofman LG, Klei L, Pichardo T, Marquez D, Stevens CR, Cusick CM, Ames JL, Campos GS, Cerros H, Chaskel R, Costa CIS, Cuccaro ML, Lopez ADP, Fernandez M, Ferro E, Galeano L, Girardi ACDES, Griswold AJ, Hernandez LC, Lourenço N, Ludena Y, Núñez-Ríos D, Oyama R, Peña KP, Pessah I, Schmidt R, Sweeney HM, Tolentino L, Wang JYT, Albores-Gallo L, Croen LA, Cruz-Fuentes CS, Hertz-Picciotto I, Kolevzon A, Lattig MC, Mayo L, Passos-Bueno MR, Pericak-Vance MA, Siper PM, Tassone F, Trelles MP; GALA Consortium; Autism Sequencing Consortium (ASC); Talkowski ME, Daly MJ, Mahjani B, De Rubeis S, Cook EH, Roeder K, Betancur C, Devlin B, Buxbaum JD. Deleterious coding variation associated with autism is shared across ancestries. Nat Med. 2026 Mar 30. doi: 10.1038/s41591-026-04228-6. Epub ahead of print. PMID: 41912808.
声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!
往期热文:
Nature | 为何靶向药常在老年患者中折戟?衰老压力下的代谢重编程与谷氨酰胺回补机制给出答案
Science | 告别“细胞分拣”假说:全胚胎空间转录组揭示组织边界形成的原位转录重塑机制
Nature Genetics | 破解“化疗致癌”的生死悖论:药理学静止重塑造血干细胞的克隆演化轨迹
Nature | 告别无差别免疫抑制?新型双特异性激动剂实现抗原特异性pTreg的活体精准扩增
Cell | 老药新用的极致跨界:伟哥如何通过PRKG1通路挽救致死性线粒体缺陷?
Nature | 从真实世界临床监测实时捕捉病原体与噬菌体的协同进化军备竞赛
Nature Genetics | 告别单纯“比长短”:序列降维图像+双向LSTM网络,开启结构变异智能检出新纪元
Nature | 打破“大脑中心论”:肠道微生态演替与局部低度炎症如何剥夺大脑记忆能力
Nature Biotechnology | 重塑免疫防线:突破重围的肿瘤新生抗原疫苗将如何改写癌症治疗法则?
Cell | 突破CAR-T抗原逃逸瓶颈!非基因改造的“物理装甲”重塑免疫亲合力