如果把基因组看作人体的蓝图,那么蛋白质组就是细胞真正执行功能的机器系统。不同器官为什么具有不同功能?胎儿组织如何成熟为成人组织?肿瘤在癌变过程中如何偏离正常发育轨迹?药物为什么会在某些器官产生毒性?这些问题最终都绕不开蛋白质,因为绝大多数药物靶点、酶反应、信号通路和细胞结构都由蛋白承担。
过去二十年,GTEx、TCGA、CPTAC和Human Protein Atlas等大型项目极大推动了人体多组织和肿瘤分子图谱建设。但转录组只能反映mRNA水平,而mRNA与蛋白表达之间通常只有中等相关性;抗体组学能够提供定位信息,却受限于抗体质量和半定量性质;已有质谱蛋白质组图谱则往往覆盖组织类型有限,或缺少健康组织、胎儿组织、癌旁组织和肿瘤组织之间的统一比较。
近日,西湖大学郭天南团队联合上海交通大学、哈尔滨医科大学、美国密歇根大学、斯坦福大学、苏黎世联邦理工学院等多家机构,在Nature发表题为“Spatial distribution of the proteome in the human body and in cancers”的研究论文,构建了一个大规模、解剖空间分辨、定量化的人体蛋白质组资源。研究团队利用数据非依赖采集质谱(data-independent acquisition mass spectrometry, DIA-MS),在2,856份人体样本中定量了13,609个蛋白,覆盖58类成人主要组织、251个具体组织亚型、22类胎儿组织以及25种癌症,并纳入肿瘤、配对癌旁组织、健康成人组织和胎儿组织等多种生理/病理状态。
这项研究建立的不只是一个蛋白质清单,而更像一张人体蛋白质“空间导航图”。借助这一资源,作者解析了胎儿、肿瘤、癌旁和健康成人组织之间的蛋白质组轨迹,鉴定出1,717个组织富集蛋白,其中480个来自此前蛋白质组覆盖不足的组织;他们还系统分析了402个组织富集药物靶点与潜在器官毒性的关系,识别了8,940个癌症差异表达蛋白,并进一步提出一批可用于药物再利用和新靶点开发的蛋白候选,包括TROP2/TOP1、PARP1、MET、BCL2L1、TYROBP、KIT和PAX5等。
作者还建设了在线资源网站db.prottalks.com,支持按蛋白或组织进行查询,并可在线比较组织之间差异表达蛋白。这意味着,研究者未来可以像查地图一样,查看某个蛋白在人体不同组织和癌症中的空间分布,评估它是否适合作为药物靶点、是否可能带来器官毒性,以及它在癌症中是否出现异常表达。为什么需要人体蛋白质导航图?
人体不同组织来自同一套基因组,却能分化出完全不同的形态和功能。肝脏负责代谢,脑组织承担神经信号传递,睾丸支持减数分裂和生殖细胞发生,晶状体维持透明和折光,免疫器官执行防御功能。要理解这些差异,仅靠基因序列远远不够;即使知道mRNA表达,也不能完全推断最终蛋白水平。蛋白质才是细胞功能的直接执行者,也是绝大多数药物能够作用的分子实体。
以往的人体表达图谱已经积累了大量转录组和抗体染色数据。Human Protein Atlas通过免疫组化给出了许多蛋白的组织分布信息,GTEx提供了多组织转录组资源,TCGA和CPTAC则围绕多种癌症建立了基因组、转录组和蛋白质组数据。但这些资源仍存在几个关键缺口。首先,蛋白质组的组织覆盖还不够全面,尤其是眼、耳、鼻、骨、牙、体液、胎儿组织等许多组织类型长期缺乏深度定量蛋白数据。其次,健康成人、胎儿、癌旁和肿瘤样本往往来自不同项目、不同平台和不同处理流程,难以在统一尺度上比较。再次,癌症研究中常见的是单癌种队列,跨癌种、跨组织的蛋白质组可比性仍然受批次效应和平台差异限制。
这篇论文的目标正是补齐这些缺口。研究团队使用DIA-MS,这是近年来大规模定量蛋白质组研究中的重要技术路线。与传统DDA相比,DIA更适合高通量、可重复、跨批次定量;与抗体方法相比,DIA不依赖抗体质量,也更容易一次性定量数千至上万个蛋白。作者首先利用1,028个DDA文件建立包含15,332个蛋白群的人体谱图库,再对3,005个DIA文件进行统一搜索、质控和批次校正,最终获得覆盖13,609个蛋白的定量矩阵,蛋白层面全局错误发现率约为0.1%。
这套数据的广度非常突出。样本来自9名成人尸检供体、8名健康受试者、9名胎儿尸检供体和1,015名癌症患者。成人组织覆盖几乎所有主要实体组织和体液,胎儿组织覆盖22类,肿瘤样本覆盖25种常见癌症,并尽可能包含配对癌旁组织。这样的设计使作者不仅能问“某个蛋白在哪个组织多”,还能进一步问“胎儿组织如何走向成熟成人组织”“癌旁组织是否介于健康与肿瘤之间”“肿瘤是否重新激活发育程序或丢失组织特化功能”。
胎儿、肿瘤、癌旁、成人正常组织构成一条蛋白质组轨迹
在全样本t-SNE分析中,作者观察到一个非常有意思的全局趋势:胎儿组织、肿瘤组织、癌旁组织和健康成人组织大致沿着一个方向排列,形成F–T–NT–N的连续轨迹。这里F代表胎儿组织,T代表肿瘤,NT代表配对癌旁非肿瘤组织,N代表健康成人组织。这一轨迹可以被理解为一种蛋白质组层面的“分化状态轴”:胎儿组织处于较低分化或发育状态,健康成人组织处于成熟组织状态,肿瘤和癌旁组织则位于二者之间,反映癌变过程中组织功能和发育程序的重塑。
这一模式并不意味着所有肿瘤都简单“回到胎儿状态”,而是提示肿瘤蛋白质组在某些方面具有去分化特征。作者进一步用轨迹分析为每个样本分配类似“伪时间”的值,从而量化不同组织状态在这条轴上的位置。值得注意的是,脑组织表现出非常特殊的稳定性。无论是发育过程还是恶性转化,脑组织的蛋白质组伪时间值都较低且变化较小,提示神经组织蛋白表达受到较强功能约束。相比之下,肝脏肿瘤和癌旁组织则位于较高伪时间区域,远离胎儿肝,可能反映肝脏在环境暴露、代谢压力和损伤修复中的高度可塑性。
为了进一步解析这一轨迹背后的生物过程,作者对所有样本中显著变化的蛋白进行无监督聚类,得到8个共表达模块。一个典型模块显示出从胎儿到肿瘤、癌旁再到成人正常组织逐渐下降的趋势,并富集于RNA剪接等过程,提示RNA加工在发育和癌变中均具有重要作用。另一个模块则沿F–T–NT–N方向逐渐上升,显著富集于体液免疫反应、补体激活和免疫球蛋白介导免疫反应,可能反映胎儿和肿瘤环境中体液免疫的不完全或抑制状态,而成人正常组织中免疫相关蛋白表达更成熟。
作者还分别分析脑和肝等特定组织,发现虽然RNA剪接下降和免疫激活上升是总体趋势,但每个器官仍有自己的组织特异性轨迹。例如脑组织中特异富集突触传递、神经投射和神经信号相关通路,肝组织则体现代谢功能变化。这说明,人体蛋白质组发育和癌变既有共同轴,也受到器官功能背景的强烈塑造。
1717个组织富集蛋白
在健康成人组织中,作者进一步分析蛋白表达的组织特异性。由于一些大类组织内部差异很高,例如眼、软骨等,研究团队将组织重新细分为74个精细组织类型。所有精细组织内部的蛋白质组距离都显著小于组织间距离,说明这种分组具有生物学合理性。全局嵌入分析中,体液、睾丸、耳蜗、半规管等特殊组织形成明显独立簇,而功能相关组织如外周神经、脑和脊髓则彼此接近。
按照Human Protein Atlas标准,作者将蛋白划分为未检测、组织富集、组富集、所有组织表达、组织增强和混合型等类别。最终,他们鉴定出1717个组织富集蛋白。其中,749个已经在此前人类蛋白质组或转录组研究中被报道为对应组织富集;666个在蛋白水平得到支持;426个与HPA RNA-seq富集结果一致。更重要的是,作者发现480个组织富集蛋白来自24类此前覆盖不足的组织,这正是这张图谱相较以往资源的一大增量。
一个代表性例子是PANX3。在HPA中,PANX3被记录为“未检测”,但在这项DIA数据中,它成为耳蜗中最显著富集的蛋白之一。作者进一步合成PANX3的两个特异肽段,并通过靶向质谱验证其确实具有耳蜗特异表达。这样的例子说明,大规模DIA-MS可以补足抗体图谱和早期质谱草图中的空白,尤其是在以往难以取样、难以处理或蛋白覆盖不足的组织中。
这些组织富集蛋白的功能注释与组织生理功能高度吻合。肝脏富集代谢相关蛋白,脑富集突触功能和神经信号蛋白,睾丸富集减数分裂和生殖相关蛋白,心脏富集心腔形态发生相关蛋白,晶状体富集晶状体发育和透明度维持相关蛋白。甲状腺、肾上腺等内分泌或外分泌器官则共同富集激素代谢过程。这些结果表明,这张蛋白质组图谱能够在全身尺度上重建组织功能分工。
组织富集药物靶点:器官毒性的分子线索
蛋白质组图谱的一个直接用途,是帮助理解药物为什么在特定器官产生毒性。药物靶点如果在非目标器官高度富集,就可能成为脱靶毒性或器官特异性不良反应的分子基础。作者将组织富集蛋白与DrugBank中的药物靶点进行映射,识别出402个组织富集药物靶点,对应2,598种药物,分布在34类组织中。
肝脏拥有最多组织富集药物靶点。这一点并不意外,却非常重要。肝脏是药物代谢中心,且通过门静脉首先接触肠道吸收的药物,因此本来就容易发生药物性肝损伤。作者以CYP2C8为例说明。CYP2C8在肝脏中高度富集,并且是302种药物的靶点或代谢相关蛋白,包括抗病毒药、降糖药和抗癌药等。降脂药gemfibrozil可以作为CYP2C8不可逆抑制剂,当它与CYP2C8代谢的药物合用时,可能使后者血药浓度提高8–10倍,从而导致严重毒性。例如与他汀联用可导致横纹肌溶解和急性肾损伤,与某些降糖药联用可导致严重低血糖。蛋白质组数据在这里提供了一个器官层面的解释:CYP2C8不仅是代谢酶,也是高度肝富集的关键药物靶点,其扰动会集中反映为肝脏和全身代谢毒性。
作者还分析了非肝器官的潜在脱靶毒性。一个例子是triclosan与甲状腺功能异常。Triclosan是一种广谱抗菌剂,常用于外用产品。流行病学研究提示triclosan暴露与甲状腺自身免疫、甲状腺激素水平改变有关。作者发现,triclosan靶向的thyroid peroxidase(甲状腺过氧化物酶)在甲状腺中高度富集,而该酶正是甲状腺激素合成和甲状腺稳态的关键蛋白。这个结果为triclosan相关甲状腺不良效应提供了蛋白质组层面的解释。
这部分分析体现了资源型研究的应用价值。一个药物是否可能伤肝、伤心、影响甲状腺或神经系统,除了药理学和毒理学实验外,还可以先从靶点在人体组织中的真实蛋白表达分布寻找线索。相比只看mRNA,蛋白水平更接近药物实际作用对象,因此更适合用于早期靶点安全性评估。
泛癌蛋白质组:8940个差异蛋白揭示肿瘤重塑
除了正常组织,本文另一个核心是癌症蛋白质组。作者利用25种癌症的配对肿瘤和癌旁非肿瘤样本,在统一平台和流程下建立泛癌蛋白质组。相比TCGA、CPTAC等项目中跨癌种比较常受批次和平台差异影响,这项研究的优势在于统一样本制备、统一DIA流程和统一统计框架,更便于比较不同癌种之间的蛋白质组重塑。
通过线性混合模型比较肿瘤与癌旁样本,作者识别出8,940个差异表达蛋白(DEPs)。结肠癌、直肠癌和睾丸癌拥有最多差异蛋白,而胶质母细胞瘤最少,这与全局t-SNE中脑肿瘤和脑癌旁样本聚在一起的现象一致,进一步说明脑组织蛋白质组在癌变中也保持相对稳定。
多数上调差异蛋白具有癌种特异性,或只在两个癌种中共享。与此同时,作者也发现33个蛋白在超过20种癌症中共同上调,包括与肿瘤发生相关的MCM4和NUDT1/MTH1等。这说明不同组织来源的肿瘤既有强烈器官特异性,也存在保守的泛癌蛋白重塑程序。
在所有差异蛋白中,2,878个蛋白为肿瘤特异性差异蛋白,即只在某一种癌症中显著上调或下调。肝细胞癌拥有最多肿瘤特异性差异蛋白,其次是弥漫大B细胞淋巴瘤和胃肠道间质瘤。肝癌特异性差异蛋白多数下调,并富集于代谢通路,反映肝癌发生过程中肝细胞特化代谢功能丢失。胃肠道间质瘤中,上调蛋白则富集于突触信号相关过程,这与其来源于具有神经样特征的Cajal间质细胞相一致。作者还识别到GIST特异上调的KIT和ANO1,这两个蛋白正是Cajal间质细胞和GIST的经典标志物。靶向质谱进一步验证了CPT1C和FXYD6在GIST中的癌种特异性上调,这两个蛋白主要在神经元中表达,进一步支持GIST的神经样蛋白质组特征。
作者还提出了locally enriched DEPs(LEDEPs,本地富集差异蛋白)的概念,即某个蛋白在正常组织中本来就富集,但在该组织来源肿瘤中发生特异性上调或下调。共有131个肿瘤特异性差异蛋白属于这一类。下调LEDEPs往往反映组织专门功能丢失,例如小肠肿瘤中RBP2和PLS1下降、胃癌中LIPF和GKN1下降、胰腺癌中CELA2A、CPA1和PNLIP等外分泌标志物下降。相反,上调LEDEPs在睾丸癌中更常见,例如TSPY2,提示肿瘤可能利用生殖细胞固有增殖程序。
这些结果让“癌症去分化”不再只是抽象概念,而可以落实到具体组织功能蛋白的丢失和某些内源性程序的异常激活。
从图谱到药物再利用
资源型图谱的价值,最终要落到生物学解释和转化应用。作者从三个角度展示了这张蛋白质组图谱如何用于药物再利用和靶点发现。
第一,作者关注多个癌种共同上调且已有药物靶向的蛋白。他们筛选出77个在肿瘤中共同上调的差异蛋白,这些蛋白对应36种生物药物,大多为受体酪氨酸激酶抑制剂,并涉及2,084项临床试验。研究团队特别指出,子宫内膜癌的获批药物和临床试验数量远少于乳腺癌,但蛋白质组数据提示一些已用于其他癌症的药物可能适用于子宫内膜癌。
一个代表性例子是Trodelvy(sacituzumab govitecan)。Trodelvy是靶向TROP2的抗体偶联药物,携带TOP1抑制剂SN-38,已获批用于三阴性乳腺癌。本文数据发现,TROP2和TOP1在子宫内膜癌和乳腺癌中共同上调,提示Trodelvy可能也适用于子宫内膜癌。实际上,这一假设已有II期临床试验支持,并正在III期临床试验中进一步评估。另一个例子是olaparib。Olaparib是PARP1/2抑制剂,已用于卵巢癌和BRCA相关乳腺癌。作者发现PARP1在多种妇科肿瘤中上调,包括乳腺癌、卵巢癌、子宫内膜癌和宫颈癌,这提示olaparib也可能在子宫内膜癌等肿瘤中具有治疗潜力。
第二,作者整合了ProCan-DepMapSanger数据库中的药物敏感性和CRISPR基因依赖性数据。该整合识别出35种药物靶向9个上调差异蛋白,其中主要是受体酪氨酸激酶。作者进一步重点筛选两类条件同时满足的靶点:肿瘤中蛋白上调,并且蛋白丰度越高,药物敏感性越强或CRISPR敲除依赖性越高。结果显示,在结直肠癌细胞系中,MET和BCL2L1高表达与MET抑制剂savolitinib、tepotinib、merestinib以及BCL2家族抑制剂navitoclax的更高药物敏感性相关。在直肠癌中,MET蛋白高丰度也与更强CRISPR基因依赖性相关,支持MET作为潜在治疗靶点。
第三,作者为了降低潜在脱靶毒性,优先寻找肿瘤中显著上调、但在配对癌旁和所有正常组织中低表达的膜蛋白。最终识别出41个肿瘤富集膜蛋白。其中一些已经是抗体偶联药物靶点,例如CD79B,说明这一筛选策略具有合理性。其他候选,尤其是未被充分研究的跨膜蛋白,可能代表新的抗体药物、抗体偶联药物或细胞治疗靶点。
例如TYROBP在结直肠癌、胃癌、肾癌和胰腺癌等10种肿瘤中呈肿瘤富集,有潜力作为共享ADC靶点,但其在髓系细胞中的表达也提示需要谨慎评估毒性。KIT被识别为GIST特异且GIST富集蛋白,符合其作为Cajal间质细胞“起搏器”和GIST关键驱动靶点的已知生物学。PAX5则在弥漫大B细胞淋巴瘤中表现为肿瘤特异和肿瘤富集,并通过DIA和PRM靶向质谱双重验证。PAX5维持B细胞身份,阻止终末分化,并通过持续转录激活促进淋巴瘤发生;已有研究显示PAX5抑制可增强BTK阻断疗效,因此它可能成为DLBCL治疗靶点。
在线资源
这项研究的另一个重要产出是在线数据库。作者将全部定性和定量数据开放,并建设了https://db.prottalks.com/。该网站支持两类主要查询方式:一种是以蛋白为中心,查看某个蛋白在不同组织、胎儿状态、癌旁和肿瘤中的表达分布;另一种是以组织为中心,查看某个组织或癌种的蛋白质组特征。用户还可以在线选择感兴趣的两个组织进行差异表达分析,并即时生成差异蛋白热图。
原始数据和元数据也已提交至ProteomeXchange、iProX和PRIDE等公共数据库,项目编号包括PXD077178、IPX0003578000和PXD063370。分析代码则在GitHub公开。这种开放方式非常适合资源型论文的长期使用。未来,无论是寻找某个蛋白的组织分布、评估靶点毒性、比较癌种差异,还是探索某个组织的特异蛋白,都可以直接利用这套资源进行初步筛查。这项研究为什么重要?
这项工作的第一层意义,是在蛋白水平建立了一个高覆盖度的人体解剖空间图谱。它覆盖58类主要组织、251个组织亚型、22类胎儿组织和25种癌症,定量13,609个蛋白,弥补了许多此前蛋白质组资源覆盖不足的组织类型。相比转录组,它更接近功能和药物靶点;相比抗体图谱,它更适合大规模定量比较。
第二,这项研究将发育、肿瘤、癌旁和健康成人组织放在同一个蛋白质组坐标系中比较,揭示F–T–NT–N的整体轨迹。这为理解肿瘤去分化、组织功能丢失、免疫状态变化和器官特异癌变提供了系统框架。尤其是脑和肝在这条轨迹上的不同表现,提示不同器官对发育和癌变的蛋白质组响应具有高度差异。
第三,组织富集蛋白图谱为器官功能和药物毒性研究提供了直接资源。作者不仅识别了1,717个组织富集蛋白,还将其中402个映射到2,598种药物,展示了如何用蛋白分布解释CYP2C8相关药物相互作用、triclosan相关甲状腺影响等临床现象。未来靶点发现中,这类数据可以用于更早期地评估潜在器官毒性风险。
第四,泛癌蛋白质组分析为癌症治疗靶点发现和药物再利用提供了蛋白层面的证据。作者识别了8,940个癌症差异表达蛋白、2,878个肿瘤特异差异蛋白、131个本地富集差异蛋白,并通过CPTAC、TCGA和靶向质谱进行交叉验证。PLOD2、TROP2/TOP1、PARP1、MET、BCL2L1、TYROBP、KIT和PAX5等案例说明,这张图谱既能支持已知靶点,也能提出新的候选方向。
第五,这项工作推动了“人体数字导航仪”的概念。过去我们更多有基因组地图、转录组地图和单细胞图谱,而人体蛋白质组在空间和疾病状态上的定量导航仍不完整。本文提供的资源,是构建人体蛋白质数字孪生或疾病蛋白质导航系统的重要一步。仍需注意的局限
作为资源型研究,这项工作也有一些限制需要正确理解。首先,正常成人样本主要来自年龄较大的尸检供体,这可能影响某些组织的呈现。例如乳腺组织可能因年龄相关退化而表现出与结缔组织丰富组织聚类的现象。其次,部分特殊组织如毛发和体液需要专门处理流程,不同样本制备策略可能给跨组织比较带来一定技术影响,因此作者也谨慎避免过度优先化这些组织中的组织富集蛋白。
第三,为了实现广泛组织覆盖,每个肿瘤类型的患者数量有限,因此本文更适合回答“跨组织、跨癌种蛋白质分布和候选靶点”问题,而不是深入解析单个癌种内部的分子分型和患者异质性。第四,DIA-MS虽然覆盖广、定量强,但仍可能遗漏极低丰度蛋白、极端疏水膜蛋白或特定修饰蛋白。第五,这里的“spatial distribution”主要指人体解剖组织空间分布,而不是单细胞或组织切片水平的空间蛋白质组。因此,如果要理解一个蛋白在肿瘤微环境中的具体细胞来源和空间邻域,还需要与单细胞、空间转录组、成像质谱或免疫组化等技术结合。
不过,这些局限并不削弱该资源的价值。相反,正因为它覆盖面广、平台统一、数据开放,它可以作为未来更精细空间蛋白质组研究、单癌种研究和药物靶点验证的基础地图。小结:给人体和癌症建立一张蛋白质层面的地图
总体而言,这篇Nature论文构建了一个覆盖人体多组织、多发育/病理状态和多癌种的定量蛋白质组资源。研究团队利用DIA-MS在2,856份样本中定量13,609个蛋白,覆盖58类成人主要组织、251个组织亚型、22类胎儿组织和25种癌症,建立了一个可用于查询、比较和靶点分析的人体蛋白质空间分布图谱。
在生物学层面,作者发现胎儿、肿瘤、癌旁和健康成人组织在蛋白质组空间中形成F–T–NT–N轨迹,反映组织分化、癌变和功能成熟之间的关系;他们鉴定出1,717个组织富集蛋白,补充了此前许多组织蛋白信息空白,并通过PANX3等案例展示新组织特异蛋白发现能力。在医学转化层面,作者将组织富集蛋白与DrugBank药物靶点连接,解释器官特异性毒性;又通过泛癌差异蛋白、药物敏感性和CRISPR依赖性数据整合,提出药物再利用和新靶点优先级排序方案。
这项工作最大的价值,是把人体蛋白质组从“蛋白列表”推进到“空间导航”。未来,当研究者面对一个候选药物靶点时,可以先问:它在哪些正常组织中富集?它在哪些癌症中上调?它是否位于细胞膜?是否已有药物或抗体可用?它的高表达是否意味着药物敏感或基因依赖?这张图谱为这些问题提供了一个统一入口,也为蛋白质组驱动的人体生物学和精准治疗研究提供了重要底图。论文信息
论文题目:Spatial distribution of the proteome in the human body and in cancers
期刊:Nature
作者:Liang Yue, Wenhao Jiang, Sainan Li, Meng Luo, Ning Fan, Xiaolu Zhan, Rui Sun, Honghan Cheng, Zhangzhi Xue, Tong Liu, Qianhe Zhou, Kexin Chen, Tian Lu, Fang Guo, Dongwei Li, Weigang Ge, Zongxiang Nie, Mengge Lyu, Jun A, Yingrui Wang, Yingdan Chen, Zhenhai Fu, Nan Xiang, Lu Li, Fengchao Yu, Guo Ci Teo, Alexey I. Nesvizhskii, Meng Wang, Michael P. Snyder, Ben C. Collins, Qi Xiao, Ruedi Aebersold, Fei Xu, Hui Yang, Sijia Zhang, Yi Han, Yi Zhu, Yong Ji, Yan Li & Tiannan Guo
通讯作者:Yi Zhu, Yong Ji, Yan Li, Tiannan Guo
主要单位:西湖大学医学院、未来产业研究中心、西湖实验室;哈尔滨医科大学;上海交通大学医学院附属松江医院;大连医科大学;密歇根大学;斯坦福大学;苏黎世联邦理工学院等
DOI:10.1038/s41586-026-10660-y
在线资源:https://db.prottalks.com/