今天介绍的这项工作来自 Science。该论文提出了一套以单细胞转录组为核心读出、结合深度学习与实验闭环迭代的表型药物发现框架:先从临床或高可转化的表型体系中提取能够表征目标细胞状态转换的转录组表达特征模式,再用在扰动组学数据上训练的DrugReflector对合物进行优先排序并开展筛选,从而在原代人CD34+造血干祖细胞中高效找到可诱导巨核与红系分化的命中化合物,相较随机筛选将命中率提升约13-17倍;随后利用命中与未命中的配对表型-转录组测量进行主动特征模式学习,进一步将前100名候选的命中率提高约2倍并显著前移真实命中在排序中的位置。机制层面,研究识别出两类促进巨核谱系偏向的分子群体:一类主要体现为多酪氨酸激酶协同抑制(单独抑制KDR不足以完全复现强诱导效应,FLT3等也参与其中),另一类则共同指向HMGCR并通过调节胆固醇合成通路驱动巨核生成,从而展示了该框架既能提升表型筛选效率,又能产出可解释的通路与可成药靶点线索,并具备向不同疾病场景迁移应用的潜力。获取详情及资源:
• 📄 论文: https://doi.org/10.1126/science.adi85770 摘要
表型药物筛选长期受限于化学空间的巨大规模,以及实验流程在扩展时面临的技术挑战。为应对这些障碍,已有计算方法用于优先排序候选化合物,但常见做法要么依赖缺乏泛化能力的单任务模型,要么依赖基于基因组学的启发式代理指标,而这类指标通常难以被进一步优化。该研究提出了一种结合组学信息的主动式深度学习框架,旨在以可扩展且可优化的方式,识别能够诱导复杂表型的化合物。该通用算法在经典召回指标上优于现有先进模型,并在两项血液学相关的发现项目中实现了表型命中率提升13-17倍。进一步将该算法与实验室参与的迭代验证流程结合,并据此持续校正用于表征目标表型的转录组表达模式,使命中率在此前基础上又提升约2倍,同时带来更多分子机制层面的线索。总体而言,该框架为高效开展表型命中化合物识别提供了可行路径,并有望广泛加速药物发现进程。1 引言
尽管过去20年治疗领域研发投入不断增加,整体临床试验成功率仍未见明显提升。造成这一现象的原因众多,其中反复出现的核心问题是单一靶点药物发现范式往往难以充分应对真实疾病的复杂性。来自全基因组关联研究的证据显示,许多疾病通常由多个基因变异共同驱动;与此同时,细胞系统中常存在功能冗余,不同分子可相互补偿,从而形成代偿机制;此外,对已在临床使用的药物进行系统分析也发现,多靶点作用十分普遍。虽然靶点导向发现长期占据主流,回顾性研究提示,超过65%的已获批药物实际上源于表型层面的观察线索。
与单靶点策略相比,表型药物发现更强调在可信的疾病模型中调节与疾病相关的行为或状态。由于直接关注细胞层面的属性,表型筛选能够同时纳入靶内与靶外分子反应的综合净效应,从而围绕期望结局进行优化。然而,这一范式受到一个内在权衡的限制:读出越复杂,越难以规模化。高分辨率检测若在疾病相关系统中测量信息密度更高的复杂表型,例如疾病过程的分子层面特征模式,可能更有助于临床转化,但通量更低且成本更高;相反,更简单的表型测量与模型组合可以支撑成本可控的高通量筛选,却往往降低临床可转化性。为缓解这一矛盾,需要能够优先排序小分子的策略,以便更高效地筛出具有临床疗效潜力的候选物。
在靶点导向发现中,虚拟筛选已被证明能够提升生产率。为将类似思路迁移到表型发现,已有工作提出利用AI与任务特定模型对化合物排序,并在抗生素与清除衰老细胞等方向取得命中率提升。但这类方法通常需要针对每一种新表型重新训练,并依赖较大规模数据集。为克服任务特异性,研究者提出用化学扰动诱导的组学特征作为多种表型结果的代理表征,即根据化合物诱导某种与目标表型相关的组学模式(例如基因表达谱)的概率来进行优先级排序。早期实现已在动物表型筛选中显示潜力,但若要证明实际影响并推动产业采用,仍需要在真实药物发现场景中,直接检验模型所排序的高优先级化合物,并以随机选择作为基线进行严格评估。同时,现有框架的一些关键环节也有待改进:例如,当前不少基因表达优先排序方法依赖启发式做法,常用的打分手段来自为其他生物信息任务设计的统计检验(如基因集富集相关流程),难以利用实验反馈持续优化;此外,组学代理能否成功很大程度取决于输入的组学模式是否真正准确表征目标表型,而现有方法往往基于观察性关联去推断表达模式,可能与体外疾病模型测定不匹配,从而影响效果;再者,可用的实验组学模式数量有限,尽管直接从化学结构预测“虚拟组学模式”的模型可能缓解这一限制,但仍需要充分验证。
为提升基于组学的表型药物发现效率,该研究构建了闭环的主动强化学习框架。首先训练了一个深度学习架构DrugReflector,利用化合物诱导的转录组特征来预测能够调节复杂细胞表型的小分子,并在基于约120万细胞的数据集上进行了全面算法对比评测。该数据集覆盖10种不同的肿瘤与原代细胞系,包含88种化学扰动条件,使得化合物排序算法的系统基准测试成为可能;在这一评测中,DrugReflector达到先进水平。随后,研究在两项系统化发现项目中检验其基于组学的预测,目标是诱导巨核细胞与红细胞祖细胞的分化,这一方向与贫血及血小板减少相关疾病的治疗具有关联。与随机选择化合物相比,DrugReflector将命中率提升约13-17倍。为评估更广泛的适用性,该方法还能够在两个外部癌症数据集中有效优先排序与疾病病因相关的化合物。最后,利用实验产生的组学数据作为闭环反馈,研究进一步实现了筛选效果的迭代提升:通过整合成对的表型测量与转录组测量,在主动学习过程中持续校正用于表征目标表型的输入表达模式,使命中率在既有基础上又提升约2倍,并揭示了影响模型表现的关键因素。相关分析还发现了一条此前未被充分认识的促进巨核细胞谱系诱导的通路,进一步体现了该方法的转化潜力。总体而言,这一实验室参与的闭环框架提高了药物发现的产出效率,并支持采用更具代表性且更可转化的细胞模型开展表型筛选。2 结果2.1 用于表型药物发现的闭环预测框架
该表型药物发现框架的核心是一套闭环的主动强化学习过程,用于提名可能调节目标表型的化合物。为获得具有泛化性的细胞状态代理表征,该研究选择单细胞转录组作为组学层面的替代读出,原因在于这种数据类型在多种组织的扰动实验场景以及健康与疾病状态下均较为常见且可获取。流程起始于对临床数据集的分析,从中提取与特定细胞状态转换相关的转录组特征模式,随后将该特征模式与表型检测体系进行校准,以确保该模式的诱导与目标表型呈正向关联。基于这一目标特征模式,进一步构建了深度学习模型DrugReflector,用于预测最可能诱导该特征模式的候选化合物。随后通过实验筛选对化合物的表型活性进行验证,并在多个供体样本中重复确认;这些命中化合物构成框架的主要输出,可用于后续开发。最后,将主动特征学习引入为闭环反馈机制,利用命中与未命中化合物的转录组与表型联合测量结果,对输入的转录组特征模式进行迭代修正,从而提升命中率。通过将该框架与现有表型发现范式进行对比,研究进一步强调了其关键使能环节与改进点。
为进一步从结合层面验证纳洛酮在MOR上的部分激动特征,研究进行了放射性配体结合实验,使用与纳洛酮结构相近的
纳曲酮(
naltrexone)作为探针,观察到随GDPβS浓度升高,结合亲和力下降,其
由0.35nM降低至27.2nM。该结果与早期关于核苷酸会削弱阿片激动剂结合的结论一致,尽管早期研究曾报告纳洛酮结合不受核苷酸影响。图1 | 展示了DrugReflector模块化且具备泛化能力,借助组学层面的深度学习模型实现表型药物发现。 (1)首先,基于临床数据,和/或来自信息量丰富且具有临床可转化性的表型检测体系的数据,确定目标表达特征模式(此处为来源于单细胞RNA-seq数据的转录组表达特征模式)。(2)为确定进入筛选的化合物,在扰动表达特征模式上训练的深度学习模型DrugReflector(此处使用LINCSConnectivityMap)预测哪些化合物更可能诱导目标表达特征模式。(3)随后对化合物进行实验筛选,识别能够诱导期望表型的命中化合物,并在多个供体中完成验证。通过验证的命中化合物构成该发现阶段的输出,并可用于后续临床前开发。(4)通过实验室参与的闭环流程,利用组学与表型的配对测量对输入表达特征模式进行主动精炼,从而提升对活性化合物的优先排序效果。2.2 用于化合物优先排序的深度学习框架
DrugReflector被设计为一个由三个多层感知机分类器组成的集成模型,目标是学习将组学特征模式与其对应的诱导化合物进行匹配。训练数据来自ConnectivityMap的一部分子集,该子集的选择侧重于保证化合物具备可操作性、特征模式具有可靠性,同时覆盖更广的生物学背景。数据被划分为三个集合,使扰动实验的重复样本在三组中均匀分配;集成中的每个模型使用其中两组进行训练。训练过程中,每一个单独的扰动特征模式都被视为独立输入,不对重复样本进行平均处理。模型共训练50个epoch,并在每个epoch对未见化合物的召回表现进行评估,随后选取召回最高的epoch对应检查点用于下游预测。
为检验DrugReflector对训练集组成的依赖,研究进行了两类下采样分析:一类通过随机保留部分扰动重复样本来降低重复深度,另一类通过限制每个化合物所使用的细胞系数量来降低生物学覆盖广度。结果显示,随着重复深度增加以及细胞系多样性提升,模型性能均得到改善,且这种改善在覆盖水平较低时更为明显。这说明在构建稳健且具有泛化能力的预测模型训练数据时,技术层面的冗余与生物学层面的多样性都具有关键作用。
图2 | 展示了用于表型虚拟筛选的深度学习方法。 (A)模型训练流程示意图。对完整的CMAP数据集采用定制质量控制指标(方法部分)进行过滤,并按重复样本均分划分为训练用的折叠集合。集成模型中的每个子模型使用3折中的2折进行训练,并在留出的部分上验证。模型以多类别回归任务进行训练,目标是将正确的扰动标签匹配到输入的CMAP表达特征模式批次;这些输入为每块实验板内差异表达的z-score表征(Level4特征模式)。模型训练细节见方法部分。(B)各算法在各基准数据集上的性能,以跨所有细胞系的平均前1%化合物召回衡量。误差棒表示跨细胞系的标准差。snRNA:单核RNA-seq;scRNA:单细胞RNA-seq。(C)内部扰动转录组筛选数据中,各算法在每个细胞系上的召回热图,该数据包含6个肿瘤细胞系与4个原代细胞系。2.3 DrugReflector与现有方法的基准对比
在方法对比方面,研究以“前1%化合物召回”作为性能指标,并将DrugReflector与四种现有的基因特征模式到化合物的匹配方法进行基准测试。具体定义为:对每个化合物而言,若模型基于其转录组特征模式将带有正确标签的该化合物排入所有预测化合物的前1%,则召回记为1,否则记为0;该得分先在同一化合物的多次观测中求平均,再在所有化合物之间求平均。对照方法包括两个经典基线模型,k近邻分类器与逻辑回归模型,以及两种已发表的计算统计方法,即SigCom的LINCS版本基因集富集实现与Dr.Insight。基准测试覆盖三个相互独立的扰动数据集:Touchstone、sciPlex3以及该研究生成的自有数据集Cellarity。
在CMapTouchstone数据集上,该数据集包含1000个化合物并在9个细胞系中测试,DrugReflector优于全部四种对照算法,在跨细胞系的平均召回上相较Dr.Insight提升1545%,相较SigCom提升15%。在sciPlex3数据集上,该数据集包含188个化合物并在三个CMap肿瘤细胞系中测量,DrugReflector同样取得最佳表现,平均召回相较Dr.Insight与SigCom分别提升66%与108%。
为评估模型在训练数据未覆盖的细胞情境中的泛化性,例如非肿瘤细胞系,研究额外构建了一个新的单细胞转录组数据集,其中包含6种永生化细胞系A549、A375、H1AE、HEK293T、HEP2G与PC3,以及4种原代细胞类型:CD8+T细胞、CD34+造血祖细胞、原代脂肪细胞与支气管上皮细胞。研究在这10类细胞中以重复实验方式测试了来自CMap的88种化合物,并设置与文库匹配的对照,最终获得来自1737个scRNA-seq样本的126万细胞数据。在训练数据中已出现的肿瘤细胞系上,DrugReflector依然优于所有算法,平均召回相较Dr.Insight提升323%,相较SigCom提升73%。在训练数据之外的原代肿瘤细胞系上,DrugReflector仍取得最高召回,相较Dr.Insight与SigCom分别提升194%与30%,但总体召回水平低于肿瘤细胞系场景。
研究同时讨论了特征维度与泛化性的权衡。landmark基因检测仅覆盖978个基因,约占蛋白编码基因的5%,为缓解这一限制,CMap作者曾通过计算推断额外估计11350个基因的表达。将这些推断基因纳入训练数据后,DrugReflector在CMap内部留出特征模式上的召回有所提升,但在外部数据集(包括sciPlex与Cellarity)上的召回反而下降,提示基因推断可能引入数据集特异效应,导致泛化性降低,其负面影响超过新增特征带来的收益,因此DrugReflector未采用推断基因。
最后,研究还评估了基于化合物结构推断“虚拟特征模式”以扩大可预测化合物空间的可能性。使用TranSiGen分别为CMap与内部扰动数据生成虚拟特征模式后,采用DrugReflector或k近邻回归进行召回评估,结果显示与实测特征模式相比,虚拟特征模式带来的召回更低,且在CMap之外下降更明显,这与TranSiGen训练数据来源于CMap的事实相一致。2.4 构建具有高临床可转化性的复杂表型检测体系
造血是关键的发育过程,其异常可导致多种增殖性疾病以及各类细胞减少。鉴于贫血与血小板不足等问题的高发性,该研究将框架应用于调节巨核细胞与红系祖细胞的谱系承诺过程,以验证其在血液学场景中的实用性。筛选体系选择原代人CD34+造血干祖细胞作为起点,一方面因为其与多类血液系统疾病具有高度临床相关性,另一方面也因为公共人类scRNA-seq数据相对丰富,便于将基因表达特征模式与造血过程建立关联。尽管这类原代细胞在转化价值上具有优势,但由于体外获取、培养与扩增成本高且流程复杂,其在表型筛选中并不常用;这些现实限制恰好为评估该框架的潜力提供了场景,即能否在临床意义更强的细胞类型中实现更高效、可扩展的表型探索,从而改变药物发现的效率边界。
为刻画巨核与红系相关的细胞状态,研究分析了一套先前生成的CITE-seq数据集,该数据集在同一体系中联合测量RNA与蛋白表达,覆盖转录组以及134个细胞表面蛋白标记物,样本来自4名健康供体,并在为期10天的时间序列中设置5个采样时间点。结合文献知识,研究识别了多类祖细胞与早期谱系承诺状态,包括沿巨核(Mk)、红系(Ery)、嗜酸粒/嗜碱粒/肥大细胞(EBM)、单核(Mono)与中性粒(Neu)等谱系轨迹处于不同分化阶段的细胞群,并观察到4名供体之间的分化过程具有一致性。进一步验证显示,基于RNA定义的细胞类型表达了巨核与红系谱系所预期的表面标记物,这使得能够制定相应的流式细胞术门控策略以同时检测两类细胞群。与此同时,研究为每个检测体系确定了阳性对照,并建立了流式检测的动态范围,以便更可靠地识别具有表型活性的化合物。
在命中阈值设定方面,研究首先剔除了导致细胞存活率过低或测得细胞数量不足的化合物,随后以DMSO处理作为参照,综合考虑同一板内及不同板间DMSO样本的波动,计算并确定统计学显著性截断标准,用于分别界定两类细胞检测体系的命中判定阈值。
图3 | 展示了单细胞多组学引导的表型检测体系,用于在人体原代细胞中捕捉多谱系造血分化。 (A)从4名健康供体获取原代CD34+造血干祖细胞(HSPC),在体外10天时间序列内设置5个时间点进行CITE-seq(单细胞RNA-seq+抗体衍生标签的细胞表面蛋白标记测量)。图中展示来自所有供体与所有时间点的全部细胞的UMAP嵌入,下方给出各天各细胞类型的比例。(B与C)基于RNA计算的UMAP嵌入。较大的图分别展示与Mk谱系(B)或Ery谱系(C)相关的细胞类型,较小的图展示用于通过FACS对细胞群体进行阴性或阳性识别的表面标记物表达。(D)每个流式细胞术表型检测所使用的标记物面板,以及基于CITE-seq表面标记测量得到的各细胞类型中各表面标记物的平均表达。(E)实验验证诱导Mk分化的化合物结果,通过流式细胞术测量在体外分化7天且持续加入各化合物条件下的Mk诱导效果。三角形表示命中,圆形表示未命中。颜色表示化合物在何种剂量下对Mk丰度的诱导最强。灰色虚线表示相对DMSO的倍数变化为1(无变化)。黑色虚线表示Mk命中的显著性截断阈值。星号与
值为两种方法命中率的一侧二项检验结果(方法部分)。(F)在另外2名供体中对Mk命中化合物进行验证。灰色柱表示(E)中每个化合物在筛选阶段观测到的Mk丰度最大变化。误差棒表示技术三重复的标准差。(G)与(E)相同,但对应Ery发现项目。(H)与(F)相同,用于在多个供体中验证Ery命中化合物。缩写:HSPC造血干祖细胞;MEP巨核-红系祖细胞;GMP粒-巨噬祖细胞;Mono单核细胞;Ery红系细胞;MPC巨核祖细胞;Baso嗜碱粒细胞;Eos嗜酸粒细胞;EBMP嗜酸粒/嗜碱粒/肥大细胞祖细胞。2.5 构建具有高临床可转化性的复杂表型检测体系
造血是关键的发育过程,其异常可导致多种增殖性疾病以及各类细胞减少。鉴于贫血与血小板不足等问题的高发性,该研究将框架应用于调节巨核细胞与红系祖细胞的谱系承诺过程,以验证其在血液学场景中的实用性。筛选体系选择原代人CD34+造血干祖细胞作为起点,一方面因为其与多类血液系统疾病具有高度临床相关性,另一方面也因为公共人类scRNA-seq数据相对丰富,便于将基因表达特征模式与造血过程建立关联。尽管这类原代细胞在转化价值上具有优势,但由于体外获取、培养与扩增成本高且流程复杂,其在表型筛选中并不常用;这些现实限制恰好为评估该框架的潜力提供了场景,即能否在临床意义更强的细胞类型中实现更高效、可扩展的表型探索,从而改变药物发现的效率边界。
为刻画巨核与红系相关的细胞状态,研究分析了一套先前生成的CITE-seq数据集,该数据集在同一体系中联合测量RNA与蛋白表达,覆盖转录组以及134个细胞表面蛋白标记物,样本来自4名健康供体,并在为期10天的时间序列中设置5个采样时间点。结合文献知识,研究识别了多类祖细胞与早期谱系承诺状态,包括沿巨核(Mk)、红系(Ery)、嗜酸粒/嗜碱粒/肥大细胞(EBM)、单核(Mono)与中性粒(Neu)等谱系轨迹处于不同分化阶段的细胞群,并观察到4名供体之间的分化过程具有一致性。进一步验证显示,基于RNA定义的细胞类型表达了巨核与红系谱系所预期的表面标记物,这使得能够制定相应的流式细胞术门控策略以同时检测两类细胞群。与此同时,研究为每个检测体系确定了阳性对照,并建立了流式检测的动态范围,以便更可靠地识别具有表型活性的化合物。
在命中阈值设定方面,研究首先剔除了导致细胞存活率过低或测得细胞数量不足的化合物,随后以DMSO处理作为参照,综合考虑同一板内及不同板间DMSO样本的波动,计算并确定统计学显著性截断标准,用于分别界定两类细胞检测体系的命中判定阈值。2.6 生成巨核生成与红系生成的转录特征模式
为提名进入筛选的候选化合物,该研究首先锁定与早期分化相关的细胞状态转换,即双潜能的巨核-红系祖细胞(MEP)分别向谱系承诺后的巨核祖细胞(MPC)与红系祖细胞(Ery)的转变。MEP被视为较合适的干预节点,因为该阶段细胞发生的转录与代谢改变通常与其向两条谱系承诺分化密切相关。上述转换过程中对应的转录组变化被整理为模型输入,用于驱动DrugReflector对可能诱导目标签名的化合物进行预测与排序。
为定量刻画两类细胞群之间的表达差异,研究提出v-score,其含义是:先计算两个人群在对数归一化计数均值上的差,再用两种条件下对数变换计数方差之和的平方根进行归一化。形式化地,两个细胞状态
与
之间的v-score定义为:
类似于用于模型训练的CMap level4 Z-score签名,v-score以标准差为单位表达基因表达差异。与t统计量不同,v-score在期望意义上不依赖每组的细胞数量,因此当两组细胞数不一致时,仍能进行更稳定且校准更好的跨人群比较。2.7 DrugReflector识别巨核与红系谱系的诱导化合物
研究首先计算MEP与MPC两类细胞群之间的v-score,并将其作为DrugReflector的输入,得到用于筛选的化合物优先级列表。随后从模型输出中挑选排名靠前的化合物,评估其诱导目标表型的能力。为在实验上判定哪些化合物能够诱导目标表型,将CD34+细胞在HSPC维持条件下分别与模型提名的化合物共同处理,并通过流式细胞术检测CD41a+CD71-CD42b+的巨核细胞群体诱导情况。实际测试了107种化合物,这些化合物同时满足DrugReflector排名位于前1000且在现有化合物库存中可获得。为尽量降低库存约束带来的选择偏倚,上述化合物在排名区间内近似均匀抽取。每种化合物设置3个剂量进行测试,分别为100nM、1μM、10μM,并记录在不过度细胞毒的前提下诱导效果最强的剂量。
为评估基于机器学习的化合物选择对表型发现的实际增益,研究将其与穷举式筛选进行对照,后者指对化合物库内所有化合物逐一测试活性。这类对照可作为一种绝对衡量方式,不依赖某个特定替代算法的实现细节,同时也是制药工业最常见的筛选范式。为估计在现有化合物库存上进行穷举式筛选的命中率,研究额外随机选择了87种化合物进行测试。在107种DrugReflector高排名提名化合物中,共有21种超过以6个标准差定义的命中阈值,对应命中率为19.6%(95%CI:13.2-28.1%,Wilson区间)。其中两种化合物活性尤为突出,可使巨核祖细胞数量提升超过4倍。相比之下,随机选择的87种化合物中仅1种超过命中阈值,命中率为1.1%(95%CI:0.2-6.2%,Wilson区间)。统计检验表明,基于机器学习的优先排序相较随机选择在识别命中化合物方面提高约17倍,且差异具有显著性(
,单侧二项检验)。为确认命中结果可在不同供体中复现,研究将17种命中化合物在另外两名供体样本中按此前观察到的最强诱导剂量进行复测;其中两种未通过存活率或细胞计数标准,其余15种中有13种在两名供体中均得到验证,体现了检测体系的稳健性,以及化学扰动在不同供体间的生物学可转化性。
随后,研究通过将MEP群体偏向红系祖细胞方向,进一步展示框架的可泛化能力。与前述流程一致,先计算MEP与红系祖细胞群体之间的v-score并输入DrugReflector,获得用于测试的高优先级化合物列表。在DrugReflector提名的化合物筛选中,剔除可存活细胞过少的样本后,81种化合物中有13种超过以DMSO为参照的6标准差命中截断,命中率为16%(95%CI:9.6-25.5%)。在随机选择的化合物集合中,85种化合物仅有1种能够将红系祖细胞诱导至超过截断的水平,命中率为1.2%(95%CI:0.2-6.4%)。同样地,基于转录组的化合物优先排序将诱导目标表型的成功率提升约13倍,且差异显著(
,单侧二项检验)。最后,研究在多供体中再次进行验证:在验证实验中通过质量控制的10种命中化合物里,8种在至少1名供体中提高了红系祖细胞比例,其中5种在两名供体中均表现出提升。总体结果进一步支持该机器学习模型能够在多种实验设置下显著提高表型命中率。2.8 DrugReflector回收临床标准治疗药物并识别疾病相关通路的调节因子
为评估DrugReflector在不同疾病背景中的更广泛适用性,研究选取了两套病因机制与治疗标准差异显著的数据集进行测试,分别为B细胞急性淋巴细胞白血病(B-ALL)以及乳腺癌,其中乳腺癌部分使用了包含雌激素受体阳性(ER+)与三阴性乳腺癌(TNBC)样本的多肿瘤单细胞图谱。针对每一种疾病状态,研究构建了v-score签名以表征从恶性状态向更接近健康样状态的转变,并据此对化合物进行排序,优先选择模型预测最可能逆转疾病表型的候选物。
在B-ALL场景中,疾病特征表现为B细胞祖细胞异常累积,并伴随酪氨酸激酶信号的失调,其中一部分病例由染色体易位导致BCR-ABL融合蛋白形成,即费城染色体相关机制。DrugReflector在该数据集中优先排序了ABL抑制剂,其中包括临床标准治疗药物Ponatinib,其排名进入前1%(在9597种化合物中位列第78),并且临床研究显示其相较其他ABL抑制剂具有更优疗效。与此同时,模型还倾向于优先排序针对MAPK通路的干预,尤其是p38 MAPK,这与MAPK信号在B-ALL中的重要性相一致。与此形成对照的是,针对无关通路的化合物并未被优先排序,例如雌激素受体信号或更一般性的细胞周期调控相关干预。
在乳腺癌部分,使用ER+与TNBC两类转变构建签名后,得到的优先化合物类别呈现明显差异。尽管两类转变都会优先排序ER抑制剂,但ER+转变对其排序更靠前(
,Wilcoxon符号秩检验),这与ER+肿瘤中观察到的基因组层面改变相一致。类似地,两类转变也都会优先排序细胞周期抑制剂,特别是通过抑制微管而作用于有丝分裂细胞的药物,但TNBC转变表现出更强的优先趋势(
,Wilcoxon符号秩检验),这与TNBC中更显著的细胞周期失调以及更差的预后特征相契合。为补充解释,研究对用于构建转变的各细胞群进行了细胞周期分类,结果显示TNBC相较其他被评估的转变具有更高比例的细胞周期活跃状态。
此外,研究观察到JAK/STAT抑制剂(如ruxolitinib)在B-ALL与乳腺癌两类转变中均被优先排序。这一结果与JAK/STAT信号在B细胞发育与乳腺组织分化中的核心作用及其在肿瘤中的失调相一致,也体现了模型能够在不同疾病中对共享的生物学机制给出相近的优先排序。整体而言,DrugReflector在疾病特异性与亚型特异性层面的预测表现,提示其具备超出训练域的可迁移潜力,并有望在多样化治疗场景中用于化合物优先排序与表型发现任务。2.9 DrugReflector配对的转录组与表型测量支持闭环的主动特征模式学习
受主动强化学习(ARL)相关研究启发(该领域曾用于预测化合物-靶点结合,优化分子性质,以及刻画构效关系),该研究提出:将表型读出与转录组读出进行配对测量,可用于迭代精炼与目标表型相关的输入组学表达特征模式。ARL的核心思想是在选择性获取数据点的过程中优化策略,以最大化奖励信号;策略用于指导智能体在环境中的行动,并利用行动带来的奖励与状态变化来更新策略。在此语境下,策略由DrugReflector及其输入的表达特征模式共同构成,行动对应于对一组选定化合物进行转录组与表型的配对测量,奖励则以命中率表示。整体做法是先从配对的转录组-表型数据中学习得到一个新的表达特征模式,再用该特征模式去更新原始特征模式;学习到的特征模式与原始特征模式之间的差异可视为梯度,而每次策略更新的步长由可调的步长参数控制。
为落实该范式,研究对12个命中化合物与8个未命中化合物开展了scRNA-seq时间序列实验,在第1,2,5,7天采样,并在第7天同步获得配对的表型读出。结果显示,数据中覆盖了预期的主要细胞类型,且由scRNA-seq推断的Mk细胞丰度与表型测量结果呈现强相关。为检验“基因表达变化可区分命中与未命中化合物”的假设,研究在第1天的HSPC群体中,分别将每个化合物与DMSO阴性对照进行差异表达分析,观察到命中化合物中Mk标记基因以及既往与Mk成熟相关的转录因子表达更明显上升,其中若干基因与Mk诱导表型存在显著关联(校正后
,Pearson相关检验)。
研究进一步推断,导致部分被预测为无活性化合物的原因之一,可能是化合物在CD34+细胞中的细胞类型特异效应,与CMap数据集中测得的效应存在差异。已有报告指出,CMap中约43%的化合物在肿瘤细胞系中表现出细胞类型特异效应,而CD34+HSPC并未包含在训练数据中。为直接验证这一点,研究对每个化合物计算其在随访实验中24小时表达特征模式,与LINCS中同一化合物最相似的10个表达特征模式之间的距离;结果发现,未命中化合物的CD34+表达特征模式平均比命中化合物更远11%(配对t检验,
)。需要注意的是,该距离只能在L1000landmark基因集合上计算;而基于基准数据集的分析显示,多数细胞类型特异的扰动效应发生在landmark基因集合之外,这提示仅依赖landmark基因可能低估了部分差异来源。
在输入特征模式精炼方面,研究使用每次扰动的pseudobulk表达,结合第7天的表型结果,按基因与表型的关联程度对基因进行打分,从而得到学习到的表达特征模式,并按前述插值更新机制对原始特征模式进行更新。为全面评估主动特征模式学习框架的应用方式,研究系统测试了Mk谱系中不同细胞类型组合与不同读出日,并在步长参数从0到1、以0.05为间隔的范围内逐一评估。结果显示,以第1天HSPC群体进行差异表达分析并设置学习率为0.7时,命中化合物召回的最大改进(以平均精度AP衡量)最为显著。与此一致,第1天HSPC在整体上呈现最多的差异表达基因(单侧Mann-WhitneyU检验,
),表达变化与Mk表型相关的基因数量也最多(相较其他所有组别,
,Mann-WhitneyU检验),同时与匹配的LINCS表达特征模式相关性最高(单侧Mann-WhitneyU检验,
)。此外,研究还分析了精炼后特征模式在不同基因类别上的变化,发现与巨核生成相关的转录因子相较Mk标记基因及其他基因呈现显著富集(Mann-WhitneyU检验,
)。
为验证该ARL闭环框架的实际增益,研究使用精炼后的特征模式作为DrugReflector输入,对全部化合物重新排序,并测试了96个此前未筛选、但被新排序优先提名的化合物。在通过质量控制的85个化合物中,表型筛选识别出22个新命中。为直接比较原始特征模式与精炼特征模式,研究汇总原始筛选与新筛选得到的全部命中化合物并比较其排名,结果显示精炼特征模式总体上更擅长将命中化合物排在更靠前位置(Wilcoxon符号秩检验,
)。进一步将表型命中率绘制为排名阈值的函数后可见,在前100个化合物范围内命中率约提升2倍,而在约500个化合物后两者趋于收敛;真实命中的中位排名由463提升至138,相当于3.4倍改进。为确认上述提升来自学习到的特征模式中具有生物学意义的信号,研究在插值更新前将学习到的分量随机打乱并重复流程,这些“打乱”版本会稳定地产生更差的命中优先排序(对10000个随机种子进行bootstrap,
),从而支持学习到的表达特征模式确实为目标表型提供了功能相关的信息。
图4 | 展示了利用配对的转录组与表型读出进行主动特征模式学习,提升表型命中率。 (A)用于主动特征模式学习的强化学习框架示意图。在强化学习(RL)中,智能体采取行动与环境交互,环境产生奖励并引起状态变化,这些信息回馈用于更新策略,目标是学习到使奖励最大化的策略。在主动特征模式学习中,智能体由策略(即在给定输入表达特征模式时,DrugReflector输出的化合物排序)以及策略更新过程共同组成。行动是从DrugReflector中选择排名靠前的化合物进行表型筛选,并对信息量最大的化合物进行表型与转录组的配对测量,其中信息量最大的化合物指排名较高且在命中与未命中之间保持平衡的一组化合物。奖励对应于命中化合物被更靠前地优先排序,状态对应于配对的表型与转录组测量结果。智能体利用表型筛选得到的命中化合物及其配对数据学习更新后的表达特征模式,以最大化对命中化合物的优先排序。(B)热图展示24小时条件下,各化合物扰动后与Mk分化相关基因的差异表达。左侧为配对表型检测中观测到的Mk变化,下方显示原始预测中各基因的输入v-score。星号表示各基因与Mk倍数变化相关性的显著性,以Pearson相关检验测得。(C)箱线图展示特征模式精炼在不同基因类别上的变化幅度:诱导巨核生成的转录因子(MKTF(+)),其他转录因子(TF(other)),巨核标记基因(MK(+)),以及其余基因(other)。星号表示相对other基因集合的显著性,基于1000次随机抽取每次100个基因的子样本进行Mann-WhitneyU检验,并对
值取平均以评估稳健性。(D)使用精炼后的表达特征模式作为输入,由DrugReflector预测并进行实验验证的化合物结果。每个点代表一个化合物。浅灰虚线表示相对DMSO倍数变化为1(无变化),黑色虚线表示命中阈值(方法部分)。(E)比较以原始表达特征模式与精炼表达特征模式为输入时,命中化合物在DrugReflector中的排序。精炼表达特征模式使命中化合物整体排名更靠前(
,Wilcoxon符号秩检验),提示优先排序更强。(F)在不同排名阈值下,原始表达特征模式(蓝线)与精炼表达特征模式(橙线)的命中率对比。对每个排名阈值,记录所有测试化合物中,排名优于该阈值的化合物里命中的比例。作为对照,同时标出随机基线的命中率(灰色虚线;随机选择87种化合物)。2.10 解析化合物诱导的巨核谱系定向分化机制
为理解不同化合物在诱导表型方面的差异,研究在各处理条件与各时间点上,分别计算相对于DMSO的细胞类型特异差异表达谱。鉴于24小时这一时间点在前述特征模式精炼研究中的关键性,分析重点聚焦于扰动后24小时的HSPC群体。在该时间点,基于前两个主成分(PC)可以观察到五类主要的扰动簇:一类为不诱导Mk的无活性簇,一类仅包含1种抑制Mk分化的化合物,一类为高度活跃的Mk分化诱导化合物簇,以及两类中等活性化合物簇,后二者沿PC2方向彼此分离。
为解析这种差异由何驱动,研究对主成分相关基因进行了基因集富集分析,以识别与PC相关的生物过程。PC1高载荷基因富集于抗原加工与JAK/STAT信号通路,这与巨核生成过程中已知的重要阶段相一致;与该方向对应的活性化合物簇主要由酪氨酸激酶抑制剂构成,提示抑制一种或多种激酶即可在一定程度上推动巨核祖细胞的诱导,这一现象在既往关于激酶抑制剂的研究中也曾被观察到。相比之下,PC2高载荷基因富集于脂质与胆固醇生物合成过程。该过程近年被认为与巨核成熟及血小板形成密切相关,但此前并未被明确关联到早期巨核谱系承诺,因此提示了可能的早期调控轴。
为进一步分析化学诱导巨核生成的动力学与程序,研究在转录组验证实验的所有细胞中识别了Mk谱系的拟时序轨迹,并在滚动拟时序窗口中计算基因表达,以寻找不同化合物类别之间存在差异的表达模式。结果显示,与Mk分化及发育相关的基因集在所有化合物类别的拟时序上整体一致,提示无论何种化学扰动,巨核分化可能遵循同一套核心程序。然而,在强活性化合物中,已知促进巨核分化的正向调控因子以及细胞周期相关基因(这些基因被认为参与巨核分化过程)在诱导程度上更为明显,尤其体现在MEP与MPC细胞中,提示这些基因的上调可能是命中化合物产生强诱导效应的重要因素。与此同时,能够调节脂质代谢的化合物在所有时间点与多类细胞类型中均引发相应变化,其模式与其他化合物活性所对应的方向一致,但强度更高,进一步支持脂质代谢轴在该类诱导中占据突出地位。
为追溯这些转录组分群背后的靶点机制,研究从ChEMBL汇总了IC50结合测定数据,并筛选比较了所有进行转录组测定且在1μM阈值下抑制靶点数少于20的化合物。结果显示,强诱导与中等诱导类别中识别到的高亲和力靶点多为激酶;而中等诱导(脂质)类别的所有化合物均以高亲和力结合HMGCR,并且除脂质类别命中之外,很少有高亲和力靶点会被多种化合物共同命中。这提示强诱导与中等诱导类别可能涵盖多个功能靶点,而脂质类别更可能主要通过单一靶点HMGCR发挥作用。进一步的CRISPR敲除HMGCR实验在第7天验证了巨核祖细胞的方向性诱导,但效果弱于小分子化合物,可能原因在于HMGCR在多种生物过程中具有必需性,这一点也体现在编辑细胞比例随时间下降的现象中。
鉴于其余命中化合物具有更高的靶点多效性,研究进一步尝试拆解某个强巨核诱导化合物的关键作用靶点。BRD-K28392481可靶向多种受体酪氨酸激酶,包括KDR(VEGFR2)以及FGFR1-4。为区分这一组RTK对表型活性的贡献,研究测试了额外的工具化合物,其中两种相对更选择性作用于KDR而非FGFR蛋白,另有三种相对更选择性作用于FGFR而非KDR。结果显示,两种KDR选择性化合物能够以剂量依赖方式诱导Mk祖细胞,而FGFR抑制剂则无明显活性。为进一步检验KDR抑制是否足以解释化学扰动所观察到的Mk祖细胞增加,研究使用CRISPR开展功能缺失实验。采用单导与双导靶向KDR可获得较高编辑效率,单导超过60%,双导超过70%,且在实验过程中未见编辑细胞比例明显丢失。谱系分化的表型评估检测到Mk祖细胞中度增加,提示仅抑制KDR不足以完全复现化合物的效应。与此一致,FLT3的功能缺失也能诱导Mk细胞,但程度同样低于小分子处理。
总体而言,上述结果揭示了影响巨核谱系指定的多样机制,并将HMGCR指认为诱导巨核谱系的一个潜在关键靶点;与此同时,围绕KDR的分析提示,化学诱导所呈现的强烈巨核生成效应,很可能需要多种酪氨酸激酶的协同抑制共同驱动。
图5 | 展示了解释化合物诱导巨核生成的作用机制。 (A)对预测的Mk诱导化合物在24小时HSPC中相对于DMSO得到的差异表达特征模式进行主成分分析。PC空间中的化合物按相对DMSO的Mk倍数变化着色。(B)在HSPC、MEP、MPC与Mk细胞上计算扩散拟时序,并展示其UMAP嵌入。(C)脊形图展示不同拟时序阶段中各细胞类型的细胞密度分布。(D)按化合物类别统计第7天细胞密度。(E)在拟时序上,按化合物类别展示与GO生物过程相关基因的滚动窗口平均表达。误差带表示同一类别化合物处理细胞间表达的标准差。(F)来自ChEMBL的巨核生成诱导化合物靶点抑制IC50。命中化合物按(A)中注释的诱导类别分组。热图颜色表示对数尺度下的IC50。(G)对KDR(蓝)与FGFR(黄)具有选择性结合亲和力的化合物剂量反应曲线。3 总结
不同情境之间的迁移可由表观遗传或空间图谱提供的先验信息来辅助,也可借助对基因间调控关系的因果推断来实现。要进一步发挥现有范式的潜力,参考扰动数据集本身也存在明显的改进空间。CMap的L1000检测由于基于微珠的方法而噪声较高,且仅覆盖978个基因;同时,CMap数据几乎全部来自肿瘤细胞系,这也限制了其向某些原代细胞类型的泛化能力。为提升预测基础,有必要围绕目标治疗领域构建更匹配的数据集,并系统权衡不同数据模态单独使用或组合使用时的价值。面向庞大的类药化合物空间,未来模型还需要能够直接从化学结构进行预测。尽管已有方法尝试从化学结构预测转录组表达特征模式,但文中给出的内部基准分析以及近期一项旨在预测扰动细胞类型特异影响的Kaggle竞赛结果均提示,现阶段方法虽有前景,仍需进一步精炼。现有方法通常在训练集中出现过或与训练集相近的细胞类型上效果更佳,因此仍需要支持更强泛化能力的新算法。
该框架能够在零样本条件下为表型发现优先排序化合物,但效率仍可通过“选择最有助于学习的化合物”进一步提升。强化学习为此提供了形式化路径,可通过在探索与利用之间权衡的采集函数来最大化奖励信号,例如命中率。早期筛选可更偏向探索多样化的组学响应谱,以建立组学读出与表型之间的联系;后续筛选则可更多利用已获得的规律,以更准确地预测命中化合物。同样地,面向因果基因推断的新兴方法也可能通过更有效识别关键分子驱动因素,在每一步提升学习效率。
该研究的核心思想是将细胞视为作用靶标,即将疾病状态理解为一个或多个失调通路共同作用的结果,而非单一基因所致。该框架据此将疾病生物学置于转录组语境中加以表征,并通过组学显式刻画多条通路的同步位移,从而处理小分子常见的多靶点作用特征。基于这一策略,研究识别出两类能够增强Mk谱系偏向的分子群体。结合化学遗传学与CRISPR实验,研究解析了其中一类强诱导分子的作用机制,结果显示仅抑制KDR并不足以解释表型效应,更可能由包括FLT3与LYN在内的多种酪氨酸激酶共同受抑所驱动。此外,以组学方式靶向细胞状态也更利于产生生物学洞见。研究进一步考察了另一类Mk诱导分子,其共同注释靶点为3-羟基-3-甲基戊二酰辅酶A还原酶HMGCR。后续实验确认,该类分子通过调节胆固醇合成通路诱导Mk分化。值得注意的是,CALR突变造血干细胞的Mk偏向此前已与胆固醇生物合成通路相关联;同时,在小鼠中敲除ABCG4导致胆固醇稳态失衡也会增强巨核生成,为上述发现提供了潜在的生物学基础。
总体而言,该框架在不同疾病场景的药物发现中具有广泛适用性。其以组学作为共同语言,将疾病生物学与化学扰动连接起来,并通过将细胞作为作用对象显著提升表型命中率。研究提供了直接证据表明,在人体造血祖细胞中调节胆固醇生物合成足以诱导巨核细胞命运;同时也显示,促进Mk谱系偏向需要抑制多种酪氨酸激酶。该框架还被用于识别镰状细胞病与骨髓纤维化中的可成药作用节点。随着跨疾病的公开单细胞数据集以及单细胞扰动表达特征模式的快速增长,现已能够利用既有图谱为数十种适应证推导初始目标表达特征模式,并应用这一范式。
往期精彩:
Nature 2025 | 结构快照解析μ-阿片受体中核苷酸释放的构象机制
NC 2025 | ChemEnzyRetroPlanner:用于自动化有机–酶催化混合合成规划的虚拟平台
NMI 2025 | GerNA-Bind: RNA–配体结合特异性解析
写作:L
排版:Barry