作者:Fabien Vincent等(原载《Nature Reviews Drug Discovery》 2022年)
摘要 | 许多药物或其先导化合物,是通过观察它们对正常或疾病生理状态的影响而被发现的。在过去几十年里,这种表型药物发现 (Phenotypic Drug Discovery, PDD)方法已很大程度上被更具还原论的调控特定分子靶点 的方法所取代。然而,现代表型药物发现将最初的理念与现代工具和策略相结合,在过去十年中重新兴起,旨在基于真实疾病模型中的治疗效果 来系统性地推进药物发现。在此,我们讨论该方法近期取得的成功,审视其持续面临的挑战及应对策略,并探讨该领域的创新如何推动下一代成功药物研发项目的诞生。
从历史上看,新药的发现依赖于观察药物对疾病表型 的治疗效果,这既包括传统医学中直接在人体上的观察,也包括在疾病模型中的验证。随着1980年代分子生物学革命和2001年人类基因组测序的完成,药物发现的焦点转向了特定的分子靶点。随后,自2011年起,表型药物发现(PDD)出现了复兴,这源于一个令人惊讶的观察:在1999年至2008年间美国FDA批准的首创新药/首创药物(first-in-class drugs) 中,大部分是在没有预设药物靶点假设的情况下凭经验发现的。这一传统策略的现代版本将其定义修正为:专注于调节疾病表型或生物标志物,而非预先设定分子靶点,以产生治疗效益。十年过去,PDD已发展成为一个成熟的领域,成为学术界和制药界公认的发现模式,而非短暂热潮。这种持续的关注根植于过去十年取得的显著成功,包括治疗囊性纤维化的依伐卡托 和鲁玛卡托,治疗脊髓性肌萎缩症(SMA)的利司扑兰 和布那普兰,治疗精神分裂症的SEP-363856,治疗疟疾的KAF156,以及治疗特应性皮炎的克立硼罗。
这并非意味着PDD方法是解决制药业生产效率问题的万能灵药;表型筛选的利弊 需要与针对已验证靶点的分子方法审慎权衡。尽管PDD取得了成功,但许多历史案例使用的是高度复杂的疾病系统(体内模型甚至人体)而非基于细胞的筛选,并且/或者是偶然发现的结果。药物重定位是这种现象的一个鲜明例证:一方面,有基于偶然临床观察成功重定位的著名案例(如西地那非、米诺地尔、沙利度胺 和美金刚);另一方面,通过预先计划筛选临床化合物库而成功重定位并获批的药物却寥寥无几。这引出了一个关键问题:如何能最好地前瞻性地 利用表型筛选来发现新药?
图1 | 表型药物发现方法谱系。本图展示了源自表型药物发现(PDD)的药物示例,同时说明了有计划的发现和偶然性在其中所起的作用。所列出的已获批药物是基于最初将化合物系列或药物本身与疾病关联起来的原始表型检测类型进行归类的。所有源自细胞筛选的实例均是有计划努力的结果,而所有源自患者研究的实例则基于意外的临床副作用,这些副作用最终导致了化合物的重新定位。
除了对生理学和药理学复杂性的重新认识之外,PDD也挑战着我们关于何为可成药(包括非常规靶点和作用机制,以及驱动疗效可能所需的多药理学)以及何为药物(允许出现意想不到的化合物特性)的固有认知。尽管在靶点识别、安全性去风险步骤以及为表型筛选来源的候选药物规划临床路径方面仍存在重要障碍,但功能基因组学、机器学习/人工智能 和改进的疾病模型 等领域正为PDD带来令人兴奋的新机遇。鉴于PDD与基于靶点的药物发现(TDD)存在显著差异,并且现在有新技术可应用于PDD项目,该领域正飞速发展,亟需在工业界和学术界建立并分享最佳实践。尽管存在技术和文化上的障碍,PDD的再度应用已开始改变我们构思药物发现的方式,并已成为生命科学技术创新的重要试验场。PDD塑造的药物发现理念扩展的“可成药”靶点空间。
PDD的主要驱动力在于,通过此法发现了数量不成比例的首创新药。与TDD基于分子靶点与疾病状态间已确立的因果关系不同,PDD依赖于以不预设分子靶点 的方式,对疾病相关的生物系统进行化学干预。这种经验性的、“生物学优先”的策略提供了工具分子,将治疗性生物学与之前未知的信号通路、分子机制和药物靶点联系起来。
• 肝炎C疗法:靶向HCV病毒NS5A蛋白的调节剂(如达拉他韦)是直接作用抗病毒组合疗法的关键组成部分。NS5A蛋白对HCV复制至关重要但其本身无已知酶活性,其重要性及其小分子调节剂最初是通过HCV复制子表型筛选发现的。
• 囊性纤维化疗法:在不预设靶点的情况下,利用表达野生型或疾病相关CFTR变体的细胞系进行化合物筛选,不仅发现了能改善CFTR通道门控特性的化合物(如依伐卡托),还发现了具有全新作用机制的化合物:能增强CFTR蛋白正确折叠和膜定位的校正剂(如鲁玛卡托、特扎卡托 和依莱卡托)。2019年,由依莱卡托、特扎卡托和依伐卡托组成的三联疗法获批,可覆盖90%的囊性纤维化患者。
• 血液肿瘤疗法:在观察到沙利度胺对多发性骨髓瘤有效后,其优化类似物来那度胺 获得FDA批准用于多种血癌适应症并取得巨大成功。重要的是,来那度胺前所未有的分子靶点和作用机制在其获批数年后才被阐明:它结合E3泛素连接酶CRBN,并重定向其底物选择性,从而促进转录因子IKZF1/IKZF3等靶蛋白的泛素化和降解。这一新机制正被广泛用于开发新型靶向蛋白降解剂。
• 脊髓性肌萎缩症(SMA)疗法:针对由SMN1基因功能缺失突变引起的SMA,两个研究团队通过表型筛选独立发现了能调节SMN2基因前体mRNA剪接、增加全长功能性SMN蛋白水平的小分子。其作用机制是通过结合SMN2基因第7外显子上的两个位点,稳定U1小核核糖核蛋白颗粒复合物——这是一个前所未有的药物靶点和作用机制。其中一种化合物利司扑兰 已于2020年获FDA批准,成为首个口服SMA疾病修饰疗法。
这些例子表明,表型策略如何扩展了“可成药靶点空间”,涵盖了意想不到的细胞过程(如mRNA前体剪接、靶蛋白折叠、运输、翻译和降解),为传统靶点类别带来了新机制,并揭示了新型药物靶点类别。当没有已知的诱人靶点可用于调节相关通路或疾病表型,和/或项目目标是获得具有差异化作用机制的首创药物时,应考虑采用表型策略。被重新审视的多药理学。
表型筛选除了受化合物库和疾病模型系统限制外,对可及的化学和生物学空间没有其他限制,这为识别能作用于多个靶点 的分子提供了机会,即多药理学。
在追求高选择性药物的过程中,多药理学传统上常与优化不足的化合物相关联,因其脱靶效应可能导致潜在副作用。然而,在治疗相关浓度下,大多数(若非全部)已批准药物已知会与多个靶点相互作用,这些相互作用可能导致副作用,但有时也贡献于临床疗效。事实上,通过协同作用 同时低效价调节多个靶点以实现疗效,已被建议作为最大化疗效同时潜在减少副作用风险的策略。伊马替尼 是一个TDD中产生非预期多药理学的经典例子,它除了抑制BCR-ABL外,还对c-KIT和PDGFR等受体酪氨酸激酶有活性,这被认为有助于其在多种癌症中的疗效。
基于药物组合 的多靶点方法是公认的策略,例如在抗病毒和肿瘤学领域,用于应对单药治疗可能产生的耐药性。多药理学药物也常用于治疗中枢神经系统疾病 和心脏病,这些领域基于单一靶点的疗法成功率有限,而经典的体内表型模型长期用于药物发现。一般而言,多靶点药物可能更适用于复杂的、多基因的疾病。
表型方法已提供了许多药物和候选分子,它们在作用机制被识别后,显示出靶向性的多药理学特征。意料之中的是,多药理学常发生在同一蛋白质家族成员之间。药物组合、工程化的多靶点药物和多特异性抗体代表了简化的多药理学场景。然而,将更复杂的多药理学特性设计进单一分子实体,同时平衡候选药物所需的其他所有属性,仍然是一项艰巨的挑战。
表型筛选提供了识别具有新颖、无偏倚的多药理学特征苗头化合物的可能性。一个重要的实际考量是使用信号增益型表型,以帮助将精力集中在富有成效的多药理学上,而非那些与目标生物学无关的细胞应激或毒性作用。多药理学特征的初步了解可通过常规选择性筛选面板获得。在完成一定的化合物优化,减少初始苗头化合物的脱靶特征及其潜在的干扰效应之后,再开展靶点识别工作可能效率更高。即使无法明确识别所有作用靶点,也可利用现有的强大表型和分子分析平台,以参考药物为基准,获得对候选分子作用机制和潜在安全风险的深入理解。
从药物发现的角度看,源于表型筛选的多药理学,可以利用日益稳健的表型模型,结合先进的分析、组学和计算技术,从偶然发现走向基于构效关系的逆向工程方法,从而在保持甚至优化表型活性的同时,最大限度地减少潜在安全风险,提高临床成功的几率。对“类药性”的重新审视:低分子量化合物的表型药物发现成功案例
现代表型筛选也有助于拓展新药所呈现的分子属性范围。具体而言,随着靶向药物设计(TDD)的出现,过去几十年中药物的分子量已显著增加[74]。历史上,许多小分子是通过表型筛选方法发现的,这些方法常使用动物模型,例如布洛芬[75]、米诺地尔[76]和美金刚[77](图2)。这些分子的分子量完全符合广为接受的片段标准(如分子量 < 300 Da)。当代的例子包括利用癫痫模型发现的拉科酰胺[78],以及通过一系列中枢神经系统模型发现的用于治疗精神分裂症的SEP-363856[52,79,80];还包括MLR-1023在经过多种体内模型测试后重新定位用于治疗2型糖尿病和非酒精性脂肪性肝炎[81,82],以及富马酸二甲酯用于多发性硬化症[83](图2)。
上述例子引出一个关键问题:为何那些在当今TDD项目中可能被视为需进行大量效价优化的弱苗头化合物的片段大小分子,却能在体内疾病模型中表现出活性,并最终优化成为尺寸相似的药物?我们假设有几个原因可能解释这种出乎意料的模式。首先,已知片段大小分子在针对特定靶点进行筛选时,由于其分子小且能更多方位地适应结合位点,能提供更高比例的有效苗头化合物[84]。如前所述,多药理作用是PDD药物的常见特征,可能在此也有贡献(例如,SEP-363856与TAAR1和5-HT1A受体相互作用)[52,80]。最后,较小分子在肠道通透性(通过细胞旁路径运作)方面已证实具有优势,并且由于其分子尺寸较小,它们为代谢酶提供的修饰位点也更少[85]。尽管许多这类片段大小药物的剂量和相应暴露量可能按大分子的标准来看偏高,但它们仍可能对其靶点表现出高配体效率,从而得以安全用药[86]。换言之,对于分子量为200 Da的化合物与500 Da的化合物而言,相同的高化合物浓度在暴露量方面所蕴含的安全意义是不同的。
因此,存在一个机遇,可以有意识地利用表型筛选的这种能力,去探索TDD项目覆盖不佳的化学和药理学空间[87]。近期SEP-363856、MLR-1023和拉科酰胺的发现表明,利用体内动物模型进行表型筛选依然能够成功。这种成功在很大程度上取决于模型的临床相关性——这是一个有争议但仍值得探索的话题,后文将进行讨论。展望未来,第二个可考虑的选项是调整思路,在复杂的多细胞类器官检测法中筛选更少、更小的分子。已知片段库尽管数量仅以千计,却能覆盖巨大的药效团空间[84]。检测片段库或分子量介于片段与典型高通量筛选所用化合物之间的分子,可能即便采用低通量的复杂3D检测法,也能覆盖相当大的药理学空间[87]。
一个相关的概念是使用共价片段——这是片段的一个子集,含有能与蛋白质形成化学键的反应性基团——既能用于识别新靶点,也能为调节靶点的化合物揭示化学起点。它们用于基于细胞的表型分析,因其可通过发现可逆化合物无法触及的结合位点来探索更广泛的生物学领域而获得认可[88]。例如,在原代人T细胞中对共价片段进行分析,揭示了通过不同机制(包括直接功能性扰动和/或蛋白质降解)起作用的T细胞活化抑制剂[89]。值得注意的是,被调控的靶点包括先前已配体或未配体的蛋白质。靶点识别与项目推进——一个日趋成熟的讨论。
从安全和临床转化角度看,普遍认为对活性化合物系列进行靶点识别有助于降低项目风险。然而,对于化合物进入临床前是否绝对必须明确靶点,多年来一直存在争议[3]。如今这场讨论正趋于成熟。靶点识别通常被视为导致一个简单的二元结果:靶点要么被识别,要么没有被识别(图3a)。在此,我们希望提供一个不同的框架来讨论此话题。首先,需牢记靶点识别仅是达到目的的一种手段,其目的是为通往临床及处于临床阶段的化合物系列获取决策信息。因此,靶点识别只是实现此目标的选项之一。此外,识别出分子靶点并不等同于理解化合物系列的作用机制(MoA),并且可能对项目决策产生误导。
图3 | 表型药物发现中的靶点识别。(a)靶点识别有时被认为是表型筛选来源的候选药物取得进展的必要条件,并且被视作一个简单的二元结果:靶点要么被识别,要么未被识别。(b)我们提出,其实可以获得一个连续的信息谱,这有助于实现靶点识别的最终目标:为候选药物进入临床获得足够的安全性和转化可行性信心。
例如,记载NS5A是HCV药物达克拉他韦的靶点,并未合理解释其显著的亚纳摩尔级细胞效价,也无法说明如何能以低于1:1000的化合物-蛋白质化学计量比获得疗效[90]。类似地,在发现核糖体是某PCSK9分泌抑制剂的靶点后,理性的反应本应是终止项目,因为这引发了通过广泛抑制蛋白质合成可能带来严重安全性问题的担忧。然而,进一步的研究(包括蛋白质组学分析)揭示,其分子MoA能异常特异性地抑制PCSK9 mRNA转录本的翻译,这是由核糖体、化合物和新生的PCSK9多肽之间形成三聚体复合物所致[91,92]。另一类例子包括因其靶点降解(如氟维司群与雌激素受体)[93]或修饰其蛋白质结合伴侣(如DNMDP与PDE3A)[94]而在此类化合物中展现出独特表型效应的化合物。
作为靶点识别的替代方案,我们建议关于MoA的许多可行知识可以通过经验性获取(图3b)。实际上,细胞和体内实验可提供与药效和安全性相关的读数,进行无偏倚的化合物评估;而目前常采用“组学”方法的机制研究,可能揭示与MoA相关的信息,例如化合物影响的具体生物通路[95]。在项目进程中,关于化合物系列的信息获取是一个连续统,而非识别靶点与否的二元开关,基于对安全性和转化信心的累积,可能推动其进入临床。靶点识别与MoA分析策略。
尽管为小分子筛选苗头化合物寻找直接结合物有望提供“那个/一个”靶点,但在试图解析表型筛选结果时,这并非全貌[96-98]。亲和力(或光亲和)富集结合化学蛋白质组学方法[99-103],或近期使用的细胞热位移分析[104]来识别与小分子苗头化合物结合的蛋白质,是理解MoA的一种途径(例如,自噬抑制剂indophagolin的靶点P2X4)[105]。但这可能不够充分,甚至可能产生误导,如上文PCSK9的例子所示。
RNAi和CRISPR-Cas9的发展开启了筛选全基因组文库的能力,使得能够以高特异性进行功能获得和功能丧失研究[106]。遗传扰动与化合物处理相结合,可提供对MoA更深入的机制理解,并可能导向分子靶点本身的识别(例如,抗白血病剂STF-118804的靶点NAMPT,以及抗病毒药GSK983的靶点DHODH)[107-110]。一项大规模的努力是“癌症依赖性图谱”项目,其旨在利用PRISM方法在带有分子条形码的细胞系中,通过大规模并行化合物筛选,系统性地识别遗传依赖性和小分子敏感性[111,112]。
近来,能够提供化学扰动所致生物学变化的全面信息的分子分析技术,在表型筛选苗头化合物的后续研究中扮演重要角色[9]。此类大规模分析工作实例可分为基因表达测量、细胞形态学测量或生物标志物活性测量几类。“连接图谱”拥有测试化合物和已注释化合物的基因表达谱,可用于特征相似性映射[113]。其扩展是“基于整合网络的细胞特征库”(LINCS)[68,114],这是美国国立卫生研究院(NIH)共同基金的一项计划,旨在分类记录细胞系对化学、遗传和疾病扰动产生的响应变化。“细胞绘画”利用形态学分析:从细胞的显微镜图像中提取定量数据,以识别样本间具有生物学相关性的相似性和差异性[115-118]。“BioMap”面板则是在(化学或生物)处理后对原代细胞系统进行分析,读出与载体对照相比升高或降低的生物标志物活性[69,119,120]。这些技术提供的一个关键优势是,测试大量化合物(例如,顶级苗头化合物列表)的可行性日益增加,而不必像传统的蛋白质组学策略那样必须严格局限于少数几个化合物。这些平台的价值很大程度上源于将苗头化合物的生物学特征与参考化合物、已注释化合物获得的特征数据库进行比较。这可能揭示匹配项,或有助于构建关于其MoA的假设。例如,利用BioMap面板将tapinarof匹配为AHR激动剂,并在后续研究中验证了其自身的AHR激动活性[121]。实际上,分子分析现正被整合到筛选流程中,用于决定哪些苗头化合物和系列将获得进一步的投资和研究[9]。
这些大规模分析技术,虽然通量更高且聚焦于通路水平信息,但在很大程度上依赖于参考数据库中具有相似表型的已知化合物。鉴于表型筛选的目的是发现新的MoA,构建知识库以使这些方法达到查表式的期望可能需要时间。然而,许多表型筛选现在由特定的机制信息指导(由Moffat等人提出的“机制知情的PDD”)[122]。该策略提供了一个关键的生物学框架,基于上述工具,将产生的数据置于假设背景下,用以解释表型筛选苗头化合物的MoA。PDD来源化合物的临床开发考量。
在缺乏靶点信息的情况下,将PDD来源的临床前候选药物推进到临床,给开发团队带来了若干挑战。简言之,靶点验证为降低安全性担忧以及预测和监测疗效提供了宝贵信息。本节将介绍应对这些障碍的具体策略和实例。
“可转化性链条”——即驱动原始表型分析的机制、后续临床前疾病模型以及人类疾病内在组成部分之间的分子水平关联——对于一个PDD项目在临床取得成功至关重要[3]。例如,HBV抗病毒药物RG7834在体外能降低含有耐受性病毒S抗原的非感染性膜颗粒的分泌,因此捕捉到了人类疾病的一个关键(且具有预后意义的)组成部分[50,51,123,124]。用于脊髓性肌萎缩症(SMA)的branaplam和risdiplam研发项目也为此概念提供了有力例证。如前所述,SMA由SMN1基因功能丧失突变引起,这两项努力均源于高通量表型筛选项目,旨在通过调节几乎相同的SMN2基因的剪接(使其包含第7号外显子)来产生功能性SMN进行补偿(该外显子通常缺失,导致产生不稳定的Δ7蛋白)[22,23,125,126]。这些项目筛选的是具有明确临床相关性的疾病替代生物标志物(SMN2 mRNA中第7号外显子的包含),后续的临床研究也证明了这一点。例如,在一项针对健康男性志愿者的I期单次递增剂量研究中,用risdiplam治疗导致了SMN2剪接向全长SMN2 mRNA的预期转变,这进一步在SUNFISH(NCT02908685)关键临床试验中转化为对SMA患者具有医学意义的益处[127]。总之,在靶点未明确识别但具有基于对分子MoA深入理解而可在人体中监测的清晰生物标志物的情况下,临床开发可能是可行的。
在安全性方面,靶点信息及其相关的生理表达模式和功能知识,常被用于关注潜在的安全信号。这些可能在TDD项目早期就被研究,以降低风险或迅速终止项目。然而,监管指南并不要求安全性评估必须提供靶点信息。相反,它们提供了一份必需的毒理学研究清单,以指导选择可用于人体测试的可接受的化合物剂量。降低风险是2019年基斯顿表型药物发现研讨会一个专题讨论会的主题,讨论中产生了多个主题和策略。
首先,安全性考量需要在PDD项目的苗头化合物筛选和验证阶段就尽早纳入。有效的方法包括细胞毒性反筛选(排除通过常见干扰机制或其它不良MoA起作用的苗头化合物)以及分子分析[9]。当苗头化合物列表精简到少数几个令人感兴趣的化合物后,使用活性-非活性化合物对已被证明有助于增加或减少对特定化合物系列及其同源靶点/MoA的信心。这些分子工具能够识别特定生物标志物和感兴趣MoA的特征信号,同时也能评估与化合物MoA不直接相关的(类似于TDD中的“脱靶”)不良反应。这种方法曾被用于增加对初始PCSK9分泌抑制苗头化合物(R)-IMPP的MoA的信心[91]。与常见的筛选苗头化合物一样,该苗头化合物活性较弱且易产生非特异性作用,引发了对进一步投资的担忧。但其对映体(S)-IMPP被观察到具有类似的非特异性,却在PCSK9分泌分析中无活性,这表明(R)-IMPP系列是通过特定的分子靶点起作用,而非通过广泛的细胞应激或损伤(图4)。相反,此策略曾被用于证明终止一个用于治疗囊性纤维化的CFTR矫正剂系列的合理性[128]。在此案例中,在观察到先导分子长期给药后产生严重的体内毒性后,一个结构密切相关但无活性的类似物同样在体内进行了测试。该无活性化合物在相似暴露水平下耐受性良好,表明毒性更可能与MoA相关,而非化合物本身相关。
图4 | 利用活性-非活性化合物对解决靶点或作用机制未知的化合物系列的安全性问题的效用。图中显示了PCSK9分泌抑制剂 (R)-IMPP(左)及其非活性类似物 (S)-IMPP(右)在BioPrint药理学面板中的分析谱图。
此外,研究人员可以利用更复杂的表型分析,并将化合物特异性图谱映射到斑马鱼[129]或基于人原代细胞的疾病系统(如BioMap,该系统已使用临床批准药物生成的特征图谱进行了验证)[130,131]的参考集合中。尽管这些系统不能完全重现人体中可能观察到的所有安全性问题,但它们仍提供了检测某些多器官毒性的机会,同时允许测试数量大得多的化合物或系列。最后,体内毒理学研究(包括在两种不同动物物种中测试多种化合物剂量)是关键步骤,随后确定的无可见不良反应水平(NOAEL)为指导人体测试的化合物剂量选择提供依据。在此,确保所选的两种物种能显示出与疾病生物标志物或该系列MoA相关的生物学特征的调节,对于在进入临床前最大化这些研究的价值至关重要。
源自PDD的候选药物能够在不知晓分子靶点的情况下,并且已经成功过渡到临床阶段[1]。例如,这包括来那度胺(2005年批准用于多发性骨髓瘤,其MoA于2014年被阐明)[20]、拉科酰胺(2008年批准用于癫痫,其可能复杂的MoA仍在研究中)[78,132,133]和RG7834(近期进入I期试验,尽管靶点识别工作尚未成功)[50,51,134]。然而,在缺乏靶点信息的情况下,有必要识别能有效转化到人类患者的替代疾病生物标志物。同样,特定策略有助于评估给定系列及其相关MoA的安全性风险。另一个需考虑的因素是特定适应症领域未满足的医疗需求及临床现状,因为缺乏经过充分验证的靶点可能为在无靶点信息情况下将化合物推进临床提供额外动力[3]。展望未来表型筛选中的替代表型
表型筛选有时会带来两难困境:对于缺乏充分验证治疗靶点且认知有限的疾病,其价值显而易见;然而设计具有临床相关性的表型检测(需包含合适的体外/体内生物系统、刺激信号和读数指标)并建立必要的转化链条,又离不开扎实的疾病知识基础。正如用于阐明小分子作用机制(MoA)的方式,高维特征谱(如基因表达谱和细胞形态学特征)可被用于定义替代疾病表型作为表型检测的读数指标。此时,"扰动因子"不再是化学分子,而是疾病本身——筛选目标是将系统从疾病状态逆转为健康状态。
基因表达谱已用于定义癌症基因组变异等疾病状态。例如,通过高通量mRNA谱对肺腺癌等位基因进行功能影响聚类,为既往未知意义的变异制定治疗策略奠定基础。如前所述,LINCS计划旨在通过编录扰动因子或疾病状态引发的基因表达变化,建立基于网络的生物学理解框架。该计划的目标之一是开发计算框架,通过恢复受干扰通路/网络至正常健康状态来发现疗法。近期一项研究结合高通量药物筛选与现有转录组数据集的计算机模拟分析,鉴定出能在体内逆转肺动脉高压的化合物。作者指出,若使用血管细胞(而非癌细胞)生成LINCS基因表达特征谱,可进一步提升研究质量。然而,这些方法的潜力仍处于起步阶段,Alvarez等人的研究揭示了其局限性:他们整合基因表达谱与多种计算算法定义胃肠胰神经内分泌肿瘤的主调控蛋白,并对经107种化合物处理的肿瘤细胞进行转录组分析。概念上,该方法证明能逆转肿瘤检查点主调控蛋白协同活性的化合物可有效破坏肿瘤细胞状态稳定性,但两种预测诱导患者特异性主调控蛋白崩溃的药物的验证结果尚不明确。
细胞形态表型(包括细胞区室的形状、大小、强度和纹理)已被证实会响应小分子或疾病相关等位基因等扰动而发生改变。LINCS门户网站已整合来自"细胞绘画"技术和"药物重定位中心"的此类数据,报告了1,571种化合物的细胞绘画数据(其中92%已映射至人类蛋白靶点或标注MoA)。这些数据可用于定义已知MoA药物逆转的表型特征。
计算比较和可视化药物与疾病基因表达谱的其他方法可用于定义疾病表型的逆转。逆转基因表达评分(RGES) 系统提供了一种将疾病基因表达与药物诱导表达谱相关联的系统方法。整合TCGA、LINCS、ChEMBL和CCLE数据表明,有效抗癌药物逆转疾病基因表达的能力显著优于无效药物。
类似基因集富集分析,Nassiri等人开发了细胞形态富集分析方法,评估转录组变化与细胞形态改变的关联,强调转录与细胞形态的相互依赖性可能与疾病状态相关(以骨肉瘤细胞系的形态变化为例)。
本部分提及的高维分析数据集存储库已存在于公共领域。对药物发现而言,如何最佳利用这些数据定义可逆转的替代疾病表型(作为治疗效能的指标),是该领域即将面临的重要挑战。部分制药公司已开始将此方法用作筛选平台。Recursion Pharmaceuticals公司自2013年起率先通过"细胞绘画"技术筛选替代疾病特征谱的逆转,专注于罕见单基因疾病的药物重定位。人工智能与PDD
人工智能在药物研发多个领域的应用已被广泛接受,包括药物设计、蛋白质折叠预测、化学合成、计算机毒性预测及药物重定位。该方法的指数级应用依赖于机器学习算法识别模式并从与效价/选择性等参数的关联中学习的能力。
文献分析显示,人工智能在PDD的应用主要分两类:应用于大型化合物/化学结构库的机器学习分类器,以及应用于表型检测衍生特征的分类器。绝大多数研究属于前者——基于图模型或深度学习算法(利用既往筛选的药理学数据)预测新型骨架化合物。典型案例如DeepMalaria研究:基于GSK抗疟数据集训练图模型预测恶性疟原虫生长抑制(及哺乳动物细胞毒性),辅助合理选择骨架化合物进行后续研究。为克服训练数据有限的困难,该研究采用了无关数据集的迁移学习。
相反,将机器学习分类器应用于表型衍生特征的研究仍较少见——尽管这显然是极具吸引力的方向,能揭示看似混沌数据中的隐藏规律。PDD本质上依赖表型模式变化来识别和优化分子,而对生物靶点或MoA知之甚少。细胞水平的药物扰动表征(如"细胞绘画"技术)表明,亚细胞特征指标可用于聚类和分类化合物及基因扰动。当特征空间定义不明确时,机器学习对PDD尤为重要。例如Hofmarcher等人利用大型细胞绘画数据集(30,616种化合物诱导的126,779个形态特征谱)证明,基于原始图像的卷积神经网络提取细胞形态变化的能力优于传统图像处理流程。有趣的是,使用不同细胞染料可能非必需——明场图像也能训练出判别特定表型的算法。
机器学习与PDD的整合还存在其他机遇。例如结合表型筛选与机器学习,从混杂化合物库(如非选择性激酶抑制剂)中提取靶点信息。研究表明,即使使用混杂激酶抑制剂,也能解卷积活性分子的激酶依赖性,并鉴定出促进神经突生长或诱导乳腺癌细胞死亡的激酶组合。
两项研究凸显了机器学习应用于PDD的变革潜力。Zoffmann等人结合高内涵成像、基因组学与机器学习数据分析,有效缩小范围并预测化合物MoA。该研究中机器学习在特征空间定义化合物"原型",使化学家能在优化过程中持续监控结构修饰对类似物MoA的影响——这与传统PDD有本质区别。强生研究人员进一步整合高通量成像与机器学习,证明特定细胞检测的图像可预测跨生物检测的活性,将命中率提高50倍以上。生理与疾病相关检测系统的进阶发展
PDD项目的成败取决于连接初始表型检测与最终患者疗效的"可转化性链条"的强度(通常需经动物疾病模型验证)。Scannell和Bosley的分析提示,研发效率下降可能与最具预测性疾病模型的逐步耗尽相关,而新型疾病相关模型的创建速度可能是制约研发生产力的主要因素。值得注意的是,疾病模型预测效度或可转化性的微小提升,可弥补检测通量上的巨大差距(数量级差异)。因此,开发具有临床转化效度的真实疾病相关检测系统对未来PDD至关重要。
所幸干细胞生物学、功能基因组学、生物工程/微加工及仪器/数据分析等领域的进步,为开发潜在疾病相关检测系统提供了广阔技术储备,包括:模式生物平台方法、高通量体内药理学、高保真Cas9基因调控技术、原代细胞/患者来源细胞/iPSC衍生细胞等新型细胞系统、2D/3D共培养体系、以及整合微加工/生物工程的微图案细胞培养表面、3D基质/微流控系统和器官芯片技术。
设计疾病相关生物模型涉及的实验变量复杂度与数量巨大。完全复现患者生物学特征仅是理想目标,实际研究通常聚焦重现关键疾病特征。即便如此,这些复杂系统仍需大量开发、优化和验证工作。与分子靶点验证类似,疾病模型需在发现数据与临床数据一致后方可视为具转化价值——这是项目后期才能跨越的高门槛。
虽然相关细胞类型和培养条件是开发生理相关模型的必要条件,但仅此不足以保证疾病相关性。细胞系统的可转化性链条需从形态学、多组学特征和药理反应等多维度对标人类临床状况。非酒精性脂肪肝/肝炎体外模型的开发印证了这一点:该模型采用人原代肝细胞、库普弗细胞和肝星状细胞的3D共培养,展现出疾病相关组织形态、生物标志物表达/分泌、转录谱,以及对奥贝胆酸(改善组织学特征的临床阶段化合物)的响应。类似地,源自患者活检的3D类器官肿瘤模型能保留原始肿瘤的组织病理学、生物标志物表达和基因组特征,其体外治疗反应与患者临床化疗反应高度匹配。
在大数据时代,整合大规模人群真实世界患者记录(如UK Biobank和FinnGen)及其组学数据,有助于构建和验证模型系统。Mittal等人通过帕金森病模型(监测α-突触核蛋白基因表达的表型筛选)鉴定出β2-肾上腺素受体调节剂,随后通过400万患者记录验证了激动剂/拮抗剂与帕金森病风险降低/升高的相关性。"肿瘤分析研究"则通过整合患者临床数据、高分辨率多组学谱和离体药物反应,在临床周转时间内提供个体化治疗建议。
人类疾病动物模型是临床前药物发现的重要组分。尽管当前主要用于验证特定分子靶点调节,哺乳动物模型在二十世纪末前一直是表型筛选的主力,推动了癫痫、胃溃疡、高血压、炎症和疼痛等领域治疗药物的发现。随着对高转化潜力表型检测需求的日益明晰,或许应重新考量将体内模型作为一线筛选系统的价值。但需注意:即使包含原代细胞和3D结构,某些复杂或多器官疾病仍需整体动物模型更完整地复现疾病状态,而开发有效的体内转化模型绝非易事。
体内疾病模型存在物种转化障碍等问题(如黄酮类DMXAA因选择性激活小鼠STING蛋白而在临床试验失败)。伦理、成本、可转化性和通量等因素共同提高了适用体内模型的开发和使用门槛。提升转化价值的努力包括建立"小鼠医院"和"共同临床试验"概念——通过临床前小鼠模型与早期临床研究的紧密衔接,降低转化风险。亨廷顿病遗传小鼠模型的比较表达谱与患者谱高度吻合,也增强了模型的预测效度。
疾病模型的发展还可能体现在数据采集与分析层面。精神药物SEP-363856(具有独立于D2/5-HT2A受体调控的新MoA)即通过SmartCube表型筛选发现:该系统捕获小鼠行为多维度数字视频,经算法降维至约2,000个特征,再通过监督学习建立基于已验证治疗药物行为特征的"药物类别-行为特征谱"。虽然此类体内系统存在通量瓶颈,但历史成功案例证明基于假设和药效团信息的体内表型筛选仍可鉴定苗头化合物。SEP-363856研发中对1,000个类似物的体内分析表明合理通量仍可实现。基于斑马鱼等低等生物的模型则提供了高通量替代方案,但转化相关性可能进一步降低。
疾病模型开发固有的多学科性质及优化/关联发现与治疗终点的迭代过程,对生物医药研究界构成重大挑战。学术界拥有多学科专业知识,而生物医药部门则掌握确定模型开发优先级的经验。学术研究的资助不确定性、时间限制及产业界对长周期基础研究的低投入意愿,共同阻碍了新疾病模型系统的发展。生理与疾病相关模型的开发或可受益于非营利性、前竞争性研究组织(类似针对前竞争性分子靶点的探针开发联盟)。结语
PDD通过发现药物、靶点和MoA证明了其独特价值——这些发现在许多情况下是基于靶点的方法无法实现的。该策略为疾病病理生理学分子信息缺失时提供了新治疗路径,助力探索由蛋白质组及其他生物分子/细胞过程构成的"暗生物物质"。表型模型的临床可转化性与化合物库的选择同样关键。
本文强调的核心维度包括:PDD独有的新MoA发现途径、更好复现复杂疾病病理生理的表型模型需求(如整合免疫/神经系统组分)、多药理学提供的机遇,以及使用亚常规尺寸分子库的优势。生物活性分析和MoA表征方法在药效/安全性评估中的广泛应用,结合日益强大的计算技术,对释放PDD全部潜力至关重要。
图5 | 工业化表型药物发现流程示意图。将专为表型筛选设计的化合物库与能够提供足够通量的疾病相关体外或体内模型系统相结合,可在表型筛选活动中识别苗头化合物。这些苗头化合物的优化、表征及向临床阶段的推进,可以利用当前丰富的组学、分析(功能分析)和计算方方法。靶点或作用机制信息用于支持临床候选药物的进展。如果靶点得以识别,另一种可能性是将其作为新靶点药物发现计划的起点。图中所示的"可转化性链条"代表了驱动表型检测的机制、临床前疾病模型和人类疾病之间的分子关联。"反筛选"指旨在验证苗头分子相对于其他非预期表型终点的选择性的检测。
当前挑战在于如何理性整合这些关键要素以实现PDD的"工业化"。鉴于该领域的指数级增长,我们确信机器学习(尤其是深度学习)的深化应用将推动PDD的有效实施(图5)。我们预见PDD的工业化进程,结合十余年现代表型药物发现实践积累的丰富经验,将催生更高效的药物发现范式——无缝整合基于靶点与基于表型的双轨策略。
参考文献:Vincent, F., Nueda, A., Lee, J. et al. Phenotypic drug discovery: recent successes, lessons learned and new directions. Nat Rev Drug Discov 21, 899–914 (2022).