👆 关注我,一起学习最新文献、工艺技术和法规知识
今天分享一篇GSK于2025年发表在《ChemRxiv》期刊的文章。本文针对生物制药生产细胞株开发(CLD)所面临的挑战 —— 克隆筛选流程冗长、判定标准模糊的问题展开研究。在传统细胞株开发中,研究人员通常仅利用开发后期的少量数据,通过人工方式筛选候选克隆。为解决这一问题,本研究引入多变量数据分析(MVDA)技术,构建了一套自动化的数据驱动的分析方法。该方法整合了细胞株开发不同规模、不同阶段的全部数据,旨在为更早、更准确、更高效地筛选高性能细胞株确立标准,同时还能深入提示高产、稳定细胞株中普遍存在的代谢模式特征。细胞株开发是一个多尺度的筛选过程,涵盖从微孔板的单细胞克隆、孔板培养,到利用微型生物反应器开展生产培养实验以筛选细胞株稳定性的全流程。本研究利用 4 组既往细胞株开发数据(数据涵盖数百株表达 3 种不同目标单克隆抗体的 CHO 克隆细胞株),通过多变量数据分析明确了:细胞株开发早期哪些阶段、哪些筛选指标具备预测价值,能够在开发前期更早剔除更多低产细胞株。通过决策树分析,本研究发现单细胞克隆阶段和6 孔板放大培养阶段是预测细胞株生产性能的最具价值的早期开发阶段;同时针对不同单克隆抗体制备体系,建立了通用剔除阈值:当单细胞克隆阶段的活细胞率(VCC)>38%、6 孔板阶段的乳酸生成速率(qLac)<40% 时,可安全剔除低产细胞株。多变量数据分析还揭示了高产稳定细胞株特有的代谢模式,具体表现为氧化代谢水平升高、谷氨酰胺与铵代谢途径发生调控改变,以及乳酸诱导的细胞凋亡减少。将这类代谢参数纳入细胞株筛选标准属于创新性探索,也印证了多变量数据分析方法在信息挖掘方面的显著优势。
※∣1 引 言
过去十年,生物制药行业的市场规模几乎增长了两倍,2021 年全球市场规模达 3896 亿美元,预计 2030 年将攀升至 8569 亿美元。生物制药主要指蛋白治疗药物,其中增长势头最快的一类为用于免疫治疗的单克隆抗体。生物制药生产工厂拥有复杂的生物反应器控制系统,可产生海量的在线、原位、近线及离线数据。这类数据蕴藏着丰富的信息,为工艺优化提供了基础;而工艺优化的目标不仅是提高生产效率与产品质量,同时也旨在改善环境可持续性并增强成本竞争力。中国仓鼠卵巢(CHO)细胞是单克隆抗体制备中应用最广泛的宿主细胞。行业内所采用的不同 CHO 细胞谱系及基因工程改造细胞系,能够生产具有类人源蛋白修饰的多种生物治疗药物。CHO 细胞可良好地在各类培养环境中发生表型适应性改变,然而这种适应性也伴随着基因可塑性带来的不可预测性,使得 CHO 细胞在长期培养过程中易发生基因重排。这一现象进而会导致单克隆抗体的生产率在多次传代后大幅下降,该问题被称为细胞株不稳定性。
CHO 细胞株出现不稳定性的原因之一是遗传异质性,这类异质性源于基因组随机整合、同源重组、随机基因表达波动、随机突变以及基因漂移;CHO 细胞在长期培养过程中,极易发生上述各类基因层面的变化。为了从转染后形成的异质性细胞群中,筛选出一株能稳定表达单克隆抗体、细胞生长状态良好且产品质量达标的候选克隆细胞株,研究人员建立了细胞株开发(CLD)工艺。细胞株开发是单克隆抗体生产的关键路径中一项资源高度密集的环节,该环节通常需要开展 5~12 个月的实质性克隆筛选实验。转染完成后,细胞株开发早期阶段(早期 CLD) 包括单细胞克隆(SCC)以及在孔板和摇瓶中进行的克隆筛选和扩增,此阶段仅能得到细胞最终生长状态和抗体titer的简易的单点检测数据。细胞株开发后期阶段(后期 CLD)则需开展稳定性评估 —— 通过四轮连续的微型生物反应器(MBR)生产培养实验,在超过 70 代的培养周期及规模化生产工艺条件下获取细胞代谢数据,以此筛选出高产且稳定的候选细胞株。这个细胞株开发过程以及集成的细胞株筛选(CLS)是确保新型生物治疗药物成功上市的关键决策环节。
受培养规模小、研发成本高以及缩短开发周期的行业压力影响,早期 CLD 阶段产生的克隆筛选数据相对单薄,仅记录培养末期的抗体titer和活细胞浓度(VCC)。传统上,这类早期CLD 的小规模数据并不用于最终的细胞株筛选决策,最终筛选工作主要基于微型生物反应器的稳定性筛选数据。本研究提出如下假设:通过多变量数据分析(MVDA)和机器学习(ML)技术,可从早期 CLD 的单细胞克隆及克隆扩增数据中挖掘出更多信息,进而开发出能够在细胞株开发早期阶段支持CLS决策的自动化工具。若能在开发前期更早剔除更多低产细胞株,将大幅减少细胞株筛选环节的资源投入。多变量数据分析是挖掘生物药高维数据中关键工艺参数(CPPs)与关键质量属性(CQAs)间潜在相互关系的重要工具,然而目前该工具在行业中的应用仍未得到充分发挥 。
尽管已有研究指出,多变量数据分析应常规应用于早期开发数据的分析,以挖掘可为后期开发和工艺放大提供支撑的相关信息,但该技术在哺乳动物细胞培养领域的应用目前仍未普及。已有部分文献报道了多变量数据分析在细胞株开发单一规模中的应用案例,旨在筛选能保障产品质量的工艺条件,或基于整体工艺属性预测最终的关键质量属性。Sokolov等人的研究证实,将多变量数据分析应用于细胞培养工艺 —— 从小规模体系的克隆与培养基筛选,到中试规模的工艺优化,即便在实验规模较小的阶段,也能挖掘出具有重要价值的工艺信息,该团队的研究核心聚焦于产品质量优化。
据我们所知,目前尚无文献针对不同规模细胞株开发工艺开展系统性的多变量数据分析。本研究基于四组既往细胞株开发数据集,构建了一体化的多变量数据分析方法,实现了细胞株开发阶段(尤其是早期阶段)细胞株筛选标准的自动化确定。本研究的核心目标为,明确细胞株开发早期阶段中,哪些培养规模与判定阈值可用于在开发前期更早剔除更多低产细胞株 —— 这类细胞在后期 CLD 的微型生物反应器生产培养实验中,最终均表现不佳。本研究同时探讨了细胞培养工程领域的核心问题:如何在实现细胞培养工艺放大的同时,保证不同培养规模下细胞的生产率、生长状态及蛋白质量的一致性;而多变量数据分析技术可揭示不同培养规模下,关键工艺参数与关键质量属性间的相关性。此外,本研究的另一研究目标为深入探究影响细胞株稳定性的工艺变量,该方向目前仍是领域内的一个研究空白。
本研究的多变量数据分析工作首先对细胞株开发各培养规模下的克隆筛选数据开展可视化分析与统计分析;在后续的数据分析阶段,采用决策树分类法量化了细胞株开发早期阶段各工艺变量的重要性,并确定了低产细胞株的剔除阈值。为揭示支撑细胞株稳定性的潜在生物学机制,本研究对细胞株开发后期的微型生物反应器相关数据进行线性判别分析,筛选出了影响细胞株稳定性的关键代谢物。
※∣2 方 法
※∣2.1.1 细胞株开发数据
本研究使用的细胞株开发(CLD)数据为四组既往细胞株开发项目的实验数据,均以 CHO 细胞为宿主开展三种目标单抗的开发研究,对应的抗体分别命名为单抗 A(mAb-A)、单抗 B1(mAb-B1)、单抗 B2(mAb-B2)和单抗 C(mAb-C)。本研究共涉及三种独特的单克隆抗体、四组细胞株开发数据,其中针对单抗 B 的开发以重复实验形式开展,两次实验所采用的 CHO 表达平台存在差异。
本研究未纳入细胞转染阶段的实验数据。细胞株开发过程全程耗时 22 周,实验过程中记录了不同培养规模下的克隆筛选数据,主要分为三个阶段:(1)早期 CLD 单细胞克隆(SCC)筛选阶段;(2)早期 CLD 放大培养阶段;(3)后期 CLD 稳定性筛选阶段。细胞株开发各阶段及所记录的克隆筛选工艺变量详见图 1。
Figure 1: Schematic overview of the CLD process and dataset. The five datasets generated in the early-CLD record final day titre (𝑐?), productivity (𝑞?) and viable cell concentration (𝑉𝐶𝐶). The late-CLD is bioprocess monitored record 7 temporal measurements of 12 process variables. The number of cell lines and days are specific to mAb-A.
早期 CLD 单细胞克隆筛选
细胞株开发的首个阶段为基于 Beacon™单细胞分析系统开展的早期 CLD 单细胞克隆筛选。将数千株异质性细胞上样至该系统,系统完成单细胞的分离与单细胞克隆操作,最终获得均一的克隆细胞群。克隆在 Beacon™系统中完成 7 天的培养,实验检测荧光标记的单克隆抗体及细胞数量,同时采用 Spotlight HuIg2检测试剂盒开展抗体分泌测定。基于单克隆抗体titer(cP)、细胞比生产率(qP)和细胞计数(N)实验结果得到一个等效的 Spotlight 评分。随后,Beacon™系统根据生产率和细胞生长状态,自动将表现最优的 96 株候选克隆(细胞株)接种至 96 孔板中。
早期 CLD 扩大培养
研究人员采用不同体积的培养体系,对上述 96 株细胞株逐步开展扩大培养,培养体系依次为 96 孔板、24 孔板、6 孔板、T-25 培养瓶和 125mL 摇瓶(SF)。本研究中无法获取 96 孔板和摇瓶阶段的克隆筛选数据。在 24 孔板、6 孔板和 T-25 培养瓶的扩大培养过程中,均采用离线检测方式对细胞株进行筛选,检测指标为培养最后一天的单克隆抗体titer(cp)、活细胞浓度(VCC)和细胞比生产率(qP),其中细胞比生产率的计算公式为:
式中,cp(tend)为培养末期的最终单克隆抗体titer,cp(t0)为培养初始的抗体titer。24 孔板、6 孔板和 T-25 培养瓶的培养周期分别为 7 天、6 天和 4 天,且 24 孔板培养阶段未记录任何生产率相关数据。早期 CLD 阶段用于评估克隆表现的指标(即关键性能指标,KPI)可归纳为下式:
后期 CLD 稳定性筛选
细胞株开发后期阶段需开展四轮连续的补料分批微型生物反应器(MBR)生产培养实验,以筛选超 70 代培养周期内仍保持生产率稳定的细胞株。本阶段采用 Ambr®15 细胞培养系统,可同时完成 24~48 组平行培养实验,培养体系体积为 10~15 mL。后期 CLD 阶段的四轮连续Ambr 培养实验依次命名为 Ambr-1、Ambr-2、Ambr-3 和 Ambr-4。对每个细胞株均依次完成上述四次培养实验(r=4),培养周期累计覆盖至少 70 代,以此作为细胞株稳定性的判定依据。细胞株的稳定性通过代次(gr)与抗体titer(cP)的回归斜率系数(S) 计算判定,计算公式为:
式中,gr为培养代次,𝑔̅为四次培养实验的平均代次;cP,r为某一Ambr 培养批次中的最大抗体titer,𝑐̅𝑃为四次培养批次的平均最大抗体titer。本质上,回归斜率系数S是协方差与方差的比值再乘以 100%,其结果为百分比值,可反映培养代次gr的变化对cP,r的影响程度。Ambr-1实验接种时,细胞株的培养代次约为 10 代(g~10);至 Ambr-4 实验接种时,细胞株的培养代次已传代至约 80 代(g~80)。
本研究将稳定细胞株定义为S<30%。研究证实,Ambr15™系统中测定的细胞株稳定性,与生物反应器生产规模下的细胞株稳定性具有高度相关性。采用离线检测方式,通过Vi-CELL 细胞活力分析仪与 Cedex 生物分析仪对 Ambr15™系统中的培养样品检测以下指标:活细胞浓度(VCC)、葡萄糖(glc)、谷氨酸(glu)、谷氨酰胺(gln)、单克隆抗体titer(cP)、乳酸(lac)、铵离子(amm),分别在培养第0、3、6、8、10、13 和 15 天进行取样检测。此外,Ambr15™系统集成了在线监测功能,可实时监测培养体系的 pH 值、溶氧浓度(DO%),以及氧气(O2)、氮气(N2)、二氧化碳(CO2)的气体流速(FR)。在取样完成后,Ambr15™系统会于培养第 3、6、8、10 和 13 天,自动向培养体系中间歇补加一种定制培养基,该培养基含葡萄糖和谷氨酸两种底物。若某一株细胞株在某一 Ambr 培养批次结束时,细胞比生产率(qP)或活细胞浓度(VCC)接近零,则该细胞株会被剔除,不进入后续的研究。本研究将后期 CLD 阶段的关键性能指标(KPI)作为细胞株的最终筛选依据,具体指标定义为:
式中,VCCmax,qp,max和cp,max分别为四次 Ambr 培养实验(Ambr-1~4)中测得的活细胞浓度、细胞比生产率和抗体titer的峰值;综上,后期 CLD 阶段的关键性能指标共计 13 项。
※∣2.1.2 数据预处理
本研究的多变量数据分析(MVDA)基于 Python 编程语言(版本 3.10.8)实现:首先通过 pandas 库(版本 2.2.2)将各阶段的细胞株开发(CLD)数据集加载到数据框中,再利用 numpy 库(版本 2.0)和scikit-learn 模块(版本 1.2.0)开展数据分析。研究通过 numpy 库的 isnan 函数识别缺失数据,并将所有缺失数据从研究中排除;同时采用 scikit-learn 预处理模块中的最小 - 最大归一化(MinMaxScaling)方法,对各阶段的所有工艺变量进行归一化处理。由于所有数据均为单点检测值,在归一化和可视化前,研究人员先对早期 CLD 数据采用孤立森林异常值检测算法,剔除因检测误差导致的异常高生产率值。为保证数据的可比性,本研究将所有单克隆抗体开发项目中各 CLD 阶段的数据合并后统一归一化 —— 例如,将单克隆抗体 A、B1、B2 和 C 的所有 6 孔板终末活细胞浓度(VCC)、6 孔板终末抗体titer(孔板终)数据整合后一次性完成归一化。需注意的是,不同单克隆抗体开发项目中活细胞浓度(VCC)和单克隆抗体titer的数值量级存在差异,这是因为每种单克隆抗体的独特特性会影响细胞生产率与培养条件;此外,各 CLD 实验数据集相互独立,因此早期 CLD 不同阶段的工艺变量数值量级无法直接对比。
数据可视化
本研究采用 Python 的 matplotlib 库(版本 3.6.3)完成 CLD 数据的可视化分析:
1)早期 CLD 阶段:绘制产品titer(cP)与活细胞浓度(VCC)的关系图;针对 Beacon™系统筛选数据,绘制产品titer(cP)与细胞比生产率(qP)的关系图;
2)后期 CLD 阶段:绘制峰值titer与峰值活细胞浓度的关系图(cp,peak vs. VCCpeak)。
研究人员在早期 CLD 阶段的可视化图表中,标注了各细胞株在后期 CLD 阶段的表现,以此挖掘可用于预测细胞株筛选(CLS)结果的潜在初始规律。根据表现,细胞株被分为以下四类:
1)性能良好:满足以下筛选标准的细胞株:
式中,[VCCmax]ambr-1,2,3,4和[qp,max]ambr-1,2,3,4分别指四轮Ambr培养实验中测得的活细胞浓度峰值与细胞比生产率峰值。研究通过alphashape模块在可视化图表中勾勒出性能良好细胞株的分布区域。
2)性能不佳:未满足上述筛选标准的其余所有细胞株均定义为性能不佳细胞株。
3)候选细胞株:同时满足以下条件的细胞株定义为候选细胞株:
a、符合上述1)中性能良好细胞株的所有筛选标准;
b、在四轮Ambr培养实验中,其抗体titer在细胞株中排名前50%。
4)剔除细胞株:指在细胞株开发(CLD)全程中被剔除的细胞株。本研究未详述剔除细胞株所采用的具体判定标准,仅对“剔除”做如下区分:
a、整个CLD阶段剔除:指在CLD流程中某个阶段被剔除的细胞株;
b、下一阶段开始前剔除:指在紧邻的下一个CLD阶段开始前被剔除的细胞株。
※∣2.1.3 统计分析
不同 CLD 阶段细胞株性能的统计显著性分析
为验证利用早期 CLD 数据构建预测模型、预判后期 CLD 细胞株性能的可行性,本研究开展统计分析以识别各 CLD 阶段间的相关性。研究将每一组早期 CLD 数据集,依据细胞株在后期 CLD 的表现(判定标准详见 2.1.2 节)划分为 “性能良好” 和 “性能不佳” 两组;采用双侧检验方法,验证最终在后期 CLD 中表现为 “良好” 的细胞株,与表现为 “不佳” 的细胞株相比,其早期 CLD 数据是否存在统计学显著差异。针对各早期 CLD 阶段的细胞比生产率(qP)、抗体titer(cP)和活细胞浓度(VCC)数据,首先利用 SciPy 模块进行Shapiro-Wilk 正态性检验—— 该方法适用于样本量相对较小的场景。若数据符合正态分布,则对两组数据进行 Student t 检验;若不符合正态分布,则采用 Mann-Whitney U 检验开展组间比较。本研究将p≤0.05作为判定两组数据存在统计学显著差异的标准。
早期与后期 CLD 阶段细胞株性能的相关性分析
为进一步探究早期 CLD 数据是否可用于预测后期 CLD 阶段的细胞株表现,本研究计算了早期 CLD 关键性能指标(公式 2):
与后期 CLD 关键性能指标(公式 4):
之间的斯皮尔曼相关系数(Spearman correlation coefficient)。
在对细胞株表现进行排名分析时,若数据不服从正态分布,斯皮尔曼相关分析为优选方法;该方法可衡量两个排序变量间单调非线性关系的强度与方向。本研究通过 seaborn 模块计算相关矩阵。
※∣2.1.4 数据挖掘
通过分类分析识别关键特征与关键阶段
本研究通过数据挖掘方法,探究早期 CLD 克隆筛选数据中哪些阶段、哪些工艺变量对后期 CLD 阶段的细胞株表现影响最显著。该研究目标被转化为基于早期 CLD 数据的有监督学习分类问题,采用决策树(DT)算法,以细胞株在后期 CLD 中的 “表现良好” 和 “表现不佳” 进行分类。本研究以早期 CLD 的全部关键性能指标为输入特征,以细胞株在后期 CLD 的表现为分类类别,训练决策树算法;通过算法输出的特征重要性,可直接明确早期 CLD 中哪些阶段、哪些工艺变量能为后期 CLD 的细胞株筛选提供最核心的参考信息。此外,决策树算法还能基于早期 CLD 克隆筛选数据自动生成判定阈值,该阈值可作为早期 CLD 阶段的细胞株筛选标准,用于剔除低产细胞株。
后期 CLD 阶段关键工艺变量的识别
后期 CLD 数据的内部相关性分析
为明确后期 CLD 阶段中,Ambr15™系统检测的哪些关键工艺变量是构成细胞株稳定性的核心因素,本研究将 Ambr-1 的实验数据按细胞株类型拆分为稳定细胞株和不稳定细胞株数据集(定义详见 2.1.2 节),并计算各工艺变量间的斯皮尔曼相关系数。目前的细胞株开发工艺中,需通过四轮连续的 Ambr 培养实验才能完成细胞株稳定性评估,研究团队期望将这一过程简化为单次 Ambr培养实验即可实现。因此,本研究旨在探究 Ambr-1 实验中的哪些参数,能够提前反映出需通过四次 Ambr 培养实验才能计算得到的细胞株稳定性特征(计算公式见式 3)。为进一步分析,将实验数据按细胞生长周期划分为两个阶段,分别计算指数生长期(第 1~10 天)和稳定 / 死亡期(第10~15 天)内,稳定细胞株与不稳定细胞株各自的工艺变量相关系数。
工艺变量对细胞株性能及稳定性的贡献度分析
为量化 Ambr-1 实验中各工艺变量对细胞株生产性能及稳定性的贡献度,本研究采用线性判别分析(LDA) 开展分析。该算法为有监督学习方法,可通过构建判别函数,最大化后期CLD 中 “性能良好” 与 “性能不佳” 细胞株之间的区分度,或最大化 “稳定” 与 “不稳定” 细胞株之间的区分度。本研究计算了各检测时间点下,每个工艺变量对应的线性判别分析系数,以此表征变量的贡献度。
※∣3 结果与分析
※∣3.1.1 数据可视化分析
早期 CLD 阶段
对任何异质性复杂数据集开展多变量数据分析时,先进行初步的数据可视化分析是十分必要的。图 2 展示了四组目标单克隆抗体既往细胞株开发数据集的八次细胞株开发(CLD)克隆筛选实验的全部克隆筛选数据。在图中标注出各细胞株在后期 CLD 阶段(Ambr-1、2、3、4 培养实验)最终被归为性能良好、性能不佳、候选或剔除细胞株的类别,旨在从早期 CLD 各阶段(Beacon 系统、24 孔板、6 孔板、T25 培养瓶)的数据中挖掘潜在的初始规律,为后续制定细胞株筛选(CLS)标准提供分析依据。本研究对各阶段数据单独进行了归一化处理,因此不同阶段的数值无法直接对比。
Figure 2. Cell line titre over growth/productivity across the 8 CLD stages. (a) BeaconTM plots mAb titre vs. productivity, the remaining plots titre vs. VCC for (b) early-CLD 24-well (c) early-CLD 6-well scale-up (d) early-CLD T-25 scale-up (e) Ambr-1 (f) late-CLD ambr-2 (g) late-CLD ambr-3 (h) late-CLD ambr-4. The red-scale background refers to early-CLD, the blue to late-CLD. Good cell lines, as defined in §2.1.2, are outlined with a green polygon.
图 2a~d 为所有早期 CLD 实验的克隆筛选数据图:在后期 CLD 中表现为性能不佳的细胞株以红色标注,表现为性能良好的细胞株以绿色标注,并用绿色多边形勾勒分布区域轮廓;在 CLD 全流程任意环节被剔除的细胞株则以黑色或橙色标注。从图 2a~d 呈现的四个早期 CLD 阶段数据可清晰看出,性能良好(绿色)和候选(蓝色)细胞株均紧密聚集在抗体titer / 生产率与活细胞浓度(VCC)的特定区间内,具体区间为:𝑞𝑃,𝑆𝐶𝐶 < 0.38 𝐴𝑈, 0.1 𝐴𝑈 < 𝑐𝑃,24-𝑤𝑒𝑙𝑙 < 0.65 𝐴𝑈, 0.2 𝐴𝑈 < 𝑐𝑃,6-𝑤𝑒𝑙𝑙< 0.53𝐴𝑈, 0.18 𝐴𝑈 < cp,T25 < 0.68𝐴𝑈, 𝑉𝐶𝐶beacon < 0.15𝐴𝑈, 0.05 𝐴𝑈<𝑉𝐶𝐶6-𝑤𝑒𝑙𝑙 < 0.60 𝐴𝑈, 𝑉𝐶𝐶24-𝑤𝑒𝑙𝑙 < 0.38 𝐴𝑈, 0.05𝐴𝑈 < VCC T25< 0.80 𝐴𝑈.
在第一个单细胞克隆 Beacon™系统筛选阶段(图 2a),不同单抗的抗体titer(cP)和细胞比生产率(qP)数据差异显著,例如仅单克隆抗体 C 的细胞株出现qP>0.4AU 的情况。这一特征在图 2b~d 所示的另外三个早期 CLD 阶段中依然存在(如单克隆抗体 B2 和 C 的细胞株活细胞浓度与抗体titer始终处于较高水平),但差异程度相对更低、表现不那么显著。值得注意的是,图 2a~d 中“后期表现良好”的细胞株的聚集区域(绿色复合多边形内)在不同单抗间的差异极小,这表明上述界定的数值区间可广泛适用于不同单抗,可将超出该区间的细胞株直接剔除。通过人工分析图 2a~d 的早期 CLD 数据可得出核心结论:过高的活细胞浓度和抗体titer,极不利于细胞株在后期 CLD 阶段展现出良好表现,而这一规律在传统的早期 CLD 细胞株筛选中并未被纳入考量。此外,后期性能良好的细胞株在早期 CLD 阶段的可视化图中均呈现出一致的聚集特征,这说明所有早期 CLD 阶段的指标均与后期 CLD 的细胞株表现存在潜在的相关性。
对四轮 Ambr 培养实验(依次为图 2e、f、g、h)的克隆筛选数据进行了分析,结果显示性能良好和候选细胞株均一致地聚集在图的右下角区域 —— 这是由于性能良好细胞株的判定标准本身就要求细胞株的生产率持续高于某一阈值(定义详见 2.1.2 节)。同时图 2e~h 也揭示了一个现象:基于qp,peak和VCCpeak阈值定义的性能良好细胞株,无法保证其最终的抗体titer处于高水平;即便为性能良好的细胞株,在 Ambr-2 和 Ambr-4 培养实验中的抗体titer也低至 0.1 AU。值得关注的是,在 Ambr-1 和 Ambr-2 培养实验中(图 2e、f),部分被剔除的细胞株仍表现出较高的titer。这类细胞株被剔除的原因,可能是基于产品质量等本研究未纳入的其他检测指标。在四轮 Ambr 培养实验中(图 2e~h),不同单抗的活细胞浓度与抗体titer数据呈现出更明显的聚集特征,这表明不同的单克隆抗体 - CHO 细胞株在抗体表达方面表现出不同的特性,而这一差异可能受基因构建体和细胞株特异性因素的影响。Ambr 培养实验中高产细胞株的核心特征为细胞生长水平极低,其峰值活细胞浓度均满足𝑉𝐶𝐶𝑝𝑒𝑎𝑘<0.60 AU。这一结论与现有文献报道一致,即 CHO 细胞的细胞生长与生产率普遍呈负相关关系。
通过本次可视化分析可以明显看出,直接通过人工分析每个阶段的克隆筛选数据(尤其是早期 CLD 阶段)来推导精准的细胞株筛选标准,是一个判定标准模糊、且需要耗费大量人力的过程;同时,人工分析也无法明确哪些阶段对克隆筛选而言最具参考价值。因此,本研究后续将采用机器学习(ML)技术对克隆筛选数据进行分析,实现早期 CLD 阶段细胞株筛选工作的自动化。
※∣3.1.2 统计分析
早期 CLD 阶段细胞株性能的统计显著性分析
本研究首先针对每个早期 CLD 数据集,采用 Shapiro-Wilk 正态性检验,对所有细胞株的工艺变量分布特征进行检验。结果显示,仅早期 CLD T-25 培养瓶阶段的抗体titer(cP)数据符合正态分布,因此对该指标采用双侧 t 检验分析;其余各阶段数据均不符合正态分布,故采用 Mann-Whitney U 检验,对比在后期 CLD 中表现为良好和不佳的细胞株,其早期 CLD 克隆筛选数据的分布是否存在显著差异。
相关分析结果详见表1。结果表明,在所有早期 CLD 扩大阶段,后期 CLD 性能良好细胞株的titer数据分布均存在显著差异。值得关注的是,小规模 Beacon™系统筛选阶段的细胞比生产率(qP)和抗体titer(cP)分布,在后期 CLD 性能良好与不佳的细胞株间存在显著差异 —— 这一规律此前从未被纳入细胞株筛选的决策依据中。此外,24 孔板阶段的cP和活细胞浓度(VCC)可有效区分细胞株在后期 CLD 中的性能良好和不佳的表现,6 孔板阶段的核心区分指标为cP和qP,而 T-25培养瓶阶段则为qP和 VCC。这一结果表明,每个小规模扩大阶段的指标,与(微型)生物反应器规模下的细胞株表现呈现出不同的相关性特征:24 孔板和 T25 培养瓶的检测指标对细胞生长状态更具参考价值,而 6 孔板的指标则主要反映细胞的抗体titer与生产率水平。
Table 1. Two-sample testing of the early-CLD KPIs comparing cells that perform good or bad in late-CLD. 𝑍: statistical score, 𝑝: p-value. The p-values underlined are <0.05. *t-testing, remainder is Mann-Whitney-U testing for non-normally distributed data.
早期与后期 CLD 关键性能指标的相关性分析
在开发黑箱机器学习模型前,需先验证输入数据(早期 CLD 数据)与预测目标(后期 CLD 细胞株表现)之间存在显著的相关性,本研究即开展了此项验证工作。研究通过计算早期 CLD 关键性能指标(公式 2):𝐾𝑃𝐼𝑒𝑎𝑟𝑙𝑦−𝐶𝐿𝐷 = [[𝑞𝑃,cp]beacon,[V𝐶𝐶,𝑐𝑃]24well,[V𝐶𝐶,qp,cp]6𝑤𝑒𝑙𝑙,[VCC,qp,cp]T25与后期CLD 关键绩效指标(公式 4):𝐾𝑃𝐼𝑙𝑎𝑡𝑒−𝐶𝐿𝐷 = [[𝑉𝐶𝐶max,𝑞𝑃,max,cp,max]ambr-1,2,3,4,𝑆]之间的斯皮尔曼相关系数,完成相关性验证,分析结果详见图3a,其中标注“*”的为显著相关(p≤0.05)。如图3a 所示,Beacon™系统单细胞克隆阶段的抗体titer(cP,SCC)与所有后期 CLD 关键性能指标均呈显著负相关(−0.75<ρ<−0.24),这表明 Beacon™系统中用于表征抗体titer的任意单位(AU),与 Ambr 培养实验中细胞的实际生长状态呈负相关。在 Beacon™系统的两项核心指标中,cP,SCC与后期 CLD 关键性能指标的相关性显著强于细胞比生产率(qP,SCC),二者相关系数分别为 - 0.75 和 0.52。尤为值得注意的是,Beacon™阶段与后期 CLD 关键性能指标的相关性强度,与后续各个早期 CLD 扩大阶段基本相当(ρ≈0.5);这一结果具有重要研究价值,因为 Beacon™系统采用的微小规模工艺条件,与后期 CLD 微型生物反应器规模的工艺条件差异最大。本研究发现的 Beacon™系统指标与生物反应器补料分批培养实验中细胞表现的相关性,与Le等人的研究结果一致 —— 该团队报道 Beacon™系统检测的细胞生产率,与生产规模的细胞生产率间的皮尔逊相关系数约为 0.74。
24 孔板和 6 孔板阶段的cP,与四轮 Ambr 培养实验中的cp,peak均呈显著正相关(图3a 中0.17<ρ<0.65);24 孔板、6 孔板、T25 这三个培养扩大阶段的细胞生长指标 VCC,与四轮 Ambr 培养实验的VCCpeak也均呈显著正相关(图3a 中0.5<ρ<0.6),这一结论与现有文献报道一致 —— 有研究指出,6 孔板培养第 3 天的抗体titer检测值,对最终的蛋白浓度具有较高的预测价值。T25 培养瓶阶段的qP与后期 CLD 关键性能指标的显著相关性最强,其与 Ambr-4 培养实验中峰值的相关系数达 0.73(图3a);且该指标与Ambr-3、Ambr-4 的相关性(ρ≈0.7)显著高于与 Ambr-1 的相关性(ρ≈0.5)。这一结果具有重要的实际参考价值:细胞株完成 Ambr-4 培养后,培养代次显著更高,发生基因不稳定性的程度也最大,因此该结果证实了利用 T25 克隆筛选数据预测细胞株稳定性的潜在可行性。T25 培养瓶的培养条件可促进细胞提高其生长速率,这一特征与后期 CLD 阶段的培养环境高度相似。整体而言,所有早期 CLD 关键性能指标均与四轮 Ambr 培养实验的部分或全部后期 CLD 关键性能指标存在显著相关性,这表明各个规模扩大阶段的检测指标,均对后期CLD 阶段的细胞生长和生产效率具有预测价值。
Figure 3. Spearman’s correlation coefficient between (a) early-CLD and late-CLD𝑐p, 𝑞p and 𝑉𝐶𝐶 (b) within process variables of late-CLD Ambr-1 in the exponential phase of stable cell lines in the left-corner and unstable in the right-corner and (c) within process variables of late-CLD stable cell lines in death phase with stable cell lines in the left-corner and unstable cell lines in the right corner. * or underlined values had 𝑝≤ 0.05.
※∣3.1.3 数据挖掘
早期 CLD 阶段的分类预测
为确定哪些早些CLD阶段和相关阈值对于预测细胞株在生产培养实验中表现为良好或不佳最为关键,本研究以早期CLD 关键性能指标为输入特征,以细胞株在后期 CLD 中被界定的性能良好 / 不佳为预测输出(定义详见 2.1.2 节),构建了决策树(DT)模型。该决策树模型的预测准确率达 0.79,表明模型整体性能良好;精确度为 0.60,说明模型正确识别阳性样本(性能良好细胞株)的可靠性处于中等水平。图4d 展示了决策树的特征重要性(FImp) 分布,结果表明,用于预测细胞株在后期 CLD 中性能好坏的核心特征为 Beacon™系统的细胞比生产速率(qP,特征重要性 = 0.40)和 6 孔板阶段的活细胞浓度(孔板,特征重要性 = 0.39)。此外,Beacon™系统的抗体titer(cP,SCC,特征重要性 = 0.06)、6 孔板阶段的抗体titer(特征重要性 = 0.09)和 T25 培养瓶阶段的细胞比生产速率(qP,T25,特征重要性= 0.06)也对该预测存在一定参考价值,仅贡献度相对较低。
这一结果明确了后续为制定细胞株筛选(CLS)标准,需重点可视化分析的早期 CLD 关键性能指标组合,本研究将其中特征重要性最高的指标绘制于图4a、b 中。图4a 显示,6 孔板阶段活细胞浓度>0.38 AU且Beacon™系统细胞比生产速率<0.40 AU的细胞株,在后期 CLD 中均表现不佳,可直接予以剔除。图4b 表明,Beacon™系统抗体titer<0.14 AU 的细胞株,在后期 CLD 中同样均表现不佳。图4c 绘制的决策树模型,展示了如果根据树中某一点对数据进行分类,大多数类别将被如何划分,从而直观地推导出CLS标准。综上可得出核心结论:对于所有单克隆抗体的细胞株开发项目而言,6 孔板和 Beacon™系统是早期 CLD 阶段中信息价值最高的两个筛选阶段;本研究训练得到的决策树模型,可为后续的细胞株开发项目提供直接可用的工具,用于其推导细胞株筛选的阈值与判定标准。
Figure 4. Decision tree classification of early-CLD clone screening data using performance in late-CLD as classes.
后期 CLD 阶段关键工艺变量的识别
后期 CLD 数据内部的相关性分析
CHO 细胞株随传代代次增加而出现的不稳定性尚未得到充分表征,这也导致筛选稳定细胞株时,需开展覆盖至少 70 代的筛选实验。为挖掘支撑细胞株稳定性的代谢与生物学规律,本研究分别针对稳定细胞株和不稳定细胞株,构建了后期 CLD 工艺变量的斯皮尔曼相关系数(ρ)矩阵,以p≤0.05为标准判定相关性是否显著。结合图3b、c 中观察到的细胞比生产速率(qP)与活细胞浓度(VCC)的相关关系,本研究将∣ρ∣>0.2设为存在有意义相关关系的判定阈值。将后期 CLD 数据集先按细胞株类型分为稳定细胞株(S<30%,见公式 2)和不稳定细胞株数据集,再进一步按细胞生长阶段拆分:指数生长期(第 0~8 天)和稳定 / 死亡期(第 10~15 天),分别分析两个阶段内工艺变量的相关性特征,相关结果依次绘制于图3b、c 中。图3b 中,左半部分为稳定细胞株指数生长期的相关性特征,右半部分为不稳定细胞株的相关特征。结果显示,两类细胞株的葡萄糖代谢存在显著差异:稳定细胞株的qP与葡萄糖(glc)呈负相关(ρqP,glc=−0.18),而不稳定细胞株的二者相关性几乎可忽略(ρqP,glc=0.029)。值得关注的是,不稳定细胞株中 VCC 与qP的相关性(ρVCC,qP=−0.21)远强于稳定细胞株(ρVCC,qP=−0.089)。细胞内环境的紊乱会导致葡萄糖代谢、线粒体功能等代谢通路发生改变,这也能解释稳定与不稳定细胞株间的葡萄糖代谢差异。不稳定细胞株中 VCC 与二氧化碳流速的相关性更强,而与氧气流速(FR)的相关性更弱,这表明不稳定细胞株的氧气利用效率可能低于稳定细胞株,是代谢应激的典型特征 —— 此类细胞更依赖糖酵解及其他以二氧化碳为副产物的代谢通路。稳定细胞株中,葡萄糖与谷氨酰胺、葡萄糖与氧气流速的相关性更显著(稳定细胞株:ρglc,gln=−0.22、ρglc,O2FR=0.29;不稳定细胞株:ρglc,gln=−0.028、ρglc,O2FR=0.1),这一结果进一步证实,稳定细胞株的氧化代谢水平显著更高。
此外,指数生长期内,稳定与不稳定细胞株的谷氨酰胺、谷氨酸及铵离子代谢也存在关键差异:谷氨酰胺和铵离子与qP、抗体titer(cP)的相关性呈相反趋势 —— 不稳定细胞株中ρgln,qP=0.19、ρamm,qP=−0.16,稳定细胞株中ρgln,qP=−0.22、ρamm,qP=0.038(图 3b);且不稳定细胞株中铵离子与谷氨酰胺的相关性(ρamm,gln=0.28)远高于稳定细胞株(ρamm,gln=0.011)。
不稳定细胞株可能无法将谷氨酰胺高效用于蛋白质合成或其他生物合成通路,进而导致谷氨酰胺分解加剧、铵离子生成量增加。胞外铵离子的累积会诱导细胞发生新的突变,造成细胞活力与生产率改变,最终引发细胞株不稳定性。已有研究证实,谷氨酸和丙酮酸在维持细胞生长、促进重组蛋白合成中具有重要作用;而不稳定细胞株可能因线粒体功能异常或代谢应激加剧,导致细胞呼吸作用发生改变,这一变化会使氧气供应量直接影响氮代谢速率,包括作为副产物的铵离子生成过程。
从死亡期的相关系数矩阵(图3c)可清晰看出,不稳定细胞株中乳酸诱导的细胞凋亡作用发生了显著改变。稳定细胞株的VCC 与铵离子呈最强负相关(ρVCC,amm=−0.41),与乳酸的负相关程度则较低(ρVCC,lac=−0.18);而不稳定细胞株中,VCC 与铵离子的负相关程度(ρVCC,amm=−0.33)低于其与乳酸的负相关程度(ρVCC,lac=−0.52)。与之相似,不稳定细胞株中乳酸与生产率的负相关性(ρqP,lac=−0.40)也远强于稳定细胞株(ρqP,lac=−0.25)。结合另一特征 —— 不稳定细胞株中 VCC 与 pH的相关性(ρVCC,pH=0.35)显著强于稳定细胞株(ρVCC,pH=0.0052)可推知,不稳定细胞株的乳酸水平更高,这一现象可能是因为不稳定细胞株未发生乳酸转换 —— 即正常细胞会出现的乳酸消耗过程。乳酸在细胞株生产率不稳定中的作用仍需进一步研究:尽管乳酸累积与细胞最大生长量相关,但其二者间的因果关系尚未明确。在死亡期,不稳定细胞株的生长受氧气流速(ρVCC,O2FR=0.011)、二氧化碳流速(ρVCC,CO2FR=0.024)的影响极小,受氮气流速的影响则相对更大(ρVCC,N2FR=0.11);而稳定细胞株的相关系数分别为ρVCC,O2FR=0.14、ρVCC,CO2FR=−0.1、ρVCC,N2FR=0.07。这一结果进一步证实,无氧代谢在不稳定细胞株的代谢过程中占主导地位。
对细胞株性能及稳定性的贡献度分析
为量化关键工艺变量对细胞株生产表现及稳定性的贡献度,本研究对后期 CLD 阶段的 Ambr-1 实验数据开展了线性判别分析(LDA)。若仅需单轮 Ambr 培养实验即可揭示细胞株的稳定性,而非现有的四轮,细胞株开发的周期将大幅缩短。因此,识别 Ambr-1 实验中哪些参数已能指示细胞株在四轮 Ambr 培养实验中的整体表现与稳定性,具有重要的实际应用价值。本研究将细胞株分为两类研究组别,即 “性能良好 / 不佳” 组和 “稳定 / 不稳定” 组(定义详见 2.1.1 节),并分别绘制了两组别中各工艺变量的线性判别分析系数,结果依次见图5a 和图5b。
Figure 5. LDA contribution analysis of process variables during late-CLD Ambr-1. comparing (a) cell lines that performed ‘good’ or ‘poorly’ over all four Ambr runs and (b) cell lines that were stable or unstable over all four Ambr runs.
对细胞株生产表现贡献最大的工艺变量为活细胞浓度(VCC)和细胞比生产率(qP)(图 5a),这是因为二者是评估细胞株生产表现的直接指标。此外,谷氨酸、葡萄糖和乳酸的代谢差异也对细胞株生产表现具有显著影响,该影响在指数生长期(第 3~8 天)尤为明显。若高产细胞的葡萄糖消耗模式存在差异,且乳酸、谷氨酸的代谢特征也有所不同,这表明葡萄糖可能流向了不同的代谢通路。具体而言,高产细胞中更多葡萄糖可能通过糖酵解途径转化为乳酸,进入三羧酸(TCA)循环的葡萄糖占比则更低;这一结论也印证了谷氨酸的消耗模式发生改变 —— 谷氨酸同样是进入三羧酸循环的重要底物。上述代谢特征的形成,可能是因为线粒体活性的提升促进了糖酵解与三羧酸循环的更好整合,从而改善了细胞在生长阶段的整体生产表现。若葡萄糖偏离三羧酸循环,说明线粒体的功能效率可能下降,进而导致细胞的氧化代谢能力降低。
从整体来看,对区分稳定与不稳定细胞株贡献最显著的工艺变量为抗体titer、葡萄糖、谷氨酰胺,以及谷氨酸(图 5b)。营养耗竭与细胞应激的诱导密切相关,而细胞应激可通过蛋白质组、转录组和基因组层面的不稳定性,引发细胞株在各方面的不稳定性。在第 10 天后的死亡期,乳酸对细胞株稳定性也表现出一定的影响作用。已有研究证实,处于乳酸应激状态的 CHO 细胞,其生产率会出现下降,这一现象与核糖体组装、胞质翻译及核 RNA 加工等遗传相关因素的改变有关。研究已知,乳酸的生成与葡萄糖消耗增加、细胞生产率提升具有相关性;此外,有研究表明,即便不改变底物消耗水平,提高乳酸的消耗速率也能改善细胞的生产率。
※∣4 结 论
本文针对生物制药领域细胞株开发(CLD)流程冗长、判定标准模糊的行业痛点展开研究 —— 目前行业亟需更高效、自动化的候选克隆筛选方法,以降低研发资源的投入。在传统的细胞株开发中,早期 CLD 的微小规模数据因信息量匮乏,通常不会被用于最终的细胞株筛选;这类数据仅记录细胞培养末期的生长状态和抗体titer,而该类指标往往无法反映细胞株在生产批次实验中的实际表现。本研究提出一种基于多变量数据分析(MVDA)的自动化 CLD 数据分析方法,该方法整合不同规模的 CLD 数据,并结合先进的机器学习算法,旨在更早的在CLD过程中识别新的筛选标准,同时深入揭示了性能良好与不佳的细胞株在细胞生长、生产率和稳定性方面存在差异的关键代谢模式。
本研究的首个研究目标为,明确早期 CLD 中哪些阶段、以及在何种阈值下,可以更早地剔除更多低产细胞株。通过对早期 CLD克隆筛选数据进行可视化分析,并标注各细胞株在后期 CLD 的最终表现,研究发现:能在后期 CLD Ambr15™培养实验中表现优异的细胞株,其在各早期 CLD 阶段的单克隆抗体titer和活细胞浓度(VCC)均分布在明确的区间内。具体区间为:qp,beacon<0.38AU,0.1AU<cp,24-well<0.65AU,0.2 AU<cp,6-well<0.53AU,0.18AU<cp,T25<0.68AU,VCCbeacon>0.15AU,0.05AU<VCC6-well<0.60AU,VCC24-well<0.38AU,0.05AU<VCCT25<0.80AU。然而,生物制药行业传统采用的人工分析方法,无法精准识别出早期 CLD 中哪些筛选阶段具有重要的参考价值。
本研究通过计算早期 CLD 数据与后期 CLD Ambr15™生产批次实验数据间的斯皮尔曼相关系数,证实所有早期 CLD 阶段的指标均与后期 CLD 微型生物反应器(MBR)中的细胞生长、生产率及抗体titer存在显著相关性。此外,本研究以早期 CLD 数据为基础训练决策树模型,实现了对细胞株在后期 CLD 中性能良好与不佳的预测;通过模型输出的特征重要性分布发现,Beacon™单细胞克隆(SSC)阶段和6 孔板扩大阶段,是早期 CLD 克隆筛选中对后期 CLD 细胞株表现最具预测价值的两个阶段,并确定了可精准剔除低性能细胞株的判定阈值:VCC6-well>38%、qpBeacon™>40%。该阈值基于三种独特的单克隆抗体、四组不同的细胞株开发项目数据构建,应用该阈值可在早期剔除 140 株细胞株中的 35 株无需进入后期 CLD,有效降低细胞株开发环节的资源投入。
本研究的第二个研究目标为,揭示支撑 CHO 细胞株在后期 CLD 中保持稳定性的核心代谢模式。研究通过识别后期 CLD Ambr15™首次培养实验中与细胞株稳定性相关的关键工艺变量,完成了该目标的探究。结果表明,高产稳定细胞株的核心代谢特征为氧化代谢水平显著升高;而不稳定细胞株则表现出谷氨酰胺代谢异常,其原因可能是这类细胞无法将谷氨酰胺高效用于蛋白质合成,进而导致谷氨酰胺分解加剧、铵离子生成量增加。
铵离子的大量生成会直接影响培养体系的 pH 值,这也体现为不稳定细胞株的生长受 pH 的影响更为显著。此外,与稳定细胞株相比,不稳定细胞株的细胞凋亡更多由乳酸而非铵离子诱导。由此可见,乳酸、铵离子及谷氨酰胺的代谢特征,有望成为细胞株稳定性的判定依据,仅通过一轮微型生物反应器培养实验即可实现细胞株稳定性的识别,而非现有的四轮,从而进一步降低细胞株开发的资源需求。
.........................................................
整理不易,若您喜欢,烦请右下角“点赞”、“转发”,分享给更多人!
免责申明:本公众号所发表文章仅以宣传知识为目的,不作为投资,患者用药等建议。如果文章侵犯您的权益请及时联系小编进行删除,感谢理解!
相关阅读:
单抗细胞株开发的典型流程
如何选择N-1强化策略
基于多变量数据分析和计算机模型分析优化补料培养基中的关键氨基酸浓度
产量提升160%:被忽视的细胞传代,竟有如此大的影响?
反向思考:采用升温策略,优化产品质量
半乳糖作为补充碳源如何影响单克隆抗体的产量和N-糖基化:Fed-batch VS Perfusion
文献精读|如何开发一个批量高达 60g 的CHO瞬转表达平台
VCD峰值下降25%,titer下降70%,补料二次过滤会有如此大的影响?
ICH Q1指南即将引入新的建模方法预测复杂生物制剂的长期稳定性
机器学习优化CHO细胞培养工艺,titer提高48%
案例分享:如何将机器学习有效应用于CHO培养基优化和CQA预测
抗体类药物成药性评估技术的发展趋势
如何搭建适应强化工艺开发的CHO宿主细胞平台
优化抗氧化剂添加策略,提高CHO细胞在不同培养模式(FB、iFB、CM)下表达双抗的比生产率
借鉴 EMA 审评经验:过去十年药品上市许可申请中常见的CMC缺陷
单抗生产成本大PK:Fed-batch(15g/L)vs Continuous Production(3~5g/L/D)
基于VCD指导CHO Fed-batch和perfusion补料策略的开发