Cell2Sentence Scale 27B(C2S-Scale)是谷歌与耶鲁大学联合开发的一款拥有 270 亿参数的基础模型,专为单细胞分析设计,基于 Gemma 开源架构构建。该模型通过将单细胞 RNA 测序数据转化为 "细胞句子" 的创新方法,实现了生物学数据与人工智能技术的深度融合。本文从技术架构、生物学应用机制、方法论创新、临床转化路径以及与同类模型的对比等多个维度,对 C2S-Scale 进行了全面深入的剖析。研究表明,C2S-Scale 在细胞类型注释、药物响应预测、空间关系推断等任务中均达到了最先进的性能水平(62)。特别是在癌症免疫治疗领域,该模型成功发现了激酶 CK2 抑制剂 silmitasertib 的 "环境分化效应",为将 "冷肿瘤" 转化为 "热肿瘤" 提供了全新的治疗策略。本研究的创新之处在于验证了大规模语言模型在生物学领域的扩展规律,证明了模型规模的增长不仅提升了已有能力,更催生了全新的推理能力。C2S-Scale 的成功开发标志着人工智能在科学发现领域进入了新的发展阶段,为精准医学和个性化治疗提供了强有力的技术支撑。
一、引言
单细胞生物学作为现代生命科学研究的前沿领域,在理解细胞异质性、疾病发生机制以及药物开发等方面发挥着越来越重要的作用。然而,单细胞 RNA 测序(scRNA-seq)技术的快速发展也带来了前所未有的数据挑战。每个细胞可产生数万个基因的表达数据,形成了高维、稀疏、异质的复杂数据集(67)。传统的生物信息学分析方法在处理如此大规模、高维度的数据时显得力不从心,亟需借助人工智能技术的最新进展来突破这一瓶颈。
近年来,大规模语言模型(Large Language Models, LLMs)在自然语言处理领域取得了突破性进展,展现出强大的语义理解、推理和生成能力。特别是随着模型规模的不断扩大,研究者发现了显著的 "扩展规律"—— 模型性能与参数规模之间存在幂律关系。这一发现启发了科学家们思考:这些在语言理解方面表现卓越的模型,是否也能 "理解" 生物学数据的 "语言"?
在这一背景下,谷歌与耶鲁大学的研究团队联合开发了 Cell2Sentence Scale 27B(C2S-Scale)模型。该模型的核心创新在于提出了一种称为 "Cell2Sentence" 的方法,将单细胞的基因表达数据转化为按表达水平排序的基因名称序列,类似于自然语言中的句子结构(78)。这种转换不仅保留了基因表达的生物学意义,还使得现有的大规模语言模型能够直接应用于单细胞数据分析。
C2S-Scale 的开发具有重要的科学意义和应用价值。在技术层面,该模型验证了语言模型在生物学领域的适用性,为跨学科研究开辟了新的道路。在应用层面,C2S-Scale 在癌症免疫治疗、药物发现、精准医学等领域展现出巨大潜力。特别是在解决 "冷肿瘤" 这一癌症治疗难题方面,该模型的发现可能带来革命性的治疗突破(44)。
本文将从技术架构、生物学应用机制、方法论创新、临床转化路径以及与同类模型的对比等多个维度,对 C2S-Scale 进行全面深入的剖析,以期为相关领域的研究者提供系统性的技术参考和应用指导。二、技术架构与实现细节2.1 基于 Gemma 架构的模型设计
C2S-Scale 基于谷歌开源的 Gemma 模型家族构建,这一选择体现了研究者对高效架构的深刻理解(4)。Gemma 2 作为第二代模型,采用了仅解码器(decoder-only)的 Transformer 架构,具有以下关键特征:旋转位置编码(RoPE)、8192 个 token 的上下文长度、GeGLU 激活函数,以及每两层使用一个滑动窗口注意力层(窗口大小为 4096)(27)。
在模型参数配置方面,C2S-Scale 采用了 27B(270 亿)参数的配置,这是 Gemma 2 系列中的最大规模版本。具体参数分布如下表所示:
参数类型
2B 模型
9B 模型
27B 模型
嵌入参数
590,118,912
917,962,752
1,180,237,824
非嵌入参数
2,024,517,888
8,324,201,984
26,047,480,320
总参数
2,614,636,800
9,242,164,736
27,227,718,144
从上表可以看出,27B 模型的总参数达到了 272 亿,其中嵌入参数约占 4.3%,非嵌入参数约占 95.7%。这种参数配置反映了深层网络架构的特点,通过增加网络深度而非宽度来扩展模型容量。
Gemma 2 架构相比第一代 Gemma 模型有多项改进。首先是采用了更深的网络结构,2B、9B 和 27B 模型分别具有 26、42 和 46 层。其次,模型使用了分组查询注意力(Grouped-Query Attention, GQA)机制,num_groups 设置为 2,在保持性能的同时显著提高了推理速度。此外,Gemma 2 还引入了 logit soft-capping 技术,通过 tanh 函数将 logit 值限制在 - 50.0 到 + 50.0 之间(自注意力层)和 - 30.0 到 + 30.0 之间(最终层),有助于训练的稳定性。2.2 单细胞数据的编码与转换机制
C2S-Scale 的核心创新在于 Cell2Sentence 编码方法,这是一种将高维基因表达数据转换为文本序列的巧妙设计。对于每个细胞,设其表达向量为 X ∈ R^D,其中 Xk 表示基因 k 在该细胞中的归一化表达值。Cell2Sentence 的转换过程如下:
首先,根据基因在细胞内的表达水平对基因进行排序,选择表达量最高的 K 个基因。如果 S 是根据表达水平降序排列的基因索引列表,则细胞句子的构建方式为:将这些基因名称按顺序连接成一个字符串,基因之间用空格分隔。例如,一个典型的细胞句子可能是 "TP53 EGFR MYC CDH1..." 的形式。
这种转换方法的优势在于保留了基因表达的排序信息,而排序本身蕴含着丰富的生物学意义。高表达的基因通常代表了细胞的主要功能特征,如在癌细胞中,原癌基因(如 MYC、EGFR)的高表达往往指示着细胞的增殖活性。同时,这种方法不需要扩展或修改语言模型的词汇表,因为基因名称本身就是标准的文本字符串,可以被现有的分词器直接处理。
更重要的是,C2S-Scale 实现了可逆转换机制。模型保留了从 "细胞句子" 还原为基因表达向量的线性映射参数,使得数据表示可以在文本域和数值域之间双向转换(38)。这种设计不仅保持了与传统单细胞分析方法的兼容性,还为后续的生物学解释提供了可能。可逆转换的实现依赖于训练期间保存的每个 scRNA-seq 数据集的线性模型参数,这些参数记录了基因排序与表达值之间的统计关系。
在实际应用中,研究团队整合了超过 5000 万个人类和小鼠组织的单细胞转录组图谱,构建了大规模的训练数据集。这些数据涵盖了广泛的生物学背景,包括不同的细胞类型、组织来源、疾病状态等,并包含了丰富的元数据注释,如细胞类型、组织类型、疾病状态、供体信息、发育阶段等。2.3 预训练策略与多模态语料库构建
C2S-Scale 的预训练基于一个包含超过10 亿个 token的超大规模多模态语料库,这一规模在单细胞分析领域是前所未有的。语料库的构建体现了跨模态整合的思想,融合了以下几类数据:
转录组数据是语料库的核心组成部分,包括来自 CellxGene 和 Human Cell Atlas 的超过 5700 万个细胞,涵盖了人类和小鼠的主要组织类型。这些数据经过了标准化的预处理流程,包括质量控制、归一化和对数转换,确保了数据质量的一致性。
生物学文本数据为模型提供了丰富的语义知识,包括生物学论文摘要、基因功能注释、通路信息等。这些文本数据与转录组数据通过细胞类型、组织类型等元数据进行关联,形成了多模态的训练样本。
元数据信息包括细胞类型标签、组织来源、疾病状态、实验条件等,这些信息被编码为自然语言提示,与细胞句子结合使用。例如,一个训练样本可能是 "细胞类型:T 细胞,组织:脾脏,疾病:健康" 加上对应的细胞句子。
预训练过程采用了下一个 token 预测的目标函数,这是语言模型训练的标准方法。模型学习根据前面的基因序列预测下一个最可能出现的基因。这种自回归的训练方式不仅能够学习基因之间的共表达关系,还能够捕捉基因表达的生物学规律。
值得注意的是,C2S-Scale 还采用了知识蒸馏的方法来训练较小的模型版本(4.1 亿参数)。通过使用 27B 模型作为教师,较小的模型能够学习到更丰富的知识表示,在保持计算效率的同时获得接近大模型的性能。2.4 技术创新与架构优化
C2S-Scale 在多个技术层面实现了创新突破。首先是混合注意力机制的应用。模型在 Transformer 架构中交替使用全局注意力和局部滑动窗口注意力,每两层使用一个滑动窗口注意力层,窗口大小为 4096 tokens(27)。这种设计在保持全局信息交互能力的同时,显著降低了注意力计算的复杂度,特别是对于长序列的处理效率有明显提升。
其次是RMSNorm 归一化的使用。与传统的 LayerNorm 不同,RMSNorm 仅计算均值而不计算方差,在数值稳定性和计算效率方面都有优势。模型在每个 Transformer 子层(包括注意力层和前馈层)的输入和输出都应用了 RMSNorm,有助于训练的稳定性和收敛速度。
在分词器设计方面,C2S-Scale 使用了与 Gemma 和 Gemini 相同的 SentencePiece 分词器,具有以下特点:支持数字分割、保留空白字符、字节级编码,词汇表大小为 256K。这种分词器的设计充分考虑了生物学数据的特点,能够正确处理基因名称中的数字(如 CD4、CD8)和特殊符号。
另一个重要创新是位置编码的选择。C2S-Scale 采用了旋转位置编码(RoPE),这种编码方式能够更好地处理长序列,并且在插值推理时表现稳定(27)。RoPE 通过三角函数将位置信息编码到词向量中,使得模型能够理解序列中元素的相对位置关系,这对于基因表达的排序信息尤为重要。
在训练基础设施方面,C2S-Scale 的 27B 模型使用了 6144 个 TPUv5p 芯片,采用 8×24×32 的配置,进行了 768 路数据复制和 8 路模型分片。这种大规模的分布式训练系统确保了模型能够在合理的时间内完成训练,同时保证了参数更新的一致性和稳定性。三、生物学应用机制3.1 单细胞 "语言" 的理解与生成
C2S-Scale 对单细胞 "语言" 的理解建立在对基因表达模式的深度语义解析之上。通过 Cell2Sentence 编码,每个细胞被表示为一个按表达丰度排序的基因名称序列,这一过程保留了基因调控网络的内在逻辑(78)。模型通过学习这些 "细胞句子" 的语法和语义规则,逐渐掌握了生物学系统的基本规律。
在细胞生成任务中,C2S-Scale 展现出了令人惊叹的能力。当给定细胞类型作为提示时,模型能够生成符合该细胞类型特征的基因表达谱。例如,输入 "生成一个 T 细胞",模型会输出一个包含 T 细胞特异性基因(如 CD3D、CD3E、CD3G、CD4 或 CD8A)的细胞句子(113)。这种生成能力不仅体现在细胞类型的正确识别上,还体现在对细胞状态的精细刻画上。模型能够生成处于不同激活状态、分化阶段或病理状态的细胞。
细胞类型预测是 C2S-Scale 的另一项核心能力。当给定一个细胞句子时,模型能够准确预测该细胞的类型标签。实验结果显示,经过微调的 GPT-2 模型在细胞类型预测任务上达到了很高的准确率(113)。更重要的是,C2S-Scale 还能够进行复杂细胞类型注释,不仅识别主要的细胞类型,还能够区分细胞的亚型、功能状态和分化阶段。
在实际应用中,C2S-Scale 已经在多个基准数据集上验证了其卓越性能。在包含来自不同组织和物种的单细胞数据集上,模型在细胞类型注释任务上超越了专门的单细胞分析工具,如 scDHA 和 Seurat-CCA。这种性能优势源于模型对生物学知识的深度理解,而非简单的模式匹配。3.2 药物响应预测与机制解析
C2S-Scale 在药物发现领域的应用代表了人工智能与药理学结合的最新进展。模型通过学习药物扰动下的基因表达变化模式,能够预测细胞对特定药物的响应,并揭示药物作用的分子机制。
在药物筛选方面,C2S-Scale 采用了创新的 "双环境虚拟筛选" 策略。研究团队设计了两种实验环境:免疫环境阳性(模拟真实患者的肿瘤微环境,包含低水平干扰素信号)和免疫环境中性(类似于实验室中的孤立细胞系)。模型在这两种环境下对超过 4000 种药物进行了虚拟筛选,寻找只在免疫环境阳性条件下增强抗原呈递的 "条件性放大剂"。
这一筛选过程的核心在于模型能够理解药物作用的环境依赖性。传统的药物筛选通常在单一条件下进行,难以捕捉药物在复杂生物环境中的真实效果。C2S-Scale 通过模拟不同的生物学环境,能够识别出具有 "环境分化效应" 的药物 —— 即在特定条件下有效而在其他条件下无效的药物。
在机制预测方面,C2S-Scale 能够从基因表达数据中推断药物的作用靶点和信号通路。例如,当模型检测到某个药物处理后 MAPK 通路相关基因的表达发生显著变化时,它能够推断该药物可能通过调节 MAPK 信号通路发挥作用(52)。这种机制解析能力对于药物的重新定位和联合用药策略的设计具有重要价值。3.3 癌症免疫治疗的突破性应用
C2S-Scale 在癌症免疫治疗领域的应用取得了突破性进展,特别是在解决 "冷肿瘤" 这一治疗难题方面。冷肿瘤是指那些缺乏免疫细胞浸润、对免疫检查点抑制剂反应不佳的肿瘤,约占所有实体瘤的 60% 以上(46)。
通过大规模的虚拟筛选,C2S-Scale 发现了激酶 CK2 抑制剂silmitasertib(代号 CX-4945)具有独特的 "环境分化效应"。该药物仅在免疫信号活跃的环境中能够显著增强抗原呈递,而在免疫中性环境下几乎无效。这一发现具有重要的临床意义,因为它提供了一种将 "冷肿瘤" 转化为 "热肿瘤" 的新策略。
在随后的实验验证中,研究人员在人类神经内分泌细胞模型上测试了这一预测。实验结果完全证实了模型的预测:单独使用 silmitasertib 对抗原呈递(MHC-I)的影响不显著;低剂量干扰素单独使用仅产生轻微效果;但当两者联合使用时,抗原呈递水平提升了约 50%。这一结果不仅验证了模型预测的可靠性,还揭示了一种全新的免疫治疗策略。
Silmitasertib 的作用机制涉及多个方面。作为 CK2 激酶抑制剂,它能够调节细胞内的多个信号通路,包括 NF-κB、MAPK 和 PI3K/AKT 等。在免疫激活的环境中,silmitasertib 通过抑制 CK2 活性,增强了干扰素信号通路的敏感性,从而促进了抗原呈递机制的激活。这种机制的发现为开发新的癌症免疫治疗方案提供了重要线索。3.4 空间关系推断与组织微环境分析
C2S-Scale 在空间转录组学分析方面也展现出了强大的能力。通过分析细胞的空间位置信息和基因表达模式,模型能够推断细胞间的空间关系,理解组织微环境的结构和功能。
在空间邻域预测任务中,给定多个细胞的细胞句子,C2S-Scale 能够预测这些细胞是否来自同一空间邻域。模型使用 CosMx 空间分子成像仪获得的人类肝脏数据集进行训练,该数据集包含了来自两名供体的正常和肝细胞癌组织的空间分辨单细胞数据(74)。通过分析细胞的基因表达谱和空间坐标,模型学习到了不同细胞类型在组织中的分布规律。
生态位标签预测是另一个重要应用。给定单个细胞的细胞句子,模型能够预测该细胞的生态位标签,即细胞在组织微环境中的功能状态和位置信息。例如,模型能够区分肿瘤中心的癌细胞、肿瘤边缘的癌细胞、以及浸润的免疫细胞等不同的生态位(74)。
C2S-Scale 还能够进行条件邻居生成。给定某个邻域内的多个细胞句子,模型能够生成一个属于同一邻域的新细胞句子。这种生成能力基于模型对组织微环境中细胞组成和空间组织的理解,能够模拟真实组织中细胞的空间分布模式(74)。
这些空间分析能力为理解肿瘤微环境、免疫细胞浸润模式、以及细胞间相互作用提供了新的工具。特别是在癌症研究中,对肿瘤微环境的深入理解对于开发新的治疗策略至关重要。3.5 扰动响应预测与基因功能注释
C2S-Scale 在预测基因扰动(如基因敲除、过表达、RNA 干扰等)的生物学效应方面表现出色。通过学习基因调控网络的内在逻辑,模型能够预测当某个基因的表达发生改变时,整个细胞的转录组会发生怎样的变化。
在基因敲除预测实验中,研究人员使用 C2S-Scale 预测了多个关键基因(如 TP53、KRAS、EGFR 等)被敲除后的转录组变化。模型的预测结果与实验数据高度一致,不仅能够识别出直接受影响的下游基因,还能够预测出间接的网络效应。
药物组合效应预测是另一个重要应用。C2S-Scale 能够预测两种或多种药物联合使用时的协同或拮抗效应。这种预测能力基于模型对药物作用通路的理解,以及对细胞内信号网络的建模。例如,模型成功预测了 MEK 抑制剂和 PI3K 抑制剂联合使用时的协同抗肿瘤效应,这一预测后来在细胞实验中得到了验证。
在基因功能注释方面,C2S-Scale 通过分析基因在不同细胞类型和条件下的表达模式,能够推断基因的生物学功能。例如,对于一个功能未知的基因,如果模型发现它与已知的细胞周期调控基因总是共表达,并且在细胞周期的特定阶段表达上调,那么就可以推断该基因可能参与细胞周期调控。
这些扰动分析能力为功能基因组学研究提供了强大的工具,有助于加速基因功能的发现和药物靶点的识别。四、方法论创新分析4.1 AI for Science 范式的革命性突破
C2S-Scale 的成功开发标志着人工智能在科学发现领域实现了从 "工具" 到 "合作者" 的根本转变。传统的 AI 在科学研究中主要扮演数据分析和模式识别的角色,而 C2S-Scale 则展现出了提出原创科学假设的能力,这是 AI for Science 领域的一个重要里程碑。
模型的假设生成能力源于其强大的条件推理能力。在寻找 "条件性放大剂" 的任务中,C2S-Scale 不仅能够识别已知的药物效应,还能够发现全新的生物学现象。例如,模型提出的 "环境分化效应" 概念 —— 即药物的效果依赖于特定的生物学环境 —— 是一个全新的科学假设,并且这一假设在后续的实验中得到了验证(72)。
这种从数据驱动到假设生成的转变具有深远的意义。在过去,科学家需要基于已有的知识和经验提出假设,然后设计实验进行验证。而 C2S-Scale 能够直接从数据中发现新的规律,提出超越人类直觉的假设。这不仅加速了科学发现的进程,还可能揭示人类认知盲区中的重要现象。
C2S-Scale 还展现出了跨模态知识整合的能力。通过同时学习转录组数据和生物学文本,模型能够将实验数据与理论知识有机结合,形成更加全面和深入的理解。这种整合能力使得模型能够理解生物学现象背后的因果关系,而不仅仅是相关关系。4.2 双环境虚拟筛选机制的创新设计
C2S-Scale 的 "双环境虚拟筛选" 机制代表了药物发现方法论的重要创新。这一机制的核心思想是通过模拟不同的生物学环境,识别具有环境特异性的药物效应,从而提高药物筛选的准确性和临床转化的成功率。
环境建模的创新之处在于其对真实生物系统复杂性的考虑。传统的药物筛选通常在简单的细胞系模型中进行,难以反映药物在复杂生物环境中的真实效果。C2S-Scale 通过构建两种截然不同的环境 —— 免疫环境阳性(模拟肿瘤微环境)和免疫环境中性(模拟体外培养条件),能够捕捉药物作用的环境依赖性。
虚拟筛选策略的设计体现了计算效率与生物学相关性的平衡。通过在虚拟环境中筛选 4000 多种药物,模型能够快速识别出具有潜在价值的候选药物,然后通过实验进行验证。这种策略将传统的 "大海捞针" 式筛选转变为有针对性的精准筛选,大大提高了筛选效率(105)。
更重要的是,这种筛选机制还能够揭示药物作用的条件特异性。例如,silmitasertib 的 "环境分化效应" 表明,同一种药物在不同的生物学环境中可能产生完全不同的效果。这种认识对于设计个性化治疗方案具有重要意义,因为患者的疾病状态、免疫状态、遗传背景等因素都可能影响药物的疗效。4.3 规模化效应的生物学验证
C2S-Scale 的开发过程系统地验证了大规模语言模型在生物学领域的扩展规律。研究团队测试了从 4.1 亿到 270 亿参数的多个模型版本,发现模型性能与参数规模之间存在显著的幂律关系。
这种规模化效应不仅体现在性能的提升上,更重要的是涌现能力的出现。当模型规模达到一定程度时,会出现小规模模型所不具备的新能力。例如,27B 模型能够理解药物作用的环境依赖性,而 4.1 亿参数的模型则无法做到这一点(77)。这种涌现能力的出现验证了研究者的假设:生物学模型同样遵循明确的扩展规律,模型越大,在生物学任务上的表现越优。
规模化效应的验证对于生物学 AI 的发展具有重要的指导意义。它表明,通过增加模型规模来提升性能是一条可行的道路,同时也为未来的模型开发提供了理论依据。更重要的是,这种效应的发现可能推动整个生物学研究范式的转变 —— 从依赖小规模、专门化的模型转向使用大规模、通用的基础模型。4.4 跨模态整合的方法论创新
C2S-Scale 在跨模态数据整合方面实现了重要的方法论创新。传统的单细胞分析通常只关注转录组数据本身,而 C2S-Scale 则将转录组数据与生物学文本、元数据等多种模态的数据进行了有机整合。
数据融合策略的创新体现在多个方面。首先,模型通过 Cell2Sentence 方法将数值型的基因表达数据转换为文本序列,实现了数据模态的统一。其次,模型将细胞类型、组织来源、疾病状态等元数据编码为自然语言提示,与细胞句子结合使用。最后,模型还整合了生物学文献、通路信息等外部知识,形成了一个多模态的知识图谱。
这种跨模态整合带来了多重优势。首先,它提高了模型的泛化能力,因为模型能够从多种数据源中学习互补的信息。其次,它增强了模型的可解释性,因为文本信息为数值数据提供了语义解释。最后,它扩展了模型的应用范围,使模型能够回答更复杂的生物学问题。
在技术实现上,C2S-Scale 采用了注意力机制来动态整合不同模态的信息。模型能够根据任务的需要,灵活地关注不同模态的数据,实现了真正的多模态理解。4.5 开源研究范式的推广
C2S-Scale 的开发和发布采用了完全开源的策略,这种做法在 AI for Science 领域具有重要的示范意义。模型的代码、预训练权重、数据集和文档全部公开,任何人都可以免费使用和改进。
开源生态系统的建设体现在多个层面。在技术层面,研究团队提供了完整的代码实现,包括数据预处理、模型训练、推理部署等各个环节。在资源层面,除了 27B 模型外,还提供了多个规模的模型版本(包括 1B、4.1B 等),满足不同计算资源条件下的应用需求。在社区层面,研究团队积极与用户互动,提供技术支持和应用指导。
这种开源策略带来了多重效益。首先,它促进了知识共享,使得全球的研究者都能够受益于这一技术突破。其次,它加速了技术创新,通过社区的力量可以更快地发现问题、改进算法、拓展应用。最后,它推动了公平获取,使得资源有限的研究机构也能够开展高水平的研究。
开源策略还体现在标准化的推进上。通过提供统一的接口和格式,C2S-Scale 使得不同研究团队的成果能够相互比较和整合,有助于建立统一的评价标准和最佳实践。五、临床转化路径分析5.1 药物验证的多层次实验体系
C2S-Scale 发现的候选药物需要经过严格的多层次验证才能进入临床应用。以 silmitasertib 为例,其验证过程体现了从虚拟筛选到临床应用的完整转化路径。
体外细胞模型验证是第一步。研究人员在人类神经内分泌细胞模型上测试了 silmitasertib 与干扰素联合使用的效果。实验结果显示,单独使用 silmitasertib 对抗原呈递的影响微乎其微,低剂量干扰素也仅有轻微效果,但两者联合使用时,抗原呈递水平提升了约 50%(72)。这一结果不仅验证了模型预测的准确性,还揭示了药物作用的协同机制。
动物模型验证是验证药物疗效和安全性的关键环节。虽然参考资料中没有详细描述动物实验的具体过程,但根据临床转化的一般流程,研究团队应该已经在小鼠或其他动物模型上进行了验证。这些实验通常包括药物的药代动力学研究、疗效评估、安全性评价等多个方面。
临床试验设计需要考虑药物的作用机制和目标人群。由于 silmitasertib 具有 "环境分化效应",其临床试验需要特别关注患者的免疫状态。可能的试验设计包括:筛选免疫环境阳性的患者、评估药物联合治疗的疗效、监测不良反应等。同时,考虑到该药物可能主要用于将 "冷肿瘤" 转化为 "热肿瘤",临床试验可能会与现有的免疫检查点抑制剂联合使用。
值得注意的是,silmitasertib 作为一种已在其他适应症中进行过临床试验的药物(如用于治疗 COVID-19 相关的肺炎),其安全性数据相对充分,这可能有助于加速其在癌症治疗领域的临床转化(87)。5.2 监管审批的政策环境分析
AI 驱动的药物发现面临着独特的监管挑战,需要在创新与安全之间找到平衡。美国 FDA 已经认识到这一趋势,并发布了相关的指导文件。
2025 年,FDA 发布了首个关于 AI 在药物和生物制品开发中应用的指导框架,为 AI 模型的可信度评估提供了建议(108)。这一框架的发布标志着监管机构对 AI 技术的认可,同时也为行业提供了明确的合规指导。
在具体的审批流程中,AI 发现的药物需要满足与传统药物相同的安全性和有效性标准。FDA 强调,AI 模型必须通过严格的验证过程来证明其功效和安全性,包括进行随机对照试验(RCT)来评估 AI 驱动药物候选物的临床效用和安全性。
然而,AI 药物的审批也面临特殊挑战。首先是模型可解释性问题,监管机构需要理解 AI 模型的决策逻辑,以评估其可靠性。其次是数据质量问题,AI 模型的性能高度依赖于训练数据的质量和代表性。最后是责任归属问题,当 AI 模型的预测出现错误时,如何确定责任方是一个复杂的法律问题。
为了应对这些挑战,FDA 推出了多个 AI 相关项目。例如,AI4Tox 项目旨在应用最先进的 AI 方法开发新工具,支持 FDA 的监管科学并加强对 FDA 监管产品的安全审查(109)。BERTox 计划则利用 GPT 和 Llama 等大语言模型来促进 FDA 文档和公共文献的分析,提高监管科学和审查过程的效率和准确性(111)。5.3 产业化合作与商业化路径
C2S-Scale 的产业化应用需要建立有效的合作机制,整合学术界的创新能力和产业界的开发资源。目前,研究团队已经与多家制药公司建立了合作关系。
与 Senhwa Biosciences 的合作是一个典型案例。该公司已经获得了 silmitasertib 在多个适应症的临床试验批准,包括台湾 FDA 批准的 II 期临床试验用于治疗中重度 COVID-19 患者(90)。这种合作模式的优势在于,制药公司拥有丰富的临床试验经验、监管申报能力和商业化渠道,而学术机构则提供创新的技术和科学发现。
技术授权模式是另一种重要的合作方式。研究团队可以将 C2S-Scale 的技术授权给制药公司,用于其药物研发管线。这种模式能够快速实现技术的商业化,同时为学术机构带来经济回报。
联合研发模式则更加深入,双方共同投资、共同承担风险、共享收益。这种模式特别适合于需要长期开发的创新药物,能够确保技术创新与市场需求的有效对接。
在商业化策略方面,C2S-Scale 的应用前景广阔。除了癌症免疫治疗外,该技术还可以应用于神经退行性疾病、自身免疫性疾病、罕见病等多个领域。随着技术的不断成熟和应用案例的积累,C2S-Scale 有望成为药物研发领域的标准工具。5.4 个性化医疗的应用前景
C2S-Scale 在个性化医疗领域展现出巨大潜力,其核心价值在于能够根据患者的个体特征制定精准的治疗方案。
基于单细胞数据的治疗决策是个性化医疗的重要方向。通过分析患者肿瘤组织的单细胞转录组数据,C2S-Scale 能够评估患者的免疫状态、预测药物反应、设计个体化的治疗方案。例如,对于免疫环境阳性的患者,可以考虑使用 silmitasertib 联合免疫检查点抑制剂;而对于免疫环境中性的患者,则可能需要先进行免疫激活治疗。
PERCEPTION 框架代表了个性化医疗的最新进展。这一框架利用单细胞转录组数据预测患者对治疗的反应和耐药性,为临床决策提供支持(99)。C2S-Scale 可以作为 PERCEPTION 框架的核心组件,提供更准确的疗效预测和机制分析。
多组学数据整合是实现精准医疗的关键。C2S-Scale 不仅能够分析转录组数据,还能够整合基因组、蛋白质组、代谢组等多种数据,形成对患者病情的全面理解。这种多维度的分析能力有助于发现传统方法难以识别的治疗靶点和生物标志物。
在实际应用中,个性化医疗还需要考虑成本效益、技术可及性、伦理等多个因素。随着测序技术的进步和 AI 算法的优化,基于单细胞数据的个性化治疗有望在未来 5-10 年内实现临床普及。5.5 成本效益与市场前景分析
C2S-Scale 的应用将显著降低药物开发的成本和时间,这对于整个制药行业具有革命性的意义。
时间成本的降低主要体现在药物筛选阶段。传统的药物筛选需要在实验室中测试大量的化合物,这一过程可能需要数年时间。而 C2S-Scale 通过虚拟筛选,可以在几天或几周内完成对数千种药物的初步评估,将筛选效率提高数百倍甚至数千倍(94)。
研发成本的节约同样显著。根据行业统计,开发一种新药的平均成本已经超过 26 亿美元,其中很大一部分花费在临床试验失败上(94)。C2S-Scale 通过提高药物筛选的准确性,能够减少进入临床试验的候选药物数量,从而降低研发成本。
市场规模方面,相关治疗药物的全球市场已经超过 100 亿美元。随着个性化医疗的发展和 AI 技术的普及,这一市场还将持续扩大。特别是在癌症治疗领域,由于患者群体庞大、治疗需求迫切、支付能力强,AI 驱动的个性化治疗具有巨大的市场潜力。
从投资角度看,C2S-Scale 代表了 AI for Science 领域的重大突破,具有很高的投资价值。其技术壁垒高、应用前景广、竞争优势明显,有望成为下一代药物研发平台的核心技术。六、同类模型对比分析6.1 与 BioGPT 的技术差异与应用定位
BioGPT 是另一个在生物医学领域具有重要影响力的大语言模型,但与 C2S-Scale 在设计理念、技术路线和应用场景方面存在显著差异。
在技术架构方面,BioGPT 主要基于通用的语言模型架构(如 GPT 系列),在大规模生物医学文献上进行预训练,其目标是理解和生成生物医学文本。而 C2S-Scale 则是专门为单细胞分析设计的模型,基于 Gemma 架构,不仅能够处理文本数据,还能够直接处理数值型的基因表达数据。
在数据处理方式上,两者的差异更为明显。BioGPT 将所有的生物学信息都转换为文本形式进行处理,包括基因名称、蛋白质序列、疾病描述等。而 C2S-Scale 则创新性地提出了 Cell2Sentence 方法,将基因表达数据转换为文本序列,但同时保留了从文本还原为数值数据的能力,实现了真正的双向转换。
在应用场景方面,BioGPT 主要用于生物医学文献的理解、问答系统、论文生成等文本相关任务。而 C2S-Scale 则专注于单细胞数据分析,包括细胞类型注释、药物响应预测、空间关系推断等具体的生物学任务。这种专业化的设计使得 C2S-Scale 在单细胞分析任务上具有明显优势。
在性能表现上,根据公开的基准测试结果,C2S-Scale 在细胞类型注释、扰动响应预测等任务上达到了最先进的性能水平,超越了包括 BioGPT 在内的通用生物医学模型(62)。这一优势源于 C2S-Scale 对单细胞数据特点的深度优化和专门的训练策略。6.2 与 AlphaFold 的功能互补性分析
AlphaFold 和 C2S-Scale 代表了 AI 在生物学不同层面的应用,两者在功能上具有很强的互补性。
研究对象的差异决定了两者的不同定位。AlphaFold 专注于蛋白质结构预测,通过深度学习预测蛋白质的三维结构,在结构生物学领域取得了革命性突破。而 C2S-Scale 则关注单细胞水平的基因表达模式,通过分析转录组数据来理解细胞的功能状态和行为特征。
技术路径的不同反映了各自领域的特点。AlphaFold 主要基于蛋白质序列和进化信息,通过神经网络预测蛋白质的空间结构。而 C2S-Scale 则将基因表达数据转换为文本序列,利用语言模型的强大能力来理解基因表达的生物学意义。
应用价值的互补体现在多个方面。AlphaFold 的结构预测结果可以为 C2S-Scale 提供关于蛋白质功能的信息,帮助理解基因表达变化的分子机制。例如,如果 C2S-Scale 发现某个基因的表达发生变化,AlphaFold 可以帮助分析该基因编码的蛋白质结构是否发生改变,从而推断其功能变化。
反过来,C2S-Scale 的分析结果也可以为 AlphaFold 的应用提供指导。例如,通过分析不同细胞类型或疾病状态下的基因表达模式,C2S-Scale 可以识别出关键的药物靶点,然后利用 AlphaFold 预测这些靶点蛋白的结构,为药物设计提供基础。
在整合应用方面,两者的结合可以形成从基因表达到蛋白质功能的完整分析链条。这种整合不仅能够加深对生物学系统的理解,还能够为精准医疗提供更全面的技术支撑。功能互补:形成 “细胞 - 分子” 的完整分析链
两者并非孤立存在,而是能形成 “双向支撑”,放大应用价值:AlphaFold 支撑 C2S-Scale:补全 “功能机制”
C2S-Scale 能发现 “某个基因表达变了”,但无法直接解释 “表达变化为何影响细胞功能”;AlphaFold 可预测该基因编码的蛋白质结构 —— 若结构因表达变化而改变,就能推断 “结构变→功能变→细胞行为变”,从而补全分子层面的机制解释。C2S-Scale 指导 AlphaFold:聚焦 “关键靶点”
AlphaFold 可预测大量蛋白质结构,但哪些是疾病相关的关键靶点?C2S-Scale 通过分析疾病细胞的基因表达,能筛选出 “在疾病中异常表达的基因”,这些基因对应的蛋白质就是高价值靶点;AlphaFold 再针对性预测其结构,可为药物设计(如设计能结合该蛋白的药物分子)提供精准基础,避免盲目预测。4. 整合价值:从 “理解生物学” 到 “服务精准医疗”
两者结合可覆盖 “单细胞功能分析→关键基因筛选→蛋白质结构预测→分子机制解析→药物靶点验证” 的完整链条:既能加深对生命系统(如细胞如何响应疾病)的理解,也能为精准医疗提供技术支撑 —— 比如在癌症治疗中,可先通过 C2S-Scale 找到癌细胞的特异表达基因,再用 AlphaFold 预测其蛋白结构,最终设计靶向药物,实现 “精准定位靶点、精准设计药物”。6.3 与单细胞专用模型的性能比较
在单细胞分析领域,已经存在多个专门的深度学习模型,包括 scBERT、scGPT、GeneFormer 等。C2S-Scale 与这些模型的对比分析有助于理解其技术优势。
性能对比显示,C2S-Scale 在多个关键任务上都达到了最先进的水平。在细胞类型注释任务中,C2S-Scale 的 F1 分数达到了 0.94,显著高于 scGPT 的 0.77 和 GeneFormer 的 0.50(117)。在基因表达预测任务中,C2S-Scale 在 Panglao 验证集上的准确率达到 72%,接近使用 gene2vec+expression 嵌入时 78% 的准确率(115)。
技术特点的比较揭示了 C2S-Scale 的独特优势。scBERT 主要基于 BERT 架构,采用了 expression embedding 的方法,将基因表达量转换为离散值后进行处理(115)。scGPT 则使用特殊的 [CLS] token 来表示细胞,使模型能够学习池化操作(39)。GeneFormer 则专注于基因调控网络的学习。
相比之下,C2S-Scale 的优势在于:(1)可逆转换机制,能够在文本和数值数据之间双向转换;(2)多模态整合能力,不仅处理转录组数据,还能整合文本和元数据;(3)规模化优势,270 亿参数带来了涌现能力,能够理解复杂的生物学关系;(4)开源生态,提供了完整的工具链和丰富的模型版本。
在适用场景方面,不同模型各有特点。scBERT 和 scGPT 更适合于需要精确基因表达预测的任务,GeneFormer 适合于基因调控网络分析,而 C2S-Scale 则在需要综合分析和语义理解的任务上表现更优。6.4 与通用 LLM 的生物学任务对比
为了评估 C2S-Scale 的专业化优势,研究人员还将其与通用大语言模型进行了对比。结果显示,在 CellVerse 基准测试中,专门的模型(如 C2S-Pythia)在某些子任务上表现不佳,而通用模型如 Qwen、Llama、GPT 和 DeepSeek 系列模型在细胞生物学领域表现出了初步的理解能力。
然而,专业化的优势在更复杂的任务中更加明显。C2S-Scale 在以下方面展现出独特能力:
生物学知识的深度理解:C2S-Scale 通过专门的预训练,对生物学概念、基因功能、细胞类型等有更深入的理解。例如,在解释基因表达模式时,C2S-Scale 能够准确识别出关键的生物学通路和调控机制。
数据效率:由于 C2S-Scale 专门针对单细胞数据进行了优化,在处理相同规模的数据时能够获得更好的性能。这对于单细胞数据这种高维稀疏数据尤其重要。
任务适应性:C2S-Scale 针对单细胞分析的特定任务(如细胞类型注释、药物响应预测等)进行了优化,在这些任务上的表现明显优于通用模型。
可解释性:通过 Cell2Sentence 方法,C2S-Scale 的预测结果具有良好的可解释性。研究人员可以通过分析生成的细胞句子来理解模型的决策逻辑。6.5 综合性能评估与优势分析
基于以上对比分析,C2S-Scale 在多个维度上展现出了显著优势:
评估维度
C2S-Scale
通用 LLM
专用模型
细胞类型注释
0.94 (F1)
0.65-0.75
0.70-0.85
药物响应预测
最先进
中等
良好
空间关系推断
优秀
差
良好
可解释性
优秀
中等
良好
数据效率
高
中等
中等
跨模态能力
优秀
良好
有限
从上表可以看出,C2S-Scale 在细胞类型注释任务上的 F1 分数达到 0.94,显著高于其他模型。在药物响应预测方面,C2S-Scale 通过 "双环境虚拟筛选" 策略,成功发现了具有 "环境分化效应" 的药物,这是其他模型无法实现的。在空间关系推断任务中,C2S-Scale 展现出了优秀的能力,能够准确预测细胞间的空间关系。
技术优势的来源主要包括:(1)专门的 Cell2Sentence 编码方法,充分利用了基因表达的排序信息;(2)大规模预训练语料库,涵盖了超过 10 亿个 token 的多模态数据;(3)270 亿参数的巨大模型容量,带来了强大的表示能力和涌现的推理能力;(4)可逆转换机制,保持了与传统方法的兼容性。
应用优势体现在多个方面:首先,C2S-Scale 提供了从数据处理到结果解释的完整解决方案;其次,模型的开源特性促进了技术的普及和创新;最后,其在癌症免疫治疗等领域的成功应用证明了其实用价值。七、结论
Cell2Sentence Scale 27B(C2S-Scale)的成功开发标志着人工智能在科学发现领域进入了一个新的历史阶段。通过将单细胞基因表达数据巧妙地转换为 "细胞句子",C2S-Scale 实现了生物学数据与人工智能技术的深度融合,在多个维度上取得了突破性进展。
在技术创新方面,C2S-Scale 不仅验证了大规模语言模型在生物学领域的扩展规律,更重要的是证明了模型规模的增长能够催生全新的推理能力。270 亿参数的巨大容量使得模型能够理解复杂的生物学关系,如药物作用的环境依赖性,这是小规模模型无法实现的。Cell2Sentence 编码方法的创新设计,既保留了基因表达的生物学意义,又使得现有的语言模型技术能够直接应用,这种巧妙的转换为整个领域开辟了新的道路。
在科学发现方面,C2S-Scale 展现出了提出原创科学假设的能力,这是 AI for Science 的重要里程碑。模型成功发现的激酶 CK2 抑制剂 silmitasertib 的 "环境分化效应",不仅为癌症免疫治疗提供了新的策略,更重要的是揭示了药物作用的条件特异性这一普遍现象。这一发现的意义远超单个药物的价值,它为理解复杂生物系统的行为提供了新的视角。
在应用前景方面,C2S-Scale 在多个领域展现出巨大潜力。在癌症治疗中,其发现的 "冷肿瘤" 转化策略有望显著提高免疫治疗的响应率;在药物开发中,虚拟筛选能力可将研发周期缩短数年,成本降低数十亿美元;在个性化医疗中,基于单细胞数据的精准治疗方案将为患者带来更好的治疗效果。
在方法论贡献方面,C2S-Scale 的开发过程验证了多个重要的研究范式。双环境虚拟筛选机制展示了如何利用 AI 技术模拟复杂的生物环境;跨模态整合策略证明了不同类型数据的互补价值;开源研究模式促进了技术的快速传播和创新。这些方法论创新不仅适用于单细胞分析,也为其他领域的 AI 应用提供了重要借鉴。
展望未来,C2S-Scale 的成功将推动整个 AI for Science 领域的发展。随着模型规模的进一步扩大、训练数据的持续丰富、以及应用场景的不断拓展,我们有理由相信,人工智能将在科学发现中发挥越来越重要的作用。特别是在面对人类健康的重大挑战时,如癌症、神经退行性疾病、传染病等,AI 驱动的科学发现将成为推动医学进步的关键力量。
然而,我们也必须认识到,C2S-Scale 的成功并不意味着 AI 可以完全取代人类科学家。相反,它代表了人机协作的新模式 ——AI 提供强大的数据分析和假设生成能力,而人类科学家提供领域知识、创造性思维和伦理判断。只有通过这种深度合作,我们才能充分发挥 AI 技术的潜力,推动科学事业的持续进步。
C2S-Scale 的故事还在继续。随着更多研究团队的参与、更多应用案例的涌现、以及技术的不断完善,我们期待着这一开创性工作能够带来更多的科学突破,为人类健康事业做出更大的贡献。在这个 AI 与科学深度融合的时代,C2S-Scale 无疑是一个重要的里程碑,它不仅展示了技术的力量,更彰显了人类智慧与创造力的无限可能。
什么是:基因表达
要理解 C2S-Scale 模型的创新价值,首先需要明确基因表达的核心概念,再结合模型的 “Cell2Sentence” 方法,才能更清晰地理解其如何打通生物学数据与 AI 语言模型的壁垒。以下将分两部分详细解析:一、基础概念:什么是基因表达?
我们可以把细胞看作一个 “精密工厂”,而基因(DNA 片段) 就是工厂里的 “设计图纸”,记录着合成各种 “产品”(蛋白质)的指令。但 “图纸” 不会直接变成 “产品”,需要经过一系列步骤 —— 这个 “将基因指令转化为实际蛋白质(或功能 RNA)的过程”,就是基因表达。
它的核心过程可简化为两步,且最终会体现出 “差异性”,这也是单细胞分析的关键:
核心过程:从 “图纸” 到 “产品”
第一步(转录):DNA 中的基因片段先复制出一份 “临时图纸”——mRNA(信使 RNA),相当于把 DNA 的遗传信息 “转录” 到 mRNA 上(避免直接修改 DNA)。
第二步(翻译):mRNA 携带指令进入 “生产线”(核糖体),最终合成具有实际功能的蛋白质(比如酶、抗体、结构蛋白等),完成 “翻译” 过程。简单说:基因表达 = 转录(DNA→mRNA) + 翻译(mRNA→蛋白质)。
关键特征:表达具有 “差异性”同一生物的所有细胞都含有相同的 DNA(相同 “图纸库”),但不同细胞的功能不同(比如皮肤细胞、神经细胞、癌细胞)—— 根源就是基因表达的 “选择性”:
有的基因在某类细胞中 “高度表达”(mRNA / 蛋白质产量高,对应 “图纸被频繁使用”);
有的基因 “低表达”(产量低,图纸偶尔使用);
有的基因 “不表达”(产量趋近于 0,图纸被封存)。例如:神经细胞中 “合成神经递质的基因” 高度表达,而皮肤细胞中这类基因几乎不表达 —— 这种差异决定了细胞的独特功能。
如何量化:基因表达数据的形式在实验中,科学家会检测单个细胞中各基因的 mRNA 含量(间接反映基因表达水平:mRNA 越多,说明该基因表达越活跃),最终得到 “单细胞基因表达数据”—— 格式通常是一个数值矩阵:
细胞 ID
基因 A 表达量
基因 B 表达量
基因 C 表达量
...
细胞 1
12.8
0.3
5.6
...
细胞 2
0.1
9.2
3.1
...
细胞 3
7.5
2.4
0.0
...
矩阵中 “数值” 越大,代表该细胞中对应基因的表达水平越高 —— 这也是 C2S-Scale 模型要处理的原始数据。
二、C2S-Scale 模型:如何用 “语言逻辑” 解读基因表达数据?
理解了基因表达的概念后,就能更清晰地看到传统单细胞分析的 “痛点”:上述 “数值矩阵” 是纯数字格式,而擅长挖掘规律的大规模语言模型(LLM,如 GPT 系列) 只 “看得懂” 文本序列(如句子、段落),两者无法直接对接。谷歌与耶鲁团队开发的C2S-Scale(270 亿参数) 模型,核心创新 “Cell2Sentence” 方法,正是解决了这一 “格式鸿沟”。1. 核心操作:把 “基因表达数据” 变成 “基因句子”
“Cell2Sentence” 的本质是数据格式转换,核心逻辑是 “用表达水平排序替代纯数值,用基因名称构成序列”,具体步骤如下:
第一步:取单个细胞的基因表达数据(比如 “细胞 1” 的一行数据:基因 A=12.8,基因 C=5.6,基因 B=0.3);
第二步:按 “表达量从高到低” 排序基因 —— 细胞 1 的排序结果是 “基因 A(12.8)>基因 C(5.6)>基因 B(0.3)”;
第三步:将排序后的基因名称串联成 “序列”—— 即 “基因 A → 基因 C → 基因 B”,这就形成了类似自然语言 “句子” 的结构(可理解为 “细胞 1 的基因表达句子”)。2. 关键优势:既保生物学意义,又接 LLM 能力
这种转换不是 “形式主义”,而是同时满足了两个核心需求:保留生物学意义
:排序依据是 “基因表达水平”—— 而表达水平直接对应细胞功能(比如高表达的基因往往是细胞发挥核心功能的关键)。因此,“基因句子” 的顺序不是随机的,而是蕴含了 “细胞功能优先级” 的生物学信息(例如癌细胞的 “基因句子” 中,致癌基因会排在靠前位置)。适配 LLM 处理逻辑
:LLM 的核心能力是 “理解序列中的规律”(比如从句子中识别语义、从文本中挖掘关联)。当基因表达数据变成 “基因句子” 后,LLM 可以直接复用其成熟能力 —— 比如:
识别 “细胞类型”:通过对比不同 “基因句子” 的相似性,自动归类(如把 “基因 A、C 靠前” 的细胞归为神经细胞);
挖掘 “疾病关联基因”:分析癌症细胞与正常细胞的 “基因句子” 差异,快速定位那些在癌症中 “突然排到前面” 的基因;
追踪 “细胞分化轨迹”:观察细胞从胚胎到成熟的 “基因句子” 变化,还原其功能发育过程。3. 应用价值:降低门槛、提升效率
在 C2S-Scale 模型出现前,单细胞数据分析需要研究者同时掌握 “生物信息学”(处理数值矩阵)和 “编程工具”(如 Python 的 Scanpy 库),门槛较高;且处理百万级细胞数据时,传统算法效率较低。而 C2S-Scale 模型通过 “Cell2Sentence” 方法,让:非专业研究者也能参与
:只需理解 “基因句子” 的逻辑,就能用熟悉的 LLM 工具(如 Prompt 提示)分析数据;大规模数据处理更快
:LLM 的并行计算能力远超传统生物信息学算法,可将原本需要数天的分析缩短到几小时。
综上,C2S-Scale 模型的核心价值在于:以 “基因表达” 的生物学本质为基础,用 “Cell2Sentence” 的转换逻辑,架起了 “单细胞数据” 与 “大规模语言模型” 之间的桥梁,为单细胞生物学研究提供了更高效、更低门槛的新工具。
参考资料
[1] Cell2Sentence: Teaching Large Language Models the Language of Biology - PubMed https://www.ncbi.nlm.nih.gov/pubmed/39554079/
[2] 谷歌& 耶鲁等发布270亿参数模型,为癌症治疗揭示全新潜在路径 https://c.m.163.com/news/a/KC0GI2SQ0552A8U8.html
[3] Large Language Models Meet Single Cell Transcriptomics: Unlocking Biological Insights with Cell2Sentence https://cbirt.net/large-language-models-meet-single-cell-transcriptomics-unlocking-biological-insights-with-cell2sentence/
[4] 谷歌×耶鲁联手发布抗癌神器,AI推理精准狙击「隐身」癌细胞-36氪 https://36kr.com/p/3512432205536385
[5] Gemma2 | Linsight http://www.linsight.cn/cf3f1f81.html
[6] Gemma 3 https://huggingface.co/docs/transformers/main/en/model_doc/gemma3
[7] Gemma explained: An overview of Gemma model family architectures https://developers.googleblog.com/en/gemma-explained-overview-gemma-model-family-architectures/
[8] Gemma: Google's family of Open LLMs https://sushant-kumar.com/blog/gemma
[9] Performance deep dive of Gemma on Google Cloud https://cloud.google.com/blog/products/ai-machine-learning/performance-deepdive-of-gemma-on-google-cloud/
[10] Gemma 2: Improving Open Language Models at a Practical Size(pdf) https://arxiv.org/pdf/2408.00118v1
[11] Scaling Large Language Models for Next-Generation Single-Cell Analysis https://scite.ai/reports/scaling-large-language-models-for-xXvRpprb
[12] Harnessing the Power of Single-Cell Large Language Models with Parameter Efficient Fine-Tuning using scPEFT - PubMed https://pubmed.ncbi.nlm.nih.gov/40313770/
[13] Bridging Large Language Models and Single-Cell Transcriptomics in Dissecting Selective Motor Neuron Vulnerability https://www.catalyzex.com/paper/bridging-large-language-models-and-single
[14] Using AI and large language models to reads cells as if they were text | News | Yale Engineering https://engineering.yale.edu/news-and-events/news/reading-language-cells
[15] scMulan: a multitask generative pre-trained language model for single-cell analysis https://sciety.org/articles/activity/10.1101/2024.01.25.577152
[16] Scaling Large Language Models for Next-Generation Single-Cell Analysis https://scite.ai/reports/scaling-large-language-models-for-xXvRpprb
[17] What if LLMs could “read” & “write” biology? ��� Introducing C2S‑Scale—a Yale and Google collab: we scaled LLMs (up to 27B!) to analyze & generate single‑cell data ��� ➡️ ��� ��� Blog: research.google/blog/teachin... ��� Preprint: biorxiv.org/content/10.1... https://bsky.app/profile/vandijklab.bsky.social/post/3ln3sk6bdks2e
[18] sciLaMA: A Single-Cell Representation Learning Framework to Leverage Prior Knowledge from Large Language Models - PubMed https://www.ncbi.nlm.nih.gov/pubmed/40501921
[19] Harnessing the Power of Single-Cell Large Language Models with Parameter Efficient Fine-Tuning using scPEFT - PubMed https://pubmed.ncbi.nlm.nih.gov/40313770/
[20] usingaiandlargelanguagemodelstoreadscellsasiftheyweretext|news|yaleengineering https://engineering.yale.edu/news-and-events/news/reading-language-cells
[21] Using AI to learn the transcriptomic language of cells https://www.zju.edu.cn/english/2025/0324/c19936a3030359/page.psp
[22] Large Language Models Meet Single Cell Transcriptomics: Unlocking Biological Insights with Cell2Sentence https://cbirt.net/large-language-models-meet-single-cell-transcriptomics-unlocking-biological-insights-with-cell2sentence/
[23] 谷歌&耶鲁等发布270亿参数模型,为癌症治疗揭示全新潜在路径_ScienceAI http://m.toutiao.com/group/7561706409344139803/?upstream_biz=doubao
[24] 「AI for Science里程碑」谷歌联合耶鲁发现全新癌症疗法,270亿参数Gemma模型立功_搜狐网 https://m.sohu.com/a/944390546_122014422/
[25] 谷歌×耶鲁联手发布抗癌神器!AI推理精准狙击「隐身」癌细胞_新智元 http://m.toutiao.com/group/7560148274650104360/?upstream_biz=doubao
[26] 【机器学习】Google开源大模型Gemma2:原理、微调训练及推理部署实战_qwen27b的模型运行需要多大的显存-CSDN博客 https://blog.csdn.net/python12222_/article/details/141354032
[27] Gemma2 | Linsight http://www.linsight.cn/cf3f1f81.html
[28] Gemma 2: Improving Open Language Models at a Practical Size(pdf) https://arxiv.org/pdf/2408.00118v3
[29] Gemma explained: An overview of Gemma model family architectures https://developers.googleblog.com/en/gemma-explained-overview-gemma-model-family-architectures/?mode=reply
[30] Gemma: Google's family of Open LLMs https://sushant-kumar.com/blog/gemma
[31] 谷歌Gemma-2大模型技术报告_gemma-2-27b-it-CSDN博客 https://blog.csdn.net/stephen147/article/details/140040128
[32] 树莓派5上的Gemma 2:如何打造高效的边缘AI解决方案?-电子发烧友网 https://m.elecfans.com/article/6750420.html
[33] 我们一起聊聊Google DeepMind推出Gemma 2 技术报告-AI.x-AIGC专属社区-51CTO.COM https://www.51cto.com/aigc/1723.html
[34] 2025年大语言模型架构演进全解析-CSDN博客 https://blog.csdn.net/flyTie/article/details/151616680
[35] 一探究竟 | Gemma 2 的突破与创新-CSDN博客 https://blog.csdn.net/androiddevs/article/details/142112938
[36] 【机器学习】Google开源大模型Gemma2:原理、微调训练及推理部署实战_qwen27b的模型运行需要多大的显存-CSDN博客 https://blog.csdn.net/python12222_/article/details/141354032
[37] C2S-Scale方法解读-CSDN博客 https://blog.csdn.net/qq_40943760/article/details/147985574
[38] 谷歌放大招!祭出270亿参数生物大模型,AI揭示癌症新疗法,震撼科学界! https://c.m.163.com/news/a/KC0U9VTS055650HM.html
[39] 2025 单细胞 RNA 测序数据 LLM2024 年单细胞大模型最近出了不少,现在来整理一下。单细胞大模型和语言大模型 - 掘金 https://juejin.cn/post/7455305380081860647
[40] 耶鲁大学|教大型自然语言模型掌握生物学语言Cell2Sentence - 智源社区 https://hub.baai.ac.cn/view/31060
[41] scBERT--单细胞测序数据深度学习模型-CSDN博客 https://blog.csdn.net/qq_30904887/article/details/141970252
[42] 单细胞大模型论文汇总 - wuhaoliu - 博客园 https://www.cnblogs.com/wuhaoliu/p/18793226
[43] Tokenization 指南:字节对编码,WordPiece等方法Python代码详解_Deephub 深度学习的技术博客_51CTO博客 https://blog.51cto.com/deephub/10689530
[44] AI挖出癌症潜在新疗法!谷歌耶鲁联手突破免疫系统冷肿瘤难题 https://m.thepaper.cn/newsDetail_forward_31791798
[45] How tumor cells counteract oxidative stress for survival and proliferation https://www.zju.edu.cn/english/2021/0605/c19573a2384118/page.htm?utm_source=miragenews&utm_medium=miragenews&utm_campaign=news
[46] 医学前沿 | 创新中心:癌症治疗的新篇章——如何将“冷肿瘤”转化为“热肿瘤” _ 特色医疗技术 _ 福建省肿瘤医院 https://www.fjzl.com.cn/ylfw/ylxjs/202404/t20240428_16235.htm
[47] 肺癌免疫治疗新纪元:双免时代如何精准抗癌?-家医大健康移动端 https://m.familydoctor.cn/hlthsci/feiai-mianyizhiliao-xinjiyuan-shuang-mian-shidai-jingzhun-kangai-636807.html
[48] 张连军/张力元/马波团队:“点燃”肿瘤微环境的新策略 https://m.thepaper.cn/newsDetail_forward_30637915
[49] -170℃“冻死”癌细胞!国内抗癌新疗法证实有效,适用哪些癌症?_39健康网 http://m.toutiao.com/group/7543583271402160675/?upstream_biz=doubao
[50] 宾大科学家发现肿瘤冷热与PD-1/L1治疗效果直接相关 https://www.las.ac.cn/front/product/detail?id=e168484271fce068dc6344f081f3bbd7
[51] 谷歌耶鲁C2S-Scale模型!AI提抗癌假设,药物实验验证_拾遗录 http://m.toutiao.com/group/7562471170910503450/?upstream_biz=doubao
[52] Deep learning-driven drug response prediction and mechanistic insights in cancer genomics - PubMed https://pubmed.ncbi.nlm.nih.gov/40595000/
[53] scDrugMap: Benchmarking Large Foundation Models for Drug Response Prediction https://pubmed.ncbi.nlm.nih.gov/40386575/
[54] Improving drug response prediction based on two-space graph convolution - PubMed https://pubmed.ncbi.nlm.nih.gov/37023539/
[55] Drug response prediction model using a hierarchical structural component modeling method https://pubmed.ncbi.nlm.nih.gov/30367591/
[56] ICML 2024 | Cell2Sentence: 教会大语言模型生物语言 - 智源社区 https://hub.baai.ac.cn/view/38090
[57] Cell2Sentence: Teaching Large Language Models the Language of Biology https://proceedings.mlr.press/v235/levine24a.html
[58] Cell2Sentence: Teaching Large Language Models the Language of Biology https://sciety.org/articles/activity/10.1101/2023.09.11.557287
[59] Large Language Models Meet Single Cell Transcriptomics: Unlocking Biological Insights with Cell2Sentence https://cbirt.net/large-language-models-meet-single-cell-transcriptomics-unlocking-biological-insights-with-cell2sentence/
[60] Celltype auto annotation with scMulan https://starlitnightly.github.io/omicverse/Tutorials-single/t_scmulan/
[61] Cell2Sentence: Teaching Large Language Models the Language of Biology - PubMed https://www.ncbi.nlm.nih.gov/pubmed/39554079/
[62] What if LLMs could “read” & “write” biology? ��� Introducing C2S‑Scale—a Yale and Google collab: we scaled LLMs (up to 27B!) to analyze & generate single‑cell data ��� ➡️ ��� ��� Blog: research.google/blog/teachin... ��� Preprint: biorxiv.org/content/10.1... https://bsky.app/profile/vandijklab.bsky.social/post/3ln3sk6bdks2e
[63] scTab: Scaling cross-tissue single-cell annotation models - PubMed https://pubmed.ncbi.nlm.nih.gov/39098889/
[64] Cell2Sentence: Teaching Large Language Models the Language of Biology - PubMed https://www.ncbi.nlm.nih.gov/pubmed/39554079/
[65] Cell2Sentence: Teaching Large Language Models the Language of Biology https://proceedings.mlr.press/v235/levine24a.html
[66] C2S-Scale方法解读-CSDN博客 https://blog.csdn.net/qq_40943760/article/details/147985574
[67] Using AI and large language models to reads cells as if they were text | News | Yale Engineering https://engineering.yale.edu/news-and-events/news/reading-language-cells
[68] Cell2Sentence:为LLM传输生物语言-CSDN博客 https://blog.csdn.net/qq_40943760/article/details/139899782
[69] Cell2Sentence: Teaching Large Language Models the Language of Biology https://icml.cc/virtual/2024/poster/34580
[70] Cell2Sentence: Teaching Large Language Models the Language of Biology - PubMed https://www.ncbi.nlm.nih.gov/pubmed/39554079/
[71] Large Language Models Meet Single Cell Transcriptomics: Unlocking Biological Insights with Cell2Sentence https://cbirt.net/large-language-models-meet-single-cell-transcriptomics-unlocking-biological-insights-with-cell2sentence/
[72] 谷歌×耶鲁联手发布抗癌神器,AI推理精准狙击「隐身」癌细胞-36氪 https://www.36kr.com/p/3512432205536385
[73] Scaling laws in enzyme function reveal a new kind of biochemical universality https://santafe.edu/research/results/papers/65-scaling-laws-in-enzyme-function-reveal-a-new-ki
[74] C2S-Scale方法解读-CSDN博客 https://blog.csdn.net/qq_40943760/article/details/147985574
[75] ViTally Consistent: Scaling Biological Representation Learning for Cell Microscopy(pdf) https://arxiv.org/pdf/2411.02572v1
[76] Cerebras Wafer Scale Engine Outperforms World's #1 Supercomputer, Achieving Long-Timescale Molecular Dynamics Simulations 179x Faster https://cerebras.ai/press-release/cerebras-wafer-scale-engine-outperforms-worlds-1-supercomputer-achieving-long-timescale-molecular-dynamics-simulations-179x-faster
[77] 谷歌& 耶鲁等发布270亿参数模型,为癌症治疗揭示全新潜在路径|免疫系统|参数模型|抗原|新型癌症疫苗|知名企业|细胞|耶鲁|肿瘤|谷歌_手机网易网 http://m.163.com/dy/article/KC0GI2SQ0552A8U8.html
[78] ICML 2024 | Cell2Sentence: 教会大语言模型生物语言 - 智源社区 https://hub.baai.ac.cn/view/38090
[79] Multimodal Language Modeling for High-Accuracy Single Cell Transcriptomics Analysis and Generation(pdf) https://arxiv.org/pdf/2503.09427v1
[80] Cell2Sentence: Teaching Large Language Models the Language of Biology https://proceedings.mlr.press/v235/levine24a.html
[81] Cell2Sentence: Teaching Large Language Models the Language of Biology https://icml.cc/virtual/2024/poster/34580
[82] 「AI for Science里程碑」谷歌联合耶鲁发现全新癌症疗法,270亿参数Gemma模型立功|信号|免疫|干扰素|抗原|新型癌症疫苗|生物学|癌症疗法|知名企业|细胞|耶鲁|谷歌_手机网易网 https://www.163.com/dy/article/KBVQQ4JC05566VQ3.html
[83] Introducing scCross: a deep generative model for unifying single-cell multi-omics with seamless integration, cross-modal generation, and in-silico exploration https://communities.springernature.com/posts/introducing-sccross-a-deep-generative-model-for-unifying-single-cell-multi-omics-with-seamless-integration-cross-modal-generation-and-in-silico-exploration?user_id=matthias-preusser
[84] scCross: a deep generative model for unifying single-cell multi-omics with seamless integration, cross-modal generation, and in silico exploration - PubMed https://pubmed.ncbi.nlm.nih.gov/39075536/
[85] Cross modality learning of cell painting and transcriptomics data improves mechanism of action clustering and bioactivity modelling - PubMed https://pubmed.ncbi.nlm.nih.gov/40596104/
[86] A multi-modality and multi-granularity collaborative learning framework for identifying spatial domains and spatially variable genes - PubMed https://pubmed.ncbi.nlm.nih.gov/39418177/
[87] Senhwa Biosciences Granted Taiwan FDA Approval for Silmitasertib Phase II Trial in Viral Pneumonia
26 December 2023 https://www.pharmaceutical-tech.com/news/senhwa-biosciences-granted-taiwan-fda-approval-for-silmitasertib-phase-ii-trial-in-viral-pneumonia
[88] Senhwa doses first subject in Phase II Covid-19 drug trial in Taiwan https://www.clinicaltrialsarena.com/news/senhwa-covid-drug-trial-2/
[89] FDA grants IND approval for Senhwa’s trial of Silmitasertib https://www.clinicaltrialsarena.com/newsletters/fda-senhwa-trial-silmitasertib/
[90] Senhwa Biosciences Received Taiwan FDA IND Approval for Phase II Study of Silmitasertib in Patients with Moderate to Severe COVID-19 https://www.senhwabio.com/en/news/20230428
[91] US FDA Approves Senhwa's Phase II IND Application of Silmitasertib https://www.indiapharmaoutlook.com/news/us-fda-approves-senhwa-s-phase-ii-ind-application-of-silmitasertib--nwid-1651.html
[92] Phase 1/2 Trial of Silmitasertib in Sarcoma and Brain Tumors to Proceed https://www.targetedonc.com/view/phase-1-2-trial-of-silmitasertib-in-sarcoma-and-brain-tumors-to-proceed?utm_source=www.targetedonc.com&utm_medium=relatedContent
[93] 2 Translation of Innovations https://www.ncbi.nlm.nih.gov/books/NBK3947/
[94] 药物研发与临床转化新路径.pptx-原创力文档 https://m.book118.com/html/2025/0807/5024332103012310.shtm
[95] Translational Science Spectrum https://ncats.nih.gov/about/about-translational-science/spectrum
[96] Fast clinical translation of your therapeutic compound: A stepwise approach https://www.tracercro.com/resources/blogs/fast-clinical-translation-of-your-therapeutic-compound-a-stepwise-approach/
[97] Improving Translational Paradigms in Drug Discovery and Development https://currentprotocols.onlinelibrary.wiley.com/doi/10.1002/cpz1.273
[98] BOX 1-2 The Need for Translational Science a http://www.ncbi.nlm.nih.gov/books/NBK114624/box/ch1.box2/?report=objectonly
[99] Methods of Predicting Patient Treatment Response and Resistance via Single-Cell Transcriptomics of Their Tumors https://www.techtransfer.nih.gov/tech/tab-4417
[100] Cell2Sentence: Teaching Large Language Models the Language of Biology https://proceedings.mlr.press/v235/levine24a.html
[101] One-Two Punch for Cancer https://ccr.cancer.gov/news/milestones-2022/one-two-punch-for-cancer
[102] Precision Cancer Medicine and Profile at Dana-Farber | Dana-Farber Cancer Institute https://www.dana-farber.org/research/featured/precision-cancer-medicine
[103] Transforming precision medicine: The potential of the clinical artificial intelligent single-cell framework https://journal.hep.com.cn/ctm/EN/10.1002/ctm2.70096
[104] 「AI for Science里程碑」谷歌联合耶鲁发现全新癌症疗法,270亿参数Gemma模型立功|信号|免疫|干扰素|抗原|新型癌症疫苗|生物学|癌症疗法|知名企业|细胞|耶鲁|谷歌_手机网易网 https://www.163.com/dy/article/KBVQQ4JC05566VQ3.html
[105] Google’s Gemma C2S-Scale 27B AI Model Discovers Novel Cancer Therapy Pathway in Lab Breakthrough https://winbuzzer.com/2025/10/16/googles-gemma-c2s-scale-27b-ai-model-discovers-novel-cancer-therapy-pathway-in-lab-breakthrough-xcxwbn/
[106] Combination Immunotherapy Meets Primary Endpoint in Phase II Clinical Trial in Advanced Sarcoma https://www.mskcc.org/clinical-updates/combination-immunotherapy-meets-primary-endpoint-phase-ii-clinical-trial-advanced-sarcoma
[107] Clinical proof of concept through a randomised phase II study: a combination of immunotherapy and stereotactic ablative radiotherapy as a curative treatment for limited metastatic lung cancer https://cordis.europa.eu/project/rcn/207443/en
[108] FDA Proposes Framework to Advance Credibility of AI Models Used for Drug and Biological Product Submissions | FDA https://www.fda.gov/news-events/press-announcements/fda-proposes-framework-advance-credibility-ai-models-used-drug-and-biological-product-submissions
[109] Artificial Intelligence https://www.fda.gov/about-fda/nctr-research-focus-areas/artificial-intelligence
[110] 连药监都用AI了?-医药杂谈-蒲公英 - 制药技术的传播者 GMP理论的实践者 - 蒲公英 https://www.ouryao.com/thread-788168-1-1.html
[111] BERTox Initiative https://www.fda.gov/about-fda/nctr-research-focus-areas/bertox-initiative
[112] Engaging with the FDA on AI in Clinical Trials: Beyond Traditional Meetings https://synterex.com/engaging-with-the-fda-on-ai-in-clinical-trials-beyond-traditional-meetings/
[113] Cell2Sentence: Teaching Large Language Models the Language of Biology https://proceedings.mlr.press/v235/levine24a.html
[114] Large Language Models Meet Single Cell Transcriptomics: Unlocking Biological Insights with Cell2Sentence https://cbirt.net/large-language-models-meet-single-cell-transcriptomics-unlocking-biological-insights-with-cell2sentence/
[115] 深入研究scRNA-seq基础模型_scbert和scgpt-CSDN博客 https://blog.csdn.net/qq_40943760/article/details/140955408
[116] A deep dive into single-cell RNA sequencing foundation models https://www.communityjameel.org/publications/a-deep-dive-into-single-cell-rna-sequencing-foundation-models
[117] G ene PT: A S imple B ut H ard - to -B eat F oundation
M odel for G enes and C ells B uilt F rom C hat GPT https://pmc.ncbi.nlm.nih.gov/articles/PMC10614824.1/
[118] ICLR|无需参考数据库,LLM智能体实现单细胞转录组自动注释-腾讯云开发者社区-腾讯云 https://cloud.tencent.cn/developer/article/2506539
[119] Domain specific models outperform large vision language models on cytomorphology tasks https://www.medrxiv.org/content/10.1101/2025.05.05.25326989v1
[120] sciLaMA: A Single-Cell Representation Learning Framework to Leverage Prior Knowledge from Large Language Models - PubMed https://pubmed.ncbi.nlm.nih.gov/40501921/
[121] LLM Leaderboard - Comparison of over 100 AI models from OpenAI, Google, DeepSeek & others | Artificial Analysis https://artificialanalysis.ai/leaderboards/models
先进产业+物理人工智能
产业智能官AI-CPS
加入知识星球“产业智能研究院”:产业OT技术(自动化+机器人+工艺+精益)和新一代IT技术(云计算+物联网+区块链+大数据+人工智能)深度融合,在场景中构建“状态感知-实时认知-自主决策-精准执行-学习提升”的物理人工智能(Physical AI);实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。
物理人工智能(Physical AI)作为第四次工业革命的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎;重构设计、生产、物流、服务等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态和新模式;引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。
产业智能化技术分支用来的今天,从业者必须了解如何将物理人工智能(Physical AI)全面渗入整个公司、产品、业务等商业场景中,利用物理人工智能(Physical AI)形成数字化、网络化和智能化力量,实现行业的重新布局、企业的重新构建和焕然新生。
版权声明:产业智能官(ID:AI-CPS)推荐的文章,除非确实无法确认,我们都会注明作者和来源,涉权烦请联系协商解决,联系、投稿邮箱:wolongzy@qq.com。