哥伦比亚大学 Harris H. Wang 团队联合 MIT Sergey Ovchinnikov 团队,在国际顶刊 《Science》发表重磅研究,通过生成式人工智能,成功构建出首个仅用 19 种氨基酸即可稳定存活的大肠杆菌菌株,迈出了重构生命底层密码的里程碑一步
核心技术框架拆解:AI 驱动的 DBT 全流程体系,攻克氨基酸删减核心难题
本研究搭建了 “靶点筛选 - 多模态 AI 协同设计 - 迭代 DBT 闭环 - 基因组级整合验证”的全链条技术框架,彻底解决了传统方法的核心痛点。
模块 1:靶点筛选 —— 锁定最具 “可替代性” 的异亮氨酸(Ile, I) 设计思路:从进化保守性、生化冗余性、细胞毒性三个维度,筛选出最适合全局剔除的氨基酸,从源头降低设计难度。 具体做法: 1. 全基因组多序列比对(MSA)计算 20 种氨基酸的全局保守性,证实 Ile 是大肠杆菌蛋白中保守性最低的氨基酸之一; 2. 基于 蛋白语言模型(Protein Language Model, PLM)ESM2 构建氨基酸替换矩阵,证实 Ile→缬氨酸(Val, V)是进化上最耐受的替换方案; 3. 验证 Ile 生物合成成本更高,且其合成通路敲除不会影响 Val 的合成,具备基因组级剔除的可行性。 实际效果:锁定 Ile 为首个全局剔除的目标氨基酸,明确 I-to-V 为核心替换策略,为后续 AI 设计奠定了核心基础。
模块 2:多模态生成式 AI 协同设计体系,解决简单替换失效的核心痛点 设计思路:不依赖单一模型,组合序列进化模型与结构预测模型的互补优势,同时引入空间邻近残基补偿突变,解决 60% 简单替换失效的行业难题。 具体做法: 1. 序列驱动模型:ESM2、MSA Transformer(MSATr),基于海量进化序列信息,对 Ile 位点及序列邻近残基进行掩码预测,生成无 Ile 的功能序列; 2. 结构驱动模型:ProteinMPNN、AlphaFold2 衍生的 AfDesign,基于蛋白 3D 空间结构,对 Ile 位点及 3-7Å 内的空间邻近残基(N3D 策略)进行设计,引入补偿突变维持蛋白折叠与分子互作; 3. 融合优化策略:AfDesign 整合 ProteinMPNN/ESM2 的序列偏好作为偏置项,通过 Pareto 前沿筛选兼顾结构稳定性与进化合理性的最优序列。 实际效果:针对简单 I-to-V 替换失效的 32 个核糖体蛋白,通过多模型迭代设计,最终全部实现功能保留,相对野生型(WT)细胞适配度>90%。
顶尖专题课程
01 AI蛋白质设计最新前沿实站应用
02 AI+多肽设计实战应用
03 AI+抗体设计实战应用
04 AI+基因编辑实战应用
05 AI构建虚拟细胞实战应用
06 人工智能驱动的计算免疫学实战应用
07 AI智能体驱动生物医学实战应用
01
AI蛋白质设计(最新前沿)
一、蛋白质相关的深度学习简介
1. 基础概念
1.1. 机器学习简介:从手写数字识别到大语言模型
1.2. 蛋白质结构预测与设计回顾
1.3. Linux简介
1.4. 代码环境:VS code和Jupyter notebook*
1.5. Python关键概念介绍*
2. 常用的分析/可视化蛋白质及相关分子的方法
2.1. 常用数据库与同源序列搜索和MSA构建
2.2. 使用pymol和Mol*可视化蛋白质结构*
2.3. 使用biopython与biotite分析生物序列与结构数据*
2.4. 使用fpocket与point-site分析蛋白质结构口袋*
3. 深度学习蛋白质设计与传统蛋白质设计之间的差异
3.1. 深度学习的本质
3.2. 传统方法:全原子能量函数Rosetta与统计势
3.3. 深度学习:几何深度学习
3.4. 深度学习与传统的物理方法的互补性
3.5. 深度学习蛋白质设计的优越性
4. 蛋白质语言模型
4.1. 语言模型:从RNN到Transformers
4.2. 理解蛋白质语言
4.3. 生成式蛋白质语言模型
4.4. 结构模型与语言模型的比较分析
5. 基于深度学习的蛋白质功能与性质预测
5.1. 蛋白质功能分类预测*
5.2. 信号肽、跨膜区、亚细胞定位预测
5.3. 蛋白质同源结构搜索
5.4. 酶活性位点预测
二、深度学习与蛋白质结构预测
1. 前深度学习时代的蛋白质(复合物)结构预测
1.1 基于同源性的建模:Swiss-Model,MODELLER,I-TASSER
1.2 基于折叠匹配的预测:Phyre2,RaptorX,HHpred
1.3 基于分子动力学的从头折叠:Rosetta ab initio,QUARK
1.4 蛋白小分子间的分子对接:AutoDock Vina
2. 深度学习方法用于蛋白质结构预测
2.1 RaptorX-Contact:将ResNet用于MSA
2.2 AlphaFold2:几乎解决了蛋白结构预测问题
2.3 AlphaFold3:引入扩散模型
2.4 ESMFold:语言模型与结构预测的融合
3. AlphaFold2 原理回顾
3.1从共进化到结构
3.2注意力机制
3.3 EvoFormer
3.4 Structural Module
4. AlphaFold3 介绍
4.1 扩散模型
4.2 训练数据
4.3 AlphaFold3 的成绩与不足,与AF2的差异
4.4 AF3的竞争对手们:Chai-1&2,Boltz-1&2
5. AlphaFold2/3 实际操作与结果分析
5.1 AlphaFold2&AF-multimer实操*
5.2 AlphaFold2各指标介绍,结果分析*
5.3 AlphaFold server使用*
5.4 本地版的AlphaFold3*
5.5 AlphaFold3结果分析*
6. ESMFold
6.1 ESM2:蛋白质语言模型能力的涌现
6.2从ESM2到ESMfold
6.3 ESMFold使用*
三、固定主链蛋白质序列设计
1. 传统的蛋白质序列设计
1.1 基于全原子力场的RosettaDesign*
1.2 基于统计势的ABACUS
2 融入结构知识的语言模型设计蛋白质序列
2.1 ESM-IF原理介绍
2.2 ESM-IF的应用*
3 基于CNN的序列设计
3.1 CNN原理简介
3.2 DenseCPD设计方法
3.3 有侧链构象的设计方法
4 基于GNN设计序列
4.1 ProteinMPNN 的成功经验分析
4.2 ProteinMPNN 的广泛应用
4.3 ProteinMPNN 实际操作*
4.4 ProteinMPNN的衍生模型:LigandMPNN,SolubleMPNN,ThermoMPNN
5 其他的序列设计模型
5.1 ABACUS-R 简介与实际操作*
5.2 CarbonDesign 从结构预测来到序列设计去*
5.3 CARBonAra 环境感知的序列设计*
6 固定主链序列设计在功能蛋白设计中的应用
6.1 新骨架蛋白质表达量优化(Science文章复现)*
6.2 抗体亲和力优化(Science文章复现)*
6.3 结合进化信息的酶性质全方位优化(JACS文章复现)*
四、深度学习蛋白质结构设计
1. 传统思路回顾
1.1. 结构域拼接
1.2. SCUBA:无侧链的蛋白质力场
2. 基于蛋白质表面几何深度学习的binder设计
2.1. masif原理简介
2.2. masif用于识别蛋白表面的PPI热点
2.3. masif设计binder
3. 基于扩散模型的蛋白质骨架设计模型
3.1. FrameDiff:基于IPA的主链生成*
3.2. Chroma:等变图神经网络结构设计
3.3. RFDiffusion:基于RosettaFold的多任务设计(以及RFantibody)
3.4. RFDiffusion2&3:从骨架设计到全原子设计
3.5. 其他全原子蛋白设计模型简介(BindCraft/Boltzgen/HalluDesign)
4. 基于RFdiffusion的蛋白设计案例
4.1. 抗蛇毒中和蛋白的从头设计顶刊讲解(Nature-2025.1.15)
4.2. 构象依赖的细胞因子结合蛋白设计顶刊讲解(Nature-2025.8.13)
4.3. 钙离子通道蛋白的计算设计顶刊讲解(Nature-2025.10.22)
4.4. DNA结合蛋白设计顶刊讲解--2026最新
4.5. 靶向GPCR结合蛋白的生成式设计顶刊讲解-2026最新
5. 基于RFdiffusion3的功能蛋白设计
5.1. 基本流程介绍(表位选取,可设计性评估,结构生成)
5.2. 指定位点的结合蛋白设计
5.3. 核酸结合蛋白设计
5.4. 小分子结合蛋白设计
6. 基于RFdiffusion和RFDiffusion3的酶设计
6.1. Theozyme理论解释
6.2. 骨架生成策略
6.3. 活性位点设计与活性进化
五、酶设计与 AI 辅助酶改造
1酶设计基础
酶的结构与催化原理 活性中心、底物结合口袋、催化残基、过渡态稳定、构象变化;
区分“结合设计”和“催化设计”。
2传统与半理性酶改造
从理性设计到定向进化
理性设计、半理性设计、饱和/组合突变、library 设计、筛选/选择实验;活性、稳定性、选择性的 trade-off。
案例:一个野生型酶如何制定改造目标?
突变库设计草案
3结构生成模型
RFDiffusionAA 与小分子驱动设计
Diffusion 生成思想;
RFDiffusion 与 RFDiffusionAA 的差异;
围绕小分子、金属离子或辅因子生成结合蛋白/酶 scaffold。
4酶活性位点设计 Catalytic motif / active-site scaffolding
theozyme、催化几何约束、motif 固定、scaffold 生成;
结合 ProteinMPNN/LigandMPNN 做序列设计与侧链优化。
练习:定义催化残基和几何约束。 活性位点约束表
5.AI 辅助酶改造
EvolvePro 与 MultiEvolve PLM embedding、few-shot regression、主动学习;
单点突变预测、多点组合、epistasis 建模;减少实验轮次。
讨论:何时需要 DMS,何时只用小规模数据?
突变体排序与下一轮建议
6酶设计实操 从设计到筛选的完整示例
以 heme binder / ligand-centered design 为例:输入准备、约束设置、backbone 生成、序列设计、结构筛选、候选排序。
上机:运行或演示 RFDiffusionAA 类流程。 候选结构与筛选报告
实操 1 酶设计 从小分子/辅因子出发生成候选 protein scaffold,并做初筛。 ligand/辅因子结构、motif/约束、参考脚本 准备输入 → 生成 backbone → 序列设计 → 结构预测/筛选 → 候选排序 候选结构、筛选表、简短解释
实操 2 酶改造 用少量突变体数据模拟 EvolvePro/MultiEvolve 风格的主动学习。 WT 序列、突变列表、fitness/活性数据、PLM embedding 提取 embedding → 训练回归模型 → 预测突变体 → 选择下一轮候选 ranking 与下一轮实验建议
六、蛋白语言模型与基于语言模型的蛋白质设计
1. 语言模型基础 Transformer、BERT 与 GPT Self-attention、position encoding、encoder/decoder;MLM 与 autoregressive generation
2.自然语言模型到蛋白序列模型的迁移。
比较 MLM 与 next-token prediction。
2. 蛋白语言模型概览
3. 蛋白序列作为“生物语言”
氨基酸 token、序列 embedding、residue/sequence-level 表征;
PLM 如何学习进化、结构和功能约束。
讨论:PLM 学到的是语法还是适应度景观?
PLM 应用场景地图
4. ESM 系列模型
5. ESM-1/2、MSA Transformer、ESMFold、ESM-3、ESMFold2、
ESM-2 的 masked LM 表征;
MSA Transformer 的共进化信息;
ESMFold 的单序列结构预测;
ESM-3 的序列-结构-功能多模态生成;ESMFold2用ESMC表征
世界模型ESMFold2 操作上机-2026最新
比较:AF2、ESMFold、ESM3 的输入与输出。
ESM 模型对照表
6. 生成式蛋白语言模型 ProGen、ZymCTRL 与条件生成 Conditional tag、功能/家族条件控制、预训练+微调;ProGen 案例分析;
7. ymCTRL 用于酶序列生成。
8. 练习:设计条件生成 prompt/tag。
9. 条件生成实验设计
10. PLM 驱动的功能蛋白设计
11. 突变评分、微调与非自回归生成 零样本突变效应预测、embedding regression、有监督微调;ProteinGAN、DeepEvo、Prot-VAE、P450Diffusion;生成后评估。
12. 讨论:生成模型如何与实验筛选闭环?
13. 候选序列评估指标表
14.蛋白语言模型实操 ESM2/ESM3 上机与小项目整合 ESM2 embedding 提取、突变打分;ESM3 序列补全与结构生成;将 PLM embedding 接入酶改造预测模型。
上机:完成 WT vs mutant 的 PLM 评估或 ESM3 生成。
培训目标:
让学员系统掌握深度学习在蛋白质设计领域的技术体系、前沿模型与工程落地思路
吃透传统蛋白设计与 AI 方法的差异及互补逻辑。可独立完成蛋白质序列、结构、结合口袋的可视化与数据分析,学会AlphaFold2/3、ESMFold等结构预测模型,能运用 Rosetta、ABACUS 完成传统设计,熟练操作 ProteinMPNN、ESM-IF、DenseCPD 等深度学习模型开展序列设计、侧链优化与蛋白稳定性改造,并复现顶刊相关应用案例。熟练掌握扩散模型、图神经网络在蛋白骨架 / 全原子设计中的应用,可基于 RFDiffusion 系列、FrameDiff、Chroma 等模型实现结合蛋白、酶、核酸结合蛋白、靶向配体蛋白的从头设计,完成表位筛选、结构生成、可设计性评估与候选分子排序。理解酶设计与改造核心原理,能结合 Theoyzme 催化基序、几何约束完成酶骨架与活性位点设计,使用 EvolvePro 等工具结合主动学习、突变效应预测开展 AI 辅助酶改造,搭建突变库并完成方案设计。掌握ESM 系列、ProGen、ZymCTRL等蛋白质语言模型,理解模型架构与表征逻辑,可完成序列 Embedding 提取、零样本突变打分、条件序列生成、模型微调,并实现语言模型与结构模型、改造模型的联动使用。能够基于 GNN、CNN、几何深度学习搭建蛋白预测与设计模型,完成模型训练、效果调优,规避数据泄露、过拟合等常见问题。
上下滑动查看更多
02
AI+多肽设计
Day 1:短肽设计基础、结构数据库与PyMOL可视化一、短肽设计的生物学基础
1.1 短肽分类与生物医学功能:系统讲解结合肽(binder)、功能肽、抑制肽、细胞穿膜肽(CPP)的定义与功能差异;重点阐述8–30个氨基酸线性短肽的优势(易合成、易修饰、适合蛋白-蛋白相互作用界面)与局限(稳定性差、蛋白酶易降解、细胞通透性低)。
1.2 短肽-蛋白结合界面的结构特征:介绍短肽在结合界面上的典型构象:α-螺旋、β-折叠、polyproline II螺旋、无规卷曲。
1.3 Hotspot残基与相互作用类型:深入讲解PPI界面中的hotspot理论:芳香族残基(Phe/Trp/Tyr)的π-π堆积、疏水残基的疏水作用、带电残基(Arg/Asp/Glu)的盐桥与氢键。
1.4 短肽设计的策略框架与流程概览:展示从“靶点选择”到“候选推荐”的完整闭环:靶点序列获取 → 候选生成(PepMLM/LigandMPNN)→ 性质筛选 → 结构评估(AF2)→ 界面分析 → 实验验证概念。
二、蛋白质结构数据库与Linux服务器基础
2.1 UniProt数据库:序列、功能域与注释检索:演示如何在UniProt中搜索靶蛋白、获取标准FASTA序列、查看功能结构域(Pfam)、亚细胞定位与疾病关联信息。
2.2 RCSB PDB数据库:结构检索与质量评估:讲解PDB数据库的搜索策略:按靶点名称、关键词、序列相似性检索;重点教授分辨率(resolution)判断、生物组装体(biological assembly)选择与实验方法(X-ray/Cryo-EM/NMR)差异。
2.3 FASTA与PDB文件格式解析:通过文本编辑器直接打开FASTA和PDB文件,讲解文件头信息、序列记录、ATOM记录、链标识(chain ID)与残基编号规则。
2.4 Linux基础命令与服务器连接:SSH连接方法、文件系统导航(cd/pwd/ls)、文件查看(cat/head/tail)、路径概念(绝对路径vs相对路径)。三、PyMOL三维结构可视化实操
3.1 PyMOL核心概念与界面导航:讲解Object、Chain、Residue、Atom、Selection的层级关系;演示GUI界面与命令行双模式操作,加载示例结构1YCR(p53-MDM2复合物)。
3.2 复合物结构加载与多样化显示:练习cartoon、surface、sticks、spheres、lines等多种显示模式的切换与组合;按chain着色(color by chain)、按B-factor着色(反映pLDDT质量)。
3.3 结合界面识别与距离测量:使用PyMOL selection语言选取短肽链(如chain B)及其周围5 Å范围内的靶蛋白残基;使用distance命令测量关键原子间距离,识别hotspot相互作用对。
3.4 高清图片渲染、标注与结果保存:学习ray渲染、标签添加(label)、视角保存(scene)与高清图片输出(png 300dpi);输出1张带标注的p53-MDM2结合界面图。
Day 2:蛋白质语言模型、ESM2原理与Jupyter入门一、从自然语言到蛋白质语言模型
1.1 机器学习基本概念:输入、模型、输出、训练与推理:用“识别手写数字”到“ChatGPT对话”的类比,讲解机器学习四要素:输入数据(features)、模型架构(architecture)、参数(parameters)、损失函数(loss);区分训练(training,模型学习参数)与推理(inference,模型预测新数据)两个阶段。
1.2 自监督学习与掩码语言建模(MLM)原理:解释“没有人工标签时如何学习”:MLM通过随机遮盖输入序列中的部分token,让模型根据上下文预测被遮盖的内容;在蛋白质中,即遮盖某个氨基酸,根据周围残基预测该位置的氨基酸类型。
1.3 Transformer架构与注意力机制:用可视化图示讲解Self-Attention的核心思想:序列中每个位置都能“看到”其他所有位置,并根据相关性分配注意力权重;解释为什么Transformer能捕捉蛋白质中远距离残基的共进化关系。
1.4 蛋白质序列的Token化与上下文学习:将20种标准氨基酸对应为20个token(加特殊token共约33个);蛋白质序列即“句子”,同源家族即“语法规则”,保守位点即“高频词”,让学员建立直观的NLP→蛋白质类比。二、ESM2蛋白质语言模型体系
2.1 ESM系列模型演进:回顾ESM-1b(650M参数)→ ESM-2(8M到15B多规格)→ ESMFold(结构预测)→ ESM-IF(反向折叠)的发展脉络;说明ESM-2是当前蛋白质序列表示的state-of-the-art模型。
2.2 ESM2-650M架构解析:讲解33层Transformer、1280维embedding、约6.5亿参数的规模;说明ESM2在UniRef50上自监督预训练,蛋白质家族的进化约束与结构倾向。
2.3 ESM2在短肽评估中的应用:Perplexity打分:讲解perplexity(困惑度)的直观含义:模型认为该序列“像不像”天然蛋白质;perplexity越低,序列越符合天然蛋白质的统计规律,可作为短肽“天然性”的初筛指标。
2.4 从ESM2到PepMLM:微调策略与条件化生成:解释PepMLM如何在ESM2-650M基础上,使用PepNN和Propedia数据库中的肽-蛋白配对数据进行微调;核心变化:将靶蛋白序列作为条件(condition),强制模型学习“给定靶点,生成结合肽”的映射关系。
三、Jupyter入门与ESM2评分实操
3.1 Jupyter Lab界面导航与单元格操作:演示启动Jupyter、浏览器访问、新建notebook、代码单元格(code cell)与Markdown单元格的区分;讲解运行(Run)、中断(Interrupt)、重启内核(Restart Kernel)的操作场景。
3.2 Python基础:变量、字符串、列表与print输出:教授当天必需的Python最小知识集:变量赋值(sequence = "ACE")、字符串拼接、列表创建(["A","C","E"]);所有概念均与ESM2评分脚本中的实际代码对应。
3.3 ESM2评分脚本运行与参数修改:打开教师提供的esm2_score.ipynb,演示加载transformers库、加载ESM2-650M模型、输入FASTA序列、获取per-sequence perplexity的完整流程。
3.4 Perplexity结果解读与对比分析:分别对3条天然结合肽、3条随机打乱序列、3条全丙氨酸序列运行评分,记录结果并对比;讨论:为什么天然肽perplexity最低?随机序列为什么分数高?全丙氨酸序列说明什么?
Day 3:PepMLM短肽生成、PPL评估与Python数据处理一、PepMLM短肽生成核心原理
1.1 PepMLM方法概述:靶序列条件化的掩码语言模型:系统讲解PepMLM的输入输出:输入 = 靶蛋白序列(≤500 aa)+ 目标肽长度参数;输出 = N条候选肽序列 + 对应的PPL分数;强调PepMLM是“完全基于序列”的设计工具,无需结构输入。
1.2 核心创新:肽区域全掩码与条件概率重建:深入解析掩码策略:将靶蛋白序列与肽序列拼接,对肽区域全部设为[MASK],模型需要根据靶蛋白上下文重建整个肽序列;这种“条件化重建”迫使模型学习靶点-肽的配对关系。
1.3 Top-k采样策略:平衡多样性与生成质量:讲解解码策略:在每个氨基酸位置,模型输出20种氨基酸的概率分布;top-k采样(论文使用k=3)指从概率最高的3个候选中随机选择,而非总是选概率最高的;k值越大,多样性越高,但可能引入低质量残基。
1.4 伪困惑度(PPL)评估体系与阈值解读:详细讲解PPL的数学定义与生物学意义:PPL反映模型对“该肽作为靶点结合剂”的置信度;
1.5 PepMLM的方法边界与适用范围:PepMLM计算候选(in silico),de novo设计等。
二、Python数据处理与配置文件基础
2.1 Python字典与列表:理解结果数据结构:讲解列表(有序集合,用于存储多条序列)和字典(键值对,用于存储序列-分数映射)的基本操作;查看PepMLM输出的JSON/CSV文件,识别其中的列表和字典结构。
2.2 YAML配置文件格式与参数读写:介绍YAML的语法规则(缩进表示层级、键值对格式);识别target_fasta、peptide_length、num_sequences、top_k等关键参数的含义与修改方法。
2.3 Pandas表格操作:读取、排序、过滤与统计:演示pandas.read_csv()读取结果、sort_values()按PPL排序、条件过滤(如去除含Cys过多的序列)、基本统计(mean/median/count);完成从原始结果到筛选表的转换。
2.4 Matplotlib基础:PPL分布直方图绘制:绘制PPL分布图、标记阈值线、直观判断生成质量。三、PepMLM短肽生成与筛选实操
3.1 配置靶点FASTA、肽长度与采样参数:选择标准靶点,修改config.yaml中的目标序列路径、肽长度(默认12 aa)、生成数量(50条)、top-k值(3)。
3.2 运行生成脚本与实时监控输出日志:在命令行执行python pepmlm_generate.py,观察终端输出的进度条、每条生成肽的序列与PPL值。
3.3 结果清洗:去重、去除非标准氨基酸与长度过滤:运行清洗脚本,去除重复序列、含非标准氨基酸(B/J/O/U/X/Z)的序列、与设定长度不符的序列;统计清洗前后的序列数量变化。
3.4 PPL排序、性质统计与Top 20候选输出:使用pandas按PPL升序排列,计算每条肽的净电荷(pH 7)、疏水氨基酸比例、芳香族残基数量、半胱氨酸数量;综合PPL与性质指标,人工精选Top 20候选,导出为CSV备用。
Day 4:复合物结构预测评估、PyMOL界面分析与批量处理一、深度学习蛋白质结构预测原理
1.1 结构预测方法演进:从同源建模到深度学习:回顾SWISS-MODEL、I-TASSER、Phyre2等传统方法的核心思想与局限;讲解深度学习时代AlphaFold2的突破性贡献:Evoformer架构、MSA(多序列比对)与配对表示(pair representation)联合进化。
1.2 AlphaFold2与AlphaFold-Multimer的核心差异:明确区分AF2(单链结构预测,输出pLDDT)与AF-Multimer(多链复合物预测,额外输出ipTM与PAE)。
1.3 三大评估指标详解:pLDDT、ipTM、PAE:pLDDT(per-residue predicted LDDT)、残基对误差矩阵、界面区域PAE介绍。
1.4 短肽-蛋白复合物预测的特殊挑战:讲解短肽复合物预测的三大难点:① 肽链柔性大、构象空间大;② 训练数据中短肽复合物占比低;③ 弱亲和力界面信号弱;说明为什么AF-Multimer对短肽的预测confidence通常低于单域蛋白,以及如何谨慎解读结果。
二、复合物结构评估与PyMOL界面分析
2.1 加载预计算AF2结果:pLDDT着色与质量判断:在PyMOL中加载pdb文件,使用color by b-factor直观展示pLDDT分布,识别低置信度区域。
2.2 界面接触残基识别:距离阈值与原子对筛选:使用PyMOL selection命令选取肽链与靶蛋白中距离<5 Å的原子对;利用find_pairs或自定义脚本输出接触残基列表;区分“主链-主链”“主链-侧链”“侧链-侧链”接触类型。
2.3 关键相互作用类型判断:氢键、盐桥、疏水堆积:结合PyMOL可视化与距离测量,识别界面上的典型相互作用:氢键(N-O距离2.5-3.5 Å)、盐桥(带电残基对<4 Å)、疏水堆积(芳香环平面间距<5 Å)。
2.4 PAE矩阵热图解读与预测可靠性评估:在Jupyter中绘制PAE热图;重点观察肽残基(链B)与靶蛋白残基(链A)交叉区域的PAE值。
三、Python批量评估与自动化处理
3.1 Python循环与条件判断:批量处理结构文件:教授for循环遍历文件列表、if条件判断筛选高质量结构,批量读取多个AF2结果的ipTM值,自动筛选ipTM>0.7的候选。
3.2 界面接触自动提取脚本运行与结果整理:自动从pdb文件中提取肽-蛋白界面接触残基对;修改脚本中的距离阈值(如从5.0改为4.0 Å),观察接触数变化,理解参数敏感性。
3.3 路径A候选肽的结构评估表填写:将Day 3生成的Top 20候选中已预计算AF2结构的肽,逐一填写评估表:序列、PPL、ipTM、pLDDT均值、界面接触数、关键相互作用、综合评级(推荐/保留/淘汰)。
Day 5:结构驱动设计、LigandMPNN优化一、结构驱动的短肽设计原理
1.1 传统固定骨架设计:Rosetta能量函数与Rotamer库:回顾RosettaDesign的经典流程:输入蛋白质主链骨架 → 能量函数评估 → rotamer库侧链packing → 输出最优序列;说明传统方法依赖物理能量函数,计算成本高且对骨架质量敏感。
1.2 ProteinMPNN:图神经网络学习Structure-to-Sequence映射:讲解ProteinMPNN的核心创新:将蛋白质主链看作图(节点=残基,边=空间邻近关系),使用图神经网络(GNN)直接学习“骨架 → 最优序列”的映射;相比Rosetta,ProteinMPNN更快、更准确、对骨架误差更鲁棒。
1.3 LigandMPNN:显式建模非蛋白原子与短肽链:在ProteinMPNN基础上,讲解LigandMPNN对非蛋白原子(小分子、核酸、金属离子、肽链)的显式建模。
二、短肽成药优化
2.1 线性短肽的成药瓶颈:稳定性、通透性、免疫原性:系统讲解短肽面临的三大障碍:胃肠道蛋白酶快速降解、难以穿越肠上皮屏障、潜在的免疫原性反应。
2.2 化学修饰策略:环化、订书肽、非天然氨基酸:介绍提升短肽稳定性的常用化学手段:① 头尾环化(end-to-end cyclization)或侧链-侧链环化(如R4-R10内酰胺桥);② 订书肽(stapled peptide,烯烃桥锁定α-螺旋);③ 非天然氨基酸替换(如N-甲基氨基酸、D-型氨基酸抵抗蛋白酶)。
2.3 递送策略:细胞穿膜肽融合、纳米颗粒封装:讲解短肽进入细胞的递送方案:与CPP(如TAT、Penetratin)融合、脂质纳米颗粒(LNP)封装、外泌体靶向递送,说明短肽作为蛋白降解靶向嵌合体(PROTAC)配体的应用前景。三、LigandMPNN固定骨架优化实操
3.1 复合物骨架PDB准备与链指定:识别靶蛋白链(chain A)与肽链(chain B),确认肽链的残基编号范围;讲解PDB文件格式中链标识与原子坐标的对应关系。
3.2 LigandMPNN参数配置:温度、采样数、设计区域:打开config_ligandmpnn.json,讲解关键参数:temperature(温度,控制序列多样性,建议0.1-0.3)、num_seq_per_target(每条骨架输出序列数)、fix_selected_chains(固定靶蛋白链)、redesigned_chains(重设计肽链);学员根据靶点修改参数。
3.3 序列重设计与结果对比:原肽vs优化肽:运行python run_ligandmpnn.py,获取LigandMPNN设计的新肽序列;将输出序列与原始PDB中的肽序列进行比对,观察:哪些位置被保守保留?哪些位置发生了突变?突变残基的理化性质变化(如疏水→带电)可能带来什么影响?3.4 优化序列的AF2-Multimer验证与PPL交叉评估:对比原始肽与优化肽的ipTM、pLDDT、界面接触数;同时用Day 2的ESM2评分脚本对优化肽打分,观察perplexity变化;建立“结构优化序列也应具有低perplexity”的交叉验证思维。
培训目标:
让学员更好的知道当下蛋白质设计的核心热点以及优势能独立完成蛋白结构可视化:用 PyMOL 加载复合物、识别结合界面、测量相互作用、渲染高清结构图。能使用 ESM2 完成序列评分,用 PepMLM 实现靶标定向短肽生成,并通过 Python 完成数据清洗、筛选与可视化。能用 AF2/Multimer 预测肽 - 蛋白复合物结构,解读 pLDDT/ipTM/PAE 指标,完成界面分析与质量评估。能用 LigandMPNN 基于固定骨架优化短肽序列,结合多指标完成候选肽筛选与成药优化方案设计。建立AI 短肽设计完整思维闭环:靶点选择→候选生成→性质筛选→结构评估→优化验证。具备独立解决实操问题的能力,能合理解读 AI 预测结果、规避模型局限,输出可实验验证的短肽候选。掌握跨工具联用能力,实现 ESM2、PepMLM、AF2、LigandMPNN、PyMOL 的流程化配合使用。
上下滑动查看更多
03
AI+抗体设计
*涉及使用代码/计算工具的操作
第一天:代码基础,抗体基础,介绍各大药企在AI辅助抗体药物开发上的布局,复现GSK在抗体亲和力成熟上的工作
1. 代码基础知识讲解,环境搭建:Linux,VS code*
a) 超算的登录
b) Linux系统的常用shell命令:vim, ls, cd, less, rm等;
c) 一些package安装的常用命令:pip, conda, source等。
d) VS code的基本配置:连接服务器;选择不同python版本的Interpreter;debug模式的使用等。
2. 抗体基础知识讲解:
a) VDJ重排,germline,CDR区域,表位(epitope/paratope),抗体亲和力成熟,抗体的可开发性等概念介绍
b) 不同抗体编号方案(Kabat,Chothia,IMGT)讲解,使用python自动化对抗体序列编号,并识别CDR区域*
c) 抗体药物开发的基本流程
3. 各大药企在AI辅助抗体药物开发上的布局:讲解各大药企公司发表的文献及报告:
a) Genetech的lab-in-the-loop,结合了实验和计算方法的迭代优化策略的工作b) Genmab手动建立了多样性的抗体可开发性数据集,以进行可开发性数据的训练和预测.
c) GSK、阿斯利康、诺和诺德等在抗体亲和力成熟上做的工作等。
4. 抗体结构预测
1) 通用蛋白结构预测模型:AlphaFold3。
u运行网页server上的AlphaFold3预测结构,https://alphafoldserver.com*
uAlphaFold3输出结果分析,各项置信度指标的含义,以及如何判断预测的准确度,如pLDDT,ipTM,PTM,PAE。
uAlphaFold3的安装过程讲解。
a) 抗体专用结构预测模型:ImmuneBuilder,IgFold。实操如何在服务器安装和使用。
5. 复现GSK在抗体亲和力成熟上的工作*
第二天:基于大语言模型的抗体亲和力成熟。
1. 基础知识讲解
1) 介绍蛋白质的语言模型(26字母语言模型->20氨基酸字母表,上下文依赖->氨基酸的共进化)
2) 为什么要开发蛋白质大语言模型?
1. 相比于结构或功能信息,序列信息更加海量;
2. 蛋白质序列通过进化而来,可以学习蛋白质基本规律,折叠,共进化等
3) 模型架构和基础理论:transformer,多头注意力机制,Bert,GPT,T5等
2. 基于Bert架构的蛋白质语言模型
1) ESM系列(ESM-1b、ESM-1v、ESM2、ESM C)2) ESMFold:无需MSA信息的结构预测
3) 多模态的蛋白质语言模型ESM3
4) 使用抗体序列库训练的语言模型:Ablang,AntiBERTy
3. Adaptyv EGFR Binder比赛——设计靶向EGFR的更高亲和力binder。1) 比赛结果展示
2) 比赛排名靠前的抗体/蛋白是如何设计的
a) 第一轮比赛,排名第一的方法:BindCraft
b) 第二轮比赛,排名第一的方法:Cradle,在Cetuximab的基础上,用的LLM,突变了10个FR的氨基酸
c) 第二轮比赛,排名第二的方法:对一个纳米抗体进行人源化改造
d) 第二轮比赛,排名第三的方法:保留与结合重要的氨基酸,生成其它氨基酸RFdiffusion+inverse folding
4. 零样本的抗体亲和力成熟*
1) Efficient evolution,基于序列的语言模型推荐突变点(Nat. Biotechnol.文章)
i. 了解语言模型推荐突变点的原理;
ii. 安装package和模型参数。https://github.com/brianhie/efficient-evolution
iii. 运行以推荐突变点:python bin/recommend.py [sequence]
2) Structure evolution,基于结构的语言模型推荐突变点(Science文章)
i. 了解inverse folding推荐突变点原理
ii. 安装package和模型参数
1. git clonehttps://github.com/varun-shanker/structural-evolution.git
2. conda env create -f environment.yml
3. conda activate struct-evo
4. wget -P ~/.cache/torch/hub/checkpoints https://zenodo.org/records/12631662/files/esm_if1_20220410.zip
5. unzip ~/.cache/torch/hub/checkpoints/esm_if1_20220410.zip
iii. 运行以推荐突变点:python bin/recommend.py examples/7mmo_abc_fvar.pdb \
--chain A --seqpath examples/7mmo_chainA_lib.fasta \
--outpath examples/7mmo_chainA_scores.csv \
--upperbound 109 --offset 1
5. 小样本的抗体亲和力成熟*,在已有少量样本的亲和力数据下训练模型。使用MULTI-evolve的方法预测多点的组合突变。
第三天:抗体可开发性预测和优化1
1. 抗体可开发性优化在药物开发过程中的意义,
2. 衡量抗体可开发性要考虑的因素,如免疫原性、自聚集性、结合特异性、稳定性等等3. 以一篇专利文件为例讲解AI辅助抗体改造的案例。Patent No.: US12110324B2。Generate:Biomedicines公司通过AI方法在tezepelumab上改成的一种靶向(TSLP)的长效单克隆抗体GB-0895。
4. 抗体结构简单物理性质的计算:溶剂可及表面积(SASA)的讲解及计算;等电点的计算;蛋白质表面电荷分布的计算。*
5. 讲解Ginkgo举办的抗体可开发性预测比赛的结果。6. 公开的抗体可开发性数据的收集。
7. 抗体性质预测的模型实践,展示在小样本的情景下训练机器学习模型*1) 数据处理,划分数据集
2) 模型构建,基于特征工程的机器学习模型(随机森林,XGboost,ElasticNet等);学习根据蛋白质序列和结构信息构建常见特征。seq_features = feature_utils.get_all_seq_features(heavy_seq, light_seq, is_fv=True, isotype='igg1', lc_type='lambda')3) 模型训练和评价,GridSearchCV交叉验证调参等4) 模型的可解释性,特征重要性分析
第四天:抗体可开发性预测和优化2和抗体人源化
1. 基于蛋白质语言模型的可开发性预测*
1) 零样本的可开发性预测2) 少样本的可开发性预测。给定抗体序列和相应的性质,构建下游模型预测。
a) 数据处理,划分数据集
b) 获得序列embedding以构建下游模型,实现蛋白质序列的不同方式encoding,包括"onehot", "georgiev", “esm”系列模型。
c) 深度学习模型的构建。上游的大语言模型+下游简单线性层。
d) 模型训练和评价:绘制训练曲线,训练集和测试集的评价指标随epoch的变化,2. 免疫原性预测
1) 免疫系统介绍,MHC-I和MHC-II,Anti-drug Antibody等基础概念
2) 免疫原性预测是MHC结合肽段的预测
3) 预测免疫原性。netMHCpan的原理讲解,安装和使用
3. 抗体人源化
1) 人源化的基础知识和流程。目标:保留亲和力+减小免疫原性+好的稳定性和可开发性。CDR移植到人源框架,回复突变,Vernier Zone,
2) Germline的搜索,IMGT/V-QUEST数据库搜索得到V 基因和J基因相似的人类germline序列。
3) 人源化的经典方法biophi的原理讲解、安装和使用。
4) 基于AI和基于物理能量(Rosetta)的方法是如何辅助抗体人源化的。
5) 排除抗体序列的PTM。
第五天:抗体(scFv, VHH)的从头设计
1. 从头设计的意义
1) 跨膜蛋白例如GPCR,难以稳定表达为可溶性蛋白
2) VHH动物免疫羊驼成本高。
3) 更高效快速获得候选分子
2. 基础模型方法概念介绍:Diffusion模型、 flow-matching、全原子(all-atom)建模等
3. 不同公司和方法模型、实验结果讲解
1) Rfdiffusion3+ProteinMPNN生成序列,AphaFold2筛选序列。将学会各个包的安装,不同参数的选择,结合的hotspot位点选择。
a) Rfdiffusion3结构设计,生成~10000个蛋白质主链结构;根据hotspot位点,生成新的结构:
./scripts/run_inference.py 'contigmap.contigs=[B1-100/0 100-100]' 'ppi.hotspot_res=[A30,A33,A34]' inference.output_prefix=test_outputs/binder_test inference.num_designs=10000
b) ProteinMPNN-FastRelax进行序列设计,每一个主链结构两个对应的序列,共设计~20000个序列;
c) 筛选:使用AlphaFold2预测设计结构,预测的置信度pAE<10,预测结构与设计结构的RMSD<1A,从中挑选95个进行实验验证。
2) Nabla Bio开发的JAM(Joint Atomic Modeling)系统3) Chai2 Discovery开发的Chai-2方法,用以实现抗体的从头生成4) MIT开发的Bolzgen方法原理、安装使用讲解。
安装和使用boltzgen讲解,将详细讲解yaml配置文件的写法,以一个靶点为例,从头生成VHH与该靶点结合。
5) PPIFlow:基于flow-matching的生成方法,原理,安装和使用方法。
4. VHH的生成实践
1) 确定纳米抗体序列框架(Framework区域)序列,生成CDR区域序列。分析整理纳米抗体序列,绘制序列保守性的Logo图,以此确定在生成VHH时,哪些位置的氨基酸需要固定。2) 对生成的序列进行筛选。在亲和力、序列稳定性、可开发性等各个方面进行筛选。
a) 预测结构与设计结构的RMSD,AlphaFold预测设计结构的置信度pAE等
b) 筛选Cys,Met等氨基酸含量
c) 减少电荷patch
d) 根据等电点等性质筛选。
培训目标:
培训聚焦深度学习驱动的抗体设计为核心方向,以David Baker实验室核心设计方法、主流抗体大语言模型、AI抗体结构预测模型为教学核心,秉持理论夯实、实操落地、科研进阶、工程应用的培训原则。依托高性能服务器实操环境,循序渐进讲解行业主流软件、开源模型、代码实操、数据处理与模型调优,搭配十篇顶刊经典文献深度解析,全方位覆盖当下抗体设计领域前沿技术、研究热点与工业落地方案。助力零基础及进阶学员快速打通理论原理、代码实操、模型应用、科研创新全流程,熟练掌握AI抗体设计全套技术栈,可独立完成抗体结构预测、抗体亲和力优化、可开发性改造、抗体从头设计等科研实操任务,适配药物研发、生物工程、合成生物学等科研与工业应用场景。
上下滑动查看更多
04
AI+基因编辑
第一天
1. 基因组编辑技术简述
1.1 基因组测序、编辑和读写时代及基因组编辑技术现状简述
2. 基因组编辑四代技术原理
2.1 四代基因组编辑技术发展历程
2.2 ZFN、TALEN和CRISPR/Cas系统的组成和工作原理
3. CRISPR/Cas系统的来源及分类
3.1 CRISPR/Cas系统的发现过程
3.2 CRISPR/Cas系统的适应性免疫原理
3.3 CRISPR/Cas系统的分类依据和类型
4. CRISPR/Cas系统介导的DNA编辑工具
4.1 CRISPR/Cas9基因编辑工具
4.2 CRISPR/Cas12a基因编辑工具
5. CRISPR/Cas系统衍生工具的发展
5.1 碱基编辑工具的组成、作用原理及其应用
5.2 引导编辑的作用机理、应用及其发展动态
6. CRISPR/Cas介导的基因调控、细胞成像和核酸检测技术
6.1 CRISPR/Cas介导基因调控技术的原理和工具组成
6.2 CRISPR/Cas介导细胞成像技术的原理和工具组成
6.3 CRISPR/Cas介导核酸检测技术的原理和工具组成
第二天
1. 脱靶效应及其检测
1.1 脱靶效应的检测方法:扩增子测序、全基因组测序、GUIDE-seq等
1.2 脱靶效应的规避方法
2. 基因编辑流程-以植物为例
2.1 靶位点sgRNA或crRNA的设计原则
2.2 表达盒设计和构建的方法
2.3 植物原生质体瞬时表达系统
2.4 基因编辑载体的遗传转化
2.5 基因编辑突变体的检测
3. 基因组编辑常用软件实操
3.1 靶位点设计软件Cas-Designer、BE-Designer、PE-Designer等
3.2 突变分析软件Cas- Analyzer、BE-Analyzer、PE- Analyzer
4. 基因组编辑技术在各领域的应用现状及前景
4.1 基因组编辑技术在基因治疗、免疫学、病毒诊断等方面的应用
第三天 理论部分(人工智能+基因编辑背景)
1. 深度学习概述
1.1. 深度学习的基础
1.2. 深度神经元网络的工作原理
1.3. 深度学习技术的发展趋势:自监督学习、迁移学习和少样本学习的进展
2. 深度学习在基因编辑中的应用
2.1. 基于监督学习的应用:序列标签模型
2.2. 零样本预测模型的应用:结构模型、大语言模型、多模态模型、
2.3. 少样本预测框架的应用(Design-Build-Test-Learn和Lab-in-the-loop范式)
3. 深度学习在gRNA优化与设计中的应用
3.1. gRNA活性预测
3.2. 脱靶效应预测
3.3. gRNA预测模型介绍
4. AI辅助的蛋白定向进化在基因编辑中的应用
4.1. 蛋白定向进化的基本概念与实验方法
4.2 AI辅助的蛋白进化工具
4.3. AI与实验反馈的结合
5. AI蛋白质设计在基因编辑中的应用
5.1. 蛋白质设计工具
5.2. 酶设计
5.3. binder设计
6. AI酶挖掘在基因编辑中的应用
6.1. 基于大语言模型挖掘基因编辑酶
6.2. 基于结构比对挖掘基因编辑酶
第四天深度学习在基因编辑中的应用实操教学
1. 基础知识和环境搭建
1.1. GPU服务器登录
1.2. Linux基础知识
1.3. Python基础知识
1.4. 常用深度学习工具包介绍及安装
2. 利用深度学习预测gRNA活性
2.1. 配置深度学习环境,安装gRNA活性预测所需的工具
2.2. 高通量数据获取:公开数据集的介绍与使用
2.3. 数据集划分:训练集、验证集、测试集
2.4. 模型搭建与调试:深度学习模型架构设计(如CNN, RNN)
2.5. 模型性能评估:精度、召回率、F1分数等评估指标
2.6. gRNA活性预测:实际应用案例演示和预测结果的解读与应用
3. 利用深度学习预测编辑活性
3.1. 环境配置:安装所需工具与库
3.2. 数据获取:编辑活性相关数据集清洗
3.3. 数据集划分
3.4. 模型搭建与调试
3.5. 模型性能评估
3.6. 编辑活性预测:预测结果的展示与解读
4. 零样本蛋白进化工具AiCE实操
4.1. AiCE的原理与应用场景
4.2. 环境搭建
4.3. 逆折叠模型的使用:如何利用AiCE进行高活性突变预测;案例演示与实际操作
4.4. 应用实例:碱基编辑器的高效进化
5. 少样本蛋白质定向进化工具EVOLVEpro实操
5.1. EVOLVEpro的背景与应用
5.2. 环境搭建与配置
5.3. 基于DMS数据的少样本微调
5.4. 基于实验数据反馈的少样本微调
5.5. 应用实例:Cas12f的高效进化
第五天 基因编辑工具设计与挖掘案例复现
1. 设计MLH1 binder提高引导编辑编辑(PE)效率
1.1. 背景知识:基于RFdiffusion + ProteinMPNN + AlphaFold的binder设计流程
1.2. 环境搭建与配置
1.3. 输入结构准备(AlphaFold预测)
1.4. 结构骨架生成:利用RFdiffusion进行结构采样与优化,生成蛋白质结构骨架
1.5. 序列设计:基于RFdiffusion生成的结构骨架,进行序列的优化设计
1.6.复合体结构预测验证:使用AlphaFold进行binder与目标蛋白复合体的结构预测,验证设计的复合体结构是否符合预期
1.7. 结果可视化:使用PyMOL进行结构和设计结果的可视化
2. Cas13抑制剂设计
2.1. 背景知识:Cas13的结构与功能介绍
2.2. 输入结构准备
2.3. 蛋白质设计流程:结合RFdiffusion、ProteinMPNN与AlphaFold设计Cas13抑制剂
2.4. 设计结果分析和可视化
3. 基于蛋白质语言模型挖掘新型CRISPR系统
3.1. 蛋白质语言模型在酶挖掘中的介绍与流程
3.2. 序列数据库介绍与下载
3.3. 搜索(query)序列准备
3.4. 基于ESM语言模型挖掘Cas12家族基因编辑酶
4. 基于三维结构挖掘新型CRISPR系统
4.1. 结构比对的背景知识:结构比对的重要性与应用;比较不同结构比对工具的优缺点
4.2. Foldseek系列工具介绍:介绍Foldseek、Foldseek multimer、Folddisco、FoldMason等工具的基本原理和使用
4.3. 结构数据库介绍与下载:PDB,AFDB,ESM Atlas
4.4. 输入结构准备:准备用于比对的目标蛋白质结构文件
4.5. Foldseek网页版使用:演示如何使用Foldseek网页版进行结构比对;讲解如何理解输出结果并进行后续分析
4.6. Foldseek本地版使用:本地部署Foldseek并使用命令行工具进行比对
4.7. DALI和TM-align工具本地版使用:介绍DALI与TM-align工具本地版的安装与使用
4.8. 结构进化树构建:使用FoldMason构建蛋白质结构的进化树
培训目标:
本次培训聚焦基因组编辑技术体系与人工智能辅助基因编辑设计前沿方向,系统讲解CRISPR基因编辑全套技术原理、编辑工具、脱靶检测、实验流程、主流设计分析软件;深入剖析深度学习在gRNA优化、编辑活性预测、编辑酶改造、新型编辑系统挖掘中的核心应用。培训秉持理论扎实、通俗易懂、实操落地、案例复刻、科研进阶的教学理念,依托高性能GPU服务器,手把手完成Linux环境配置、深度学习模型搭建、AI蛋白进化、从头设计、结构比对、新型CRISPR挖掘等高阶实操。结合当下主流AI生成模型、大语言模型、结构比对工具,复刻多篇顶刊经典研究案例,使学员能够完整掌握传统基因编辑+人工智能基因编辑全流程技术栈,具备独立开展基因编辑载体构建、gRNA智能优化、编辑酶定向进化、新型编辑元件挖掘、人工设计结合蛋白等科研能力,适配植物育种、基因治疗、生物医药、分子诊断等科研及工业研发场景。
上下滑动查看更多
05
AI构建虚拟细胞
第一天| 细胞数据数字化与基础表征
上午:理论讲解(第一、二阶段)第一阶段:细胞数据数字化(Data Representation)
核心目标:解决"如何让细胞被AI理解"• 细胞多组学数据的复杂性(RNA、ATAC、Protein、Spatial)• 数据标准化与质量控制的最佳实践• 从原始数据到机器可读结构的核心逻辑配套模型理论:• MultiVI:RNA+ATAC多模态统一表征(重点讲解)• totalVI:RNA+Protein联合编码• MOFA+:多组学因子分析• OmniReg-GPT(新模型,NC2026):DNA序列基础表征,基因组位点识别与表达预测第二阶段:细胞状态建模(State Learning)
核心目标:解决"如何识别细胞处于什么状态"• 从"细胞数据"到"细胞状态"的转化逻辑• 潜变量空间的生物学意义• 细胞亚群识别与稀有细胞发现配套模型理论:• scVI/scANVI:单细胞潜变量建模(核心)• β-VAE:解耦表征学习• Contrastive Cell Embedding:对比学习在细胞表征中的应用
下午:实操演练(对应上午第一、二阶段理论)实操前置准备:GPU服务器环境适配、Linux与Python环境调试
1. Linux 常用命令进阶:细胞数据文件(单细胞RNA、ATAC数据)的批量管理、权限设置、格式转换;2. Python 环境搭建与优化:细胞数据处理相关包(scanpy、torch、scvi-tools)的安装与调试。实操模型讲解(Python代码解析 + GPU服务器上机实操)
1. 实操模型1:MultiVI(多模态统一表征)—— 对应第一阶段理论,实现RNA+ATAC数据统一编码,完成数据降噪与批次效应校正,掌握潜变量空间构建方法,理解其作为模型底座的核心作用;2. 实操模型2:scVI(单细胞潜变量建模)—— 对应第一、二阶段理论,基于单细胞RNA数据,完成潜变量建模、细胞聚类初步分析,掌握基础表征模型的训练与评估方法,衔接细胞状态识别的核心需求;3. 实操模型:OmniReg-GPT演示(新模型)—— DNA序列特征提取,基因表达预测,理解基础表征模型在基因组学中的应用,展示Nature Communications论文核心技术。
第二天| 细胞状态建模与空间转录组
上午:理论讲解(第二阶段深化)空间转录组基础理论
核心目标:解决"细胞在组织中的空间状态"• 空间转录组技术概览(Visium、Stereo-seq、MERFISH)• 空间约束下的细胞状态识别• 组织微环境与细胞通讯配套模型理论:• GraphST:图神经网络空间表征• STAligner:空间转录组跨样本整合
• Nicheformer(新模型,2025NM):空间基础模型下午:实操演练(对应上午空间转录组理论)实操前置准备:空间转录组数据预处理与工具包调试
1. Python 工具包适配:PyTorch Geometric(图神经网络)、squidpy(空间分析)工具包的安装与调试;2. 数据预处理复习:空间转录组数据格式(Visium、Stereo-seq)的读取与预处理方法。实操模型讲解(Python代码解析 + GPU服务器上机实操)
1.实操模型:GraphST实操(空间数据聚类与域识别)—— 基于空间转录组数据,构建空间图网络,完成组织域识别与空间聚类,掌握图神经网络在空间数据中的应用;2. 实操模型:STAligner实操(空间转录组跨样本整合)—— 理解空间转录组的批次效应如何消除,掌握去批次的基本原理与核心方法,理解空间组的建模思路3. 实操模型:Nicheformer实操(空间基础模型)—— 细胞微环境表征,掌握空间基础模型的核心应用,深化细胞状态识别的实操能力。
第三天| 调控机制推理与细胞动态预测
上午:理论讲解(第三、四阶段)第三阶段:细胞调控机制建模(Regulatory Modeling)
核心目标:解决"为什么细胞会发生变化"• 细胞调控的底层机制• 从表型识别深入到机制层面• 调控机制建模在药物研发中的核心价值配套模型理论:• GAT:图注意力网络,基因调控网络推理• SCENIC:转录因子调控推断• Gene Regulatory Graph:因果关系建模第四阶段:细胞动态预测(Dynamic Evolution)
核心目标:解决"细胞下一步会走向哪里"• 细胞命运轨迹推演的核心逻辑• 动态预测对药物研发(如耐药、复发预测)的重要意义配套模型理论:• CellRank 2:命运概率与轨迹推演• RNA Velocity:转录动力学建模• stVCR(新模型,Nat Methods 2026):空间细胞发育轨迹推断,基于Neural ODE的空间-基因双速度场建模
下午:实操演练(对应上午第三、四阶段理论)实操前置准备:图神经网络与动态预测工具包调试
1. Python 工具包适配:PyTorch Geometric(图神经网络)、CellRank(动态预测)工具包的安装与调试;2. 数据预处理复习:回顾上午理论相关的基因表达数据、调控关系数据的预处理方法。实操模型讲解(Python代码解析 + GPU服务器上机实操)
1.实操模型:SCENIC(调控网络机制推理)—— 对应第三阶段理论,基于基因表达数据,构建基因调控网络,识别关键调控节点,掌握机制推理的核心方法,理解其在药物靶点发现中的应用;2. 实操模型:CellRank 2(命运与轨迹推演)—— 对应第四阶段理论,基于单细胞数据,推演细胞分化轨迹,预测细胞未来状态,掌握动态预测的核心方法,贴合药物研发中耐药、复发预测的需求;
3. 实操模型:stVCR实操(新模型)—— 空间轨迹推断,预测细胞分化方向,理解Neural ODE建模空间-基因双速度场的核心原理,展示Nature Methods 2026论文核心技术;
第四天| 药物扰动建模与疾病系统
上午:理论讲解(第五、六阶段)第五阶段:药物作用建模(Drug Perturbation Modeling)
核心目标:解决"药物如何改变细胞命运"• 药物作用于细胞的核心逻辑• 药物扰动建模在药物研发全流程中的应用场景配套模型理论:• ChemCPA:药物剂量-响应建模• scGen:扰动响应生成• CellOT:最优传输扰动预测• scGPT:大模型预测扰动第六阶段:疾病系统建模(Disease System Modeling)
核心目标:解决"疾病中细胞网络如何重构"• 疾病状态下细胞网络的变化规律• 疾病系统建模在患者分层、疾病亚型预测中的核心价值配套模型理论:• DeepProg:疾病预后预测• Numbat-multiome:从单细胞多组学数据推断CNV并重建肿瘤系统发育
下午:实操演练(对应上午第五、六阶段理论)实操前置准备:药物扰动模型工具包调试
1. Python 工具包适配:ChemCPA、scGen等药物扰动相关工具包的安装与调试;2. 数据准备:药物作用相关数据(药物剂量、细胞反应数据)的预处理与导入方法。实操模型讲解(Python代码解析 + GPU服务器上机实操)
1. 实操模型:ChemCPA(药物扰动预测)—— 对应第五阶段理论,构建药物扰动模型,预测不同药物剂量的作用效果、联合用药反应,掌握虚拟筛选的核心能力,理解其在药物研发ROI提升中的作用;2. 实操模型:scGen实操(单药扰动响应生成)—— 基于单细胞数据,生成药物扰动后的细胞状态预测,掌握生成式扰动模型的核心方法;3. 实操模型:DeepProg(疾病预后分析)——基于多组学数据和AI模型,分析疾病状态下患者预后进展。
第五天| 数字孪生与虚拟临床应用
上午:理论讲解(第七、八阶段)第七阶段:数字孪生细胞/组织(Digital Twin)
核心目标:解决"如何构建可推演虚拟人体局部系统"• 数字孪生技术在细胞、组织层面的应用逻辑• 其在降低药企湿实验成本中的核心价值配套模型理论:
• Virtual cell:虚拟细胞总览• DrugCell:药物反应神经网络•PhysiCell(Cell 2026):细胞仿真引擎第八阶段:虚拟临床与药物研发(Virtual Clinical Translation)
核心目标:解决"如何直接服务药物研发和临床决策"• 虚拟临床试验的设计逻辑• 从体外到体内的预测链条• ROI计算与决策支持配套模型理论:• PK/PD Neural Surrogate:药代动力学神经网络• Clinical Response Simulator:临床响应模拟
下午:实操演练+ 课程总结实操前置准备:数字孪生与虚拟临床模型工具包调试
1. Python 工具包适配:DrugCell、PhysiCell等数字孪生相关工具包的安装与调试。实操模型讲解(Python代码解析 + GPU服务器上机实操)
1. 实操模型:DrugCell(产业级药物反应预测)—— 对应第七阶段理论,构建药物反应预测模型,解释药物作用机制,掌握产业级模型的应用方法,理解其在降低湿实验成本中的作用;2. 实操模型:PhysiCell(数字孪生底层仿真)—— 对应第七阶段理论,搭建虚拟细胞仿真环境,完成从虚拟细胞到虚拟组织的仿真闭环,掌握数字孪生底层操作,衔接虚拟临床应用;
培训目标:
• 技术栈回顾:从数据→状态→调控→动态→药物→疾病→孪生→临床• 前沿趋势:大模型、多模态、空间组学、虚拟敲除• 职业发展:计算生物学人才需求与能力路径配套资源
• 课程PPT(理论讲解)• 实操代码包(Jupyter Notebook)• GPU服务器账号(云端实操)• 数据集(公开单细胞/空间数据)• 参考文献(最新顶刊论文,基本是2026、2025新文章+少量经典文章)
上下滑动查看更多
06
AI驱动计算免疫学
第一天、AI 与免疫计算基础
1. 机器学习与深度学习基础
1.1. 机器学习简介:从手写数字识别到大语言模型
1.2. 监督学习、无监督学习、自监督学习、迁移学习与生成式模型
1.3. 分类、回归、排序、表征学习在免疫计算中的对应问题
1.4. 常用评价指标:Accuracy、ROC-AUC、PR-AUC、Top-k recall、校准曲线
1.5. 免疫计算中特别重要的数据划分:随机划分、按抗原划分、按 TCR/BC划分、按 HLA 等位基因划分
1.6. 负样本构造、数据泄漏、类别不平衡与模型泛化问题
2. 代码环境与数据处理
2.1. Linux 基础与常用命令*
2.2. Conda、VS Code、Jupyter Notebook 环境搭建*
2.3. Python 基础:NumPy、Pandas、Matplotlib、Scikit-learn*
2.4. PyTorch 基础:Dataset、DataLoader、训练循环、GPU 使用*
2.5. 生物序列数据格式:FASTA、CSV、TSV、PDB/mmCIF*
2.6. HLA 命名、TCR/BCR 链信息、CDR3 序列、V/D/J 基因片段解析**拓展:vibe coding初讲解
3. 免疫学基础
3.1. 先天免疫与适应性免疫概览
3.2. 抗原、表位、免疫原性、
3.3. MHC-I 与 MHC-II 抗原呈递通路
3.4. pMHC 复合物:肽段、HLA、结合槽与呈递稳定性
3.5. TCR 结构:α/β 链、CDR1/2/3、克隆型与抗原特异性
3.6. BCR/抗体结构:重链、轻链、CDR-H3
3.7. 肿瘤新抗原、病毒抗原、细菌保护性抗原与疫苗靶点
第二天、免疫计算数据、数据库与表征方法
1. 常用免疫数据库
1.1. IEDB:T 细胞/B 细胞表位、MHC 结合、免疫原性数据*
1.2. VDJdb、McPAS-TCR:TCR-抗原配对数据*
1.3. ImmuneCODE、huardb、单细胞 TCR/BCR 数据*
1.4. OAS、SAbDab、CoV-AbDab:抗体序列与结构数据*
1.5. PDB、AlphaFold DB、IMGT、ANARCI 编号体系*
1.6. 数据清洗:去重、标准化、链配对、HLA 统一命名、CDR 区域提取*
2. 免疫分子的 AI 表征
2.1. One-hot、k-mer、BLOSUM、理化性质特征
2.2. 蛋白质语言模型表征:ESM、ProtT5、immune receptor language model
2.3. TCR/BCR 专用表征:CDR3-only、CDR1/2/3、多链联合编码
2.4. HLA 表征:全序列、pseudo-sequence、结合槽残基
2.5. pMHC 表征:肽段-HLA pair、三维结构、接触图、图神经网络输入
2.6. 抗体-抗原表征:paratope、epitope、界面残基、抗体编号与结构坐标
3. 常用结构与可视化工具
3.1. PyMOL 与 Mol* 可视化 pMHC、TCR-pMHC、抗体-抗原复合物*
3.2. Biopython、Biotite 分析序列和结构数据*
3.3. ANARCI 提取TCR/抗体编号和 CDR 区域
3.5. AlphaFold/AlphaFold-Multimer/Alphafold3/tfold/ 用于免疫复合物结构预测*
3.6. 结构质量评估:pLDDT、PAE、界面接触、RMSD、DockQ*
第三天、pMHC 识别:抗原呈递、MHC 结合与免疫原性预测
1. 抗原加工与 pMHC 形成机制
1.1. MHC-I 抗原加工:蛋白酶体切割, HLA 结合
1.2. MHC-II 抗原加工:内吞体加工、HLA-DP/DQ/DR 呈递
1.3. 肽段长度、锚定位点、HLA 等位基因特异性
1.4. pMHC 稳定性、呈递丰度与免疫原性之间的区别
2. 传统与深度学习 pMHC 预测方法
2.1. NetMHCpan、MHCflurry、MixMHCpred、IEDB 工具链介绍*
2.2. 肽段-HLA 结合预测:binding affinity 与 ligand presentation
2.3. CNN/RNN/Transformer 在 peptide-HLA pair 建模中的使用
2.4. HLA 泛化:已知 HLA、低样本 HLA、未见 HLA 的建模策略
2.5. 免疫原性预测:MHC binding 之外还需要考虑什么
3. pMHC 结构建模
3.1. pMHC 结构基础:HLA 结合槽、锚定残基
3.2. pMHC 结构预测与同源建模*
3.3. AlphaFold/AlphaFold-Multimer 用于 pMHC 建模的注意事项*
3.4. 肽段构象、HLA 接触残基与结构特征提取*
3.5. 从序列模型走向结构模型:contact map、distance map、graph
4. pMHC 实战项目
4.1. 构建一个 MHC-I peptide-HLA binding 基线模型*
4.2. 比较传统工具与深度学习模型在不同 HLA 上的表现*
4.3. 对候选肿瘤突变肽进行 pMHC ranking*
4.4. 可视化高分候选肽段在 HLA 结合槽中的结构模式*
第四天、TCR 受体组建模与 DeepTCR
1. TCR 生物学与受体组数据
1.1. V(D)J 重排与 TCR 多样性来源
1.2. α/β 链配对、CDR3 区域与抗原特异性
1.3. 克隆型定义、克隆扩增、公共 TCR 与私有 TCR
1.4. Bulk TCR-seq 与 single-cell TCR-seq 的区别
2. TCR 表征学习
2.1. CDR3 序列编码:字符级、氨基酸级、语言模型 embedding
2.2. V/J gene usage 的整合
2.3. TCR repertoire-level representation
2.4. 无监督聚类、motif 发现、抗原特异性富集分析
2.5. 受体组分类:疾病诊断、感染状态、肿瘤免疫反应
3. DeepTCR 专题
3.1. DeepTCR 框架介绍
3.2. DeepTCR 的无监督学习模块:repertoire structure 与聚类
3.3. DeepTCR 的监督学习模块:抗原特异性与疾病分类
3.4. DeepTCR 如何联合 CDR3 序列与 V/D/J gene usage 建模;该框架设计为可处理复杂 TCR 测序数据的深度学习工具。
3.5. DeepTCR 可解释性:motif、saliency、特异性克隆分析
3.6. DeepTCR 代码复现与结果解释*
4. TCR 受体组实战项目
4.1. 训练一个 repertoire-level 分类模型*,
4.2. 使用 DeepTCR 进行抗原相关 TCR 模式挖掘*
4.3. 可视化 TCR embedding、克隆扩增与抗原相关 motif*
第五天、TCR-pMHC 识别:从序列模型到结构模型
1. TCR-pMHC 识别问题定义
1.1. 输入形式:TCRβ、TCRαβ、peptide、HLA、pMHC 结构
1.2. 输出形式:binding/non-binding、ranking、抗原分类、多抗原检索
1.3. 泛化设定:unseen TCR、unseen peptide、unseen HLA、unseen TCR-peptide pair
1.4. 负样本构造:随机负样本、同 HLA 负样本、hard negative
1.5. 数据泄漏与过拟合:为什么随机划分会高估模型性能
1.6. 2025 年 Nature Methods 对 50 个 TCR-epitope 预测模型进行了系统评测,强调了多数据集、多抗原和严格泛化评估的重要性。
2. 传统与深度学习 TCR-pMHC 方法
2.1. 基于距离和聚类的方法:TCRdist、GLIPH/GLIPH2
2.2. 序列双塔模型:TCR encoder + peptide encoder
2.3. Cross-attention 模型:TCR 与 peptide/HLA 交互建模
2.4. 多模态输入:TCRαβ + peptide + HLA + gene usage
2.5. 可解释性:CDR3 motif、关键氨基酸、注意力热图
2.6. Zero-shot 与 few-shot 抗原特异性预测
3. PanPep 专题
3.1. PanPep 任务设定:TCR-antigen binding recognition
3.2. Meta-learning 在少样本抗原特异性预测中的作用
3.3. Neural Turing Machine 与外部记忆机制
3.4. PanPep 将 meta-learning 与 neural Turing machine 结合,用于更稳健地预测 TCR-抗原结合,尤其强调对未见 peptide 的泛化。
3.5. PanPep 代码结构、输入格式、训练与推理流程*
3.6. PanPep 与普通监督学习模型的对比实验*
4. 原子级 T 细胞抗原识别与图神经网络
4.1. 为什么仅用序列不足以解释 TCR-pMHC 识别
4.2. pMHC/TCR-pMHC 结构图构建:节点、边、距离、原子特征
4.3. GCN/GAT/EGNN/SE(3)-equivariant 网络简介
4.4. “Identifying T cell antigen at the atomic level with graph convolutional network” 专题:deepAntigen 使用图卷积网络在原子层面识别 T 细胞抗原,并同时涉及 antigen-HLA binding 与 antigen-TCR interaction 建模。
4.5. 原子级特征可解释性:界面残基、接触贡献、突变敏感性
4.6. 使用结构数据构建 TCR-pMHC 图输入*
5. Phage display + 机器学习发现癌抗原特异性 TCR
5.1. TCR discovery 的实验-计算闭环
5.2. Phage display 如何扩大 TCR-epitope 数据获取能力
5.3. Giancarlo Croce 等人的 Sci. Adv. 2025 论文专题:该研究展示了 display technologies 与 TCR-epitope interaction predictors 结合,可用于从大规模 TCR repertoire 中发现 TCR。
5.4. 从实验富集数据到监督学习标签
5.5. 模型筛选、候选 TCR 排序与验证策略
5.6. 复现实战:模拟 phage display enrichment 数据并训练 TCR-epitope ranking model*
6. TCR-pMHC 综合实战
6.1. 构建 TCRβ-peptide 识别基线模型*
6.2. 加入 HLA 信息提升 pMHC-aware TCR prediction*
6.3. 使用 PanPep 进行 few-shot antigen-specific TCR prediction*
6.4. 使用结构图模型分析 TCR-pMHC 界面*
6.5. 输出候选 TCR 的 ranking、解释性图*
第六天、BCR/抗体-抗原识别
1. BCR 与抗体基础
1.1. BCR 与分泌型抗体的关系
1.2. 重链、轻链、CDR-H1/H2/H3、CDR-L1/L2/L3
1.3. 抗体-抗原识别:paratope、epitope、构象表位与线性表位
1.4. 中和抗体、保护性抗体与交叉反应性
2. 抗体序列与结构建模
2.1. 抗体编号体系:Kabat、Chothia、IMGT
2.2. ANARCI 提取 CDR 区域*
2.3. OAS/SAbDab 数据清洗与抗体序列标准化*
2.4. tfold、ABodyBuilder、AlphaFold-Multimer 预测抗体结构*
2.5. 抗体-抗原复合物结构可视化与界面分析*
3. BCR/抗体-抗原识别的 AI 方法
3.1. 抗体语言模型:AbLang、AntiBERTy、抗体专用 PLM
3.2. 抗原特异性 BCR 分类
3.3. epitope prediction
3.4. 抗体-抗原 binding prediction:序列模型、结构模型、图神经网络
3.5. 亲和力预测与 ΔΔG 预测
3.6. 抗体 developability:聚集性、免疫原性、可表达性、稳定性
4. 抗体设计与优化
4.1. CDR grafting 与人源化
4.2. 亲和力成熟的机器学习建模
4.3. 生成式抗体设计:语言模型、扩散模型, 基于序列设计,基于序列结构协同设计
4.4. 抗体-抗原 docking 与候选排序
4.5. 抗体设计中的安全性与交叉反应风险
5. BCR/抗体实战项目
5.1. 从抗体序列中自动提取 CDR 并编号*
5.2. 训练抗原特异性 BCR 分类模型*
5.3. 预测抗体 paratope 并映射到结构上*
5.4. 使用结构特征训练抗体-抗原 binding baseline*
5.5. 对候选抗体突变进行亲和力提升排序*
AI 疫苗设计:从抗原筛选到多表位疫苗
1. 疫苗设计基础
1.1. 传统疫苗、亚单位疫苗、多肽疫苗、mRNA 疫苗、病毒载体疫苗
1.2. 保护性抗原、免疫优势表位、保守表位与逃逸突变
1.3. B 细胞表位、CD8 T 细胞表位、CD4 T 细胞表位
1.4. 肿瘤个体化新抗原疫苗设计流程
2. 反向疫苗学与免疫信息学流程
2.1. MHC-I/MHC-II 表位预测
2.2. B 细胞表位预测
2.3. 保守性、变异位点与逃逸风险分析
3. 肿瘤新抗原疫苗
3.1. 体细胞突变、HLA typing 与新抗原生成
3.2. 突变肽-MHC binding prediction
3.3. TCR recognition potential 与免疫原性排序
3.4. 个体化 neoantigen vaccine ranking pipeline*
3.5. 结合 TCR-pMHC 模型筛选更可能被识别的新抗原*
4. PLM + 几何深度学习用于保护性抗原预测
4.1. 蛋白质语言模型在抗原筛选中的作用
4.2. 几何深度学习在抗原结构表征中的作用
4.3. 序列-结构多模态融合
4.4. “Integrating protein language and geometric deep learning models for enhanced vaccine antigen prediction” 专题:该工作提出将蛋白质语言模型与几何深度学习结合,用于保护性疫苗抗原预测。
4.5. PLGDL 模型输入、标签、训练任务与评价指标
4.6. 保护性抗原预测与普通 antigenicity prediction 的区别
4.7. 复现实战:构建简化版 protein language + structure graph antigen predictor*
5. 疫苗设计综合实战
5.1. 从病原体蛋白组中筛选候选保护性抗原*
5.2. 对候选抗原进行 MHC-I/MHC-II 表位预测*
5.3. 设计一套“AI vaccine candidate ranking”报告*
培训目标:
让学员系统掌握人工智能在计算免疫学中的核心热点与优势,能独立完成免疫分子结构可视化:用 PyMOL/Mol* 加载 pMHC、TCR-pMHC、抗体-抗原复合物,识别结合界面、测量相互作用、渲染高清结构图。能使用蛋白质语言模型(ESM、ProtT5)提取序列表征,用 DeepTCR 完成受体组聚类与抗原特异性分类,用 PanPep 实现少样本 TCR-抗原结合预测,并通过 Python(NumPy/Pandas/PyTorch)完成免疫数据清洗、划分、负样本构造与模型训练。能用 AlphaFold‑Multimer / tfold 预测 TCR-pMHC 或抗体-抗原复合物结构,解读 pLDDT / PAE / DockQ 等质量指标,完成界面残基分析与结合模式评估。能用图神经网络(GCN / GAT / EGNN)构建原子级 TCR-pMHC 图,优化抗原识别与亲和力排序。建立 AI 驱动免疫设计的完整思维闭环:抗原筛选 → 表位/MHC结合预测 → TCR/BCR特异性识别 → 结构验证 → 候选排序 → 疫苗/抗体优化方案。具备独立解决实操问题的能力,能合理解读 AI 预测结果、规避数据泄漏与过拟合风险,输出可实验验证的免疫候选分子(新抗原、特异性 TCR、优化抗体)。掌握跨工具联用能力,实现 IEDB/VDJdb 数据库 → ESM/ProtT5 → DeepTCR/PanPep → AlphaFold-Multimer → PyMOL 的流程化配合使用。
上下滑动查看更多
07
AI智能体全流程自动化实战
第一天上午:大语言模型基础与Prompt 工程
理论一、大语言模型(LLM)基础认知
LLM 发展脉络:GPT-1 到 GPT-5 / Claude 4 / DeepSeek
主流大模型能力对比(OpenAI GPT、Anthropic Claude、DeepSeek、Llama 等)
生物领域专用模型(ESM-3、AlphaFold 3、scGPT)
Token、Context Window、Temperature 核心概念
模型选择策略:不同科研任务如何选模型
二、Prompt 工程核心技术
基础设计原则:角色、任务、背景、约束、格式、示例
Zero-shot vs. Few-shot Prompting
高级技术:CoT 思维链、Self-Consistency、ToT、ReAct
生物科研场景Prompt 模板设计(基因功能/蛋白质/实验方案/文献)
实操
给定差异表达基因,依次使用基础Prompt、Few-shot Prompt 和 CoT Prompt,逐步推理基因功能与疾病关联基因功能注释结果
实操案例2:实验方案设计 Prompt 优化
设计CRISPR-Cas9 基因敲除方案,对比 Zero-shot、Few-shot、CoT 策略的输出质量结构化实验方案文档
实操案例3:Prompt 模板库构建
设计5 类生物科研模板,使用 Python 封装参数化调用,批量处理多基因/蛋白质prompt_templates.py
第一天下午:结构化输出与生物数据模式
理论一、为什么需要结构化输出
由于LLM 输出具有不确定性,而科研自动化对输出格式有严格要求,因此需要掌握三大技术路线:JSON Mode、Function Calling 和 JSON Schema
二、JSON Schema 与 Pydantic 模型设计
Schema 语法、Pydantic V2 模型、嵌套结构处理、生物数据 Schema 设计模式(基因/蛋白质/药物-靶点)
三、大模型结构化输出最佳实践
OpenAI Structured Outputs、Claude 工具使用、输出验证与容错、分层提取策略
实操
实操案例1:PubMed 文献结构化提取
定义Pydantic 模型,通过 API 批量处理 20 篇文献摘要,验证输出并处理异常结构化文献DataFrame
实操案例2:蛋白质-配体相互作用结构化记录
设计多层级Pydantic 模型,处理嵌套结构与 Optional 字段,实现自动验证与异常标记结构化结合数据
实操案例3:生物数据 ETL 流水线
将非结构化文本转化为结构化JSON 并写入数据库,完成 GenBank、UniProt、临床报告等多源数据处理bio_data_etl.py
第二天上午:AI 编程智能体 — Claude Code + Codex + MCP + Skill
理论
一、AI 编程智能体的崛起
讲解从Copilot、Cursor、Claude Code 到 Codex 的演进历程,分析 Agentic Coding 核心特征及生物科研应用价值
二、Claude Code 深度讲解
核心架构与能力、CLAUDE.md、MCP/Hooks/Memory/Worktree、多平台支持、模型选择策略
三、多模型配置— 接入 DeepSeek 等
成本优化、网络友好、合规要求;Claude Code / Codex CLI 配置方法;常用模型 API 对比;多模型切换策略
四、MCP 服务器配置
MCP 协议架构、生物科研常用 MCP Server、配置方法、自定义生物 MCP Server 开发
五、Skills 技能系统配置
内置Skills 列表、调用方式、创建自定义生物科研 Skill(rnaseq-pipeline / protein-analysis)
六、OpenAI Codex 概览
Codex 多形态产品线、核心特性、Claude Code vs. Codex 对比、互补使用建议
实操
实操案例1:Claude Code 安装配置 + DeepSeek 模型接入
安装Claude Code CLI,配置 DeepSeek 模型接入,创建 CLAUDE.md 项目说明文件,并测试多模型切换功能双模型环境配置
实操案例2:MCP Server 配置与生物工具接入
安装MCP Server 并完成配置,开发生物数据库专用 MCP Server,测试工具调用功bio_database.py
实操案例3:Skills 系统实战 — 生物分析技能包
使用内置Skills,创建自定义 RNA-seq 与蛋白质分析 Skill,并进行测试
实操案例4:OpenAI Codex 快速上手
安装OpenAI Codex CLI,配置 AGENTS.md 文件,执行测试任务,并配置 DeepSeek 作为后端模Codex 环境配置
实操案例5:AI 编程智能体最佳实践总结
高效Prompt 技巧、项目上下文管理、安全与质量、常见陷阱best_practices.md
第二天下午:Function Calling 与生物工具集成
理论
一、Function Calling 原理深度解析
工作流程、工具定义规范(JSON Schema)、单工具/多工具调用、错误处理与
二、生物信息学工具生态
生物数据库API(NCBI/UniProt/PDB/ChEMBL/KEGG)、Python 库(Biopython/RDKit/Scanpy)、工具封装模式
三、工具编排与安全边界
权限控制、成本与延迟优化、多工具协同执行策略
实操
实操案例1:基因查询智能助手
定义基因查询、序列获取、BLAST 比对 3 个工具,通过 Function Calling 实现工具路由,完成多轮对话交互
实操案例2:药物分子性质预测工具链
集成RDKit 与 ChEMBL 数据库,完成 SMILES 解析、分子描述符计算与药效团分析,实现多工具并行调用
实操案例3:多工具协同分析平台
输入疾病名称,依次查询疾病与基因的关联关系、进行通路分析、检索候选药物,最终生成全链路分析报
第三天上午:RAG 原理与生物文献知识库
理论
一、RAG(检索增强生成)原理
详解RAG 架构中从 Query 到检索、注入、生成的完整流程,讲解 Chunking、Embedding、向量数据库与检索策略,并介绍评估指标。
二、生物文献RAG 的特殊挑战
术语消歧、图表处理、长文档切分、基因名称实体识别、跨物种知识区
三、高级RAG 技术
Query 改写(Multi-Query/HyDE)、Re-ranking、Self-RAG、Graph RAG
实操
实操案例1:生物文献知识库搭建
从PubMed 批量下载文献,进行语义切分,使用医学 Embedding 模型生成向量,构建 ChromaDB 向量索引。
实操案例2:精准文献问答系统
构建RAG 查询管线,实现引用标注(标注 PMID 来源),支持多轮对话并完成历史注入与上下文压缩。
实操案例3:RAG 质量评估与优化
构建评估数据集,进行自动化评估,对比不同Chunk 大小、Embedding 模型与 Top-K 参数的效果RAG 评估报告
第三天下午:智能体框架入门—— LangChain 核心实战
理论
一、AI 智能体架构深度解析
Agent = LLM + Planning + Memory + Tools + Reflection;Agent 类型分类;Agent vs. Pipeline—
二、LangChain 框架核心概念
架构概览(langchain-core/community/langgraph)、核心组件、LangGraph 状态图
三、从零设计一个生物科研Agent
从需求分析出发,完成工具设计、状态定义与图构建,讲解Agent 设计原则
实操
实操案例1:生物序列分析 Agent
使用LangGraph 构建状态图,集成 Biopython 工具,实现“分析、反思、重做”的自循环逻辑
实操案例2:文献综述生成 Agent
从PubMed 检索文献并获取全文,采用 Plan-and-Execute 策略,输出结构化文献综述
实操案例3:实验数据处理 Agent
使用ΔΔCt 法处理 qPCR 数据,由 Agent 自动识别数据格式,完成统计检验并生成标准化图表
第四天上午:生物数据分析智能体实战
理论
一、生物信息学数据分析范式
RNA-seq、蛋白质组学、单细胞 RNA-seq、GWAS 流程;Agent 如何融入传统生信流程
二、Agent 在数据分析中的角色
数据质控智能体、分析策略智能体、结果解读智能体、可视化智能体
三、Agent 记忆与上下文管理
短期记忆、长期记忆、工作记忆;生物数据上下文的特殊考虑
实操
实操案例1:RNA-seq 差异表达分析智能体
构建多步骤Agent 状态图,集成 scanpy、pydeseq2、gseapy 等工具,实现自动质控并生成火山图、热图与通路
实操案例2:蛋白质结构分析 Agent
通过PDB API 获取蛋白质数据,进行结构可视化、结构域分析、功能预测,再由 LLM 进行解读并生成分析报告。
实操案例3:单细胞数据分析引导 Agent
构建对话式Agent,引导完成 Scanpy 标准分析流程,实现基于 LLM 与标记基因的细胞类型自动注释
第四天下午:LangGraph 深度实战与生物数据分析
理论
一、LangGraph 高级状态管理
复杂状态定义(TypedDict/Pydantic)、状态聚合与分支、子图(Subgraph)嵌套、状态持久化与断点续传
二、LangGraph 高级控制流
条件路由(conditional_edges)、循环与递归模式、Human-in-the-loop 集成、并行节点执
三、LangGraph 生物数据分析架构设计
多步骤分析流水线设计、工具集成模式、错误处理与重试机制、结果可视化集成
实操
实操案例1:多组学数据整合分析 Agent
使用LangGraph 构建多组学数据整合分析流水线,集成转录组与蛋白质组数据,通过条件路由选择分析策略,输出综合分析报告
实操案例2:实验方案优化循环 Agent
构建LangGraph 自循环优化 Agent,集成文献检索与实验参数推荐,实现“设计、评估、改进”迭代优化,引入 Human-in-the-loop 审核
实操案例3:生物信息分析工作流编排系统
使用LangGraph 子图构建模块化分析工作流,支持 RNA-seq/蛋白质组学/ChIP-seq 多流程切换,实现断点续传与结果缓存
第五天上午:多智能体系统与AutoGen 框架
理论
一、多智能体系统架构
协作模式:层级式/对等式/流水线式/辩论式;生物科研中的多智能体场景
二、AutoGen 框架核心
AssistantAgent/UserProxyAgent/GroupChat 架构;AutoGen vs. LangChain 对比
三、多智能体系统设计原则
Agent 职责划分、通信协议、冲突解决、成本控制
实操
实操案例1:药物发现多智能体讨论系统
设定药物化学家、药理学家、临床医生3 个角色,开展多轮讨论与观点碰撞,最终输出综合评估报告
实操案例2:多 Agent 文献协作阅读系统
设定检索员、阅读者A、阅读者B、综述员 4 个角色,以 Pipeline 模式协作完成文献阅读,并对比多 Agent 与单 Agent 的输出质量
实操案例3:实验设计评审委员会
模拟IACUC/IRB 评审流程,由伦理专家、统计专家、领域专家独立评分,主席汇总各方意见后给出最终评审结论
第五条下午:综合实战、前沿展望与课程总结
理论
一、AI 智能体前沿趋势
AlphaFold 3 + Agent、scGPT/Geneformer 基础模型、AI 药物发现、Self-Driving Labs、多模态智能体、安全与伦理
二、课程核心知识点回顾
LLM 四大范式总结(Prompt/结构化输出/Function Calling/RAG)、智能体框架总结、多智能体挑战总结
实操
Step 1:需求分析与架构设计
明确要解决的具体科研问题,设计Agent 架构,确定所需的工具组合
Step 2:编码实现
推荐方案A(Claude Code + LangGraph)/ B(AutoGen + Codex)/ C(Claude Code + MCP)
培训目标:
本培训面向生物领域科研人员,旨在通过5天系统化学习,使学员系统掌握 AI 智能体的核心技术与实战能力。在知识层面,帮助学员理解大语言模型的工作原理与能力边界,建立 Prompt 工程、结构化输出、Function Calling、RAG 四大应用范式的系统认知,理解智能体架构及多智能体协作模式。在技术层面,使学员熟练使用 Claude Code、Codex 等 AI 编程智能体工具,掌握 MCP 服务器搭建与 Skills 技能系统配置,能够基于 LangChain/LangGraph 框架构建具有状态管理、条件路由、人机协同等高级控制流的生物数据分析智能体,能够搭建生物文献 RAG 知识库实现精准问答与引用溯源,掌握 AutoGen 多智能体框架以设计多角色协作系统。在实战层面,使学员能够独立完成 RNA-seq 差异分析、蛋白质结构分析、单细胞数据注释等生物数据分析智能体的开发,能够将 GenBank、UniProt、临床报告等多源非结构化数据转化为结构化数据并构建 ETL 流水线,能够集成物数据库 API 构建多工具协同分析平台。在综合素养层面,帮助学员了解AI 生物科研前沿趋势,掌握智能体系统的可靠性设计方法,最终具备独立设计并实现个人定制化生物科研智能体项目的完整能力。
讲师介绍
AI蛋白质设计(最新前沿)
主讲老师在学术界和工业界都有丰富算法开发和应用经验,来自国内超顶尖课题组,主要从事蛋白质结构预测和蛋白质设计的研究工作,相关工作成果已在PNAS、Angew. Chem. Int. Ed.、Nature、Science等国际知名期刊发表,课题组已发表文献300余篇。
AI多肽设计
主讲老师在学术界和工业界都有丰富算法开发和应用经验,毕业于南开大学院士课题组,从事AI多肽设计、抗菌肽设计以及蛋白质设计的研究工作,相关工作成果已在New England、Plos one等国际知名期刊发
AI辅助抗体设计
主讲老师在学术界和工业界都有丰富算法开发和应用经验,博士毕业于国内顶尖课题组,从事蛋白质结构预测和蛋白质设计的研究工作,相关工作成果已在Cell Systems、Angew. Chem. Int. Ed.、JCIM等国际知名期刊发表论文。目前在知名药企担任高级研究员,主导AI驱动的大分子药物设计平台开发与团队管理。
AI基因编辑
主讲老师在学术界具有多年的研究经历和应用经验,来自于国内顶尖课题组,从事基因组编辑技术与人工智能交叉融合的研究工作,相关工作成果已在Nature Biotechnology、Nature Plants、Trends in Biotechnology等国际知名期刊发表
AI构建虚拟细胞
主讲老师来自浙江大学,主要研发方向为组学算法开发与虚拟细胞建模,以第一作者(含共同)发表高水平期刊会议论文数篇,包括Nature Communications,ISBI等,承担各层次研发课题3项,领导共创开源社区搭建,github star数百,具有丰富的科技成果转化落地经验,讲课一致受到学员高度评价。
人工智能驱动计算免疫学
主讲老师毕业于清华大学,致力于AI for Science(AI4S)领域的前沿研究,深耕生物信息学与计算免疫学。在腾讯AI Lab等头部大厂拥有丰富的算法落地经验。研究成果丰硕,多篇论文发表于ICLR、KDD、AAAI、BIBM等人工智能国际顶级会议,以及《Nature Communications》、《Analytical Chemistry》、《Expert Systems with Applications》等领域内顶级学术期刊。
AI智能体全流程自动化实战
讲师介绍:AI应用算法工程师,长期专注于大模型应用部署、Agent系统搭建、企业知识库接入、多平台协同与自动化流程设计,拥有丰富的一线项目实施与交付经验。曾参与多类智能助手、业务自动化平台与科研辅助系统的方案设计与落地,擅长将大模型能力与真实业务流程结合,快速构建可运行、可扩展、可维护的Agent应用。
授课时间
01
AI蛋白质设计设计授课时间
2026.7.25-2026.7.26(09:00-11:30--13:30-17:00)
2026.7.28-2026.7.29(19:00-22:00)
2026.6.8.01-2026.8.02(09:00-11:30--13:30-17:00)
2026.8.05-2026.8.06(19:00-22:00)
共计6天的课 通过腾讯会议直播 线上实操 提供全部录播
02
AI+多肽设计授课时间
2026.7.04-2026.7.05(09:00-11:30--13:30-17:00)
2026.7.7-2026.7.8(19:00-22:00)
2026.7.11-2026.7.12(09:00-11:30--13:30-17:00)
共计5天的课 通过腾讯会议直播 线上实操 提供全部录播
03
AI抗体设计授课时间
2026.7.04-2026.7.05(09:00-11:30--13:30-17:00)
2026.7.7-2026.7.8(19:00-22:00)
2026.7.11-2026.7.12(09:00-11:30--13:30-17:00)
共计5天的课 通过腾讯会议直播 线上实操 提供全部录播
04
AI+基因编辑授课时间
2026.7.09-2026.7.10(09:00-11:30--13:30-17:00)
2026.7.13-2026.7.14(19:00-22:00)
2026.7.18-2026.7.19(09:00-11:30--13:30-17:00)
共计5天的课 通过腾讯会议直播 线上实操 提供全部录播
05
AI构建虚拟细胞授课时间
2026.7.09-2026.7.10(09:00-11:30--13:30-17:00)
2026.7.13-2026.7.16(19:00-22:00)
2026.7.18-2026.7.19(09:00-11:30--13:30-17:00)
共计5天的课 通过腾讯会议直播 线上实操 提供全部录播
06
人工智能驱动的计算免疫学授课时间
2026.7.25-2026.7.26(09:00-11:30--13:30-17:00)
2026.7.28-2026.7.29(19:00-22:00)
2026.6.8.01-2026.8.02(09:00-11:30--13:30-17:00)
2026.8.05-2026.8.06(19:00-22:00)
共计6天的课 通过腾讯会议直播 线上实操 提供全部录播
07
AI智能体驱动生物医学授课时间
2026.7.18-2026.7.19(09:00-11:30--13:30-17:00)
2026.7.22-2026.7.23(19:30-22:30)
2026.7.25-2026.7.26(09:00-11:30--13:30-17:00)
共计5天的课 通过腾讯会议直播 线上实操 提供全部录播
课程报名费用:
AI多肽设计实战应用、AI蛋白质设计最新最前沿实战应用、AI基因编辑实战应用、AI抗体设计实战应用、AI构建虚拟细胞实战应用、人工智能驱动的计算免疫学应用实战、:
公费价:每人每班¥6880元 (含报名费、培训费、资料费、提供课后全程回放资料)
自费价:每人每班¥6580元 (含报名费、培训费、资料费、提供课后全程回放资料)
AI智能体驱动生物医学
公费价:每人每班¥5000元 (含报名费、培训费、资料费、提供课后全程回放资料)
自费价:每人每班¥4500元 (含报名费、培训费、资料费、提供课后全程回放资料)
重磅优惠:
报二送一(同时报名两个班免费赠送一个学习名额赠送班任选)
优惠1:
两班同报:10880元 (可学习三个直播课)
三班同报:14880元
四班同报:18880元
特惠一:24880元 (可免费学习一整年本单位举办的任意课程)
特惠二:28880元(可免费学习两整年本单位举办的任意课程)
优惠2:提前报名缴费可享受300元优惠(仅限十五名)
报名学习课程可赠送往期课程回放(报多少赠双倍)
(可点击跳转详情链接):
回放一:本课程为视频课!机器学习生物医学培训!
回放二:本课程为视频课!单细胞空间转录组培训!
回放三:本课程为视频课!比较基因组学培训!
回放四:本课程为视频课!机器学习蛋白质组学培训
回放五:本课程为视频课!机器学习微生物组学培训
回放六:本课程为视频课!蛋白质晶体结构解析培训
回放七:本课程为视频课!CRISPR-Cas9基因编辑培训
回放八:本课程为视频课!机器学习代谢组学培训!
回放九:本课程为视频课!深度学习基因组学培训!
回放十:本课程为视频课!CADD计算机辅助药物设计培训!
回放十一:本课程为视频课!AIDD人工智能药物设计培训!
培训特色及福利
1、课程特色--全面的课程技术应用、原理流程、实例联系全贯穿
2、学习模式--理论知识与上机操作相结合,让零基础学员快速熟练掌握
3、课程服务答疑--主讲老师将为您实际工作中遇到的问题提供专业解答
授课方式:通过腾讯会议线上直播,理论+实操的授课模式,老师手把手带着操作,从零基础开始讲解,电子PPT和教程开课前一周提前发送给学员,所有培训使用软件都会发送给学员,有什么疑问采取开麦共享屏幕和微信群解疑,学员和老师交流、学员与学员交流,培训完毕后老师长期解疑,培训群不解散,往期培训学员对于培训质量和授课方式一致评价极高!
学员对于培训给予高度评价
腾讯会议实时直播解答|手把手带着操作
报名咨询方式(请二维码扫描下方微信)
电子邮箱:m15238680799@163.com
电话:15238680799
引用本次参会学员的一句话:
发现真的是脚踏实地的同时 需要偶尔仰望星空非常感谢各位对我们培训的认可!祝愿各位心想事成