2025年,美国华盛顿大学生物化学系David Baker团队在《Nature Methods》(IF=36.1)上发表题为“Atomic context-conditioned protein sequence design using LigandMPNN”的研究论文,提出一种基于深度学习的能够显式模拟非蛋白质组分的蛋白质序列设计方法—LigandMPNN。该方法在恢复与小分子、核苷酸和金属相互作用的天然氨基酸序列方面显著优于现有的Rosetta和ProteinMPNN方法。该方法提高蛋白质与非蛋白质分子相互作用的设计能力,从而为酶、传感器和结合蛋白的设计提供更高效、更准确的工具。
AI赋能酶设计新突破:深度学习精准构建丝氨酸水解酶,催化效率提升10万倍
酶是自然界中最强大的催化剂,它们能在温和的水溶液条件下显著加速化学反应。从工业化学品合成到塑料回收,从医药研发到环境修复,如果能够设计出催化任意化学反应的新型酶,将为众多领域带来革命性变革。然而,从零开始设计多步反应机制的复杂酶一直是计算蛋白质设计领域的重大挑战。
近日,华盛顿大学蛋白质设计研究所David Baker团队发表于《Science》的研究论文"Computational design of serine hydrolases"展示了酶设计领域的重大突破。研究团队结合RFdiffusion的生成能力和PLACER的预组织评估方法,从最小活性位点描述出发,设计出了具有催化效率高的丝氨酸水解酶,实现了与天然酶相媲美的催化能力。更令人惊叹的是,这些设计的酶在折叠结构上与天然丝氨酸水解酶完全不同,开创了这一古老酶家族的全新结构空间。
作为2025年最值得期待的技术!AI蛋白质设计资料与学习途径少之又少,特培训学习迫在眉睫!联合清华大学、北京大学、西湖大学、浙江大学、中国科技技术大学、天津大学、协和药物研究所、上海药物研究所已经举办培训六十七期,参会学员达7000余人!学员好评极高!其中不乏有发表Nature、Cell、Science等国际顶刊!
以下为各大热门专题介绍
01、深度学习在基因组学中的应用
02、机器学习在代谢组学中的应用
03、机器学习在微生物组学中的应用
04、CRISPR-Cas9基因编辑技术
05、AI蛋白质设计
06、CADD计算机辅助药物设计
07、AIDD人工智能药物发现与设计
08、CADD(进阶版)
09、合成生物与基因电路设计
特惠福利:报一送一可额外送的回放课件资料ppt
01.单细胞测序与空间转录组学
02.深度学习解析宏基因组学
03.蛋白晶体结构解析
04.深度学习质谱蛋白组学
05.机器学习生物医学
01
深度学习在基因组学中的应用
第一天
理论部分
深度学习算法介绍
1.有监督学习的神经网络算法
1.1 全连接深度神经网络 DNN 在基因组学中的应用举例
1.2 卷积神经网络 CNN 在基因组学中的应用举例
1.3 循环神经网络 RNN 在基因组学中的应用举例
1.4 图卷积神经网络 GCN 在基因组学中的应用举例
2.无监督的神经网络算法
2.1 自动编码器 AE 在基因组学中的应用举例
2.2 生成对抗网络 GAN 在基因组学中的应用举例
基因组常用深度学习框架
1. 介绍深度学习工具包 tensorflow, keras,pytorch
2. 在工具包中识别深度学习模型要素
2.1.数据表示
2.2.张量运算
2.3.神经网络中的“层”
2.4.由层构成的模型
2.5.损失函数与优化器
2.6.数据集分割
2.7.过拟合与欠拟合
基因组学基础
1. 基因组数据库
2. 表观基因组
3. 转录基因组
4. 蛋白质组
5. 功能基因组
实操内容
1.Linux 操作系统
1.1 常用的 Linux 命令
1.2 Vim 编辑器
1.3 基因组数据文件管理, 修改文件权限
1.4 查看探索基因组区域
2.Python 语言基础
2.1.Python 包安装和环境搭建
2.2.常见的数据结构和数据类型
3. 安装深度学习工具包 tensorflow, keras,pytorch,在工具包中识别深度学
习模型要素
第二天
理论部分
1. 介绍 keras_dna 平台,搭建基因组学常用深度学习应用案例2. 深度学习模型 DeepG4 从 Chip-Seq 及 DnaseSeq 中识别基序特征 G4
实操内容
1.基因组数据处理搭建深度学习模型
1.1 安装并使用 keras_dna 处理各种基因序列数据如 BED、 GFF、GTF、BIGWIG、
BEDGRAPH、WIG 等
1.2 使用 keras_dna 设计深度学习模型
1.3 使用 keras_dna 分割训练集、测试集
1.4 使用 keras_dna 选取特定染色体的基因序列等
2.使用 keras_dna 平台复现 DeepG4 模型,从 Chip-Seq 中识别 G4 特征
第三天
理论部分
深度学习在基因调控预测中的应用
1. selene_sdk 预测 DNA 甲基化及转录调控因子等 DeepSEA
2. 循环神经网络 RNN 从 RNA 序列中预测 pre-miRNA,dnnMiRPre
实操内容
复现卷积神经网络 CNN 识别基序特征 DeepG4、基因调控因子 DeepSEA,
1. 安装 selene_sdk,复现 DeepSEA 预测 DNA 甲基化,非编码基因变异等基因调
控因子
2. 复现循环神经网络 RNN 工具 dnnMiRPre,从 RNA-Seq 中预测 pre-miRNA
第四天
理论部分
深度学习在预测疾病表型及生物标志物上的应用
1. 从高维基因表达数据中识别乳腺癌分型的自动编码机深度学习工具
DeepType
2. 深度学习在识别拷贝数变异 DeepCNV 模型
实操内容
1. 复现 DeepType,从 METABRIC 乳腺癌数据中区分乳腺癌亚型
2. 解析 DeepType 中新的乳腺癌亚型的标志基因
3. 复现 DeepCNV 利用 SNP 微阵列联合图像分析识别拷贝数变异
第五天
理论部分
深度学习在预测药物反应机制上的应用
1. 联合肿瘤基因标记及药物分子结构预测药物反应机制的深度学习工具 SWnet
实操内容
1. 预处理药物分子结构信息
2. 计算药物相似性
3. 在不同数据集上构建 self-attention SWnet
4. 评估 self-attention SWnet
5. 构建多任务的 SWnet
6. 构建单层 SWnet
7. 构建带权值层的 SWnet
学习目标:课程深入学习与了解深度学习基本框架与逻辑,同时掌握基本的生物信息学软件(Linux、R、python等)的使用,让学员能更好的应对基因组数据,挖掘出超越已有知识的新知识。而构建好的深度学习模型去探求新的研究思路和寻找新的潜在生物学机制,更好的服务于自身的科学研究和探索的过程中。
上下滑动查看更多
02
机器学习代谢组学
第一天
A1 代谢物及代谢组学的发展与应用
(1) 代谢与生理过程;
(2) 代谢与疾病;
(3) 非靶向与靶向代谢组学;
(4) 空间代谢组学与质谱成像(MSI);
(5) 代谢组学与药物和生物标志物;
(6) 代谢流与机制研究。A2 代谢通路及代谢数据库
(1) 几种经典代谢通路简介;
(2) 三大常见代谢物库:HMDB 、METLIN 和 KEGG;
(3) 代谢组学原始数据库:Metabolomics Workbench 和 Metabolights. A3 参考资料推荐
A4 代谢组学实验流程简介
A5 色谱 、质谱硬件与原理解析
(1) 色谱分析原理与构造;
(2) 色谱仪和色谱柱的选择;
(3) 色谱的流动相:梯度洗脱法;
(4) 离子源、质量分析器与质量检测器解析;
(5) 质谱分析原理及动画演示;
(6) 色谱质谱联用技术(LC-MS);
第二天
B1 代谢物样本处理与抽提
(1) 各种组织、血液和体液等样本的提取流程与注意事项;
(2) 代谢物抽提流程与注意事项;
(3) 样本及代谢物的运输与保存问题;
B2 LC-MS 数据质控与搜库
(1) LC-MS 实验过程中 QC 和 Blank 样本的设置方法;
(2) LC-MS 上机过程的数据质控监测和分析;
(3) 代谢组学上游分析原理——基于 Compound Discoverer 与 Xcms 软件;
(4) Xcms 软件数据转换、提峰、峰对齐与搜库;
B3 R 软件基础
(1) R 和 Rstudio 的安装;
(2) Rstudio 的界面配置;
(3) R 中的基础运算和统计计算;
(4) R 中的包:包,函数与参数的使用;
(5) R 语言语法,数据类型与数据结构;
(6) R 基础画图;
B4 ggplot2
(1) ggplot2 简介
(2) ggplot2 的画图哲学;
(3) ggplot2 的配色系统;
(4) ggplot2 数据挖掘与作图实战;
第三天
机器学习
C1 有监督式机器学习在代谢组学数据处理中的应用
(1) 人工智能、机器学习、深度学习的关系;
(2) 回归算法:从线性回归、Logistic 回归与 Cox 回归讲起;
(3) PLS-DA 算法:PCA 降维后没有差异的数据还有救吗?
(4) VIP score 的意义及选择;
(5) 分类算法:决策树,随机森林和贝叶斯网络模型;
C2 一组代谢组学数据的分类算法实现的 R 演练
(1) 数据解读;
(2) 演练与操作;
C3 无监督式机器学习在代谢组学数据处理中的应用
(1) 大数据处理中的降维;
(2) PCA 分析作图;
(3) 三种常见的聚类分析:K-means、层次分析与 SOM
(4) 热图和 hcluster 图的 R 语言实现;
C4 一组代谢组学数据的降维与聚类分析的 R 演练
(1) 数据解析;
(2) 演练与操作;
第四天
D1 在线代谢组分析网页 Metaboanalyst 操作
(1) 用 R 将数据清洗成网页需要的格式;
(2) 独立组、配对组和多组的数据格式问题;
(3) Metaboanalyst 中的上游分析(原始数据峰提取、峰对齐与搜库)
(4) Metaboanalyst 的 pipeline 以及参数设置和注意事项;
(5) Metaboanalyst 的结果查看和导出;
(6) Metaboanalyst 的数据编辑;
(7) 全流程演练与操作。
D2 代谢组学数据清洗与 R 语言进阶
(1) 代谢组学中的 t、fold-change 和响应值;
(2) 数据清洗流程;
(3) R 语言 tidyverse;
(4) 数据预处理:数据过滤与数据标准化(样本的 Normalization 和代谢物的 Scaling);
(5) 代谢组学数据清洗演练;
第五天
E1 文献数据分析部分复现(1 篇)
(1) 文献深度解读;
(2) 实操:从原始数据下载到图片复现;
(3) 学员实操。
E2 机器学习与代谢组学顶刊解读(3 篇);
(1) Signal Transduction and Targeted Therapy 一篇有关饥饿对不同脑区代谢组学影响变
化的小鼠脑组织代谢图谱类的文献;(数据库型)
(2) Cell 一篇代谢组学孕妇全程血液代谢组学分析得出对孕周和孕产期预测的代谢标志物
的文献;(生物标志物型)
(3) Nature 一篇对胰腺癌患者肠道菌群的代谢组学分析找到可以提高化疗效果的代谢物的
文献。(机制研究型)
学习目标:熟悉代谢组学和机器学习相关硬件和软件;熟悉代谢组学从样本处理到数据分析的全流程;能复现至少1篇CNS或子刊级别的代谢组学文章图片。
上下滑动查看更多
03
机器学习微生物组学
第一天
1. 微生物学基础知识回顾
2. 机器学习基本概念介绍
a. 什么是机器学习
b. 监督学习、无监督学习
c. 常用机器学习模型介绍
3. 混淆矩阵
4. ROC 曲线
第二天
R 语言简介与实操
1. R 语言概述
2. R studio 软件与 R 包安装
3. R 语言语法及数据类型
4. 条件语句和循环
Linux 实操
1. Linux 操作系统
2. Linux 操作系统的安装与设置
3. 网络配置与服务进程管理
4. Linux 的远程登录管理
5. 常用的 Linux 命令
6. 在 Linux 下获取基因数据
7. Shell script 与 Vim 编辑器
第三天
微生物组常用分析方法(实操)
1. 微生物丰度分析
2. 转录组丰度分析
3. 进化树分析
4. 降维分析
第四天
机器学习在微生物组学中的应用案例分享
1. 疾病预测应用:利用机器学习基于微生物组学数据预测疾病状态
2. 肠道菌群研究:机器学习研究饮食对肠道微生物的影响
第五天
机器学习模型训练和分析(实操)
1. 加载数据及数据归一化
2. 构建训练模型(GLM, RF, SVM)
3. 模型参数优化
4. 模型错误率曲线绘制
5. 混淆矩阵计算
6. 重要特征筛选
7. 模型验证,ROC 曲线绘制利用模型进行预测
利用机器学习基于微生物组学数据预测宿主表型
1. 加载数据
2. 数据归一化
3. OUT 特征处理
4. 机器学习模型构建(RF, KNN, SVM, Lasso 等多种机器学习方法)
5. 绘制 ROC 曲线,比较不同机器学习模型模型性能评估
利用机器学习基于临床特征和肠道菌群预测疾病风险
1. 加载数据
2. 机器学习模型构建(RF, gbm, SVM 等等)
3. 交叉验证
4. 模型性能评估
学习目标:课程将涵盖机器学习技术在微生物数据分析中的应用,包括基因组序列分析、基因调控网络构建和多组学数据整合等,并带领学员们深度使用R语言,Python语言实地操作演示。
上下滑动查看更多
04
CRISPR-Cas9基因编辑技术
第一天
绪论
1.课程简介与学习目标
2.基因编辑技术概述
2.1 基因编辑的定义、核心原理与技术分类
2.2 基因编辑与合成生物学的交叉
3.技术应用领域全景图
3.1基础研究
3.2农业育种
3.3疾病治疗
3.4生物制造
4.伦理与安全问题初探
4.1 脱靶效应与基因驱动
4.2 人类胚胎编辑的伦理边界
第二天
基因编辑技术发展简史
1.1 ZFN
1.2 TALENs
1.3 局限性CRISPR技术的革命性突破
2.1 原核生物免疫机制的发现历程
2.2 Cas9系统在真核细胞的应用验证
2.3里程碑事件与诺贝尔奖解读
2.4中国科学家在基因编辑领域的突出贡献
第三天
CRISPR常用工具与实操
CRISPR-Cas系统
1.1 CRISPR系统的起源与机制
1.2 主要工具酶的特征与选择(实操)
1.3 sgRNA的设计与优化(实操)
1.4 CRISPR 筛选(CRISPR Screnning)
1.5 CRISPR-Cas系统在模式生物中的应用
1.6 CRISPR-Cas系统与CAR-T细胞治疗
碱基编辑器(Base Editing)
2.1 腺嘌呤碱基编辑器(ABE)
2.2 脱氨酶的活性优化及对脱靶效应的控制
2.3 胞嘧啶碱基编辑器(CBE)
2.4 C-to-T编辑的特异性与效率平衡
2.5 利用碱基编辑器构建动物模型
2.6 单核苷酸突变矫正
先导编辑(Prime Editing)
3.1 逆转录酶的特点与选择
3.2 pegRNA的设计与优化(实操)
3.3 双pegRNA编辑系统
3.4 PM359治疗慢性肉芽肿病
CRISPR激活与抑制系统(CRISPRa/i)
4.1 dCas9
4.2 dCas9与转录激活因子、转录抑制因子的融合
4.3 CRISPRa在干细胞重编程中的应用
4.4 CRISPRa/i研究癌症相关基因的功能网络
其他基因编辑工具
5.1 大片段DNA精准操纵工具
5.2 Cre-loxP系统在模式动物中的应用
第四天
递送系统
CRISPR递送系统概述
1.1 CRISPR技术的基本原理和发展历程
1.2 CRISPR递送系统的重要性和挑战
病毒载体递送系统
2.1 病毒载体的类型和特点(如腺相关病毒AAV)
2.3病毒载体的构建和优化
2.3 病毒载体在CRISPR递送中的应用和案例分析
非病毒递送系统
3.1 纳米颗粒(如脂质纳米颗粒LNP)的设计与应用
3.2 电穿孔技术的原理和应用
3.3 非病毒递送系统的优缺点分析
植物病毒递送系统
4.1 植物-弹状病毒在CRISPR递送中的应用
4.2 植物病毒递送系统的优化和挑战
第五天
CRISPR应用
CRISPR在基础研究中的应用
1.1 CRISPR在基因功能研究中的应用
1.2 CRISPR在疾病模型创建中的应用
1.3 CRISPR在基因调控研究中的应用
CRISPR在遗传病治疗中的应用
2.1 遗传病数据库的建立和应用
2.2 CRISPR治疗遗传病的案例分析
2.3FDA批准的CRISPR疗法介绍(镰状细胞贫血、杜氏肌肉营养不良、癌症的免疫疗法)
小结与展望
基本内容小结+当前技术瓶颈分析
1.1 递送效率与组织靶向性难题
1.2复杂性状的多基因协同编辑
新兴技术发展方向
2.1 DNA 聚合酶编辑器
2.2 CRISPR 引导的重组酶和转座子
2.3 表观基因组编辑
2.4 RNA编辑
2.5 AI与基因编辑
新型CRISPR工具
临床转化路线图
3.1 体内编辑与体外编辑的产业化路径
3.2 基因编辑疗法监管体系的国际比较
基因编辑的道德考量和安全性
学习目标:课程从全局出发,由浅入深,课程通过基础入门+应用案例实操演练的方式,从最初的原理讲解到最后的应用实战,学完本课程你将掌握基因编辑技术的相关原理及其应用,此外可以学到基因编辑系统的优化策略,可以学到如何操作常用的生物学软件。能够快速运用到自己的科研项目和课题上。
上下滑动查看更多
05
AI蛋白质设计
第一天
模块一:基础理论与设计思想
学习目标: 理解现代蛋白质设计的理论基石,建立从“功能”到“结构”再到“序列”的正确设计观。
蛋白质折叠问题与经典设计:
。回顾“CASP历史”以及蛋白质折叠问题的复杂性 。
。介绍David Baker实验室与IPD的设计哲学:以最终功能为导向,设计自然界不存在的全新蛋白质结构。
。讲解Rosetta软件的核心思想,理解其作为蛋白质设计基石的历史地位与方法论
模块二:核心AI模型原理与代码实现
学习目标:从原理和代码层面,彻底理解驱动现代蛋白质预测与设计的两大核心神经网络架构。
·基础工具与环境:
o掌握Numpy进行多维数组(Tensor)操作 。
o学习PyTorch的核心概念:张量、自动求导机制
o讲解服务器GPU与CUDA的基本工作原理,为后续的本地化部署打下基础。
·关键模型架构拆解:
oTransformer与Attention机制:深入讲解Transformer模型如何通过自注意力机制捕捉序列中的长距离依赖关系,并分析其如何被AlphaFold 2用于整合多序列比对(MSA)信息和空间几何信息,构成Evoformer模块的核心 。
o扩散模型 (Diffusion Model):详细阐述扩散模型的前向加噪(Forward Process)与反向去噪(Reverse Process)的数学原理 。重点讲解该模型如何被应用于RFdiffusion,实现从高斯噪声中逐步生成结构合理的蛋白质骨架
代码实践:所有模型原理都将配合Jupyter Notebook进行代码实操,确保学员不仅理解理论,更能动手实现。
第二天
模块三:前沿设计工具链:原理、部署与应用
学习目标:掌握当前最高效的蛋白质设计“三要素”工具链,并完成本地化部署,具备独立开展计算设计的能力。
A. 结构生成 (RFdiffusion):
功能详解:学习RFdiffusion如何从随机噪声中生成全新的蛋白质骨架 。
实操技术:重点讲解几种核心设计模式的应用场景与参数设置:
无条件生成 (Unconditional generation):用于创造全新的拓扑结构。
基于骨架的生成 (Scaffolding):在已有的结构骨架上进行延申或构建。
功能位点限定生成 (Inpainting):在固定关键功能位点(如活性中心、结合界面)的前提下,生成包裹该位点的全新结构。
B. 序列设计 (ProteinMPNN):
o核心问题:讲解“蛋白质反向折叠 (Inverse Folding)”问题的挑战性,即如何为给定的骨架设计出能正确折叠的氨基酸序列 。
o协同工作流:演示如何将RFdiffusion生成的骨架(Backbone)作为输入,利用ProteinMPNN设计出高稳定性的氨基酸序列,形成完整的“结构-序列”设计流程 。
C. 结构验证与功能拓展 (AlphaFold 3):
o精度验证:学习使用AlphaFold 2/3验证由ProteinMPNN设计的序列,能否高精度地折叠回RFdiffusion所设计的初始结构 。重点讲解pLDDT和PAE图的解读,用于评估预测结果的置信度 。
o功能预测:介绍AlphaFold 3的核心突破——其预测能力已从单一蛋白质扩展到蛋白质、DNA、RNA、配体等多种分子的复合物 。探讨如何利用这一特性,初步评估设计的蛋白质与靶点分子的相互作用,为药物设计提供关键信息。
第三天
模块四:应用方向专题实战
学习目标:将前面学习的工具链应用到三个主流的生物医药研发场景中,解决具体问题。
总学习目标:通过三个独立的、项目驱动的专题,让学员完整地、端到端地执行计算蛋白质设计的流程。在课程结束时,学员不仅掌握了工具的使用,更能理解在不同应用场景下(酶、抗体、从头设计)的设计策略、关键考量和技术组合。
专题一:从头设计功能性Binder
技术流程:一个完整的综合性项目。学员将选择一个具体靶点,独立运用“RFdiffusion → ProteinMPNN → AlphaFold”的全套技术流程,从零开始设计一个能够特异性结合该靶点的全新小分子蛋白(Binder),完成一个标准化的de novo设计流程。
项目目标:执行一个完整的、工业界标准的de novo设计流程,针对一个选定的蛋白靶点,从零开始设计一个能够特异性结合其表面的全新小分子蛋白(Binder)。
核心概念:De novo设计、蛋白质-蛋白质相互作用(PPI)、形状互补性、计算流程的端到端整合。
技术流程详解:
1.靶点分析与结合位点选择:
o选择一个感兴趣的靶点蛋白(如疾病相关蛋白)。
o分析其表面性质,选择一个适合作为结合靶点的区域(通常是相对平坦、具有一定疏水性的表面)。
2.基于靶点的骨架生成 (RFdiffusion):
o此为设计的核心创造步骤。学员将学习使用RFdiffusion的功能位点限定生成 (Inpainting)模式。
o将靶点蛋白的结构作为固定的“环境”,RFdiffusion会在此环境的约束下,从噪声中“生长”出一个与靶点表面形状高度互补的全新蛋白质骨架。
3.序列填充与优化 (ProteinMPNN):
o将上一步生成的最优骨架输入ProteinMPNN。
oProteinMPNN会为这个全新的骨架设计出能够稳定折叠的氨基酸序列,完成从“形状”到“化学本质”的转化 。
4.双重计算验证 (AlphaFold):
o步骤一:单体验证。将ProteinMPNN设计的序列输入AlphaFold,预测其单体结构。验证该序列能否独立折叠成我们设计的形状(高pLDDT得分,且RMSD与设计模型低)。
o步骤二:复合物验证。使用AlphaFold-Multimer 预测设计的Binder和靶点蛋白的复合物。验证Binder能否如预期般结合到靶点的正确位置(低界面PAE得分)。
第四天
专题二:酶的计算改造与性能优化
o技术流程:学习利用同源结构数据库进行搜索,结合计算工具进行定向突变,以优化酶的催化活性、底物特异性或热稳定性。课程将介绍定向进化与适应性景观等核心概念。
项目目标:针对一个给定的酶,通过计算方法,设计出具有更高热稳定性或催化活性的突变体,并提供一套可供实验验证的候选序列。
核心概念:适应性景观 (Fitness Landscape) ,定向进化 ,酶催化与过渡态理论 (Transition State Theory) ,计算诱变 (In-silico Mutagenesis),折叠自由能 (ΔG)。
技术流程详解:
1.模板选择与结构准备:
o从蛋白质结构数据库(PDB)中选取一个具有已知结构和功能的酶作为改造模板。
o若无实验结构,将学习利用UniProt 寻找同源序列,并使用SWISS-MODEL 或本地AlphaFold进行结构预测,获得可靠的起始模型。
o使用PyMOL 或ChimeraX 分析酶的活性位点、底物结合口袋以及潜在的不稳定区域(如高柔性loop)。
2.计算突变扫描与稳定性预测:
o学习使用Rosetta等工具包中的能量函数,对酶的特定区域(或全长)进行计算饱和突变扫描。
o核心技术点是计算每个突变体相对于野生型的折叠自由能变化 (ΔG)。学员将学习如何解读ΔG值,以筛选出能够提升蛋白质热稳定性的有益突变。
3.催化性能的计算评估:
o对于活性位点附近的突变,将引入分子对接(Molecular Docking)方法,模拟底物或过渡态类似物与突变酶的结合情况。
o通过比较结合能、关键相互作用(氢键、盐桥等)的变化,来半定量地预测突变对催化活性(kcat/KM)的潜在影响。
4.候选突变体的筛选与组合:
o基于上述计算结果,学员将学习如何制定筛选策略,例如,优先选择同时提升稳定性且不损害(或提升)活性的突变。
o探讨如何组合多个有益的单点突变,以获得性能提升更显著的多点突变体。
第五天
专题三:抗体药物的计算设计
o技术流程:掌握计算辅助的抗体设计方法,包括靶点抗原的分析、互补决定区(CDR)的设计与优化,以及利用AlphaFold-Multimer等工具预测抗体-抗原复合物结构,评估亲和力与特异性 。
项目目标:掌握计算辅助的抗体亲和力成熟(Affinity Maturation)流程,针对一个已知的抗体-抗原复合物,设计新的互补决定区(CDR)序列,以增强其结合能力。
核心概念:抗体结构域、CDR与框架区(FR)、抗原表位(Epitope)与互补位(Paratope)、抗体人源化、亲和力与特异性。
技术流程详解:
1.抗体-抗原复合物的结构分析:
o从PDB中选取一个抗体-抗原复合物结构作为起始点。
o利用可视化软件,精确识别构成结合界面的CDR loop,特别是贡献最大的CDR-H3。
o详细分析界面上的氢键、疏水作用、盐桥等关键相互作用,理解亲和力的结构基础。
2.CDR区域的序列设计:
o固定抗体的框架区和抗原结构,仅针对CDR区域进行序列设计。
o学员将使用ProteinMPNN等工具,在保持CDR loop骨架构象的同时,重新设计其氨基酸序列,以期发现能与抗原形成更优相互作用的新序列。
3.利用AlphaFold-Multimer进行复合物结构预测与评估:
o将新设计的CDR序列整合回抗体,形成一个完整的突变抗体序列。
o使用AlphaFold-Multimer 预测新设计的抗体与抗原的复合物结构。这是流程中最关键的一步。
o学员将学习如何解读AlphaFold-Multimer的输出结果,特别是利用PAE(Predicted Aligned Error)图来评估界面预测的置信度,判断新设计的抗体是否仍能以正确的模式结合抗原。
4.亲和力排序与候选筛选:
o通过比较不同设计方案的界面结合面积、预测的氢键网络、以及界面PAE得分等指标,对设计的抗体进行排序。
o筛选出1-3个预测结合能力最强、且结构最可靠的候选抗体序列。
上下滑动查看更多
06
CADD计算机辅助药物设计
第一天
启程·洞见药物设计的微观世界 (Vision & Foundation)
上午:理论基石——计算药物设计的思想与方法
模块一:药物发现的源头——为何蛋白质三维结构至关重要?
。经典方法:同源建模(Homology Modeling)的逻辑与应用
。前沿探索:从头建模(de novo Modeling)的挑战与突破
模块二:锁定靶心——蛋白质活性位点的识别与意义
。探索药物与靶点的“钥匙-锁”关系
模块三:分子之舞——优秀药物分子的关键结构特征
。解构小分子药物的构效关系奥秘
模块四:CADD核心武器库概览
。分子对接(Molecular Docking):预测分子间的“亲密接触”
。虚拟筛选(Virtual Screening):在百万分子中“大海捞针”
。分子动力学模拟(Molecular Dynamics):观测分子的动态行为
。其他前沿计算方法简介
下午:实战预备——可视化工具与数据解读
模块五:解锁生命蓝图——蛋白质结构数据库(PDB)深度解析
。高效检索:精准定位你的目标蛋白
。信息解读:全面掌握PDB页面信息与生物学含义
。数据获取:标准数据的下载与管理
。破译密码:PDB文件格式的结构化解读
模块六:PyMOL大师课——从入门到精通的分子可视化
。初识PyMOL:核心功能与界面导览
。基础操作:旋转、缩放、选择与着色
。高级渲染:绘制精美的蛋白/小分子表面图与静电势分布图
。成果展示:精准绘制相互作用图并制作引人注目的科学动画
第二天
构建·从序列到三维结构的创生 (From Sequence to Structure)
上午:同源建模专题——预测未知的蛋白质结构
模块一:同源建模的原理与应用场景
。何时以及为何选择同源建模?
。揭秘同源建模背后的核心算法
模块二:Swiss-Model实战工坊
。第一步:通过BLAST等工具寻找最佳同源模板
。第二步:序列比对的艺术与技巧
。第三步:精准选择决定模型质量的蛋白模板
。第四步:自动化与手动搭建蛋白三维模型
。第五步:模型质量的生命线——拉曼图(Ramachandran Plot)分析与解读
。第六步:模型的迭代优化与精修
。案例演练: 以新冠病毒Spike蛋白序列为例,从零开始构建高质量三维结构模型,并进行全流程质量评估
下午:小分子设计与数据库探索
模块三:ChemDraw化学绘图实战
。从零开始,构建任意复杂的小分子结构
。一键计算:快速获取分子量、clogP等关键理化性质
。挑战练习:灵活构建大环分子、氨基酸、DNA/RNA片段等特殊结构
模块四:探索海量的小分子化合物库
。主流数据库巡礼:DrugBank, ZINC, ChEMBL的特色与高效使用技巧
。特色资源探索:天然产物与中药成分数据库的挖掘与应用
第三天
对接·分子间的识别与结合 (The Docking Dance)
上午:分子对接的理论核心
模块一:解密分子对接的黑箱
。核心原理:计算机如何模拟分子的结合过程?
。对接类型:刚性、半柔性与柔性对接的分类与选择
。评价标准:深入理解不同打分函数(Scoring Function)的物理意义
模块二:常规分子对接流程实战
。配体准备: 药物小分子的能量最小化与构象优化
。受体准备: 蛋白靶点的预处理(加氢、去水、修复残基)
。定义靶点: 受体结合口袋(Grid Box)的精确计算
。执行对接: 运行高效的半柔性对接任务
下午:对接结果的深度分析与验证
模块三:结果评估的多维视角
。黄金标准:与晶体结构(co-crystal structure)构象进行对比验证
。能量视角:从结合能与打分函数值评价结合强度
。聚类分析:洞察配体在口袋中的优势结合模式
。决策时刻:如何科学选择最优的结合构象?
模块四:探索不同的对接策略与软件实现
第四天
进阶·柔性对接与虚拟筛选 (Advanced Docking & Screening)
上午:柔性对接——更真实的分子识别模拟
模块一:柔性对接的核心流程
。配体的精细化准备与构象生成
。受体准备的特殊考量
。关键一步:定义需要柔性处理的氨基酸残基
。重新定义格点:适应受体柔性的计算盒子
。执行计算并进行结果分析与评估
模块二:策略选择——半柔性 vs. 柔性对接
。深入比较两种方法的优缺点与适用场景
模块三:柔性对接的替代实现方案
下午:高通量虚拟筛选——从海量分子中发现先导化合物
模块四:药物发现的加速器
。小分子文件的“语言”:SDF, MOL2等格式的理解
。瑞士军刀OpenBabel:精通小分子格式的批量转化与处理
模块五:基于对接的虚拟筛选实战
。流程构建:设计一套完整、高效的虚拟筛选工作流
。准备阶段:靶点蛋白的选择与百万级化合物库的获取
。执行阶段:自动化运行高通量对接任务
。结果分析:如何从海量结果中筛选出高潜力的“Hits”分子(Hit Identification)
第五天
拓展·探索非经典分子相互作用 (Expanding the Horizon)
上午:特殊分子体系的对接挑战
模块一:小分子-小分子对接
。超越蛋白靶点:探索小分子间的相互作用(例如:药物-糖类)
。独特的结构预处理与对接策略
。案例分析:以糖-小分子对接为例,解读结果并展示
模块二:蛋白-核酸对接
。探索基因调控与药物干预的奥秘
模块三:蛋白-蛋白对接(PPI)
。otackling a new frontier in drug discovery
下午:QM/MM计算——融合量子化学与经典力学
模块四:量子化学(QM)基础入门
。理论核心:薛定谔方程的启示
。方法概览:从半经验、HF到后HF方法
。中流砥柱:密度泛函理论(DFT)简介
模块五:Gaussian计算入门示例
。从分子构建到单点能计算
。结构优化与振动分析
。探索化学反应:过渡态搜索与势能面扫描
模块六:QM/MM在生物体系中的应用实例分析
。看QM/MM如何精确模拟酶催化反应等复杂过程
第六,七天:升华·分子动力学模拟与自由能计算 (Dynamics & Energetics)
第六天:
驾驭Linux与GROMACS——开启MD模拟之旅
上午:Linux系统基础
。迈入高性能计算的门槛:Linux系统简介
。效率倍增:常用核心命令实操
。软件安装:以GROMACS为例,掌握Linux环境下的程序部署
下午:MD实战一:溶剂化环境中蛋白质的动态行为
。目标: 全面掌握并亲手操作分子动力学模拟的完整标准流程(力场选择、构建体系、能量最小化、平衡、生产模拟)
第七天:
MD高级应用——配体结合与能量计算
上午:MD实战二:蛋白质-配体复合物的动力学模拟
。挑战: 学习处理非标准残基(如药物分子)的力场参数化与拓扑文件生成。
下午:从模拟到定量——MD轨迹分析与自由能计算
。分析模块: 掌握RMSD, RMSF, Radius of Gyration等常用分析方法
。定量模块: 初步接触蛋白-配体结合自由能的计算方法(如MMPBSA/GBSA),定量评估结合强度。
课程介绍:
本培训是系统的CADD课程培训,主要包含五种主要技术:Pymol画图、分子对接、虚拟筛选、QSAR建模、分子动力学模拟以及掌握这五种技术需要的辅助技术,如蛋白和小分子数据库的介绍和使用、蛋白和小分子的结构处理及性质分析、linux使用、openbabel使用等。
课程目标:
本课程能够让学员获得系统的CADD知识体系,独立完成科研工作中大部分CADD使用场景,具备自学特殊的高阶CADD方法的能力。
上下滑动查看更多
07
AIDD人工智能药物发现与设计
第一天环境搭建与深度学习基本知识讲解
1.AIDD概述:从CADD到AIDD
2.软件安装与环境搭建
(1)anaconda
(2)vscode
(3)环境变量的配置
(4)切换pip和conda镜像源
(5)虚拟环境的创建
3.RDKIT工具包的使用
(1)基于RDKit的分子读写
(2)基于RDKit的分子绘制
(3)基于RDKit的分子指纹与分子描述符
(4)基于RDKit的化合物相似性与子结构
4.药物综合数据库的获取方法
(1)基于requests的基本爬虫操作
(2)小分子数据库PubChem数据获取(pubchempy / requests)
(3)蛋白质数据库PDB、UniProt数据获取
5.深度学习辅助药物设计
(1)神经网络基本概念与sklearn工具包介绍
(2)图神经网络与消息传递机制基本知识
(3)Transformer模型基本知识:分词、位置编码、注意力机制、编码器、解码器、预训练-微调框架、huggingface 生态介绍
(4)模型的评估与验证:准确率、精确率、召回率、F1分数、ROC曲线、AUC计算,平均绝对误差、均方差、R2分数、可释方差分数,交叉验证等
第二天顶刊复现专题1——分子与生化反应的表示学习与性质预测助力药物发现
培训背景:在人工智能辅助药物发现(AIDD)中,分子与生化反应的表示学习与性质预测是整个研究流程的基石。分子的结构决定其功能,如何将复杂的分子结构和生化反应过程有效地表示为计算模型能够理解的形式,是实现高效预测和优化的前提。通过构建合理的分子表示(如图神经网络、SMILES编码、指纹等),我们可以让AI模型捕捉关键的化学特征,进而用于预测分子的物理化学性质、生物活性、毒性等,为后续的虚拟筛选、分子生成与反应设计提供可靠基础。因此,本专题不仅奠定了AIDD中建模与预测能力的核心能力框架,也为整个药物发现过程中的智能决策打下了坚实基础。
培训内容1:
Nature Machine Intelligence|基于注意力的神经网络在化学反应空间映射中的应用《Mapping the space of chemical reactions using attention-based neural networks》
1.数据集
1.1.Pistachio数据集:包含260万化学反应,来自专利数据,涵盖792个反应类别。数据经过去重和有效性过滤(使用RDKit)。
1.2.USPTO 1k TPL数据集:基于USPTO专利数据,包含44.5万反应,通过原子映射和模板提取生成1,000个反应模板类别。
1.3.Schneider 50k数据集:公开数据集,包含5万反应,50个类别,用于与传统指纹方法对比。
2.模型。研究对比了两种Transformer架构:
2.1.BERT分类器:基于编码器的模型,通过掩码语言建模预训练后,在分类任务上微调,使用[CLS]标记的嵌入作为反应指纹(rxnfp)。
2.2.Seq2Seq模型:编码器-解码器结构,将分类任务分解为超类、类别和具体反应的层级预测。两者均采用简化版BERT(隐藏层256维),输入为未标注的SMILES序列,无需反应物-试剂区分或原子映射。
3.训练。模型训练分为两步:
3.1.预训练:BERT通过掩码SMILES令牌预测任务进行自监督学习,学习反应通用表示。
3.2.微调:在分类任务上优化模型,使用交叉熵损失,学习率2×10⁻⁵,序列长度512。评估采用混淆熵(CEN)和马修斯相关系数(MCC)以处理数据不平衡。
培训内容2:
TOP期刊|基于深度学习的生化反应产量预测《Prediction of chemical reaction yields using deep learning》
1.数据。研究使用了三类数据:
1.1.Buchwald-Hartwig HTE数据集:包含3955个Pd催化C-N偶联反应,涵盖15种卤化物、4种配体、3种碱和23种添加剂组合,产率通过统一实验测量,数据质量高。
1.2.Suzuki-Miyaura HTE数据集:包含5760个反应,涉及15对亲电/亲核试剂、12种配体、8种碱和4种溶剂的组合,产率分布均匀。
1.3.USPTO专利数据集:从公开专利中提取,包含不同规模(克级与亚克级)的反应产率,数据噪声大且分布不一致,需通过邻近反应产率平滑处理以提升模型表现。
2.模型。核心模型基于预训练的rxnfp(反应指纹)BERT架构,新增回归层构成Yield-BERT。输入为标准化反应SMILES,通过自注意力机制捕捉反应中心及关键试剂的上下文信息。模型无需手工特征(如DFT计算描述符),直接端到端预测产率。实验表明,其性能优于传统方法(如随机森林和分子指纹拼接),尤其在HTE数据上接近化学描述符的预测水平,且参数鲁棒性高(超参数调整影响小)。
3.训练。训练分为两步:
3.1.预训练:BERT通过掩码语言任务学习SMILES的通用表示。
3.2.微调:采用简单Transformers库和PyTorch框架,以MSE损失优化回归层,学习率(2×10⁻⁵)和dropout率(0.1–0.8)为主要调参对象。HTE数据采用随机/时间划分验证,USPTO数据通过邻近反应产率平滑缓解噪声影响。小样本实验(5%训练数据)显示模型能快速筛选高产反应,指导合成优化。
培训内容3:
TOP期刊|基于T5Chem模型的生化反应表示学习与性质预测: 《Unified Deep Learning Model for Multitask Reaction Predictions with Explanation》
1.数据来源和处理。通过自监督预训练与PubChem分子数据集进行训练,以实现对四种不同类型的化学反应预测任务的优异性能。模型处理包括反应类型分类、正向反应预测、单步逆合成和反应产率预测。
2.模型架构和原理。T5Chem模型是基于自然语言处理中的“Text-to-Text Transfer Transformer”(T5)框架开发的统一深度学习模型,该模型通过适应T5框架来处理多种化学反应预测任务。T5Chem模型包含编码器-解码器结构,并根据任务类型引入了任务特定的提示和不同的输出层,如分子生成头、分类头和回归头,以处理序列到序列的任务、反应类型分类和产品产率预测。
3.训练过程和细节。
3.1.T5Chem模型首先在PubChem的97 million分子上进行自监督预训练,使用BERT类似的“masked language modeling”目标。
3.2.在预训练阶段,源序列中的tokens被随机掩蔽,模型的目标是预测被掩蔽的正确的tokens。
3.3.预训练完成后,模型在下游的监督任务中进行微调,使用不同的任务特定提示和输出层。
3.4.模型在测试阶段通过生成分子token by token的方式进行预测,直到生成“句子结束标记”或达到最大预测长度。
通过培训可以掌握的内容:
1.分子与化学反应的表示方法。学习如何将分子和化学反应编码为机器可处理的格式,如SMILES(Simplified Molecular-Input Line-Entry System)和反应SMILES。理解分子指纹(如Morgan指纹)和反应指纹(如rxnfp)的构建方式,以及它们在化学信息学中的应用。掌握Transformer架构(如BERT)如何用于化学反应的特征提取,并生成具有化学意义的向量表示。
2.深度学习在化学反应预测中的应用。了解如何利用序列到序列(Seq2Seq)模型和BERT进行化学反应分类(如反应类型识别)和产率预测。学习如何通过自注意力机制分析化学反应的关键部分(如反应中心、试剂影响),提高模型的可解释性。掌握如何利用预训练+微调策略,使模型在少量标注数据下仍能取得良好性能。
3.数据驱动的化学研究范式。认识不同数据来源(如高通量实验HTE、专利数据USPTO)的特点及其对模型训练的影响。学习如何处理数据噪声,并通过数据平滑、邻近分析等方法优化模型表现。了解小样本学习在化学中的应用,例如如何用5%-10%的训练数据筛选高产率反应,指导实验优化。
第三天顶刊复现专题2——蛋白质的表示学习与性质预测助力药物发现
培训背景:在AIDD中,蛋白质是药物作用的主要靶标,其结构与功能的复杂性决定了药物设计的成败。蛋白质的表示学习与性质预测是理解分子-靶点相互作用、发现候选药物的重要环节。蛋白质,尤其是酶,作为药物的主要作用靶点,其功能、结构与动力学性质直接影响药物的设计与效果。本专题通过两篇前沿研究工作展开讲解:*《Enzyme function prediction using contrastive learning》展示了如何利用对比学习从蛋白质序列中提取高质量的功能表征,实现对酶功能的精确预测;《CatPred》*则提出了一个整合性深度学习框架,用于体外酶动力学参数(如Km、kcat等)的预测,这对于建立药效模型与优化先导化合物至关重要。这些方法显著提升了蛋白质建模的准确性与泛化能力,为AI驱动的靶点发现、机制理解及候选药物筛选提供了强有力的支持。
培训内容1:
Nature Communication|体外酶动力学参数深度学习的综合框架《CatPred: a comprehensive framework for deep learning in vitro enzyme kinetic parameters》
CatPred 提出了一种全面的深度学习框架,用于预测体外酶动力学参数(kcat、Km、Ki),以解决实验测定成本高、数据稀疏和泛化能力差的问题。该方法不仅提供了准确的预测,还引入了对预测不确定性的量化,支持对训练集外(out-of-distribution)酶序列的稳健预测。此外,作者还构建了新的标准化数据集(CatPred-DB),并对多种酶表示方法进行了系统比较。
1.数据:CatPred 使用的数据集来自 BRENDA 和 SABIO-RK 数据库,作者构建了 CatPred-DB,包括:23197 条 kcat,41174 条 Km和11929 条 Ki 数据,每条记录都包含酶的氨基酸序列、AlphaFold 或 ESMFold 预测的结构、底物的 SMILES 表达式。数据经过清洗和标准化处理,去除缺失值和重复值,并对参数取对数转换以符合正态分布。
2.模型:CatPred 采用模块化设计,酶和底物分别通过不同的神经网络模块进行表征学习,并采用 概率回归 输出(高斯分布形式的均值和方差),允许进行 不确定性估计(aleatoric + epistemic)。
3.训练
3.1.所有模型采用负对数似然损失函数(NLL)训练,以同时预测参数均值和不确定性。
3.2.使用训练-验证-测试三分法(80%-10%-10%),并设立“训练集外”的测试子集用于泛化能力评估。
3.3.为了评估不确定性,CatPred 使用 10个模型的集成,通过不同初始参数训练,以此量化 epistemic uncertainty。
3.4.模型训练时考虑了不同相似性(序列identity<99%、80%、60%、40%)的测试集,体现其鲁棒性。
培训内容2:
Science|基于对比学习的蛋白质分类属性预测《Enzyme function prediction using contrastive learning》
1.数据来源和处理: CLEAN模型的训练基于UniProt数据库中的高质量数据,该数据库收录了约1.9亿个蛋白质序列。CLEAN模型以氨基酸序列作为输入,输出按可能性排序的酶功能列表(以EC编号为例)。为了验证CLEAN的准确性和鲁棒性,作者进行了广泛的in silico实验,并将CLEAN应用于内部收集的未表征的卤酶数据库(共36个)进行EC编号注释,随后通过案例研究进行体外实验验证。
2.模型架构和原理: CLEAN模型采用了对比学习框架,目标是学习一个酶的嵌入空间,其中欧几里得距离反映了功能相似性。嵌入是指蛋白质序列的数值表示,它由机器可读,同时保留了酶携带的重要特征和信息。在CLEAN的任务中,具有相同EC编号的氨基酸序列具有较小的欧几里得距离,而具有不同EC编号的序列则具有较大的距离。
3.训练过程和细节:
3.1.在训练过程中,CLEAN模型使用对比损失函数进行监督训练,通过优先选择与锚点(anchor)嵌入具有小欧几里得距离的负序列,以提高训练效率。
3.2.模型使用语言模型ESM1b获得的蛋白质表示作为前馈神经网络的输入,输出层产生细化的、功能感知的输入蛋白质嵌入。
3.3.预测时,通过计算查询序列与所有EC编号聚类中心之间的成对距离来预测输入蛋白质的EC编号。
3.4.CLEAN还开发了两种方法来从输出排名中预测自信的EC编号:一种是贪婪方法,另一种是基于P值的方法。
通过培训可以掌握的内容:
1. 蛋白质表示学习的基本方法:理解蛋白质序列、结构信息如何被编码为适用于深度学习模型的向量表示,包括基于序列的预训练模型(如ESM、ProtBERT)和结构感知模型的原理与应用。
2. 对比学习在生物功能预测中的应用:深入学习对比学习策略,掌握如何通过正负样本构建来提升蛋白质功能分类模型的判别能力。
3. 酶动力学参数预测建模框架:学员将理解如何结合序列、结构及辅助特征,利用深度学习模型预测关键的酶学参数(如Km、kcat),并掌握模型架构设计与性能评估的思路。
4. 评估与可解释性分析方法:学习如何分析模型预测结果,评估性能指标,并探索特征重要性等可解释性技术,帮助理解模型的决策依据。
5. 应用于真实药物研发场景的思维框架:建立从蛋白质建模到下游任务(如药物筛选、作用机制分析)的系统性理解,增强将AI方法应用于实际生物医药问题的能力。
第四天顶刊复现专题3——基于深度学习的分子生成助力药物发现培训背景:分子生成是化学、生物学和材料科学等领域的关键技术,对于新药开发、新材料设计和化学反应预测具有重要意义。传统的分子生成方法依赖于专家知识和试错实验,耗时且成本高昂。随着人工智能技术的发展,特别是自然语言处理和扩散模型在分子生成中的应用,我们现在能够利用计算模型来加速这一过程。本课程将介绍从NLP到扩散模型的设计模式,这些模型能够理解和生成分子结构,从而提高分子设计的效率和准确性。通过本课程的学习,参与者将能够掌握分子生成的最新技术和方法,以及如何将这些技术应用于实际问题。培训内容1:
Nature Communication|基于端到端的图生成框架的分子生成:《Retrosynthesis prediction using an end-to-end graph generative architecture for molecular graph editing》
1.数据来源和处理:Graph2Edits模型使用了公开可用的基准数据集USPTO-50k,包含50016个反应,这些反应被正确地原子映射并分类为10种不同的反应类型。数据集被分为40k、5k、5k的反应用于训练、验证和测试集。
2.模型架构和原理:Graph2Edits模型是一个端到端的图生成架构,基于图神经网络(GNN)预测产品图的编辑序列,并根据预测的编辑序列顺序生成中间体和最终反应物。该模型将半模板方法的两阶段过程(识别反应中心和完成合成子)合并为一锅学习,提高了在复杂反应中的适用性,并使预测结果更易于解释。模型的核心是图编码器和自回归模型,用于生成编辑序列,并应用这些编辑来推断中间体和反应物。
3.训练过程和细节:
3.1.Graph2Edits模型使用有向消息传递神经网络(D-MPNN)作为图编码器,以获取原子表示和全局图特征,并预测原子/键编辑和终止符号。
3.2.模型训练使用教师强制策略,即使用真实的编辑序列作为模型输入。在每个编辑步骤中,模型会计算所有可能的编辑的概率,并选择最高分的k个编辑,将这些编辑应用于输入图以获得k个中间体。
3.3.在生成过程中,如果达到最大步骤数或图表示指示终止,则生成分支将停止。
3.4.最终,根据可能性对前k个编辑序列和图进行排名,收集为最终预测结果。 培训内容2
Nature Computational Science|基于等变扩散模型的分子生成网络《Structure-based drug design with equivariant diffusion models》
1.简单介绍。这篇文献提出了一种基于结构的药物设计方法(SBDD),利用SE(3)-等变扩散模型(DiffSBDD)生成与蛋白质结合口条件匹配的新颖小分子配体。该方法通过将SBDD问题建模为三维条件生成任务,能够一次性生成所有原子位置,克服了传统自回归方法因顺序生成而丢失全局上下文的局限性。DiffSBDD不仅支持从头分子设计,还能通过属性优化、负向设计和分子局部修饰(inpainting)等多种任务灵活应用。
2.数据总结。该研究使用了CrossDocked和Binding MOAD两个数据集进行训练和评估。
2.1.CrossDocked数据集包含40,344个训练蛋白-配体对和130个测试对,验证集规模为246个,确保不同集合中的蛋白质来自不同的酶分类主类以避免过拟合。
2.2.Binding MOAD数据集经过筛选后用于测试,分析限于所有方法均能生成样本的78个CrossDocked和119个Binding MOAD目标。此外,数据集处理涉及移除损坏条目,并通过Zenodo公开提供处理后的数据和采样分子,确保研究可重复性。
3.模型总结。DiffSBDD是一个SE(3)-等变扩散模型,以蛋白质结合口为条件生成三维分子结构,采用3D图表示(原子坐标和类型),避免了传统方法中从密度图回推分子结构的复杂后处理。模型设计尊重三维空间的旋转和平通过培训可以掌握的内容:
1.自然语言处理(NLP)在分子生成中的应用:掌握如何使用NLP技术来理解和生成分子结构。学习如何将自然语言描述转换为分子结构(SMILES字符串)。
2.扩散模型在分子生成中的应用:理解扩散模型的基本原理及其在分子生成中的优势。学习如何使用扩散模型来优化分子生成过程。
3.数据预处理和特征工程:学习如何处理和准备用于训练分子生成模型的数据集。掌握如何从原始数据中提取有用的特征以提高模型性能。
4.模型架构和原理:深入理解MolT5,TGM-DLM和GraphEdits模型的架构和工作原理。学习如何设计和实现这些模型以处理复杂的分子生成任务。
5.训练过程和细节:掌握模型训练的全过程,包括预训练和微调。学习如何调整模型参数和训练策略以优化性能。
6.评估和验证:学习如何使用各种指标(如BLEU分数、Tanimoto相似性等)来评估生成的分子。掌握如何验证模型生成的分子的有效性和准确性。
7.模型解释和可视化:学习如何解释模型的预测结果,以及如何使用可视化工具来理解分子生成过程。
8.最新研究进展和技术趋势:了解分子生成领域的最新研究进展和技术趋势。学习如何将最新的研究成果应用于实际工作。
第五天顶刊复现专题4: 结合分子动力学的蛋白质-配体复合物相互作用动态预测
培训背景:蛋白质-配体相互作用的预测是现代药物发现和生物工程领域的核心任务之一,其重要性不言而喻。在药物开发过程中,准确预测蛋白质与小分子配体的结合位点、三维结构以及亲和力,不仅能够揭示分子间相互作用的机制,还能显著加速候选药物的筛选与优化,降低研发成本和时间。传统实验方法如X射线晶体学和核磁共振虽然精确,但耗时长、成本高,且难以应对大规模筛选需求。而随着深度学习和人工智能技术的快速发展,计算方法在蛋白质-配体预测中展现出巨大潜力。
研究内容1:
Nature Communication|交互作用感知的蛋白质-配体对接和亲和力预测模型《Interformer: an interaction-aware model for protein-ligand docking and affinity prediction》
1.简要介绍:本研究提出了一种名为Interformer的基于Graph-Transformer架构的统一模型,用于蛋白-配体对接和亲和力预测。针对现有深度学习模型忽略蛋白与配体原子间非共价相互作用建模的不足,Interformer引入了交互感知混合密度网络(MDN)来明确捕捉氢键和疏水相互作用,并结合负采样策略和伪Huber损失函数,通过对比学习优化相互作用分布,提升对接姿势的准确性和亲和力预测的鲁棒性。
2.数据集:研究使用了PDBBind时间分割测试集(333个样本)评估对接准确性,Posebusters基准测试验证物理合理性,以及内部真实世界数据集测试泛化能力。训练数据来源于PDBBind晶体结构数据库。
3.模型:Interformer基于Graph-Transformer架构,包括:(1) 图表示模块,将原子作为节点、邻近关系作为边;(2) 掩码自注意力(MSA)机制,通过Intra-Blocks和Inter-Blocks分别捕捉配体/蛋白内部及两者间的相互作用;(3) 交互感知MDN,融合四种高斯分布模拟常规力、疏水作用和氢键;(4) 边缘输出层整合节点和边特征预测能量;(5) 姿势评分和亲和力模块基于虚拟节点预测正确姿势和实验亲和力值。
4.训练细节:训练分两阶段:首先基于晶体结构训练能量模型生成负样本,随后联合正负样本训练姿势评分和亲和力模型。采用负对数似然损失优化MDN,二元交叉熵损失优化姿势评分,伪Huber损失(σ=4)优化亲和力预测(单位IC50、Kd、KI,经负对数归一化)。蒙特卡洛采样生成候选姿势,
研究内容2:Nature Communication|分子动力学驱动的蛋白质-配体复合物结构动态预测《DynamicBind: predicting ligand-specific protein-ligand complex structure with a deep equivariant generative model》
1.简单介绍:本研究提出了一种名为DynamicBind的深度学习方法,用于预测配体特异性的蛋白-配体复合物结构。传统分子对接方法通常将蛋白视为刚性或仅部分柔性,难以处理蛋白的大尺度构象变化,而分子动力学模拟虽然能捕捉动态构象,但计算成本高昂。DynamicBind通过等变几何扩散网络构建平滑的能量景观,高效模拟蛋白从无配体(apo)状态到配体结合(holo)状态的构象转变,无需依赖holo结构或大量采样。
2.数据集:研究基于PDBbind2020数据库(19,443个蛋白-配体复合物晶体结构),按时间划分:2019年前的数据用于训练和验证,2019年的数据用于测试。额外构建了Major Drug Targets (MDT)测试集(599对),聚焦激酶、GPCR等主要药物靶点,要求AlphaFold预测结构与晶体结构的pocket RMSD>2Å,确保测试难度。训练中通过AlphaFold预测结构与晶体结构插值生成蛋白部分的样本。
3.模型:DynamicBind是一个基于图神经网络的等变生成模型,使用粗粒化表示(蛋白以Cα节点和侧链二面角表示,配体以重原子节点表示),输出包括蛋白和配体的平移、旋转、扭转角更新,以及结合亲和力和cLDDT置信度评分。模型通过学习从apo到holo的“morph-like”变换,优化能量景观,包含63.67百万参数。
4.训练细节:训练在8块Nvidia A100 80GB GPU上进行5天,输入为添加morph变换的蛋白decoy构象和加高斯噪声的配体构象,目标是去噪操作。损失函数包括八项(配体和蛋白的平移、旋转、扭转等),通过Kabsch算法对齐apo和holo结构,结合扩散噪声调整构象过渡。推理时迭代20次更新初始结构。 通过培训可以掌握的内容:
1.蛋白质-配体复合物结构预测:学员将学习如何利用深度学习方法(如NeuralPLexer)从蛋白序列和配体分子图预测复合物的三维结构,理解多尺度几何建模和扩散过程在捕捉原子级分辨率结构及构象变化中的作用,并掌握其在盲对接和柔性结合位点恢复中的应用。
2.对接姿势生成与优化:掌握基于Graph-Transformer架构和蒙特卡洛采样生成对接姿势的技术,学习如何通过姿势评分和对比学习(如伪Huber损失)优化姿势选择,提升对接准确性(如RMSD<2Å的成功率)。
3.亲和力预测的计算方法:学员将了解如何从对接姿势预测实验亲和力值(如IC50、Kd、KI),掌握基于虚拟节点和对比学习的姿势敏感性训练策略,以提高亲和力预测的鲁棒性和实际应用价值。
4.模型评估与基准测试:熟悉常用基准数据集(如PDBBind)和评价指标(如RMSD、lDDT-BS、TM-score)的使用,理解如何通过时间分割测试集和物理合理性检查评估模型的泛化能力和性能。
5.实际药物设计的应用:通过案例分析(如Interformer筛选出高亲和力小分子),学习如何将这些预测技术应用于酶工程和药物发现,加速候选分子的筛选和优化过程。
上下滑动查看更多
08
CADD(进阶版)
Day 1: 分子动力学模拟和分析实操——氨基酸突变如何影响蛋白质催化的文章复现
1.文章复现与深度解析
(1)目标文献(JCIM)研究思路与实验设计精讲
(2)复现关键步骤分解:从结构预处理到模拟结果分析
(3)如何将文献中的图表转化为具体的模拟分析指标
2. 分子动力学模拟原理与体系构建
(1)分子动力学模拟的基本原理与力场选择(AMBER, CHARMM)
(2)蛋白-配体复合物体系构建实操:结构处理、参数生成、溶剂化、中和
(3)氨基酸突变的实操实现(使用pdb2gmx或残基替换脚本)
3. 模拟运行与结果分析
(1)能量最小化、平衡、成品模拟的参数设置与运行
(2)常规分析实操:RMSD, RMSF, RG, SASA, 氢键
(3)高级分析实操:结合自由能计算(MM-PBSA/GBSA)、相互作用能分析
Day 2: 深度学习分子对接——DiffDock原理与应用
1. 深度学习分子对接方法概述
(1)传统对接方法的局限与AI方法带来的突破
(2)主流深度学习对接模型对比(DiffDock等)
2. DiffDock详解与实战
(1)扩散模型(Diffusion Model)在生物分子构象预测中的原理
(2)DiffDock环境配置、输入文件准备与运行流程
(3)结果解读:预测构象的聚类、置信度分析及最佳构象筛选
3. 多方法验证与工作流衔接
(1)将DiffDock预测结果与传统对接工具(AutoDock Vina, Gnina)结果进行对比
(2)将预测的最佳构象作为分子动力学模拟的起始结构,进行稳定性验证
Day 3: 小分子de novo生成与优化
1. 生成式AI在药物设计中的应用概览
(1)小分子生成的主要技术范式(RL, VAE, GAN, Diffusion)
(2)生成模型的设计目标:性质优化、靶向性、可合成性
2. DRUGCLIP框架详解与实战
(1)DRUGCLIP核心思想:如何统一分子生成与属性优化任务
(2)实操:基于DRUGCLIP进行指定靶点(如激酶、GPCR)的分子生成
3. 生成分子的评价与优化
(1)生成分子的过滤与评估:类药性(Ro5)、理化性质、合成可行性评估
(2)使用药效团模型或分子对接对生成的分子进行初步活性预测
Day 4: 生物分子结构预测与虚拟筛选实战
1. 生物分子结构预测大一统工具的介绍及使用
(1)最新预测方法综述(AlphaFold3, HelixFold3, ESM3等)及其优势对比
(2)大一统工具在蛋白、核酸、小分子、复合物结构预测中的效果评估
(3)AlphaFold3/HelixFold3的本地化部署与使用实操
(4)预测结果的分析与验证:使用PLIP等工具分析蛋白-小分子相互作用
2. 基于多方法联用的虚拟筛选实战
(1)虚拟筛选的整体策略:从大规模筛选到高优先级苗头化合物(Hit)的发现
(2)多方法联用实操:深度学习对接(Gnina)与传统对接(AutoDock Vina)的串联筛选
(3)药效团筛选实操:使用Pharmit进行基于特征的虚拟筛选
(4)结果整合与优化:使用Rdkit对筛选结果进行聚类、多样性分析和可视化
课程目标与要求:
(1)精通Gromacs分子动力学核心技术
系统掌握Gromacs软件在生物大分子体系中的建模、模拟流程及关键结果解析技术,具备独立设计并执行分子动力学研究方案并发表学术成果的能力。
(2)构建多技术融合的虚拟筛选体系
掌握整合分子对接、药效团模型、分子动力学模拟等技术,进行活性分子(Hit)识别的全流程虚拟筛选策略,掌握化合物库高效筛选及候选分子优化方法。
(3)洞悉药物发现技术前沿与及其发展现状
紧跟前沿技术发展,熟悉当前技术的优势和不足,具备针对特定研究问题选择最优技术方案的能力。
(4)要求参加过CADD计算机辅助药物设计课程或具备同水平能力,即至少熟悉分子对接, 具备linux系统、分子动力学模拟的基本操作能力
上下滑动查看更多
09
合成生物学与基因电路设计
第一天
合成生物学基础概念与应用领域剖析
1.深度解读合成生物学精准定义,系统阐述其涵盖研究内容,沿着发展历程脉络回溯,展望未来趋势,全方位扫描应用领域。
2.通过详实案例分析,将合成生物学在医药、农业、工业等实际场景的应用具象化,让学员感知其变革力量。
生物元件功能精讲与标准化设计准则
1.聚焦生物元件,如启动子精准调控转录起始、终止子界定转录终点、RBS 驱动核糖体结合开启翻译。
2.结合 BioBrick 元件设计范式与应用实例,传授生物元件模块化设计黄金法则,助力学员掌握构建标准化生物模块的精髓。
第二天
基因线路逻辑架构搭建与实例演练
1.开启基因线路逻辑世界大门,详细拆解与、或、非基本逻辑门运作原理及设计技巧。
2.引入 iGEM 竞赛中经典逻辑门线路应用案例,手把手指导学员实践操作,使其能独立构思简单基因线路并洞悉其功能。
复合元件整合与电路深度设计
以前两天所学生物元件、基因线路知识为基石,引导学员梳理合成生物学核心玩法。亲手设计、搭建、分析经典电路,实现知识融会贯通,掌握复杂电路中各模块协同运作奥秘。
第三天
代谢途径精细构建与优化策略
1.深入讲解代谢途径搭建步骤,剖析定向进化、代谢工程等优化策略。
2.以青蒿素生物合成途径优化为典型案例,传授从理论到实践的代谢途径设计方法,助力学员提升生物合成效率。
基因组合成与编辑技术前沿
1.系统讲解基因组合成底层原理、多元方法,深度剖析 CRISPR/Cas9 等基因组编辑技术原理。
2.结合海量案例,呈现基因组合成与编辑技术在定制生物、精准医疗等前沿领域的实际应用。
第四天
底盘生物特性解析与应用
1.引入底盘生物概念,剖析常见底盘生物(如大肠杆菌、酵母菌等)特性。
2.讲解其在基因线路搭载、基因表达中的关键作用,结合实例探讨如何依据项目需求选择适配底盘生物,实现高效基因操作。
合成生物系统搭建与优化实践
1.全方位讲解合成生物系统定义、分类,通过案例剖析系统构建流程,传授优化策略。
2.组织实践操作,让学员亲身体验合成生物系统的构建与优化全过程,学会依据反馈调控系统参数。
第五天
合成生物学数学建模与性能分析
1.开启生物系统数学建模之旅,介绍常微分方程、逻辑模型等常用建模方法。
2.结合基因线路动力学模拟案例,指导学员运用数学模型精准分析生物系统性能,为系统设计与优化提供量化支撑。
合成生物学全景总结与未来瞻望
1.回溯课程所学知识,通过多领域案例分析,展现合成生物学应用广度与深度。
2.组织学员热烈讨论未来发展趋势、潜在影响,着重介绍伦理、生物安全与生物安保等关键议题,培养学员全面视角。学习目标:通过理论与实践结合,掌握合成生物学基础、基因电路设计、代谢途径优化、基因编辑技术及数学建模,培养学员在合成生物领域的创新能力和系统思维,为未来研究与应用奠定基础。
上下滑动查看更多
讲师介绍
01、AI蛋白质设计
授课老师均来自北京大学和清华大学,专注于蛋白设计和多肽药物靶点,具有丰富的代码开发经验和授课教学经验。在对应领域有过多篇中科院一区top期刊/CCF-A会议,如ICLR,ICML等主流会议的第一作者和审稿人经历。
02、CADD计算机辅助药物设计
Z老师,Top2博士,多年Ai4science研究经验,研究方向为蛋白设计、药物发现与计算生物学。曾获多项国家级奖项,在计算机辅助药物设计,药物发现等领域具有丰富的理论知识和实践经验。
03、AIDD人工智能药物发现与设计
AIDD授课老师曹老师,有十余年的计算机算法研究和程序设计经验。研究方向涉及生物信息学,深度学习,药物合成路径设计,药物不良反应等。发明专利5项,参与国家重点科研项目4项,发表SCI高水平论文10篇,包括BMC Bioinformatics, Journal of Biomedical Informatics, International Journal of Molecular Sciences等知名期刊。
04、CADD(进阶版)
Z老师,Top2博士,多年Ai4science研究经验,研究方向为蛋白设计、药物发现与计算生物学。曾获多项国家级奖项,在计算机辅助药物设计,药物发现等领域具有丰富的理论知识和实践经验。
05、合成生物学与基因电路设计
两位授课老师均来自清华大学,干湿结合分别引领本课程的实验设计和建模分析,研究方向涉及植物生物学、合成生物学与生物信息学。在对应领域中科院一区有多篇产出,同时曾作为队长和评委多次参加过合成生物学(iGEM)顶级赛事,曾获得全球十佳项目(TOP10)和多个单项奖及提名。
06、深度学习在基因组学中的应用
主讲老师刘教授,生物信息学PI,有十余年的测序数据分析经验。研究领域涉及人工智能、自然语言处理、功能基因组学、转录组学、miRNA及靶基因网络分析,单细胞测序数据分析,基因调控网络时序分析,蛋白质互作网络分析,多组学联合分析等。主持省自然科学基金等项目4项,发表SCI论文23篇,论著一部。
07、机器学习代谢组学
主讲老师来自985高校神经科学博士,主要利用代谢组学、转录组学和分子生物学等技术研究神经内科慢性病的发病机制和生物标志物。擅长高效液相色谱-质谱联用(LC-MS)技术进行非靶向和靶向代谢组学从样本制备到数据分析的全流程研究,以及多组学大数据的生物信息学整合分析。5年内在J Clin Invest, EBioMedicine, Cell Death Dis, Cell Death Discov, Nanotoxicology等杂志发表SCI论文10篇。
08、机器学习微生物组学
主讲老师来自清华大学,研究方向包括生物信息学、机器学习与微生物基因组学,大模型与蛋白质定向进化等。同时他在图神经网络和疾病药物靶向等知识图谱技术方面有丰富的经验,带领并指导多次团队在国际基因工程竞赛(iGEM)中获得国际金牌,并一作发表了多篇一区高水平SCI论文。
09、CRISPR-Cas9基因编辑技术
主讲老师均来自清华大学、浙江大学、西湖大学等国内顶尖高校,他们在基因编辑及相关领域拥有深厚的学术背景和丰富的研究经验。在博士期间深入研究基因编辑技术,发表了多篇高水平论文(包括子刊和多篇一区文章)并有各类系统扎实的设计实操经验,助力学员们在基因编辑领域取得更大的进步和发展。
JOIN US
授课时间
北京时间
AI蛋白质设计
2025.11.29全天(9点-11点半-1点半-5点)
2025.11.30全天(9点-11点半-1点半-5点)
2025.12.02晚上授课(19:00-22:00)
2025.12.03晚上授课(19:00-22:00)
2025.12.04晚上授课(19:00-22:00)
2025.12.05晚上授课(19:00-22:00)
2025.12.06全天(9点-11点半-1点半-5点)
CADD计算机辅助药物设计
2025.12.07全天(9点-11点半-1点半-5点)
2025.12.08晚上授课(19:00-22:00)
2025.12.09晚上授课(19:00-22:00)
2025.12.10晚上授课(19:00-22:00)
2025.12.11晚上授课(19:00-22:00)
2025.12.13全天(9点-11点半-1点半-5点)
2025.12.14全天(9点-11点半-1点半-5点)
2025.12.15晚上授课(19:00-22:00)
2025.12.16晚上授课(19:00-22:00)
2025.12.17晚上授课(19:00-22:00)
2025.12.18晚上授课(19:00-22:00)
AIDD人工智能药物发现与设计
2025.12.20全天(9点-11点半-1点半-5点)
2025.12.21全天(9点-11点半-1点半-5点)
2025.12.22晚上授课(19:00-22:00)
2025.12.23晚上授课(19:00-22:00)
2025.12.24晚上授课(19:00-22:00)
2025.12.26晚上授课(19:00-22:00)
2025.12.27全天(9点-11点半-1点半-5点)
CADD(进阶版)
2025.12.28全天(9点-11点半-1点半-5点)
2025.12.29晚上授课(19:00-22:00)
2025.12.30晚上授课(19:00-22:00)
2026.01.02晚上授课(19:00-22:00)
2026.01.03全天(9点-11点半-1点半-5点)
2026.01.05晚上授课(19:00-22:00)
合成生物学与基因电路设计
2025.12.13全天(9点-11点半-1点半-5点)
2025.12.14全天(9点-11点半-1点半-5点)
2025.12.15晚上授课(19:00-22:00)
2025.12.16晚上授课(19:00-22:00)
2025.12.17晚上授课(19:00-22:00)
2025.12.18晚上授课(19:00-22:00)
2025.12.20全天(9点-11点半-1点半-5点)
深度学习在基因组学中的应用
2026.01.17全天(9点-11点半-1点半-5点)
2026.01.18全天(9点-11点半-1点半-5点)
2026.01.24全天(9点-11点半-1点半-5点)
2026.01.25全天(9点-11点半-1点半-5点)
2026.01.31全天(9点-11点半-1点半-5点)
机器学习代谢组学
2025.12.20全天(9点-11点半-1点半-5点)
2025.12.21全天(9点-11点半-1点半-5点)
2025.12.22晚上授课(19:00-22:00)
2025.12.23晚上授课(19:00-22:00)
2025.12.24晚上授课(19:00-22:00)
2025.12.26晚上授课(19:00-22:00)
2025.12.27全天(9点-11点半-1点半-5点)
机器学习微生物组学
2026.01.24全天(9点-11点半-1点半-5点)
2026.01.25全天(9点-11点半-1点半-5点)
2026.01.27晚上授课(19:00-22:00)
2026.01.28晚上授课(19:00-22:00)
2026.01.31全天(9点-11点半-1点半-5点)
2026.02.01全天(9点-11点半-1点半-5点)
CRISPR-Cas9基因编辑技术
2026.01.31全天(9点-11点半-1点半-5点)
2026.02.01全天(9点-11点半-1点半-5点)
2026.02.03晚上授课(19:00-22:00)
2026.02.04晚上授课(19:00-22:00)
2026.02.05晚上授课(19:00-22:00)
2026.02.06晚上授课(19:00-22:00)
2026.02.07全天(9点-11点半-1点半-5点)
报名费用及福利
AI蛋白质设计
公费价:6380元 自费价:5880元
CADD计算机辅助药物设计、AIDD人工智能药物发现、合成生物学与基因电路设计、深度学习基因组学、机器学习代谢组学、机器学习微生物组学、CRISPR-Cas9基因编辑技术
每班公费价:5880元 每班自费价:5480元
CADD(进阶版)
公费价:4680元 自费价:4380元
优惠福利如下:
优惠一:报二赠一:10880(可选三门课程)
优惠二:报三赠一:13880(可选四门课程)
优惠三:报四赠二:18880(可选六门课程)
优惠四:全报25880(两年内可参加本公司举办的任何课程,不限次数及课程,包括之后的新开课)
限时福利:报名成功后转发朋友圈或转发50人以上群聊即可获得300元现金红包(只限前15名)
课程福利:报名缴费后可获取往期课程回放(包含全套课程回放和课件资料ppt)提供学员课前预习
报名费用可开具正规报销发票及提供相关缴费证明、邀请函,可提前开具报销发票、文件用于报销 。报名缴费后即可获得全套预习资料供大家课前准备
证书:参加培训并通过考试的学员,可以申请获得工业和信息化部工业文化发展中心颁发的“工业强国建设素质素养提升尚工行动”岗位能力适应评测证书。该证书可在中心官网查询,可作为能力评价,考核和任职的重要依据。评测证书查询网址:www.miit-icdc.org(自愿申请,须另行缴纳考试费500元/人)
SIMPLICITY
官方联系人
联系人:汪老师
报名咨询电话:13140113821(同V)