最近,在使用深度学习(Deep Learning)方法从头设计蛋白质方面取得了相当大的进展。但我们仍然缺少用来蛋白质设计的通用深度学习框架以解决蛋白质设计上遇到的各种挑战。
扩散模型(diffusion model)是一种生成式模拟方法,已经在图像和文本生成建模方面取得了相当大的成功,最近爆火的AI绘画,就是基于扩散模型。而且,扩散模型似乎也适用于蛋白质设计。然而,扩散模型在应用于蛋白质建模时成功率却并不高,产生的序列基本不能折叠成目标结构,这可能是由于蛋白质主干几何形状和序列结构关系的复杂性。
2023年7月11日,著名蛋白质设计专家、华盛顿大学医学院 David Baker 教授团队在 Nature 期刊发表了题为:De novo design of protein structure and function with RFdiffusion 的研究论文。
该研究开发并描述了一种能从头设计全新蛋白质的深度学习方法——RoseTTAFold Diffusion,简称RFdiffusion。该方法能生成各种功能性蛋白质,包括在天然蛋白质中从未见过的拓扑结构。
近年来,深度学习领域的迅速进步对蛋白质设计产生了显著影响。最近,深度学习方法在蛋白质结构预测方面取得了重大突破,使我们能够得到数百万种蛋白质的高质量模型。结合用于生成建模和序列分析的新型架构,这些方法在过去几年里极大改变了蛋白质设计领域,提高了识别新蛋白质序列和结构的准确性和能力。深度神经网络现在能够学习和提取蛋白质结构的基本特征,预测它们与其他生物分子的相互作用,并且有潜力创造用于治疗疾病的新型药物。
三大前沿课程目录
一、深度学习蛋白质设计
二、单细胞多组学
三、机器学习代谢组学
以下为课程内容介绍
一、深度学习蛋白质设计
STUDY
课程目标:
本课程从零基础开始学习,对 Python 编程基础、Linux 常用命令和 Machine Learning/Deep Learnings 领域相关算法进行详细讲解,并结合当前蛋白质设计方面的论文文献讲解相关技术的应用。主要介绍蛋白质设计的底层逻辑与基本规则,学习蛋白质结构预测、蛋白质序列设计、蛋白质-蛋白质相互作用分析、以及蛋白质功能注释和优化方法,掌握深度学习在蛋白质设计中的常见算法以及实际方法,培养学生具备基本的深度学习蛋白质设计能力和蛋白质人工智能应用的前沿视野,为参与解决生物医学、生物工程和生物能源等方面的重大问题提供更多机会。
课程内容主要分为三个方面:
(1)结构到序列的预测基础:基于结构的蛋白质设计是蛋白质结构预测的
逆过程。学生将学会通过生物信息学工具分析蛋白质序列,预测其二级结构和三维结构,并初步理解结构与功能之间的关联。
(2)ML/DL 算法模型应用与评估:深度学习可以用于预测蛋白质序列的
功能和稳定性。学生将能够使用机器学习或深度学习算法模型进行蛋白质特定功能和序列稳定性预测,同时学习如何评估模型的准确性和可靠性。
(3)蛋白质设计应用实践:深度学习通过预测蛋白质-蛋白质之间的相互作
用、蛋白质的功能以及生物属性为生物制药、生物医学等方面提供了新的方向。学生将通过以上学习的与蛋白质序列、结构和功能预测相关的原理,学会设计新的蛋白质复合物和抗体,识别蛋白质的功能域、结构域和功能位点等,通过神经网络和生成对抗网络的应用,优化和筛选符合特定要求的蛋白质。
TEACHER
授课老师
Dr.Pang, 生物信息学博士,有8年生物数据分析、多组学交叉领域研究经验,曾在国内外多家知名生物医药企业和科研院所有任职经历,对机器学习、深度学习、基因组学、转录组学、代谢组学以及蛋白质组学等有深入研究,发表SCI论文18篇,其中一作及通讯作者9篇。
向下划动查看全部内容
第一天 Python 编程基础知识
1. Python 基础
1.1 Python 简介:了解 Python 的发展历史、特点、现状,以及与其他编程语
言的比较。
1.2 安装和设置 Python 环境:安装 Python3 ,设置 开 发 环 境 ( 如
Anaconda(miniconda)、Jupyter notebook)并运行第一个 Python 程序。
1.3 Python 变量和数据类型:数据类型(整数、浮点数、字符串、布尔值)、
表定制等。
4. 数据分析与可视化
4.1 Pandas:使用 Pandas 进行高级的数据分析操作,包括如何去做数据清洗、
预处理和排序等数学计算,数据的分箱技术,分组技术,聚合技术,以及透视表
等。
4.2 数据可视化:介绍 Seaborn 的基本使用,以及和 Matplotlib 的功能对比,
使用 Matplotlib 和 Seaborn 进行高级数据可视化。
5. 蛋白质设计中的特定应用
5.1 BioPython 包的使用:DNA,RNA 和蛋白质序列处理,访问主要的遗传
数据库(如 GenBank,SwissPort,FASTA 等)访问,执行基本生物学数据分析。
5.2 Python 脚本编写:将常见的蛋白质处理任务编写为自动化脚本,如序列
对比、结构预测等。
5.3 机器学习快速入门:学习使用 Scikit-learn 进行特征提取、机器学习模型
训练、评估和优化。
6. 实战案例
6.1 案例 1:蛋白质序列数据分析入门,如统计特定序列的频率、可视化序
列分布等。
6.2 案例 2:蛋白质结构预测基础,使用机器学习技术预测蛋白质的二级结
构或功能位点。
6.3 案例 3:开发一个自动化的蛋白质分析工具,集成数据处理、分析及可视
化功能。
第二天 Linux Shell 命令行操作基础
1. Shell 环境简介
1.1 什么是 Shell:了解 Shell 是什么,为什么要学习 Shell,以及它如何与操
作系统交互。
1.2 不同类型的 Shell 介绍:Bash、Zsh、Tcsh。
1.3 访问 Shell:如何打开终端窗口,基础的命令行界面操作。
2. 基础命令
2.1 文件系统操作:wc, cd, ls, pwd, rm, cp, mv 等命令的使用。
2.2 文件操作:mkdir, touch, more, less, head, tail, grep, find 等命令。
2.3 权限和所有权:使用 chmod, chown, chgrp 改变文件的权限和所有权。
2.4 文本处理:echo, cat, cut, sort, uniq, tr, awk, sed 等工具的基本使用。
2.5 归档和压缩:tar, gzip, gunzip, zip, unzip 等命令的使用。
3. Shell 脚本编写
3.1 Shell 变量和数据类型:定义和使用 String、int、float 和 array 变量。
3.2 流程控制与条件语句:if, else, elif, case 等语句的使用。
3.3 循环结构:for, while, until 循环的使用。
3.4 输入和输出:处理用户输入和脚本输出。
3.5 引用和转义字符:学习在命令行中正确使用单引号、双引号和转义字符。
3.6 高级文本编辑器 Vim 的配置和使用 Vim
3.7 创建和执行 Shell 脚本:编写一个简单的脚本并使其接收参数和执行。
4. 高级 Shell 编程
4.1 函数的高级用法:定义和使用函数,学习如何传递参数和调用函数。
4.2 调试 Shell 脚本:如何调试 Shell 脚本,包括设置和使用调试选项。
4.3 基本正则表达式的应用,学习文本处理三剑客 grep、sed、awk。
4.4 环境变量管理:了解 PATH 和其他环境变量的作用和管理方法。
5. 实用案例
5.1 案例 1: 使用 Python 运行 Shell 脚本。
5.2 案例 2: 编写一个自动整理下载并整理蛋白质序列数据的脚本。
5.3 案例 3: PDB 文件分析脚本的编写。
第三天 机器学习与深度学习基础
1. 统计学习理论基础
1.1 统计学习方法概述
1.2 传统有监督学习方法介绍
(a) 感知机与决策树算法
(b) K 近邻与朴素贝叶斯法
(c) 逻辑回归与支持向量机算法
(d) 随机森林算法与隐马尔可夫模型
1.3 集成学习算法重点介绍:GBDT、XGBoost
1.4 无监督学习与聚类算法
1.5 特征工程与模型评估
2. 神经网络与深度学习方法基础
2.1 人工神经网络基础知识
2.2 多层感知机
2.3 卷积神经网络:学习卷积的内涵、卷积的概念与特征、池化操作等
2.4 典型卷积神经网络算法结构、训练方法及应用
2.5 循环神经网络基本原理与模型介绍
2.6 长短期记忆神经网络模型及应用场景
3. 生成式神经网络
3.1 自动编码器
3.2 变分自动编码器
3.3 生成对抗网络
(a) 生成对抗网络基本原理
(b) Encoder-Decoder 模型
(c) DCGAN 和 WGAN 算法示例
4. 注意力机制
4.1 Seq2Seq 模型
4.2 (自)注意力机制模型的原理和工作机制
4.3 Transformer 模型及应用
4.4 BERT 模型与预训练方法介绍
4.5 基于 BERT 模型实现文本生成实验
5. 深度学习蛋白质设计入门
5.1 理解蛋白质设计的主要概念
5.2 传统从序列推断功能的方式介绍
5.3 机器学习领域中预测蛋白质功能的方法与局限性
5.4 了解 Pre-Trained Embeddings 方法的蛋白质设计方法
5.5 生成模型在蛋白质设计上的使用及优势
第四天 深度学习蛋白质设计基础
1. 深度学习蛋白质设计概述
1.1 蛋白质设计的背景与当前现状,
1.2 蛋白质设计面临的困难、传统方法与途径
(a) 从序列预测蛋白质结构:同源建模、共进化信息
(b) 使用神经网络预测蛋白质结构
1.3 蛋白质设计的关键点:序列、结构、功能、能量
1.4 蛋白质设计的目标:设计一个给定结构或功能的蛋白质
1.5 当前深度学习方法在蛋白质设计中的进展
(a) 基于序列的深度学习方法:DeepSequence,Progen,ProteinBERT 等
(b) 基于结构的深度学习方法:AlphaFold2, ColabFold, RoseTTAFold,
OmegaFold 等
(c) 其他蛋白质深度学习方法:
1.6 蛋白质设计方法的评估(亲和力、催化活性、配体特异性等)
2. 蛋白质设计概述
1.1 蛋白质序列表示形式
(a) 独热编码(One-Hot Encoding)
(b) 嵌入表示(Learned Embedding)
(c) 特定位置评分矩阵(Position-Specific Scoring Matrix)
1.2 蛋白质结构的表示形式
(a) 基于顺序和手工修正的表示
(b) Voxel 表示
(c) 距离图
(d) 图表示形式:图和点云
1.3 蛋白质结构可视化工具介绍和使用
(a) 蛋白质数据结构文件格式 PDB 介绍
(b) PyMOL:查看和分析蛋白质、DNA 和小分子的 3D 结构
(c) Chimera:综合性分子建模程序,提供多种分析和可视化功能,包括
体积数据的处理。
(d) VMD:一个分子可视化程序,用于使用 3D 图形和内置脚本显示、动
态化和分析大型生物分子系统。
1.4 蛋白质设计的常用评估指标:NSR、RMSD、GDT、能量评分函数、可
溶性、与靶标之间的结合强度和特异性
3. 蛋白质数据库介绍
1.1 一级蛋白质序列数据库:UniProtKB
1.2 一级蛋白质结构数据库:PDB
1.3 二级蛋白质数据库:Pfam,CATH,SCOP2
1.4 专用数据库:KEGG,OMIM
4. 蛋白质设计工具箱介绍
1.1 Rosetta:提供一个灵活的函数库来完成一组不同生物分子的建模任务,
完成对各种生物分子系统的预测、设计和分析,包括蛋白、RNA 和 DNA、肽、
小分子以及非标准或衍生氨基酸。
1.2 Foldit: 一个结合了游戏和科学的蛋白质折叠和设计平台,允许用户通过
游戏界面参与蛋白质设计。
1.3 Bioluminate: 是 Schrödinger 提供的一套生物分子建模和设计工具,包含
蛋白质设计模块。集成了高质量的分子动力学模拟和自由能计算,适用于精准设
计和预测。
1.4 EvoDesign:一个基于进化信息和结构模拟的蛋白质设计工具,主要用于
功能性蛋白质设计。
1.5 OpenFold: 是 AlphaFold2 的开源实现,具有相同的架构,但拥有改进的
速度和内存使用效率。
5. Rosetta 工具箱使用案例:一种基于统计势函数的蛋白质设计方法
1.1 统计势函数的一般定义:基于对已知蛋白质结构的大规模数据库的统计
分析,提取出各种结构特征之间的概率分布。
1.2 蛋白质设计中的统计势函数介绍
(a) 学习 Rosetta 工具箱中统计势函数定义和基本理念
(b) Rosetta 工具箱中能量函数常见项及物理意义
1.3 基于 Rosetta 工具箱中统计势函数的蛋白质设计案例
(a) 使用 Rosetta 工具检查输入的 PDB 文件,预处理,确定设计目标
(b) 执行序列设计实验,使用 Rosetta 的 PackRotamers 协议
(c) 使用 Rosetta 的标准能量函数(包括统计势函数)对设计结果进行能
量评估
第五天 基于深度学习的蛋白质设计进阶
1. 一种基于深度学习的蛋白质序列设计模型 ProteinMPNN
1.1 ProteinMPNN 简介与核心理念:通过深度学习生成具有特定功能的蛋白
质序列
1.2 ProteinMPNN 模型结构与工作原理
(a) ProteinMPNN 技术分析
(b) ProteinMPNN 模型介绍
(c) ProteinMPNN 模型训练与模型推理
1.3 基于 ProteinMPNN 的蛋白质设计应用:设计新型抗菌肽
(a) 实验流程:环境配置,数据准备、模型训练、筛选与验证。
(b) 实验总结:学会如何应用 ProteinMPNN 进行实际的蛋白质设计任务。
2. 从统计分析到深度残差网络的蛋白质结构预测算法
2.1 直接耦合分析和互信息计算:分析蛋白质序列中残基之间的相互作用信
息来推测它们之间的耦合关系或互信息。
2.2 深度残差网络和蛋白质接触图预测:深度残差网络可以用来预测蛋白质
的接触图,即残基之间的接触概率或距离,从而揭示蛋白质的结构信息。
2.3 蛋白质距离矩阵预测:预测蛋白质结构中所有残基对之间的距离或接近
程度。
2.4 图神经网络方法:捕捉蛋白质结构中残基之间复杂的相互作用和依赖关
系。
3. 从几何约束的梯度下降法到端到端深度学习的蛋白结构预测
1.1 梯度下降法和其在蛋白结构优化中的应用概述。
1.2 几何约束如何被集成到梯度下降法中,以实现特定的结构优化目标。
1.3 端到端几何深度学习方法介绍以及在蛋白结构预测中的优势和挑战。
1.4 AlphaFold 等先进模型如何利用端到端深度学习实现高效精准的蛋白质
结构预测。
(a) TrRosetta 介绍:使用了经过调整的残基接触预测方法,通过分析多
序列对应(MSA)和残基间的共进化信息来推断蛋白质的三维结构。
(b) AlphaFold 介绍:使用了端到端的深度学习模型,结合了残基对应、
残基接触预测和结构优化等步骤,以预测蛋白质的三维结构。
(c) RoseTTAFold 介绍:基于 AlphaFold 的技术思路进行开发的一种端到
端几何深度学习方法, 综合利用 MSA、距离和 3D 坐标信息,提高
结构预测的准确性。
4. Alphafold2 详解
4.1 AlphaFold2 的发展背景及其前身 AlphaFold 的演变过程。
4.2 AlphaFold2 的工作原理
(a) 多序列对应(MSA)和残基接触预测:利用多序列对应信息和残基
间的共进化信号来预测蛋白质的三维结构。
(b) Evoformer 架构:介绍 AlphaFold2 中使用的 Evoformer 架构,包括其
在特征提取和结构预测中的应用。
4.3 AlphaFold2 的算法和技术细节
(a) 神经网络架构:AlphaFold2 中的主要神经网络架构和层次结构。
(b) 训练和优化:AlphaFold2 如何通过大规模数据集的训练来优化结构
预测的准确性。
4.4 了解 AlphaFold3 相比于 AlphaFold2 的优势
5. RoseTTAFold 详解
5.1 RoseTTAFold 背景和基本概念
5.2 RoseTTAFold 的工作原理与技术细节
(a) 多序列对应(MSA)和残基接触预测:RoseTTAFold 如何利用多序
列对应信息和残基间的共进化信号来预测蛋白质的三维结构。
(b) 深度神经网络架构:RoseTTAFold 中使用的主要神经网络结构和层
次。
(c) 模型架构和训练:详细介绍 RoseTTAFold 的模型架构,如何训练和
优化模型以提高预测准确性。
5.3 RoseTTAFold 的优势和局限性。
6. 案例演示
6.1 使用 AlphaFold2 进行蛋白质结构在线预测
6.2 使用 RoseTTAFold All-Atom(RFAA)进行蛋白-小分子复合物结构预测
6.3 RoseTTAFold、ProteinMPNN 和 AlphaFold 之间的主要区别
第六天 深度学习蛋白质设计应用实战
1. 基于 AlphaFold2 多体蛋白结构预测与设计
1.1 多序列比对与序列拼接配对问题
(a) 多序列比对在蛋白质结构预测中的关键作用。
(b) 序列拼接配对问题如何影响蛋白质结构预测的准确
(c) AlphaFold2 中模板匹配的原理及其应用范围。
(d) 多肽和蛋白质柔性对接的挑战和解决方案。
2. 基于 AlphaFold2 做蛋白结构和序列新设计及结构聚类
2.1 AlphaFold2 如何实现蛋白质序列和结构的新设计
2.2 结构聚类与新功能发现
(a) Alphadatabase 数据库的结构分析与新功能发现。
(b) 使用 Foldseek 工具进行新结构的探索与功能预测。
3. 基于 AlphaFold2 做多构象预测与质量评估
3.1 多构象预测与功能发现
(a) 多序列比对采样聚类分析在蛋白质多构象预测中的应用。
(b) 不同 MSA 对蛋白质构象预测和功能发现的影响。
3.2 模型质量评估与侧链构象优化
(a) 三角机制如何提升蛋白质模型质量评估的准确性。
(b) 局部三角机制和 Evoformer 在蛋白质侧链构象预测中的应用和效果
评估。
4. RFdiffusion 实现通用性蛋白结构生成
4.1 RFdiffusion 基于指定骨架的蛋白质结构设计核心知识点:
4.2 利用用户提供的特定结构框架进行蛋白质结构设计应用案例:
(a) 无约束单体设计(contigmap):全新骨架的蛋白质结构创新设计,通
过 RFdiffusion 实现从头生成新颖、非同源蛋白质结构;
(b) 特定骨架引导设计 (scaffoldguided):利用已有结构骨架指导蛋白质
结构创新与改造。
5. ProteinGenerator 与 Rosettafold AA 的进阶应用
5.1 ProteinGenerator 实现蛋白质骨架与序列的 co-design
(a) 隐空间中蛋白质序列和结构的联合分布模型。
(b) 与 RFdiffusion 在设计中的异同和比较分析。
5.2 Rosettafold AA 实现多类生物大分子结构预测与生成
(a) 加入小分子结构预测器的 Rosettafold AA 版本。
(b) 将局部坐标系迁移到小分子结构的技术与方法。
6. 一种蛋白质生成模型 Chroma 的基本构架与实现
6.1 Chroma 模型的基本架构和理论背景。
6.2 利用 Chroma 逼近蛋白构象空间全空间采样和生成的方法。
第七天 大语言模型在蛋白质设计中的应用进展
1.蛋白质大预言模型发展现状
1.1 介绍当前基于不同结构的蛋白质语言模型
2. ProGen 介绍
2.1 ProGen 模型构架讲解及其优势
2.2 ProGen 的性能与改进
3. ESMFold 介绍
3.1 ESM 网络构架介绍
3.2 ESMFold 环境配置与使用步骤讲解
3.3 ESMFold 运行结构预测及性能评估
3.4 ESMFold 与 AlphaFold2 方法的对比
4. ProLLaMA:用于多任务蛋白质语言处理的蛋白质大语言模型
4.1 ProLLaMA 模型介绍
4.2 ProLLaMA 训练框架概述及应用特色
5. ProteinBERT:蛋白质序列和功能的通用深度学习模型
5.1 ProteinBERT 方法概述与框架介绍
5.2 ProteinBERT 的优势及应用场景
6. 深度学习算法在多肽设计的应用
6.1 基于 RF diffusion 实现多肽设计
6.2 基于 AlphaFold2 梯度下降进行多肽骨架和序列设计
6.3 多肽对接算法介绍:
(a) 基于 AutoDock 的多肽对接
(b) 基于 AlphaFold2 的多肽柔性对接
(c) 其他对接算法
6.4 基于多肽蛋白复合物训练的深度学习多肽设计算法
二、单细胞多组学课程
课程目标:
1. 掌握单细胞多组学研究思路以及课题设计方法
2. 掌握R语言基本语法以及基本绘图
3. 掌握单细胞转录组基础分析及高级分析
4. 掌握单细胞转录组多样本比较分析
5. 掌握单细胞ATAC数据分析,以及与转录组数据联合分析
6. 掌握单细胞VDJ数据分析,以及与转录组数据联合分析
TEACHER
授课老师
Dr. Li,生物信息学博士,有十余年的测序数据分析经验。研究领域涉及机器学习,芯片数据分析,核酸及蛋白序列分析,DNA,RNA,甲基化测序数据分析,单细胞测序数据分析,miRNA及靶基因分析,癌症相关基因预测及预后分析等,发表SCI论文30余篇,其中一作及并列一作15篇。
向下划动查看全部内容
Day 1
单细胞测序技术发展历程及研究现状
单细胞测序原理及测序平台介绍
单细胞相关数据库介绍
单细胞数据分析流程介绍
单细胞研究思路及案例分享
R语言简介
R语言概述
R软件及R包安装
R语言语法及数据类型
条件语句
循环
函数
Day 2
单样本转录组数据基础分析
数据质控及归一化
降维(PCA, tSNE, UMAP)
聚类分析
鉴定marker基因
细胞亚群注释
功能富集分析
单样本转录组数据高级分析
GSEA分析与GSVA分析
细胞亚群继续分群
细胞周期分析
拟时序分析
细胞通讯分析
代谢分析
RNA velocity分析
h5ad转seurat对象
Day 3
RNAseq与膜表面蛋白数据整合分析
RNAseq分群效果与膜蛋白分群效果比较
RNAseq与膜蛋白数据整合后分群
基因与蛋白表达相关性
多组样本转录组数据分析
质控、归一化
降维、聚类
鉴定marker基因,细胞亚群注释
样本间细胞亚群频率比较
样本间差异表达基因分析
绘制小提琴图、散点图、山脊图、火山图、热图、气泡图、feature plot
Day 4
单细胞ATAC数据分析
细胞亚群peak鉴定
Motif富集分析
motif deviation
转录因子足迹分析
基因富集分析
peak co-accessibility分析
单细胞ATAC拟时序分析
单细胞ATAC与转录组的整合分析
Day 5
单细胞VDJ分析
VDJ分析以及可视化
检测克隆型
克隆型丰度
CDR3组成
比较克隆型
克隆空间稳态
克隆比例
重叠分析
多样性分析
转录组联合VDJ分析
课程案例图片:
三、机器学习代谢组学
课程目标:1.理解代谢生理功能和代谢疾病,熟悉技术及其应用。2.了解代谢组学实验流程、数据处理技巧,以及色谱、质谱和LC-MS技术。3.熟悉关键代谢通路和数据库,利用R软件进行分析和可视化。4.理解机器学习在代谢组学中的作用,掌握R语言进行分析。5.使用R语言进行数据清洗与分析,通过文献解读和复现增强研究创新能力
TEACHER
授课老师
机器学习代谢组学授课老师:
代谢组学老师来自国内985高校,该技术已研究有十余年,有丰富的研究经验,熟悉蛋白质组学、转录组学、代谢组学的原理及数据分析流程,已发表数篇SCI,Nature等顶刊,有丰富的教学经验!
向下划动查看全部内容
第一天
A1代谢物及代谢组学的发展与应用
(1) 代谢生理功能;
(2) 代谢疾病;
(3) 非靶向与靶向代谢组学;
(4) 空间代谢组学与质谱成像(MSI);
(5) 代谢流与机制研究;
(6) 代谢组学与药物和生物标志物。
A2代谢组学实验流程简介
A3色谱、质谱硬件原理
(1) 色谱分析原理;
(2) 色谱的气相、液相和固相;
(3) 色谱仪和色谱柱的选择;
(4) 质谱分析原理及动画演示;
(5) 正、负离子电离模式;
(6) 色谱质谱联用技术;
(7)LC-MS的液相系统
A4代谢物样本处理与抽提
(1)组织、血液和体液样本的提取流程与注意事项;
(2)用ACN抽提代谢物的流程与注意事项;
(3)样本及代谢物的运输与保存问题;
第二天
B1代谢通路及代谢数据库
(1) 几种经典代谢通路简介;
(2) 能量代谢通路;
(3) 三大常见代谢物库:HMDB、METLIN和KEGG;
(4) 代谢组学原始数据库:Metabolomics Workbench和Metabolights.
B2 LC-MS数据质控与搜库
(1)LC-MS实验过程中QC样本的设置方法;
(2)LC-MS上机过程的数据质控监测和分析;
(3) 代谢组学上游分析原理——基于 Compound Discoverer 与 Xcms 软件;
(4)XCMS软件数据转换与提峰;
B3 R软件基础
(1)R和Rstudio的安装;
(2)Rstudio的界面配置;
(3)R的基本数据结构和语法;
(4)下载与加载包;
(5)函数调用和debug;
B4 ggplot2
(1)安装并使用ggplot2
(2)ggplot2的画图哲学;
(3)ggplot2的配色系统;
(4)ggplot2画组合图和火山图;
B5 学习资源分享
(1)代谢组学学习资料
(2)R语言学习资料
第三天
C1机器学习简介
(1)有监督学习与无监督学习
(2)生物信息中十大机器学习算法
C2无监督式机器学习在代谢组学数据处理中的应用
(1)大数据处理中的降维;
(2)PCA分析作图;
(3)三种常见的聚类分析:K-means、层次分析与SOM
(4)热图和hcluster图的R语言实现;
C3一组代谢组学数据的降维与聚类分析的R演练
(1)数据解析;
(2)演练与操作;
C4有监督式机器学习在代谢组学数据处理中的应用
(1)数据用PCA降维处理后仍然无法找到差异怎么办?
(2)PLS-DA找出最可能影响差异的代谢物;
(3)VIP score和coef的意义及选择;
(4)分类算法:支持向量机,随机森林
C5一组代谢组学数据的分类算法实现的R演练
(1)数据解读;
(2)演练与操作;
第四天
D1代谢组学数据清洗与R语言进阶
(1)代谢组学中的t、fold-change和响应值;
(2)数据清洗流程;
(3)R语言tidyverse
(4)R语言正则表达式;
(5)代谢组学数据过滤;
(6)代谢组学数据Scaling原理与R实现;
(7)代谢组学数据的Normalization;
(8)代谢组学数据清洗演练;
D2在线代谢组分析网页Metaboanalyst操作
(1)用R将数据清洗成网页需要的格式;
(2)独立组、配对组和多组的数据格式问题;
(3)Metaboanalyst的pipeline和注意事项;
(4)Metaboanalyst的结果查看和导出;
(5)Metaboanalyst的数据编辑;
(6)全流程演练与操作
第五天
E1机器学习与代谢组学顶刊解读(2-3篇);
(1)代谢组学和机器学习算法预测中国2型糖尿病的未来发展;
(2)机器学习与代谢组学相结合,为胃癌诊断和预后指明方向
(3)1-2篇代谢组学与转录组学和蛋白组学结合的文献。
E2文献数据分析部分复现(1篇)
(1)文献深度解读;
(2)实操:从原始数据下载到图片复现;
(3)学员实操。
授课时间
深度学习蛋白质:
2024.08.17-----2024.08.18全天授课(上午9:00-11:30下午13:30-17:00)
2024.08.23晚上授课(晚上19:00-22:00)
2024.08.24-----2024.08.25全天授课(上午9:00-11:30下午13:30-17:00)
2024.08.30晚上授课(晚上19:00-22:00)
2024.08.31-----2024.09.01全天授课(上午9:00-11:30下午13:30-17:00)
腾讯会议 线上授课(共七天授课时间 提供全程回放视频)
单细胞多组学:
2024.08.03-----2024.08.04全天授课(上午9:00-11:30下午13:30-17:00)
2024.08.05-----2024.08.06晚上授课(晚上19:00-22:00)
2024.08.10-----2024.08.11全天授课(上午9:00-11:30下午13:30-17:00)
腾讯会议 线上授课(共五天授课时间 提供全程回放视频)
机器学习代谢组学:
2024.08.10-----2024.08.11全天授课(上午9:00-11:30下午13:30-17:00)
2024.08.12-----2024.08.13晚上授课(晚上19:00-22:00)
2024.08.17-----2024.08.18全天授课(上午9:00-11:30下午13:30-17:00)
腾讯会议 线上授课(共五天授课时间 提供全程回放视频)
报名费用
深度学习蛋白质设计
公费价:每人每班¥6880元 (含报名费、培训费、资料费提供课后全程回放资料)
自费价:每人每班¥6480元 (含报名费、培训费、资料费提供课后全程回放资料)
单细胞多组学、机器学习代谢组学
公费价:每人每班¥5680元 (含报名费、培训费、资料费提供课后全程回放资料)
自费价:每人每班¥5380元 (含报名费、培训费、资料费提供课后全程回放资料)
优惠政策
优惠一:报二赠一:10880(原价18240元,三门课程都可以学习)
优惠二:提前报名缴费学员+转发到朋友圈或者到学术交流群可享受每人300元优惠(仅限15名)
报名费用可开具正规报销发票及提供相关缴费证明、邀请函,可提前开具报销发票、文件用于报销
培训福利
课后学习完毕提供全程录像视频回放,针对与培训课程内容 进行长期答疑,微信解疑群永不解散,参加本次课程的学员可免费再参加一次本单位后期组织的相同的 专题培训班(任意一期都可以)
报名咨询请扫下方微信二维码
联系人:陈老师
报名咨询电话|18339237911(同微信)
授课方式
授课方式及学员反馈
通过腾讯会议线上直播,从零基础开始讲解,1300余页电子PPT和教程提前发送给学员,所有培训使用软件都会发送给学员,附赠安装教程和指导安装,培训采取开麦共享屏幕和微信群解疑,学员和老师交流、学员与学员交流,培训完毕后老师针对与培训内容长期解疑,培训群不解散,往期培训学员对于培训质量和授课方式一致评价极高
往期学员参会单位
有来自四川大学、四川师范大学、中国科学院大学、西安电子科技大学、陕西科技大学、东北林业大学、渤海大学、海南大学、广西中医药大学、北京化工大学、成都大学、香港浸会大学中医药学院、赣南师范大学、重庆陆军勤务学院、齐鲁工业大学、陕西科技大学、陕西师范大学、中科院大学 、浙江工商大学、成都中医药大学、上海交通大学、哈尔滨商业大学、中国人民解放军海军军医大学、西安电子科技大学、中国农业大学、南昌大学、新疆医科大学、山东农业大学、合肥工业大学、清华大学、华中农业大学、山东理工大学、北京工商大学、河南大学、江苏大学、江南大学、大连工业大学、华南理工大学、华南农业大学、成都中医药大学、东北林业大学、北京大学、浙江大学、浙江工业大学、中南大学、复旦大学、南京农业大学、齐鲁工业大学、东北大学、国防科技大学、江苏海洋大学、华东理工大学、华中科技大学、湖北大学、中国医学科学院、西南大学、中南大学湘雅医院、山西省人民医院、中国药科大学、西安市中医医院、首都医科大学附属北京友谊医院、上海市第十人民医院、协和药物研究所、中国农业科学院基因组研究所、广州中医药大学、上海中医药大学、上海理工大学、成都中医药大学、北京中医药大学、武汉大学、香港大学、安阳工学院、沈阳药科大学、中山大学肿瘤防治中心、山东中医药大学、宁波大学、宁夏大学、山东大学、甘肃中医药大学、医学院附属仁济医院、杭州医学院、广州医科大学附属肿瘤医院等工程师老师学生参会,还有许多因为时间冲突没法参加。这次,我们诚挚邀请您来参加!
引用往期参会学员的一句话:
发现真的是脚踏实地的同时 需要偶尔仰望星空
非常感谢各位对我们培训的认可! 祝愿各位心想事成!
声明:此内容由第三方提供、授权发布或者转载自第三方;本内容一切版权及连带责任由第三方负责,与本公众号无关。据此内容作出的任何判断,后果自负。