轰动学界的Nature重磅进展:生信研究迎来史诗级大爆发

现如今生命科学领域最火的技术之一便是基因编辑,基因编辑领域又属CRISPR系统应用最为广泛,《Nature》2017 年度人物均授予了 CRISPR 相关技术的突破,2020年CRISPR技术获得诺贝奖,短短不到十年时间CRISPR技术荣获最高学术荣誉

随着高通量生物技术的发展,已经开发了多种组学技术来表征不同但互补的生物信息,包括基因组学、表观基因组学、转录组学、微生物组学和代谢组学等,最近的人工智能技术已经从“浅层”学习架构发展到“深度”学习架构。作为人工智能的一个重要分支,机器学习(ML)可以自动学习捕捉复杂的模式,并根据数据做出智能决策。ML在癌症研究和临床肿瘤学中有着非常广泛的应用。特别是,在多组学数据快速增长的推动下,属于ML子领域的基于深度学习(DL)的方法已成为生物医学数据分析的强大工具

计算机辅助药物设计,依据生物化学、酶学、分子生物学以及遗传学等生命科学的研究成果,以计算机化学为基础,通过计算机的模拟、计算和预算药物与受体生物大分子之间的相互作用,考察药物与靶点的结构互补、性质互补等,设计出合理的药物分子。它是设计和优化先导化合物的方法,特别是在食品、生物、化学、医药、植物、疾病方面应泛!靶点的发现与确证是现代新药研发的第一步,也是新药创制过程中的瓶颈之一。

AIDD(AIDrug Discovery & Design):是近年来非常火热的技术应用,且已经介入到新药设计到研发的大部分环节当中,为新药发现与开发带来了极大的助力。随着医药大数据的积累和人工智能技术的发展,运用AI技术并结合大数据的精准药物设计也不断推动着创新药物的发展。一定程度上避免了化合物设计过程中的试错路径,同时还会带来很多全新的结构,为药物发现打破常规的结构壁垒。

139db4ce275c5cd2d054b601776b998e.png

八大培训主题

助力您发顶刊

05d3ddebd6b72706e9c217681f67fe4a.png

MONDAY

e4cf1a205210d21d6b59c38b6e176ffb.png

2cbfcf93a8c4b6736252e15aa8ff7749.png

专题一:CADD计算机辅助药物设计

91cc0d2bfa7a8a0b5a3522e0ac52ebd7.png

专题二:AIDD人工智能药物发现与设计

061977807776a737a6af2cd0ad530167.png

专题三:蛋白质晶体结构解析

e231d8b19bbe9d7a059c5418fc2acbbd.png

专题四:CRISPR-Cas9基因编辑技术

9b4cc6910c123930a60a8ebb037b6e40.png

专题五:深度学习基因组学

69d7c3119fc3759c82005eb85ee5af60.png

MONDAY

2059f14d213c96aad21e8eeef720f65b.png

47007a733011d8983180a6decee12663.png

专题六:机器学习代谢组学

b1563decd88412a5cf87550e80716e0c.png

专题七:机器学习转录组学与表观组学

adab8547234fa93fe27eee4613c3b68b.png

专题八:机器学习微生物组学

ac274e443342ab0ce7608596d27d997a.png

专题一:CADD计算机辅助药物设计

0bf1efd55e605d64a0bbb042dd1a8c4b.png

第一天上午

背景与理论知识以及工具准备

1.PDB数据库的介绍和使用

1.1数据库简介

1.2靶点蛋白的结构查询与选取

1.3靶点蛋白的结构序列下载

1.4靶点蛋白的下载与预处理

1.5批量下载蛋白晶体结构

2.Pymol的介绍与使用

2.1软件基本操作及基本知识介绍

2.2蛋白质-配体相互作用图解

2.3蛋白-配体小分子表面图、静电势表示

2.4蛋白-配体结构叠加与比对

2.5绘制相互作用力

3.notepad的介绍和使用

3.1优势及主要功能介绍

3.2界面和基本操作介绍

3.3插件安装使用

下午

一般的蛋白

-配体分子对接讲解

1.对接的相关理论介绍

1.1分子对接的概念及基本原理

1.2分子对接的基本方法

1.3分子对接的常用软件

1.4分子对接的一般流程

2.常规的蛋白-配体对接

2.1收集受体与配体分子

2.2复合体预构象的处理

2.3准备受体、配体分子

2.4蛋白-配体对接

2.5对接结果的分析

以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例

第二天

虚拟筛选

1.小分子数据库的介绍与下载

2.相关程序的介绍

2.1 openbabel的介绍和使用

2.2 chemdraw的介绍与使用

3.虚拟筛选的前处理

4.虚拟筛选的流程及实战演示

案例:筛选新冠病毒主蛋白酶抑制剂

5.结果分析与作图

6.药物ADME预测

6.1ADME概念介绍

6.2预测相关网站及软件介绍

6.3预测结果的分析

第三天

拓展对接的使用方法

1.蛋白-蛋白对接

1.1蛋白-蛋白对接的应用场景

1.2相关程序的介绍

1.3目标蛋白的收集以及预处理

1.4使用算例进行运算

1.5关键残基的预设

1.6结果的获取与文件类型

1.7结果的分析

以目前火热的靶点

PD-1/PD-L1等为例。

2.涉及金属酶蛋白的对接

2.1金属酶蛋白-配体的背景介绍

2.2蛋白与配体分子的收集与预处理

2.3金属离子的处理

2.4金属辅酶蛋白-配体的对接

2.5结果分析

以人类法尼基转移酶及其抑制剂为例

3.蛋白-多糖分子对接

4.1蛋白-多糖相互作用

4.2对接处理的要点

4.3蛋白-多糖分子对接的流程

4.4蛋白-多糖分子对接

4.5相关结果分析

以α-糖苷转移酶和多糖分子对接为例

5.核酸-小分子对接

5.1核酸-小分子的应用现状

5.2相关的程序介绍

5.3核酸-小分子的结合种类

5.4核酸-小分子对接

5.5相关结果的分析

以人端粒

g -四链和配体分子对接为例。

操作流程介绍及实战演示

第四天

拓展对接的使用方法

1.柔性对接

1.1柔性对接的使用场景介绍

1.2柔性对接的优势

1.3蛋白-配体的柔性对接

重点:柔性残基的设置方法

1.4相关结果的分析

以周期蛋白依赖性激酶

2(CDK2)与配体1CK为例

2.共价对接

2.1两种共价对接方法的介绍

2.1.1柔性侧链法

2.1.2两点吸引子法

2.2蛋白和配体的收集以及预处理

2.3共价药物分子与靶蛋白的共价对接

2.4结果的对比

以目前火热的新冠共价药物为例。

3.蛋白-水合对接

3.1水合作用在蛋白-配体相互作用中的意义及方法介绍

3.2蛋白和配体的收集以及预处理

3.3对接相关参数的准备

重点:水分子的加入和处理

3.4蛋白-水分子-配体对接

3.5结果分析

以乙酰胆碱结合蛋白

(AChBP)与尼古丁复合物为例

第五天

分子动力学模拟(linux与gromacs使用安装)

1. linux系统的介绍和简单使用

1.1 linux常用命令行

1.2 linux上的常用程序安装

1.3体验:如何在linux上进行虚拟筛选

2.分子动力学的理论介绍

2.1分子动力学模拟的原理

2.2分子动力学模拟的方法及相关程序

2.3相关力场的介绍

3.gromacs使用及介绍

重点:主要命令及参数的介绍

4.origin介绍及使用

第六天

溶剂化分子动力学模拟的执行

1.一般的溶剂化蛋白的处理流程

2.蛋白晶体的准备

3.结构的能量最小化

4.对体系的预平衡

5.无限制的分子动力学模拟

6.分子动力学结果展示与解读

以水中的溶菌酶为例

第七天

蛋白-配体分子动力学模拟的执行

1.蛋白-配体在分子动力学模拟的处理流程

2.蛋白晶体的准备

3.蛋白-配体模拟初始构象的准备

4.配体分子力场拓扑文件的准备

4.1高斯的简要介绍

4.2 ambertool的简要介绍

4.3生成小分子的力场参数文件

5.对复合物体系温度和压力分别限制的预平衡

6.无限制的分子动力学模拟

7.分子动力学结果展示与解读

8.轨迹后处理及分析

以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例                                                                  

案例实操图片:

轰动学界的Nature重磅进展:生信研究迎来史诗级大爆发_第1张图片

3bd8f081b53fe23763b5b2beecfdbda1.png

专题二:AIDD人工智能药物发现与设计

47dbea76e57188f9bdcd2babb1b8d992.png

第一天

人工智能与药物发现用工具的介绍与安装

从CADD到AIDD的介绍

1.计算机辅助药物设计(CADD)简介

1.2.分子对接与分子动力学背景介绍

1.3.人工智能药物发现(AIDD)简介

2.机器学习与深度学习在药物发现中的背景介绍

2.1药物发现与设计

2.2基于结构的药物发现与设计

2.3基于配体的药物发现与设计

3.1Anaconda3/Pycharm安装

3.2python 编程基础

3.3Pandas基础

3.4NumPy基础

3.5RDKit基础

3.6Pytorch基础

3.7Tensorflow基础

3.8DeepChem基础

第二天

机器学习与药物发现(分类任务)

1.分类模型的构建与应用

1.1逻辑回归算法原理

1.2朴素贝叶斯算法原理

1.3k最近邻算法原理

1.4支持向量机算法原理

1.5随机森林算法原理

1.6梯度提升算法原理

1.7多层感知机算法原理

1.8特征工程

1.9缺失值填补

2.特征归一化

2.1变量筛选

2.2模型评估方法

2.3交叉验证

2.4外部验证

3.分类模型的常用评价指标

3.1混淆矩阵

3.2准确率

3.3敏感性

3.4特异性

3.5模型选择

3.6格点搜索超参数调优

3.7k折交叉验证

分类模型的实例讲解与练习,以给定数据集为例,讲解基于以上机器学习算法的生物活性或ADMET性质预测模型。引导学员构建自己的数据模型,并用于小分子化合物的活性或ADMET性质预测。

第三天

机器学习与药物发现(回归任务)

1.随机森林回归

2.支持向量机回归

3.XGboost回归

4.多层感知机回归

5.神经网络回归

6.回归模型的常用评价指标

6.1MSE

6.2RMSE

6.3MAE

6.4R2

QSAR/3D-QSAR模型

以给定数据集为例,讲解基于上述几种机器学习算法构建生物活性如pIC50或ADMET性质预测模型。

第四天

深度学习与药物发现

1.深度学习的发展历程与在药物开发中的应用

1.1多层感知机/人工神经网络

1.2基于梯度的学习

1.3反向传播算法

1.4随机梯度下降

1.5卷积神经网络介绍

1.6图神经网络介绍

基于PyTorch的多层感知机算法的实例讲解与练习

以给定数据集为例,讲解基于多层感知机的化合物性质预测模型。

以给定数据集为例,讲解基于卷积神经网络的化合物图像预测分类模型。

以给定数据集为例,讲解基于图神经网络对化合物的毒性分类预测模型

第五天

分子生成模型

1.生成式对抗网络(GANs)的基本原理

1.2生成器

1.3判别器

1.4循环神经网络(RNN)

1.5长短期记忆网络(LSTM)

2.基于上下文的循环神经网络序列建模

3.基于字符串的小分子化合物生成模型

4.基于图数据的小分子化合物生成模型

实例讲解与练习,以给定数据集为例,构建分子生成模型。

案例实操图片:

轰动学界的Nature重磅进展:生信研究迎来史诗级大爆发_第2张图片

轰动学界的Nature重磅进展:生信研究迎来史诗级大爆发_第3张图片

ca460bc07cf9526021b53c1547f8107d.png

专题三:蛋白质晶体结构解析

f926b021f96401d9029764b969b6f892.png

第一天

蛋白质结晶前准备

1. 目的蛋白质信息检索(包括实操演示)

1.1 不同种属的蛋白

1.2 蛋白质一级结构的调查

1.3 蛋白质三级结构的预测

1.4 蛋白质理化特性的预测

1.5 蛋白质的配体和共价修饰

2. 分子克隆技术

2.1 目的基因的获取(包括实操演示)

2.2 目的基因的引物设计(包括实操演示)

2.3 传统克隆技术(涉及学习SnapGene软件,包括实操演示)

2.4 无缝克隆技术(涉及学习SnapGene软件,包括实操演示)

以某一基因进行操作演示

3. 利用大肠杆菌表达目的蛋白

3.1 目的蛋白的小量鉴定表达

3.2 目的蛋白的大量表达

3.3 收菌和裂解菌体

3.4 裂解液的离心

3.5 目的蛋白的浓缩

3.6 目的蛋白浓度的测定

4. 真核表达系统

第二天

蛋白质结晶准备

1.蛋白晶体结构的特征

1.1蛋白晶体的空间格子、晶胞和晶面指标

1.2蛋白晶体的对称性、点群、晶系和空间群

2. 蛋白质晶体生长的理论知识(详细讲解温度、pH值、离子强度、有机溶剂、沉淀剂,等等,对蛋白晶体生长的影响;影响蛋白质晶型的因素)

3. 蛋白质晶体生长条件的初筛(详细讲解晶体初筛的注意事项)

4. 蛋白质晶体生长条件的优化 (详细讲解晶体优化的方法,包括改变pH值、沉淀剂,等因素)

5. 晶种法优化蛋白质晶体生长条件

6. 蛋白晶体的挑选和防冻液的配制

第三天

蛋白晶体衍射数据收集

1.X射线衍射

1.1. X射线衍射原理

1.2. X射线衍射的电子密度

1.3. 晶体结构解析的相角问题

2. 上海光源线站BL18U1、BL19U1和BL02U1收集数据的方法 (重点详细讲解,可能需要更长的时间)

3. 蛋白晶体结构解析软件的安装(包括Ubuntu系统、Phenix软件、CCP4软件、PyMoL软件、XDS软件和Adxv软件)

第四天

蛋白晶体结构解析

  1. 1. 晶体结构的解析

  2. 1.1. 晶体结构解析流程

  3. 1.2. Index、Intergrate和Scale

  4. 1.3. 分子置换技术(包括实操演示)

  5. 1.4. 蛋白晶体结构的重建(包括实操演示)

  6. 1.5. 蛋白晶体结构的优化(包括实操演示)

  7. 2. 晶体结构的精修(涉及COOT软件、Phenix软件和CCP4软件,包括实操演示)

  8. 3. 晶体结构质量的评价指标(详细讲解各个评价指标)

  9. 4. 蛋白质结构中加入小分子配体

  10. 5. 在结构解析过程中,如何利用软件提高分辨率(重点讲解,需要较长的时间)

第五天

蛋白晶体结构的提交及展示

1. 从晶体生长到解析,详细剖析提高分辨率的方法(包括示例演示)

2. 蛋白晶体结构数据提交到PDB(包括实操演示)

3. 蛋白晶体结构的展示(包括实操演示)

案例实操图片:

轰动学界的Nature重磅进展:生信研究迎来史诗级大爆发_第4张图片

轰动学界的Nature重磅进展:生信研究迎来史诗级大爆发_第5张图片

638f2d040cd3b1911076cdad583a318f.png

专题四:CRISPR-Cas9基因编辑

7548865b730ad8cea380ccac0fcd7176.png

第一天

一. 基因编辑工具介绍

1. 基因编辑和转基因是一样的吗?

2. 生活中的基因编辑与转基因产品

3. 基因编辑工具先驱-ZFNs和TALENs

4. 没落的ZFNs和TALENs

5. TALENs,旧工具新用,细胞器编辑利器!

6. 强势崛起的CRISPR系统

7. CRISPR系统家族介绍

8. CRISPR-Cas9的工作原理

9. CRISPR-Cas12的工作原理

10. CRISPR系统的致命缺点

11. 如何选择合适的CRISPR系统?

轰动学界的Nature重磅进展:生信研究迎来史诗级大爆发_第6张图片

第二至三天

二. CRISPR系统可以做什么?

1. 基因敲除/基因敲入

i. 基因修复途径介绍(NHEJ和HDR)

ii. Knock-in和Knock-out的简介

iii. Knock-in策略简介(HDR/Retron/双pegRNA策略/GRAND/TJ-PE)                               

2. 多敲系统简介

3. CRISPRa/CRISPRi(基因激活与基因抑制)

i. dCas9-PVPR系统介绍

ii. dCas9-VP64/GI/SAM基因激活系统介绍

iii. 基因编辑招募系统介绍(Suntag/Moontag)

4. CRISPR系统的‘另类’应用(循环打靶)

5. CBE系统的原理及其应用

i. CBE系统进化过程总结(CBEmax/每代优化的元件及策略汇总)

ii. 基因组CBE编辑(植物育种/基因功能研究/临床治疗)

iii. 细胞器CBE编辑工具介绍(Ddda脱氨酶/MutH切口酶)

iv. CBE系统的脱靶效应

6. ABE系统的原理及其应用

i. PACE和PANCE人工定向蛋白进化系统介绍及其他常规的蛋白进化技术

ii. ABE系统的进化过程总结(ABEmax/ABE8e每代优化的元件及策略汇总)

iii. ABE系统的‘另类’应用(基因失活/跳剪/介导C编辑)

iv. 双碱基编辑系统(SWISS/STEME/A&C-BEmax/SPACE/ACBE)

7. PE系统的原理及其应用

i. PE介导精准编辑

ii. 编辑效率的影响因素(骨架二级结构/PBS长度/RTT模板)

iii. 双pegRNA的原理及其应用(基因组大片段插入)

iv. 基因组大片段删除

v. 用于AAV递送的PE系统

8. gGBE的原理及其应用

i. 糖基化酶介绍(为什么可以介导碱基编辑?)

ii. gGBE的开发与应用

iii. gGBE的后续发展预测

9. CRISPR-Case12的病毒检测应用

i. 原理介绍

ii. 应用案例介绍

 轰动学界的Nature重磅进展:生信研究迎来史诗级大爆发_第7张图片

第四天

三. CRISPR载体构建(实操)

1. 敲除/碱基编辑载体构建

i. 工具介绍

ii. 如何查看质粒图谱

iii. 基因靶点的选择(CRISPR-GE等线上工具展示)

iv. sgRNA的引物设计

v. 模拟构建(酶切载体/构建体系讲解)

vi. 菌落PCR

vii. 测序鉴定结果分析

2. PE系统的载体构建

i. 引物设计工具的应用

ii. 载体构建演示

iii. 测序结果分析

3. 转染阳性检测

4. 测序原理及结果查看

i. 一代测序原理

ii. Hi-TOM高通量测序

 轰动学界的Nature重磅进展:生信研究迎来史诗级大爆发_第8张图片

 轰动学界的Nature重磅进展:生信研究迎来史诗级大爆发_第9张图片

第五天

四. 基因编辑在植物种的应用

1. 基因功能研究

2. 创制新品种

五. 基因编辑在临床上的应用

1. 碱基编辑的临床应用

2. PE系统的临床应用

3. 递送系统的介绍

六. 基因编辑在微生物中的应用

1. 微生物遗传学研究

2. 生物技术(可产生生物燃料/生物塑料/药物等有用的化合物)

七. 机器学习在基因编辑领域的应用

1. 基因编辑结果的预测

2. 编辑效率影响因素的探索

3.基因编辑辅助工具的开发                                                                                                轰动学界的Nature重磅进展:生信研究迎来史诗级大爆发_第10张图片

12c09f7a2b1635140a31cc0519f9e6ba.png

专题五:深度学习基因组学

bf06b9715adf13d9794ac507cead4727.png

第一天

理论部分

深度学习算法介绍

1.有监督学习的神经网络算法

1.1全连接深度神经网络DNN在基因组学中的应用举例

1.2卷积神经网络CNN在基因组学中的应用举例

1.3循环神经网络RNN在基因组学中的应用举例

1.4图卷积神经网络GCN在基因组学中的应用举例

2.无监督的神经网络算法

2.1自动编码器AE在基因组学中的应用举例

2.2生成对抗网络GAN在基因组学中的应用举例

实操内容

1.Linux操作系统

1.1常用的Linux命令

1.2 Vim编辑器

1.3基因组数据文件管理修改文件权限

1.4查看探索基因组区域

2.Python语言基础

2.1.Python包安装和环境搭建

2.2.常见的数据结构和数据类型

第二天

理论部分

基因组学基础

1.基因组数据库

2.表观基因组

3.转录基因组

4.蛋白质组

5.功能基因组

实操内容

基因组常用深度学习框架

1.安装并介绍深度学习工具包tensorflow, keraspytorch

2.在工具包中识别深度学习模型要素

2.1.数据表示

2.2.张量运算

2.3.神经网络中的“层”

2.4.由层构成的模型

2.5.损失函数与优化器

2.6.数据集分割

2.7.过拟合与欠拟合

3.基因组数据处理

3.1安装并使用keras_dna处理各种基因序列数据如BED GFFGTFBIGWIGBEDGRAPHWIG

3.2使用keras_dna设计深度学习模型

3.3使用keras_dna分割训练集、测试集

3.4使用keras_dna选取特定染色体的基因序列等

4.深度神经网络DNN在识别基序特征中应用

4.1实现单层单过滤器DNN识别基序

4.2实现多层单过滤器DNN识别基序

4.3实现多层多过滤器DNN识别基序

第三天

理论部分

卷积神经网络CNN在基因调控预测中的应用

1.Chip-Seq中识别基序特征G4,如DeepG4

2.Chip-Seq中预测DNA甲基化,DeepSEA

3.Chip-Seq中预测转录调控因子结合,DeepSEA

4.DNase-seq中预测染色体亲和性,Basset

5.DNase-seq中预测基因表达eQTLEnformer

实操内容

复现卷积神经网络CNN识别基序特征DeepG4、非编码基因突变DeepSEA,预测染色体亲和性Basset,基因表达eQTL

1.复现DeepG4Chip-Seq中识别G4特征

2.安装selene_sdk,复现DeepSEAChip-Seq中预测DNA甲基化,非编码基因突变

3.复现Basset,从Chip-Seq中预测染色体亲和性

4.复现Enformer,从Chip-Seq中预测基因表达eQTL

第四天

理论部分

深度学习在识别拷贝数变异DeepCNV、调控因子DeepFactor上的应用

1.SNP微阵列中预测拷贝数变异CNVDeepCNV

2.RNA-Seq中预测premiRNAdnnMiRPre

3.从蛋白序列中预测调控因子蛋白质,DeepFactor

实操内容

1.复现DeepCNV利用SNP微阵列联合图像分析识别拷贝数变异

2.复现循环神经网络RNN工具 dnnMiRPre,从RNA-Seq中预测premiRNA

3.复现DeepFactor,从蛋白序列中识别转录调控因子蛋白质

第五天

理论部分

深度学习在识别及疾病表型及生物标志物上的应用

1.从基因表达数据中识别乳腺癌分型的深度学习工具DeepType

2.从高维多组学数据中识别疾病表型,XOmiVAE

3.基因序列及蛋白质相互作用网络中识别关键基因的深度学习工具DeepHE

实操内容

1.复现DeepType,从METABRIC乳腺癌数据中区分乳腺癌亚型

2.复现XOmiVAE,从TCGA多维数据库中识别乳腺癌亚型

3.复现DeepHE利用基因序列及蛋白质相互作用网络识别关键基因

第六天

理论部分

深度学习在预测药物反应机制上的应用

1.联合肿瘤基因标记及药物分子结构预测药物反应机制的深度学习工具SWnet

实操内容

1.预处理药物分子结构信息

2.计算药物相似性

3.在不同数据集上构建self-attention SWnet

4.评估self-attention SWnet

5.构建多任务的SWnet

6.构建单层SWnet

7.构建带权值层的SWnet         

案例图片:

轰动学界的Nature重磅进展:生信研究迎来史诗级大爆发_第11张图片

6816bc2754756028ef26530073744c8d.png

专题六:机器学习代谢组学

2c4fb303b1f88b7bb1eee11f3647375e.png

第一天

A1 代谢物及代谢组学的发展与应用

(1) 代谢生理功能;

(2) 代谢疾病;

(3) 非靶向与靶向代谢组学;

(4) 空间代谢组学与质谱成像(MSI);

(5) 代谢流与机制研究;

(6) 代谢组学与药物和生物标志物。

A2 代谢组学实验流程简介

A3 色谱、质谱硬件原理

(1) 色谱分析原理;

(2) 色谱的气相、液相和固相;

(3) 色谱仪和色谱柱的选择;

(4) 质谱分析原理及动画演示;

(5) 正、负离子电离模式;

(6) 色谱质谱联用技术;

(7) LC-MS 的液相系统

A4 代谢通路及代谢数据库

(1) 几种经典代谢通路简介;

(2) 能量代谢通路;

3) 三大常见代谢物库:HMDBMETLIN  KEGG;

4) 代谢组学原始数据库:Metabolomics Workbench Metabolights.

第二天

B1 代谢物样本处理与抽提

(1)组织、血液和体液样本的提取流程与注意事项;

(2)用 ACN 抽提代谢物的流程与注意事项;

(3)样本及代谢物的运输与保存问题;

B2 LC-MS数据质控与搜库

(1)LC-MS 实验过程中 QC 样本的设置方法;

(2)LC-MS 上机过程的数据质控监测和分析;

(3)XCMS 软件数据转换与提峰;

B3 R软件基础

(1)R 和 Rstudio 的安装;

(2)Rstudio 的界面配置;

(3)R 的基本数据结构和语法;

(4)下载与加载包;

(5)函数调用和 debug;

B4 ggplot2

1)安装并使用 ggplot2

(2)ggplot2 的画图哲学;

(3)ggplot2 的配色系统;

(4)ggplot2 画组合图和火山图;

第三天

机器学习

C1无监督式机器学习在代谢组学数据处理中的应用

(1)大数据处理中的降维;

(2)PCA 分析作图;

3)三种常见的聚类分析:K-means、层次分析与 SOM

(4)热图和 hcluster 图的 R 语言实现;

C2一组代谢组学数据的降维与聚类分析的 R 演练

(1)数据解析;

(2)演练与操作;

C3有监督式机器学习在代谢组学数据处理中的应用

(1)数据用 PCA 降维处理后仍然无法找到差异怎么办?

(2)PLS-DA 找出最可能影响差异的代谢物;

(3)VIP score 和 coef 的意义及选择;

(4)分类算法:支持向量机,随机森林

C4一组代谢组学数据的分类算法实现的 R 演练

(1)数据解读;

(2)演练与操作;

第四天

D1 代谢组学数据清洗与 R 语言进阶

(1)代谢组学中的 t、fold-change 和响应值;

(2)数据清洗流程;

3语言 tidyverse

(4)R 语言正则表达式;

(5)代谢组学数据过滤;

(6)代谢组学数据 Scaling 原理与 R 实现;

(7)代谢组学数据的 Normalization;

(8)代谢组学数据清洗演练;

D2在线代谢组分析网页 Metaboanalyst 操作

(1)用 R 将数据清洗成网页需要的格式;

(2)独立组、配对组和多组的数据格式问题;

(3)Metaboanalyst 的 pipeline 和注意事项;

(4)Metaboanalyst 的结果查看和导出;

(5)Metaboanalyst 的数据编辑;

(6)全流程演练与操作

第五天

E1机器学习与代谢组学顶刊解读(2-3 篇);

(1)Nature Communication 一篇代谢组学小鼠脑组织样本 database 类型的文献;

(2)Cell 一篇代谢组学患者血液样本的机器学习与疾病判断的文献;

(3)1-2 篇代谢组学与转录组学和蛋白组学结合的文献。

E2 文献数据分析部分复现(篇)

(1)文献深度解读;

(2)实操:从原始数据下载到图片复现;

(3) 学员实操。                                                                                                          

案例图片:

轰动学界的Nature重磅进展:生信研究迎来史诗级大爆发_第12张图片

ad0687133e99c4523f8a6d7b464ec02e.png

专题七:机器学习转录与表观组学

52c7b4fd18a19920ed782207aaf69039.png

第一天

理论部分

高通量测序原理

高通量测序基础

测序方法及数据

二代测序数据分析流程

实操内容

R语言基础

R(4.1.3)和Rstudio的安装

R包安装和环境搭建

数据结构和数据类型

R语言基本函数

数据下载

数据读入与输出

第二天

理论部分

多组学基础

常用生物组学实验与分析方法

常用组学数据库介绍

批量处理组学数据

生物功能分析

基于转录组学的差异基因筛选,疾病预测

组学数据可视化

实操内容

Linux操作系统

Linux操作系统的安装与设置

网络配置与服务进程管理

Linux的远程登录管理

常用的Linux命令

在Linux下获取基因数据

利用Linux探索基因组区域

Shell script与Vim编辑器

基因组文件下载与上传

Linux权限管理

文件的身份

修改文件的所有者和所属组

修改文件权限

第三天

理论部分

介绍转录组学的基本概念和研究流程

RNA-seq数据的预处理和质量控制

序列比对和对齐评估

基因表达量估计和差异表达分析

实操内容

转录组测序数据质量控制

转录组数据比对

RNA-seq数据原始定量

主成分分析

原始定量结果差异分析

差异结果筛选及可视化

GO和KEGG通路富集分析

GSEA基因集富集分析

第四天

理论部分

表观遗传学的基本概念和技术介绍

DNA甲基化和组蛋白修饰的分析方法

表观组数据的预处理和质量控制

差异甲基化和差异修饰分析

甲基化和修饰的功能注释和富集分析

甲基化数据的整合分析和基因调控网络构建

表观组数据的可视化方法和工具

介绍其他表观组学技术(如染色质构象捕获)

实操内容

测序数据质量控制和检查

数据比对和多匹配问题

计算结合峰位置

IGV中组学结果可视化

差异peaks分析

结合程度矩阵计算

富集热图和曲线图绘制

第五天

理论部分

机器学习概述

线性模型

决策树

支持向量机

集成学习

模型选择与性能优化

实操内容

决策树算法实现

随机森林算法实现

支持向量机(SVM)算法实现

朴素贝叶斯算法实现

Xgboost算法实现

聚类算法实现

DBSCAN算法实现

层次聚类算法实现

第六天

理论部分

基因功能注释和富集分析

WGCNA(Weighted Gene Co-expression Network Analysis)网络分析

转录因子分析和调控网络构建

转录组数据的可视化方法和工具

转录水平预测蛋白翻译水平

实操内容

创建Seurat对象

数据质控

测序深度差异及标准化

单细胞数据降维

批次效应去除

数据整合

亚群注释

GSVA通路活性分析

单细胞富集分析                                                                                                        

案例图片:

轰动学界的Nature重磅进展:生信研究迎来史诗级大爆发_第13张图片

148c649fe96f9d0a2e52aaf58e82d488.png

专题八:机器学习微生物组学

35a729f54192dd3892980379160341fe.png

第一天

 机器学习及微生物学简介

1. 机器学习基本概念介绍

 2. 常用机器学习模型介绍(GLM,BF,SVM,lasso,KNN等等)

 3. 混淆矩阵

 4. ROC曲线

 5. 主成分分析(PCA

 6. 微生物学基本概念

 7. 微生物学常用分析介绍

R语言简介及实操

 1.R语言概述

 2.R软件及R包安装

 3.R语言语法及数据类型

 4.条件语句

 5.循环

第二天

机器学习在微生物学中的应用案例分享

1.利用机器学习基于微生物组学数据预测宿主表

 2.利用机器学习基于微生物组学数据预测疾病状态

 3.利用机器学习预测微生物风险

 4.机器学习研究饮食对肠道微生物的影响

微生物学常用分析(实操)

 1. 微生物丰度分析

 2. α-diversity,β-diversity分析

 3. 进化树构建

 4. 降维分析

 5. 基于OTU的差异表达分析,热图,箱型图绘制微生物biomarker鉴定

第三天(实操)

零代码工具利用机器学习分析微生物组学数据

1. 加载数据及数据归一化

 2. 构建训练模型(GLM, RF, SVM

 3. 模型参数优化

 4. 模型错误率曲线绘制

 5. 混淆矩阵计算

 6. 重要特征筛选

 7. 模型验证,ROC曲线绘制利用模型进行预测

第四天(实操)

利用机器学习基于微生物组学数据预测宿主表型(二分类变量以及连续变量)

1. 加载数据(三套数据)

 2. 数据归一化

 3. OUT特征处理

 4. 机器学习模型构建(RF, KNN, SVM, Lasso9种机器学习方法)

 5. 5倍交叉验证

 6. 绘制ROC 曲线,比较不同机器学习模型模型性能评估

第五天(实操)

利用机器学习预测微生物风险(多分类)

1.加载数据

2.机器学习模型构建(RF, gbm, SVM, LogitBoost等等)

3.10倍交叉验证

4.模型性能评估

利用机器学习预测刺激前后肠道菌群变化

1.数据加载及预处理

2.α-diversity,β-diversity分析

3. RF模型构建(比较分别基于OUTKOphylum的模型效果)

4.10倍交叉验证留一法验证

5.特征筛选及重要特征可视化外部数据测试模型                                                                  

案例图片:

轰动学界的Nature重磅进展:生信研究迎来史诗级大爆发_第14张图片

f37ae9ee1247aafabb54ed78426ac7b6.png

培训目标

f7c8331206a9c0844be7ad35f25f41c4.png

8ec883eabbc82b5baaff01840c0e0d06.png

1f7701c80be4054798d89505f4c2c6c2.png

      CADD计算机辅助药物设计设计流程:让学员能够掌握包括PDB数据库、靶点蛋白、蛋白质-配体、蛋白-配体小分子、蛋白-配体结构、notepad的介绍和使用、分子对接、蛋白-配体对接、虚拟筛选、蛋白-蛋白对接、蛋白-多糖分子对接、蛋白-水合对接、Linux安装、gromacs分子动力学全程实操、溶剂化分子动力学模拟

      AIDD人工智能药物发现与设计:本课程让学员了解药物发现的前沿背景,学习人工智能领域的各类常见算法,熟悉工具包的安装与使用,掌握一定的算法编程能力,能够运用计算机方法研究药物相关问题。通过大量的案例讲解和实践操作,具备一定的AIDD模型构建和数据分析能力

      蛋白质晶体结构解析:近年来结构生物学发展迅速并和其他学科相互渗透交叉,特别是受到结构基因组学等热点学科的极大带动。作为结构生物学的基本手段和技术,蛋白质晶体学从解析简单的蛋白质三维结构延伸到解决各类生物大分子及复合物结构,并更加注重研究结构与功能之间的相互关系,派生出诸如基于结构的药物设计等应用性很强的分支。生物技术及计算机技术的飞速发展,尤其是高通量技术在生物学领域的应用,为蛋白质晶体学带来了全新的概念和更加广阔的前景。

      CRISPR-Cas9基因编辑技术专题:课程从全局出发,由浅入深,课程通过基础入门+应用案例实操演练的方式,从最初的原理讲解到最后的应用实战,学完本课程你将掌握基因编辑技术的相关原理及其应用,此外可以学到基因编辑系统的优化策略,可以学到如何操作常用的生物学软件。能够快速运用到自己的科研项目和课题上。

       深度学习基因组学:课程从全局出发,由浅入深,课程通过基础入门+应用案例实操演练的方式,从最初的原理讲解到最后的应用实战,学完本课程你将掌握基因编辑技术的相关原理及其应用,此外可以学到基因编辑系统的优化策略,可以学到如何操作常用的生物学软件。能够快速运用到自己的科研项目和课题上。

70724d81e89dd9569826051d488ba92a.png

3e9641f83076264b2a665e21910276b6.png

a4f36f7ec646c5a2ed304bd9ed544c8f.png

     机器学习代谢组学:熟悉代谢组学和机器学习相关硬件和软件;熟悉代谢组学从样本处理到数据分析的全流程;能复现至少1篇CNS或子刊级别的代谢组学文章图片。

     机器学习转录组学与表观组学:本课程学员将学习如何处理和分析转录组和表观组数据,并深入了解这两个领域的关键概念和最新发展。课程内容包括Linux操作系统的基础知识和常用命令行技巧,R编程语言的应用,转录组数据的预处理和差异表达分析,表观组数据的分析方法,以及综合应用和实际项目实践。此外,课程还注重培养学员独立进行转录组和表观组学研究的能力,为他们在这一领域的进一步发展和应用打下坚实的基础。

      机器学习微生物组学:通过本次培训多个案例的系统讲解让参会学员学会机器学习在微生物组数据分析流程,能够快速运用到自己的科研项目和课题上。

d67e9dea3733cc92587fb3955deddec8.png

2658b82991ec9a099149dec3a7400fe6.png

讲师简介

e89bb080a4fe1b100d6dd1b91449bff9.png

40fd5c6e3fdf9b2278759d746edf393f.png

ba7a7966a7eb1966c15a0b955fd5881b.png

       CADD主讲老师来自国内高校、中科院等单位,老师主要擅长深度学习、机器学习、药物虚拟筛选、计算机辅助药物设计、人工智能药物发现、分子对接、分子动力学等方面的研究

      AIDD授课老师老师,有十余年的计算机算法研究和程序设计经验。研究方向涉及生物信息学,深度学习,药物靶标识别,药物不良反应等。参与了国自然基金2项,主持了省厅级科研项目3项。一作身份发表SCI论文数篇,包括BMC Bioinformatics, Journal of Biomedical Informatics, International Journal of Molecular Sciences等知名期刊。

      蛋白质晶体结构解析主讲老师为国内985、双一流大学,主要擅长多种分子克隆技术、深度学习、机器学习、蛋白质的表达纯化、蛋白晶体的生长及优化、Ubuntu系统操作、蛋白晶体结构的解析及精修。

      主讲老师来自中国农业科学院,有十余年基因编辑研究经验,熟悉基因编辑在各个领域应用,在基因编辑系统的开发与优化深耕多年,已发表数十篇SCI,有丰富的教学经验!
       主讲老师刘老师,生物信息学博士,有十余年的测序数据分析经验。研究领域涉及人工智能、自然语言处理、功能基因组学、转录组学、miRNA及靶基因网络分析,单细胞测序数据分析,基因调控网络时序分析,蛋白质互作网络分析,多组学联合分析等。主持省自然科学基金等项目4项,出版医学实用教材《Python医学实战分析》,发表SCI论文22篇,其中一作及并列一作9篇。

       机器学习代谢组学主讲老师来自985高校神经科学博士,主要利用代谢组学、转录组学和分子生物学等技术研究神经内科慢性病的发病机制和生物标志物。擅长高效液相色谱-质谱联用(LC-MS)技术进行非靶向和靶向代谢组学从样本制备到数据分析的全流程研究,以及多组学大数据的生物信息学整合分析。5年内在J Clin Invest, EBioMedicine, Cell Death Dis, Cell Death Discov, Nanotoxicology等杂志发表SCI论文10篇。

       主讲老师来自国内高校陈老师授课。在国内外学术刊物发表论文数篇,包括NatureCommunication,CellRegeneration等知名期刊,研究方向主要为生物信息学,发育生物学和遗传学等。利用多组学数据,通过深度学习算法进行数据分析和挖掘,包括ChIP-seq,ATAC-seq,RNA-seq,CNV等,解决并回答领域内多个基础的生物学机制。

      机器学习微生物来自国内高校李老师授课,有十余年的蛋白质组及微生物组数据分析经验。研究领域涉及机器学习,芯片数据分析,蛋白质组数据分析,DNA,RNA,甲基化测序数据分析,单细胞测序数据分析,miRNA及靶基因分析等,发表SCI论文30余篇,其中一作及并列一作15篇。

25dc80cbe20a271f16e4533264817369.png

75ab75693f6c0f3f934cab76b6bf2c9f.png

培训特色及福利

9d128d21c7f400d7e684ee0cf9390db3.png

d84036c168f46005b188909fa6eded52.png

学员好评截图

f1d022d53358c8ad97090c728f18b6ea.png

35a43e87c05d810e765a99ad69fadcc6.png

轰动学界的Nature重磅进展:生信研究迎来史诗级大爆发_第15张图片

轰动学界的Nature重磅进展:生信研究迎来史诗级大爆发_第16张图片

c843e6964467869aae9bd876aa28b486.png

课程特色

1、课程特色--全面的课程技术应用、原理流程、实例联系全贯穿

2、学习模式--理论知识与上机操作相结合,让零基础学员快速熟练掌握

3、课程服务答疑--主讲老师将为您实际工作中遇到的问题提供专业解答

福利及授课方式:

福利:报名缴费成功赠送报名班型全套预习视频,课后学习完毕提供全程录像视频回放,针对与培训课程内容进行长期答疑,微信解疑群永不解散,参加本次课程的学员可免费再参加一次本单位后期组织的相同的专题培训班(任意一期都可以)

        授课方式:通过腾讯会议线上直播,理论+实操的授课模式,老师手把手带着操作,从零基础开始讲解,电子PPT和教程开课前一周提前发送给学员,所有培训使用软件都会发送给学员,有什么疑问采取开麦共享屏幕和微信群解疑,学员和老师交流、学员与学员交流,培训完毕后老师长期解疑,培训群不解散,往期培训学员对于培训质量和授课方式一致评价极高!

4534a01f3ab7f73f7e5fd767adb2f10c.png

授课时间及地点

0eb0675b119b1ac438541070c17ddef4.png

6d9b2b884aa0e944d8f1f2bd9c39d0bd.png

b9172126a00da6d28fa4cdaf34b5a872.png

CADD计算机辅助药物设计专题

2023.09.16 -----2023.09.17 全天授课(上午09.00-11.30 下午13.30-17.00)

2023.09.19-----2023.09.22晚上授课(晚上19.00-22.00)

2023.09.23-----2023.09.24全天授课(上午09.00-11.30 下午13.30-17.00)

2023.09.26-----2023.09.27晚上授课(晚上19.00-22.00)

AIDD人工智能药物发现与设计专题

2023.09.23 -----2023.09.24 全天授课(上午09.00-11.30 下午13.30-17.00)

2023.09.27-----2023.09.28晚上授课(晚上19.00-22.00)

2023.10.07-----2023.10.08晚上授课(晚上19.00-22.00)

2023.10.11-----2023.10.12晚上授课(晚上19.00-22.00)

蛋白质晶体结构解析

2023.09.23 -----2023.09.24 全天授课(上午09.00-11.30 下午13.30-17.00)

2023.09.27-----2023.09.28晚上授课(晚上19.00-22.00)

2023.10.7-----2023.10.8晚上授课(晚上19.00-22.00)

2023.10.11-----2023.10.12晚上授课(晚上19.00-22.00)

CRISPR-Cas9基因编辑

2023.09.16----2023.09.17全天授课(上午09.00-11.30 下午13.30-17.00)

2023.09.19----2023.09.20晚上授课 (晚上 19.30-22.30)

2023.10.14----2023.10.15全天授课(上午09.00-11.30 下午13.30-17.00)

深度学习基因组学

2023.09.16——2023.09.17全天授课(上午 09.00-11.30 下午 13.30-17.00)

2023.09.23——2023.09.24全天授课(上午 09.00-11.30 下午 13.30-17.00)

2023.10.14——2023.10.15全天授课(上午 09.00-11.30 下午 13.30-17.00)

机器学习代谢组学

2023.09.16----2023.09.17全天授课(上午09.00-11.30 下午13.30-17.00)

2023.09.20----2023.09.21晚上授课 (晚上 19.00-22.00)

2023.09.23----2023.09.24全天授课(上午09.00-11.30 下午13.30-17.00)

机器学习转录组学与表观组学

2023.09.16----2023.09.17全天授课(上午09.00-11.30 下午13.30-17.00)

2023.09.19----2023.09.22晚上授课 (晚上 19.00-22.00)

2023.09.23----2023.09.24全天授课(上午09.00-11.30 下午13.30-17.00)

机器学习微生物组学

2023.09.23—2023.09.24全天授课(上午 09.00-11.30 下午 13.30-17.00)

2023.09.25----2023.09.26晚上授课 (晚上 19.00-22.00)

2023.10.12----2023.10.13晚上授课 (晚上 19.00-22.00)

2023.10.14全天授课(上午 09.00-11.30 下午 13.30-17.00)

线上授课地点:腾讯会议

adf5c6f7d01c816ae43caf7a392e18f2.png

0e6f8fd4af65bb3d07411b471a1d0935.png

报名费用

60a930c1ab77af1784592cacb00a0d89.png

ea7844499f5677c926d12680b3e12ef6.png

7053905bea0e3ae6a2631b47efe137de.png

蛋白质晶体结构解析;深度学习基因组学;

机器学习转录组学与表观组学;AIDD人工智能药物发现与设计;  

CADD计算机辅助药物设计;

公费价:每人每班¥5880元 (含报名费、培训费、资料费)

自费价:每人每班¥5480元 (含报名费、培训费、资料费)

CRISPR-Cas9基因编辑技术;机器学习代谢组学;

机器学习微生物组学;

公费价:每人每班¥4680元 (含报名费、培训费、资料费)

自费价:每人每班¥4280元 (含报名费、培训费、资料费)

优惠

优惠1:两班同报:9880元  

三班同报:13880元    

四班同报:17680元   

五班同报:21680元 

六班同报:24680元  

七班同报:26680元

特惠:八班同报:27680元(原价46880元,可免费学习一整年)

优惠2:提前报名缴费可享受300元优惠(仅限十五名)

报名学习课程可赠送往期机器学习生物医学,机器学习单细胞,单细胞空间转录组,机器学习蛋白组学,深度学习单细胞,比较基因组学等视频回放,需要可咨询下方联系老师

证书:参加培训并通过考试的学员,可以申请获得工业和信息化部工业文化发展中心颁发的“工业强国建设素质素养提升尚工行动”岗位能力适应评测证书。该证书可在中心官网查询,可作为能力评价,考核和任职的重要依据。评测证书查询网址:www.miit-icdc.org(自愿申请,须另行缴纳考试费500元/人)

ca43c98be6fe230a4ca3d2afb8be98da.png

15004defb8837536fc7cee832c15d6cc.png

报名咨询联系方式

0d8efcbabc308f3ebf22223d0f7746c9.png

5a76691da9d70ad412c416f604289b0e.png

78e9372927855f670cbd23b26a7dddc7.png

               (请二维码扫描下方微信)

             轰动学界的Nature重磅进展:生信研究迎来史诗级大爆发_第17张图片

微信:766728764

 电子邮箱:[email protected]

 电话:15238680799

800715866986c2a26dc810fe78f91023.png

引用本次参会学员的一句话:

发现真的是脚踏实地的同时 需要偶尔仰望星空非常感谢各位对我们培训的认可!祝愿各位心想事成!

你可能感兴趣的:(轰动学界的Nature重磅进展:生信研究迎来史诗级大爆发)