微生物部分

基因组

一个有机体DNA的完整序列称为一个基因组。每个细胞都有一套（或多于一套但近乎相同的）完整基因组拷贝。由于碱基互补，基因组中A与T、C与G碱基的含量是对应相同的。但AT与GC的比例却可以有很大差异。有些生物的基因组AT含量更高，有些则相反。
基因组中含有让生命体运作的信息。指导编码各种功能蛋白的区域被称为“编码区（coding region）”。近年来发现，很多区域虽不编码蛋白，却负责生成另一些能调控其他生理过程的分子。
基因组在世代中的继承和演变都服从进化规律。一个正常的基因组中有一部分（甚至是大部分）是可能已经失去原有的功能的片段，其中包含着零散的重复片段。曾经这部分不编码分子的片段被称为“垃圾DNA”，但却引来持续的争议。
非编码区DNA能编码出种类繁多的小片段RNA。它们通常很短，不足以编码出结构复杂的功能蛋白，但却对生理过程有重要的调节作用，相关研究近年来也是大火了一把。
一般用Kb （千），Mb（百万）、Gb（十亿）作为单位描述基因组的大小。具体如下：
bp = base pair(s)—一个碱基对
kb (= kbp) = kilo base pairs = 1,000 bp
Mb (= Mbp) = mega base pairs = 1,000,000（100万） bp
Gb = giga base pairs = 1,000,000,000（10亿）bp
note这里的单位是碱基对bp，描述的是基因组的长度。这里的Mb，Gb与我们平时说的电脑文件大小、硬盘容量是两个概念。后者的单位是字节byte，指的是文件储存的大小。新冠病毒基因组大小约30kb，大肠杆菌4Mb，人类3Gb，某些蜥蜴可达120Gb。基因组的大小与其复杂程度没有必然的联系。

DNA测序

这个概念包括了搞清DNA分子构成的多种实验技术。原始测序结果常被保存在FASTA，FASTQ或者uBAM格式里。一般论文发表时，会被要求提供这些原始数据以便读者重复分析结果。受限于技术原理，一代、二代测序技术并不是对DNA分子本身直接测序，而是基于原始DNA分子，人为地制作一个“文库”，以便把信号放大。但这个过程中可能引入人为的误差，或抹去DNA分子原有的信息。如今如纳米孔测序等新一代技术则能对DNA原始分子进行直接测序，一定程度是弥补了上述不足，但精度上仍待改良。

有关5'UTR、CDS、Exon、Intron、3'UTR的几个概念
有关5'UTR、CDS、Exon、Intron、3'UTR的几个概念
5'UTR、CDS、Exon、Intron、3'UTR

原核微生物和真核微生物

原核微生物和真核微生物的区别

细菌或原核生物16S rRNA

细菌核糖体RNA（rRNA）有三种类型：5S rRNA（120bp）、16S rRNA（约1540bp）和23S rRNA（约2900bp）。5S rRNA基因序列较短，包含的遗传信息较少，不适于细菌种类的分析鉴定；23S rRNA基因的序列太长，且其碱基的突变率较高，不适于鉴定亲缘关系较远的细菌种类；16S rRNA普遍存在于原核细胞中，且含量较高、拷贝数较多（占细菌RNA总量的80%以上），便于获取模板，功能同源性高，遗传信息量适中，适于作为细菌多样性分析的标准。

16S中的"S"是一个沉降系数，亦即反映生物大分子在离心场中向下沉降速度的一个指标，值越高，说明分子越大。16SrRNA基因是细菌上编码rRNA相对应的DNA序列，存在于所有原核微生物的基因组中。16S rRNA具有高度的保守性和特异性以及该基因序列足够长（包含约50个功能域）。随着PCR技术的出现及核酸研究技术的不断完善，16S rRNA基因检测技术已成为病原菌检测和鉴定的一种强有力工具。数据库的不断完善，应用该技术可以实现对病原菌进行快速、微量、准确简便地分类鉴定和检测。该技术主要有三个步骤：首先是基因组DNA的获得，其次是16S rRNA基因片段的获得，最后是进行16S rRNA基因序列的分析。

以上是网上搜的，简单来说，16S是一段序列，是原核微生物的“身份证”，你拿到这段序列，再跟数据库一比对，所有的物种信息你就完全明了了。因为操作简单，可行性高，比对信息准确，所以被认为是微生物多样性组学研究中最常用的检测手段。

16s rRNA可变区及二级结构

细菌16S rRNA基因序列组成及引物选择

16S rRNA编码基因序列共有9个保守区和9个高可变区。其中，V4-V5区其特异性好，数据库信息全，是细菌多样性分析注释的最佳选择。保守区为所有细菌共有，细菌间无差别，能反映生物物种的亲缘关系；可变区具有属或种的特异性，序列则随菌间的亲缘关系不同而有一定的差异，所以能揭示生物物种的特征核酸序列，被认为是最适于细菌系统发育和分类鉴定的指标。

真核生物 18S rRNA

与细菌多样性分析类似，在真核微生物中也有三类核糖体RNA（rRNA），包括5.8S rRNA、18S rRNA和28S rRNA。18S rRNA基因是编码真核生物核糖体小亚基的DNA序列，其中既有保守区，也有可变区（V1-V9，没有V6区）。保守区域反映了生物物种间的亲缘关系，而可变区则能体现物种间的差异，适用于作种级及以上的分类标准。其中，V4区使用最多、数据库信息最全、分类效果最好，是18S rRNA基因分析注释的最佳选择。

真核微生物18S rRNA基因组成及引物选择

引物选择

测序引物选择1
测序引物选择2
不同的平台适应不同的引物。

16S扩增子测序

16S扩增子测序是指利用合适的通用引物扩增环境中微生物的16S rDNA/18S rDNA/ITS高变区或功能基因，通过高通量测序技术检测PCR产物的序列变异和丰度信息，分析该环境下的微生物群落的多样性和分布规律，以揭示环境样品中微生物的种类、相对丰度、进化关系等。

宏基因组测序

宏基因组学（Metagenomics），又称元基因组学，是以特定环境中的整个微生物群落作为研究对象，无需分离培养，直接提取环境样本DNA进行测序，研究环境微生物的群落结构、物种分类、系统进化、基因功能及代谢网络等，已广泛应用于微生物领域。

16S测序和宏基因组测序有什么区别？

一、测序原理不同16S测序是将提取好的微生物基因组DNA，通过对某一段或几段高变区序列(V4区或V3-V4区)进行PCR扩增，建库后进行测序。宏基因组测序则是将微生物基因组DNA随机打断成300-500bp的小片段，在片段两端加入测序接头，然后进行测序。

二、物种鉴定深度不同16S测序得到的序列很多注释不到种水平，而宏基因组测序则能鉴定微生物到种水平甚至菌株水平。

三、研究目的不同16S测序主要研究群落的物种组成、物种间的进化关系以及群落的多样性。宏基因组测序在16S测序分析的基础上还可以进行基因和功能层面的深入研究(GO、Pathway等)。

二代测序原理

扩增子测序实验流程

二代测序原理
16S扩增子测序平台及测数据量
16S扩增子测序平台
双端测序

生信分析

图片.png

16S多样性ASV分析

嵌合体序列：嵌合体序列是RCR扩增时，两条不同的序列产生杂交、扩增的序列。
在PCR反应中，在延伸阶段，由于不完全延伸，就会导致嵌合体序列的出现。在扩增序列X的过程中，在序列延伸阶段，只产生了部分X序列延伸阶段就结束了，在下一轮的PCR反应中，这部分序列作为序列Y的引物接着延伸，扩增就会形成X和Y的嵌合体序列；在PCR过程中，大概有1%的几率会出现嵌合体序列，所以在16S 扩增子测序的分析中，需要去除嵌合体序列。

OTU
OTU（operational taxonomic units），即操作分类单元。通过一定的距离度量方法计算两两不同序列之间的距离度量或相似性，继而设置特定的分类阈值，获得同一阈值下的距离矩阵，进行聚类操作，形成不同的分类单元。

OTU在16S测序中有何用？
高通量测序得到的16S序列有成千上万条，如果对每条序列都进行物种注释的话，工作量大、耗时长，而且16S扩增、测序等过程中出现的错误会降低结果的准确性。在16S分析中引入OTU，首先对相似性序列进行聚类，分成数量较少的分类单元，基于分类单元进行物种注释。这不仅简化工作量，提高分析效率，而且OTU在聚类过程中会去除一些测序错误的序列，提高分析的准确性。

OTU如何聚类？
OTU聚类的方法多种多样，如Uclust、cd-hit、BLAST、mothur、usearch和 prefix/suffix，这些聚类方法均可以在QIIME软件中实施。不同聚类方法基于不同的算法，得到的聚类结果虽然不同，但是大体的聚类流程都是一致的：

聚类流程

OTU跟物种的关系

OTU聚类后，挑选出每个OTU中的代表序列，与RDP、Sliva或GreenGene等数据库进行比对，进行物种注释。
OTU和物种是映射关系，它们一一对应或多对一，如下图所示。

image
在上图中，A、B、C分别表示OTU 1、OTU m和OTU n中有A、B、C条reads，假设OTU 1和OTU m比对到物种1，那么物种1的丰度是A+B；同理假设OTU n比对到物种2，物种2的丰度是C。

OTU和ASV区别:OTU和ASV区别

UPARSE:默认以97%的序列相似度进行OTU聚类,扩增子测序的聚类方法“金标准”;
DADA2：聚类方式相当于以100%相似度进行聚类的单元（DADA2软件把聚类结果称为ASV，事实上它相当于100%相似度聚类的OTU）。
Unoise2：Z-OTU
为什么用ASV？
1、它比用97%相似程度聚类的“OTU”更加精准，在后续的alpha diversity及物种注释中会更加准确，因为传统意义上的OTU的97%的相似程度是在genus水平上大家认可的，但如果需要到species甚至strain水平的话，使用传统的OTU是很不靠谱的。
2、ASV相比于OTU最大的好处就是可以随时合并不同的数据跑出来的代表序列。因为使用的是100%的identidy，所以一样的序列就是一样的物种，不会受到不同数据、测序平台、文库建立、处理方法等等的误差影响。只要是qiime2上跑出来的数据，即使是不同时间不同人的结果，也可以直接合并，甚至不需要接触到原始的测序数据，也大大方便了大数据之间的整合。所以现在也越来越多的人倡导使用ASV以避免数据不可合并和难以合并的缺点。

基因组部分

数据质控
全基因组分析实践
微生物数据转换
GCTA paper
GWAS与GS模型介绍与比较

转录调控部分

转录调控的信息学分析
转录因子预测数据库JASPAR使用教程
使用JASPAR预测转录因子结合位点

miRNA部分

microRNA视频介绍
miRNA靶基因及其结合位点的预测

参考

天益君
刘永鑫的博客——宏基因组公众号
基迪奥生物
???514
Peng_001
黄树嘉

20210428文献汇报|参考资料