这些高通量测序名词你都知道吗

全基因组重测序

重新测序的意思么?也对，因为基因组序列已知啦，但是由于个体的不同就有了差异性，所以需要对不同的个体进行测序哦，并且在此的基础上，对个体或者群体的差异性进行分析。全基因组重测序的个体，通过序列比对，可以找到大量的单核苷酸多态性位点（SNP），插入缺失位点（InDel，Insertion/Deletion）、结构变异位点（SV，Structure Variation）位点和拷贝数变异位点（CNV，copy number variation)。然后经过注释，就能得到很多很多有用的信息，具有辣么辣么大（比我的脸大很多）的科研和产业价值。她的英文名叫英文名为Genome Re-sequencing哦。

de novo测序

一看，就不是英语。一查，原来是拉丁文。也叫从头测序（这多好，通俗易懂。）牛逼的是不要任何现有的序列资料就可以对某个物种进行测序，通过生物信息学分析手段对序列进行拼接，组装，就可以获得该物种的基因图谱了。嗷~~厉害了。所以我们一猜他就是应用于从头解析未知物种的基因组序列、基因组成、进化特点等

外显子测序

顾名思义，它就是通过序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。因为外显子相对少啊，所以成本低啊，对研究已知基因的SNP、Indel等具有较大的优势，但无法研究基因组结构变异如染色体断裂重组等。一会儿我告诉你啥叫SNP、Indel、基因组结构变异噻。

mRNA测序（RNA-seq）

转录组测序技术，就是把mRNA,smallRNA,and NONcoding RNA等或者其中一些用高通量测序技术把它们的序列测出来。反映出它们的表达水平。

Illumina公司提供的mRNA测序技术可在整个mRNA领域进行各种相关研究和新的发现。mRNA测序不对引物或探针进行设计，可自由提供关于转录的客观和权威信息。

研究人员仅需要一次试验即可快速生成完整的poly-A尾的RNA完整序列信息，并分析基因表达、cSNP、全新的转录、全新异构体、剪接位点、等位基因特异性表达和罕见转录等最全面的转录组信息。简单的样品制备和数据分析软件支持在所有物种中的mRNA测序研究

small RNA测序

从前有三个人micro RNAs、siRNAs和 pi RNAs，他们都叫Small RNA（和谐创造美好未来，三人用一名儿也是很可以），他们是生命活动重要的调控因子，在基因表达调控、生物个体发育、代谢及疾病的发生等生理过程中起着重要的作用。

Illumina能够对细胞或者组织中的全部Small RNA进行深度测序及定量分析等研究。

实验时首先将18-30 nt范围的Small RNA从总RNA中分离出来，两端分别加上特定接头后体外反转录做成cDNA再做进一步处理后，利用测序仪对DNA片段进行单向末端直接测序。通过Illumina对Small RNA大规模测序分析，可以从中获得物种全基因组水平的miRNA图谱，实现包括新miRNA分子的挖掘，其作用靶基因的预测和鉴定、样品间差异表达分析、miRNAs聚类和表达谱分析等科学应用。

ATAC-seq

Assay for Transposase Accessible Chromatin using sequencing，简称ATAC-seq。即运用测序手段研究转座酶可接近的染色质区域的实验。关键词：测序，转座酶可接近染色质，转座酶能接近的区域，也就是处于开放状态的区域，这也是本实验的关键所在，测序和染色质开放区域。

核小体连接致密的地方，转座酶不能进入，而松散的区域，转座酶能够进入并切割下暴露的DNA并同时连接上特异性的adapters，连接上adapters的DNA片段被分离出来，用于二代测序。因此，ATAC-seq得到的，是全基因度尺度上处于开放状态的染色质区域。

获得了开放区域能干啥，预测上面结合的转录因子啊！

ATAC-seq概念来自于https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3959825/

Chip-seq

染色质免疫共沉淀技术（ChromatinImmunoprecipitation，ChIP）也称结合位点分析法，是研究体内蛋白质与DNA相互作用的有力工具，通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。

将ChIP与第二代测序技术相结合的ChIP-Seq技术，能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。

原理如→：首先通过染色质免疫共沉淀技术（ChIP）特异性地富集目的蛋白结合的DNA片段，并对其进行纯化与文库构建；

然后对富集得到的DNA片段进行高通量测序。研究人员通过将获得的数百万条序列标签精确定位到基因组上，

从而获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息。

能干下面这些事：

（1）判断DNA链的某一特定位置会出现何种组蛋白修饰；

（2）检测RNA polymerase II及其它反式因子在基因组上结合位点的精确定位；

（3）研究组蛋白共价修饰与基因表达的关系；

（4）CTCF转录因子研究。

ATAC-Seq与ChIP-Seq的不同的是ATAC-Seq是全基因组范围内检测染色质的开放程度，可以得到全基因组范围内的蛋白质可能结合的位点信息，一般用于不知道特定的转录因子，用此方法与其他方法结合筛查感兴趣的特定调控因子；但是ChIP-Seq是明确知道感兴趣的转录因子是什么，根据感兴趣的转录因子设计抗体去做ChIP实验拉DNA，验证感兴趣的转录因子是否与DNA存在相互作用。

RIP-seq

RNA Immunoprecipitation，是研究细胞内RNA与蛋白结合情况的技术，是了解转录后调控网络动态过程的有力工具，能帮助我们发现miRNA的调节靶点。

这种技术运用针对目标蛋白的抗体把相应的RNA-蛋白复合物沉淀下来，然后经过分离纯化就可以对结合在复合物上的RNA进行测序分析。

它对象（研究对象，不是女朋友！）是RNA-蛋白复合物不是DNA-蛋白复合物。

RIP实验的优化条件与ChIP实验不太相同（如复合物不需要固定，RIP反应体系中的试剂和抗体绝对不能含有RNA酶，抗体需经RIP实验验证等等）。RIP技术下游结合microarray技术被称为RIP-Chip，

帮助我们更高通量地了解癌症以及其它疾病整体水平的RNA变化。

metagenomic（宏基因组）

听起来很大，结果研究的对象是整个微生物群落。相对于传统单个细菌研究来说，他有两个牛逼的优点：(1) 微生物通常是以群落方式共生于某一小生境中，它们的很多特性是基于整个群落环境及个体间的相互影响的，因此做Metagenomics研究比做单个个体的研究更能发现其特性；

(2) Metagenomics研究不需要！不需要！不需要分离单个细菌，所以可以研究那些不能被实验室分离培养的微生物。

下面念经模式：

宏基因组是基因组学一个新兴的科学研究方向。宏基因组学（又称元基因组学，环境基因组学，生态基因组学等），是研究直接从环境样本中提取的基因组遗传物质的学科。传统的微生物研究依赖于实验室培养，元基因组的兴起填补了无法在传统实验室中培养的微生物研究的空白。过去几年中，DNA测序技术的进步以及测序通量和分析方法的改进使得人们得以一窥这一未知的基因组科学领域。

Segment duplication

串联重复！

一般称为SD区域，串联重复是由序列相近的一些DNA片段串联组成。

串联重复在人类基因多样性的灵长类基因中发挥重要作用。

在人类染色体Y和22号染色体上，有很大的SD序列。

soft-clipped reads

因为他对鉴定染色体结构变异及外源序列整合具有重要作用。所以我们要晓得它~当基因组发生某一段的缺失，或转录组的剪接，

在测序过程中，横跨缺失位点及剪接位点的reads回帖到基因组时，一条reads被切成两段，匹配到不同的区域，

这样的reads叫做soft-clipped reads

multi-hits reads

multi-hits reads 是有多个匹配位置的reads.由于大部分测序得到的reads较短，一个reads能够匹配到基因组多个位置，无法区分其真实来源的位置。

一些工具根据统计模型，如将这类reads分配给reads较多的区域

Contig & Contig N50

1.拼接软件基于reads之间的overlap区，拼接获得的序列称为Contig（重叠群）。

2.Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加，能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序，如获得Contig 1，Contig 2，Contig 3...………Contig 25。将Contig按照这个顺序依次相加，当相加的长度达到Contig总长度的一半时，最后一个加上的Contig长度即为Contig N50。举例：Contig 1+Contig 2+ Contig 3+Contig 4=Contig总长度*1/2时，Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。

总而言之：

1.Contig就是reads之间的重叠区拼接获得的序列！

2.就是将不同长度的Contig从长到短排序，一次相加，加到总长的1/2时的Contig就是Contig N50。

Scaffold & Scaffold N50

1.基因组de novo测序，通过reads拼接获得Contigs后，

往往还需要构建454 Paired-end库或Illumina Mate-pair库，以获得一定大小片段（如3Kb、6Kb、10Kb、20Kb）两端的序列。基于这些序列，可以确定一些Contig之间的顺序关系，这些先后顺序已知的Contigs组成Scaffold。

就是知道顺序的Contigs组成Scaffold！！

测序深度和覆盖度

1.测序深度是指测序得到的总碱基数/待测基因组。

假设一个基因大小为2M，测序深度为10X，那么获得的总数据量为20M。

2.覆盖度是测序获得的序列/整个基因组。

由于基因组中的高GC、重复序列等复杂结构的存在，测序最终拼接组装获得的序列往往无法覆盖有所的区域，这部分没有获得的区域就称为Gap。例如一个细菌基因组测序，覆盖度是98%，那么还有2%的序列区域是没有通过测序获得的。

RPKM、FPKM

RPKM：每1百万个map上的reads中map到外显子的每1K个碱基上的reads个数。假如有1百万个reads映射到了人的基因组上，那么具体到每个外显子呢，有多少映射上了呢，而外显子的长度不一，那么每1K个碱基上又有多少reads映射上了呢，这大概就是这个RPKM的直观解释。
FPKM(fragments per kilobase of exon per million fragments mapped). FPKM与RPKM计算方法基本一致。不同点就是FPKM计算的是fragments，而RPKM计算的是reads。Fragment比read的含义更广，因此FPKM包含的意义也更广，可以是pair-end的一个fragment，也可以是一个read。

如果对应特定基因的话，那么就是每1000000 mapped到该基因上的reads中每kb有多少是mapped到该基因上的exon的read

Total exon reads: 映射到外显子上总的reads个数。这个是映射到某个区域上的reads个数，这个区域或者是已知注释的基因或者跨两个外显子的边界或者是某个基因已经注释的转录本的内含子、外显子。对于真核生物来说，外显子和它们自己内部的关系由某类型的mRNA来注释。
Exon length: 外显子的长度。计算时，计算所有某个基因已注释的所有外显子长度的总和。即使某个基因以多种注释的转录本呈现，这个外显子在求和时只被包含一次。即使部分重叠的外显子共享相同的区域，重叠的外显子以其总长来计算。
Mapped reads: map的reads总和。映射到某个基因上的所有reads总数。因此这包含所有的唯一映射到这个区域上的reads。

举例：比如对应到该基因的read有1000个，总reads个数有100万，而该基因的外显子总长为5kb，那么它的RPKM为：10^{9*1000(reads个数)/10}6(总reads个数)5000(外显子长度)=200或者：1000(reads个数)/1(百万)5(K)=200这个值反映基因的表达水平。