whole-genome-sequencing Data Analysis 学习笔记5 全基因组测序数据的变异位点

变异为什么是相对的?

有的变异现象是由于生殖细胞内的遗传物质的改变引起的,因而能够遗传给后代,属于可遗传的变异。
可遗传的变异有三种来源:基因突变,基因重组,染色体变异。

由于DNA分子中发生碱基对增添、缺失或改变,而引起的基因结构的改变,就叫做基因突变,特点是普遍,随机,频率低,多有害,不定向

基因重组是指在生物体进行有性生殖的过程中,控制不同性状的基因的重新组合。基因的自由组合定律告诉我们,在生物体通过减数分裂形成配子时,随着非同源染色体的自由组合,非等位基因也自由组合,这样,由雌雄配子结合形成是一种类型的基因重组。在减数分裂形成四分体时,由于同源染色体的非姐妹染色单体之间常常发生局部交换,这些染色体单体上的基因组合,是另一种类型的基因重组
对进化十分有意义

基因突变是染色体的某一个位点上基因的改变,这种改变在光学显微镜下是看不见的。而染色体变异是可以用显微镜直接观察到的比较明显的染色体变化,如染色体结构的改变、染色体数目的增减等。
染色体变异分为:

结构变异:自然条件或人为因素的影响下,染色体发生的结构变异主要有4种:
1.染色体中某一片段的缺失;
2.染色体增加了某一片段;
3.染色体某一片段的位置颠倒了180度;
4.染色体的某一片段移接到另一条非同源染色体上。

数目变异:
一般来说,每一种生物的染色体数目都是稳定的,但是,在某些特定的环境条件下,生物体的染色体数目会发生改变,从而产生可遗传的变异。
一类是细胞内的个别染色体增加或减少,
另一类是细胞内的染色体数目以染色体组的形式成倍地增加或减少。

二倍多倍
由受精卵发育而成的个体,体细胞中含有两个染色体组的叫做二倍体。体细胞中含有三个或三个以上染色体组的叫做多倍体。其中,体细胞中含有三个染色体组的叫做三倍体;体细胞中含有四个染色体组的叫做四倍体

多倍体产生的主要原因,是体细胞在有丝分裂的过程中,染色体完成了复制,但是细胞受到外界环境条件(如温度骤变)或生物内部因素的干扰,纺锤体的形成受到破坏,以致染色体不能被拉向两极,细胞也不能分裂成两个子细胞,于是就形成染色体数目加倍的细胞。如果这样的细胞继续进行正常的有丝分裂,就可以发育成染色体数目加倍的组织或个体。

简单说一下什么是找变异,变异跟突变有什么区别呢?
有国际组织规定了人类的参考基因组(如UCSC,ENSEMBL,NCBI等)
AAAAA(这里简化一下,就5个碱基,其实人类基因组多达30亿个)
有的个体测序后可能对应的是AGCAA,那么相比国际基因组来说,个体就有2个变异位点,位于基因组的坐标2和3,但是它们还不能说就是突变

如第二位碱基,虽然我的是G,参考基因组是A,但是全球已经测序了几百万人,而我查看了他们的测序结果,其中99万人都是G,这说明是参考基因组出现了问题,可能是国际组织当年恰好选择了一个人是A,所以就规定第二个碱基是A。所以虽然我用软件找到了我的这个位点相对于参考基因组是来说,是一个变异,但是这恰好是好事,完全不用担心,我们也不需要用突变这个单词来描述它!(种群里的某一个位点有很多正常的变化,所以个体出现的同类变化不能算作变异)

那么接下来看第3位碱基,同样,国际组织规定了是A,而我却测了个C,但是全球已经公布的一百万人里面99.999万人都跟参考一样,就是A。有一个人和参考基因组对应的碱基不一样,不一样的那个人是个有病的患者,这个时候,你就惨了,这个变异,就是突变了!(还是看大多数人是怎么回事,要是大多数人都是A,而个体是G,那么个体可能有问题)

很多变异其实只是造成人种多样性的原因,是构成人独特性的基础,而那些跟疾病相关的变异,我们通常就会叫做是突变
不要以为跟大多数人一样,就没事了!其实也并不是这样,一般来说,在正常人的数据库里面出现了5%的变异就可以认为没什么大的危害,
而且变异还可以分成germline、somatic、de novo等情况,如果是特定性的针对某种疾病还可以找driver的mutation,但总之,我们得先找到自己的测序数据跟国际规定的参考基因组有什么区别(变异)吧!

全基因组重测序数据分析详细说明
通过高通量测序识别发现
denovo的somatic体细胞和germline生殖细胞突变,
结构变异-SNV,包括重排突变(deletioin,duplication以及copy number variation)以及SNP的座位;
针对重排突变和SNP的功能性进行综合分析;
我们将分析基因功能(包括miRNA),重组率(Recombination)情况,杂合性缺失(LOH)以及进化选择与mutation之间的关系;
以及这些关系将怎样使得在disease(cancer) genome中的mutation产生对应的易感机制和功能。
我们将在基因组学以及比较基因组学,群体遗传学综合层面上深入探索疾病基因组和癌症基因组。

初级数据分析
1.数据量产出:总碱基数量、Total Mapping Reads、Uniquely Mapping Reads统计,测序深度分析。

2.一致性序列组装:与参考基因组序列(Reference genome sequence)的比对分析,利用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型,并组装出该个体基因组的一致序列。

3.SNP检测及在基因组中的分布:提取全基因组中所有多态性位点,结合质量值、测序深度、重复性等因素作进一步的过滤筛选,最终得到可信度高的SNP数据集。并根据参考基因组信息对检测到的变异进行注释。

4.InDel检测及在基因组的分布: 在进行mapping的过程中,进行容gap的比对并检测可信的short InDel。在检测过程中,gap的长度为1~5个碱基。对于每个InDel的检测,至少需要3个Paired-End序列的支持。

5.Structure Variation检测及在基因组中的分布: 能够检测到的结构变异类型主要有:插入、缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果,检测全基因组水平的结构变异并对检测到的变异进行注释。

高级数据分析

  1. 测序短序列匹配(Read Mapping)

(1)屏蔽掉Y染色体上假体染色体区域(pseudo-autosomal region), 将Read与参考序列NCBI36进行匹配(包括所有染色体,未定位的contig,以及线粒体序列mtDNA(将用校正的剑桥参考序列做替代)。采用标准序列匹配处理对原始序列文件进行基因组匹配,将Read与参考基因组进行初始匹配;给出匹配的平均质量得分分布;

(2)碱基质量得分的校准。我们采用碱基质量校准算法对每个Read中每个碱基的质量进行评分,并校准一些显著性误差,包括来自测序循环和双核苷酸结构导致的误差。

(3)测序误差率估计。pseudoautosomal contigs,short repeat regions(包括segmental duplication,simple repeat sequence-通过tandem repeat识别算法识别)将被过滤;

2.SNP Calling 计算(SNP Calling)我们可以采用整合多种SNP探测算法的结果,综合地,更准确地识别出SNP。通过对多种算法各自识别的SNP进行一致性分析,保留具有高度一致性的SNP作为最终SNP结果。这些具有高度一致性的SNP同时具有非常高的可信度。在分析中使用到的SNP识别算法包括基于贝叶斯和基因型似然值计算的方法,以及使用连锁不平衡LD或推断技术用于优化SNP识别检出的准确性。

统计SNV的等位基因频率在全基因组上的分布
稀有等位基因数目在不同类别的SNV中的比率分布(a);

SNV的类别主要考虑:

(1)无义(nonsense)

(2)化学结构中非同义

(3) 所有非同义

(4)保守的非同义

(5)非编码

(6)同义,等类型SNV;

另外,针对保守性的讨论,我们将分析非编码区域SNV的保守型情况及其分布

3.短插入/缺失探测(Short Insertion /Deletion (Indel)Call)

(1)计算全基因组的indel变异和基因型检出值的过程;

计算过程主要包含3步:

①潜在的indel的探测;

② 通过局部重匹配计算基因型的似然值;

③ 基于LD连锁不平衡的基因型推断和检出识别。Indel在X,Y染色体上没有检出值得出。

(2)Indel 过滤处理

4.融合基因的发现(Fusion gene Discovery)选择注释的基因信息来自于当前最新版本的Ensemble Gene数据库,RefSeq数据库和Vega Gene数据库。下面图例给出的是融合基因的形成,即来自不同染色体的各自外显子经过重组形成融合基因的模式图。

5.结构变异(Structure Variation)

结构变异(Structure Variation-SV)是基因组变异的一类主要来源,主要由大片段序列(一般>1kb)的拷贝数变异(copy number variation, CNV)以及非平衡倒位(unbalance inversion)事件构成。

目前主要一些基因组研究探测识别的SV大约有20,000个(DGV数据库)。在某些区域上,甚至SV形成的速率要大于SNP的速率,并与疾病临床表型具有很大关联。我们不仅可以通过测序方式识别公共的SV,也可以识别全新的SV。全新的SV的生成一般在germ line和突变机制方面都具有所报道。然而,当前对SV的精确解析需要更好的算法实现。同时,我们也需要对SV的形成机制要有更重要的认知,尤其是SV否起始于祖先基因组座位的插入或缺失,而不简单的根据等位基因频率或则与参考基因组序列比对判断。SV的功能性也结合群体遗传学和进化生物学结合起来,我们综合的考察SV的形成机制类别。

SV形成机制分析,包括以下几种可能存在的主要机制的识别发现:

(A)同源性介导的直系同源序列区段重组(NAHR);

(B)与DNA**双链断裂修复或复制叉停顿修复相关**的非同源重组(NHR);

(C)通过扩展和压缩机制形成可变数量的串联重复序列(VNTR);

(D)转座元件插入(一般主要是长/短间隔序列元件LINE/SINE或者伴随TEI相关事件的两者的组合)。

结构变异探测和扩增子(Amplicon)的探测与识别分析:如下图所示

  1. 测序深度分析测序深度分析就是指根据基因组框内覆盖度深度与期望覆盖度深度进行关联,并识别出SV。我们也将采用不同算法识别原始测序数据中的缺失片段(deletion)和重复片段(duplication)。

  2. SV探测识别结果的整合与FDR推断(可选步骤)

(1)PCR或者芯片方式验证SV

(2)计算FDR-错误发现率(配合验证试验由客户指定)

(3)筛选SV检出结果用于SV的合并和后续分析:我们通过不同方式探测识别SV的目的极大程度的检出SV,并且降低其FDR(<=10%)。通过下属筛选方法决定后续分析所使用到的SV集合。每种SV探测识别算法得到的SV的FDR要求小于10%,并将各自符合条件的SV合并;对于FDR大于10% 的算法计算识别的SV结果,如果有PCR和芯片平台验证数据,同样可以纳入后续SV分析中。最后,针对不同算法得到的SV,整合处理根据breakpoint断点左右重合覆盖度的置信区间来评定;

8.变异属性分析

(1)neutral coalescent分析测序数据可以探测到低频率的变异体(MAF<=5%)。根据来自群体遗传学理论(neutral coalescent理论)的期望值可以计算低频度变异的分布。我们用不同等位基因频率下每Mb变异数目与neutral coalescent 选择下的期望值比值,即每Mb 基因组windows内的theta观测值,来刻画和反映自然纯化选择与种群(cancer cell-line可以特定的认为是可以区分的种群)增长速率。该分布分别考察SNP(蓝色线),Indel(红色线),具有基因型的大片段缺失(黑色线),以及外显子区域上的SNP(绿色线)在不同等位基因频率区间上的theta情况(参见下图)。

(2)全新变异体(novel variant)的等位基因频率和数量分布分析对象包括全新预测的SNP,indel,large deletion, 以及外显子SNP在每个等位基因频率类别下的数目比率(fraction)(参见下图);全新预测是指预测分析结果与dbSNP(当前版本129)以及deletion数据库dbVar(2010年6月份版本)和已经发表的有关indels研究的基因组数据经过比较后识别确定的全新的SNP,indel以及deletion。dbSNP包含SNP和indels; dbVAR包含有deletion,duplication,以及mobile element insertiondbRIP以及其他基因组学研究(JC Ventrer 以及Watson 基因组,炎黄计划亚洲人基因组)结果提供的s**hort indels和large deletion**。

(3) 变异体的大小分布以及新颖性分布

计算SNP,Deletion,以及Insertion 大小分布;计算SNP,Deletion,以及Insertion中属于全新预测结果的数目占已有各自参考数据库数目的比例(相对于dbSNP数据库; dbSNP包含SNP和indels;dbVAR包含有deletion, duplication,以及mobile element insertion。dbRIP以及其他基因组学研究(JC Ventrer 以及Watson 基因组,炎黄计划亚洲人基因组)结果提供的short indels和large deletion)其中,可以给出LINE,Alu的特征位置。

(4)结构变异SV的断点联结点(BreakPoint Junction)分析

根据SV不同检出结果经过一些列筛选步骤构建所有结构变异SV的断点联结点数据库,保留长度大于等于50bp的SV;分析断点联结点处具有homology或者microhomology的SV;并将同一染色体,起始和终止位置坐标下的不同SV进行去冗余处理。

分析识别SV 的断点联结点(Breakpoint): 将Breakpoint按照可能形成的方式可以分类为以下几类:

(a)非等位基因同源重组型(non-allelic homologous recombination-NAHR);

(b)非同源重组(nonhomologous recombin ation-NHR),包括nonhomologous end-joining(NHEJ)和fork stalling/template switching(FoSTeS/MMBIR);

(c)可变串联重复(VNTR)

(d)转座插入元件(TEI)。

SV形成偏好性分析分析SV形成机制与断裂点临近区域序列的关系,包括染色质界标(端粒,中心粒),重组高发热点区域,重复序列以及GC含量短DNA motif微同源区域(microhomology region)。

9.突变率估计

针对以家庭成员为单位的测序方案,我们主要探测de novo的突变(DNM);通过采用不同的方法/算法,我们给出每个家庭一份推断的DNM报表;

(1)根据基因型推断结果,分别对每人每碱基位置上的denovo突变进行综合度量;

(2)采用贝叶斯方法计算家庭组设计中DNM的后验概率

10.SNP,SNV功能分析与注释

(1)祖先等位基因的注释通过将人类(NCBI36),黑猩猩(chimpanzee2.1),猩猩(PPYG2)以及恒河猴(MMUL1)4种基因组进行基因组比对,发现保守的序列区域,计算祖先等位基因;以及duplication/deletion事件的进化分析

(2)分析基因结构序列上不同区域的多样性(Diversity)与分歧进化(divergence)根据基因型分析结果计算基因结构序列上的多样性程度,即杂合度(heterozygosity); 杂合度指标可以说明选择效应的存在以及局部变异的结构分布特征模式。我们将考虑基因5’UTR上游200bp ,5’UTR ,第一个外显子,第一个内含子,中间外显子,中间内含子,最末外显子和内含子,以及3’UTR及其下游200bp区域左右考察的范围。分析编码转录本的起始/终止位置临近区域的多样性和进化分歧度

(3)疾病变异体探测将样本测序中分析得到SV与HGMD疾病变异体数据进行比对,得到交叉记录的错义和无义的SNP;通过将HGMD疾病关联突变与CUI(疾病概念分类标识数据库)比对获得HGMD中所有SV的疾病表型,并获得HGMD与测序数据分析得到的SV的疾病表型;并通过Fisher检验和Bonferroni多重假设检验校正计算样本SV所富集的疾病表型

(4)拷贝数变异CNV所含基因的功能注释将CNV是否覆盖区段重复SD区域分类为2大类,每类CNV的所含基因的功能富集情况计算,显著性在横轴表示;各种显著性功能在纵轴表示。

(5)变异的功能性分析与注释

(a)SNP, Indels以及大的结构变异SV的功能注释;

(b)对包含翻译起始注释信息的转录本编码区上的SNP分类为:同义SNP,非同义SNP和无义SNP(引入终止子),干扰终止子的SNP,以及干扰剪接位点的SNP;为了降低假阳性,我们采用严格的筛选方式过滤来自indels的错误;

(c)对错义编码区突变的功能性分析: 通过信息学分析算法评估相对于生殖系变异的体细胞突变对蛋白质的结构和功能的影响效应。

(6)SNV,SNP与miRNA研究之间的关联分析miRNA是起重要的调控作用的小分子,我们将对miRNA的pri-mRNA,pre-miRNA以及miRNA靶基因序列进行分析,识别潜在的SNP功能位点。

据文献研究提供证据表明Human pre-miRNA的二级结构中存在不同位置上的SNP,我们将通过热力学稳定性分析方法评估SNP对pre-miRNA结构的影响;另外,我们也将对miRNA-Target靶基因相互作用位点做分析,评估对SNP对靶基因靶向性的影响。

(7)SNV,SNP与GWAS研究之间的关联分析分析GWAS研究中得到的易感基因在基因组上不同坐标上的OR值分布情况; 将当前已知的GWAS研究成果与SNP进行比较;根据LD连锁不平衡将SNP与易感基因的关系进行深入讨论;直接与间接关联方法可以分别识别与表型相关的SNP,对于不易获得(missing)和定位的SNP,通过LD连锁不平衡推断疾病易感基因突变座位。

(8)生物学通路(代谢通路,信号通路)分析生物学通路(Biological pathway),包括代谢通路和信号转导通路是生物功能的重要组成部分,我们将各种形式的突变、变异,包括SNV和SNP,的对应基因放到生物学通路中进行综合分析,考察功能性突变对pathway的影响程度和影响的规律。通过GSEA(配合芯片表达谱数据),KS检验,超几何分布检验等方法对变异基因在某些pathway的富集程度进行排序,识别发生功能改变的潜在通路。

(9)蛋白质-蛋白质相互作用(PPI)网络分析蛋白质相互作用也是生物分子功能增益和缺失的重要途径,因此我们针对蛋白质相互作用网络中的突变的蛋白及其收到影响的网络节点蛋白进行系统分析,并对收到影响的网络子结构进行功能注释分析和聚类富分析。我们采用网络分析算法对由于各种突变所受到影响的子网络(subnetwork)进行功能富集度的分析;

(10)顺式基因调控网络模块(CRM)分析

(a)启动子序列分析包括动子区域上的Motif预测,并与已知转录因子数据库TRANSFAC和JASPAR中的TFBS结合位点进行比对; 启动子区域上保守性分析,分析突变位置和保守性区域的关联

(b)计算全基因组保守性。确定TFBS的保守性以及mutation位置的保守性;

(11)重排(arrangements)与突变(mutation)的全基因组统计

(a)体细胞(somatic)和生殖系(germline)重排(arrangements)

体细胞突变是相对于germ line 突变的一类需要重要分析的内容,我们针对Case-control设计的测序方案可以分别分析突变的情况,包括SNV,indel,以及CNV;
如果仅在tumor/disease(Case组)出现而不在normal(对照组)出现的突变我们可以认为是somatic体细胞突变。
将somatic mutation 与dbSNP数据库比对可以发现潜在的全新的突变和有记录的突变位置
然后,将突变分别比对到基因区域和非基因区域。

基因区域具体包括:内含子区,UTR,剪接位点区和外显子区
其中外显子区分别统计:同义(synonymous),缺失(deletion),阅读框移位(frameshift),插入(insertion),错义(missense),无义(nonsense)以及非编码蛋白外显子(non-protein coding exon)等不同类型。

综合不同方面分析的结果,并按照突变分类给出各重排(arrangements)类型:SNV,CNV的数目统计数据表(参见下图) 。对每一测序样本分别进行标注,包括体细胞突变和生殖系突变。

(b)全基因组全局重排分布特征分析

主要将
(a)染色体间和染色体内部的结构变异,
(b)杂合体缺失(LOH)与等位基因不平衡的状况,
(c)拷贝数变异(增益或者缺失)以及高可信度的SNV(在1Mb间隔区间统计)等不同情况配合染色体核型在环状图的不同层次上分别的表示出来(参见下图例对应a-d)

(c)单核苷酸突变趋势与模式分析

分别统计在体细胞和生殖系细胞水平上的transversion的主要形式与各自所占比重
(a)如果有表达谱数据,可以分析表达基因与非表达基因所分别具有的突变重排数目或者种类
(b)转录起始位点上游区域的体细胞变异,生殖系germline变异以及随机变异的各自数目统计
(c)和已知210种的不同肿瘤疾病的突变谱进行比较.

(12)自然选择分析我们通过测序所观测到的体细胞突变可能是经历了复杂的过程所成的。因此,我们在研究这些突变的起源,突变如何受到DNA修复机制的影响,以及在疾病发展与进化过程中突变的规律方面需要做深入的分析。

自然选择一般在两个方面发挥作用,即保留有利于疾病发展进化的突变的同时 限制其在基因组中重要功能区域发生突变,例如转录调控区域和编码蛋白质的区域。
因此,
(1)如果实验设计是将primary disease与normal control做比较的话,系统的分析可以解析复杂疾病在形成突变过程中可能的机制和自然选择的因素。
(2)如果实验设计是基于病灶及其转移位置或者邻接位置样本作测序,我们可以构建突变进化与转移的模型解析突变的动态模式和基因组中不稳定态变异的模式。

正向选择的判定: 分析SNP,SNV区域的正向选择趋势,在进化和群体遗传水平解释SNV,SNP的功能性;对待control与case 组样本,我们分别采用不同统计算法计算SNP,CNV在各自样本中的差异,进而从中发现具有正向选择特征的SV。

变异分成4种,即snv、indel、cnv、sv,
大部分情况下只能分析到SNV,另外3个要么不准确,要么有点难度

bwa软件的作者,大名鼎鼎的 Heng Li给出的流程如下: http://www.htslib.org/workflow/
根据Heng Li的博客自己也完成过几十个外显子数据的找变异分析,其中还包括一个自闭症家系的分析,通过与参考基因组比较找到变异并不难,但是如何给找到的几万到几百万个变异一个合理的解释才是问题所在。

JIMMY当初的流程如下:(http://www.bio-info-trainee.com/1114.html)
第一步,下载数据
第二步,bwa比对
第三步,sam转为bam,并sort好
第四步,标记PCR重复,并去除
第五步,产生需要重排的坐标记录
第六步,根据重排记录文件把比对结果重新比对
第七步,把最终的bam文件转为mpileup文件
四种call SNP**重点内容**
第八步,用bcftools 来call snp
第九步,用freebayes来call snp
第十步,用gatk来call snp
第十一步,用varscan来call snp

建库测序相关实验细节
Nanodrop和Qubit仪器检测提取到DNA
各种检测方法原理不同目的不同。
电泳的主要目的是看完整性,大概可以估计浓度;
Nanodrop测定的是DNA和RNA的吸光值总和,且不管其是否降解都能测到,主要看是否有其他杂质,当确定杂质较少时,计算的浓度可做参考;

如果是纯净的DNA和RNA,NanoDrop可以区分:
DNA,A260/280约等于1.8,
而RNA约等于2.
但是因为不确定测的样品是否纯净,所以NanoDrop不能区分DNA, RNA和单核苷酸。

260: 核酸(包括DNA和RNA)
280: 蛋白
230: 盐离子(酚盐,硫酸盐)及其他有机化合物如多糖
310: 背景吸收值

OD260/OD280:估计蛋白质的残留(必须很明显,30%以上都是蛋白质才会低于1.9)
OD260/OD230:估计盐、苯酚的残留

OD260/OD280≈1.8~2.0,
OD260/OD280<2.0可能是蛋白污染所致,
质量较好的RNA的R值应在1.8~2.0之间,
当R<1.8时,溶液中的蛋白质等有机物的污染比较明显,可以增加酚抽提;
当R>2.2时,说明RNA或者DNA已经被水解成了单核苷酸(存疑)。

OD260/OD230应大于2。
OD260/OD230<2说明可能有盐和苯酚残留,可以再次沉淀和70%乙醇洗涤。
对植物样品而言,260/230 为 1,肯定是有多糖残留的。

怎样帮助记忆:蛋白质分质量最大,所以峰值最大,为280;核酸分质量次之,所以为260,phenol和盐类分质量最小,所以为230. (虽然分质量与OD峰值可能并无关系)
参考资料

Qubit使用不同荧光染料只测DNA或RNA或蛋白质,测出的浓度最准确。
Qubit荧光计使用

适用于提取后的dsDNA,oligos,RNA(包括microRNA)或蛋白质量很少
该样品将被用于成本昂贵的下游实验
这些样品将用于实时定量PCR(qPCR)或下一代测序法(NGS)等需要精密测定的实验
接下来要进行转染或其他应用,需要几天或几周才能获得结果的实验
您的样品制备过程复杂,需要激光显微切割(LCM)等特殊技术

Qubit®荧光定量仪的工作原理

灵敏,准确的生物分子定量

Qubit®荧光定量仪采用荧光染料与特异性的靶分子结合
这些荧光染料只有与这些靶分子结合时才会发射荧光信号,即使在浓度很低时(图1)。
Qubit®3.0荧光定量仪比传统的紫外吸光法更加准确。
以往的紫光吸光法不具选择性,测量260nm所有分子的吸光值——包含DNA,RNA,蛋白质,游离核苷酸或多余的盐离子。
此外,紫外分光光度计的灵敏度不足,无法完成低浓度DNA和RNA的精确定量(图2)。使用Qubit®荧光定量仪,将大大提升您研究的准确性。因为Qubit®分析试剂盒里的荧光染料只与样品中的特异分子结合——DNA,RNA或蛋白,避免不准确测量带来的重复工作。

看视频使用很简便,好~

检验合格的DNA样品通过Covaris破碎机随机打断成长度为350bp的片段
L-Series – Covaris http://covarisinc.com/products/afa-ultrasonication/l-series/
美国Covaris www.covarisinc.comCovaris公司成立于1999年,是一家快速成长的生命科学仪器公司。它特有的仪器平台基于专利Adaptive Focused Acoustic (AFA)技术,为生物和化学样品制备带来了无与伦比的速度和效率。基于冲击波物理的AFA技术,能将能量精准地传输到生物和化学样品。整个过程具有非接触、恒温及快速的特点。全球领先的药物和生物技术公司都在使用Covaris的仪器用于RNA提取、化合物溶解、药物代谢物的组织提取以及许多其他应用

Covaris AFA自适应聚焦声波高性能样品处理系统
Covaris 采用专利的自适应聚焦声波(Adaptive Focused Acoustics™) AFA技术可以将组织、细胞等匀浆破碎成微米甚至纳米级大小的颗粒,充分破碎细胞、细胞器、膜结构,最大量充分有效的释放目的分子,提高得率,并保证生物大分子完整性,这是样本制备的重要环节。

Covaris提供仪器、耗材、和标准操作流程等,可以进行多种样本类型的快速,高重复,高得率的分析前的样本制备,满足实验室的通量和保证结果的准确性。

Covaris 为您诠释分析前样本制备的重要性

下图充分展示了样本制备的重要性,左图为目前样本制备存在的瓶颈问题,组织或细胞等无法充分破碎,以至于目的分子如DNA、RNA等无法完全充分的释放,影响后续研究无法得到样本内完整的结果信息,而Covaris可以将组织、细胞等匀浆破碎成微米甚至纳米级大小的颗粒,从而使各种目标分子得以充分释放,这是样本制备的重要环节。如果破碎不彻底,使生物大分子形成的高级复合结构(如核糖体,RNA和蛋白质的复合物)没有被彻底分离,那么在后续核酸纯化的过程中,就会有大量RNA以复合物的形式被离心沉降掉,从而使最终RNA的产量大大降低,并破坏了生物信息的完整性。即Covaris AFA技术可以充分破碎细胞、细胞器、膜结构,最大量充分有效的释放目的分子,提高得率,并保证生物大分子完整性

匀浆机和珠子研磨机等技术,无法充分破碎样本,破碎颗粒仅至100um以上,而AFA技术可以将组织、细胞破碎成单分子大小水平,使目的分子可以充分有效地释放

Covaris 自适应聚焦声波(Adaptive Focused Acoustics™ (AFA))技术原理:

Covaris AFA(Adaptive Focused Acoustics™)技术,是将高速发展的医用超声显像诊断与体外震波碎石治疗的技术优势结合起来,并与先进的微处理器及机器控制结合起来,可以应用在多种生命科学研究中。

Covaris采用自动聚焦声学(Adaptive Focused Acoustics)的专利技术,该技术整合了非线性、高强度、会聚性声学冲击波和高级计算机控制系统。通过圆盘状传感器将声波能量聚焦在样品上,且能量强度可控,采用非接触并等温的方式进行样品的匀浆或混匀。(如下图)

经Covaris系统处理后,总RNA的质量明显提高
从起始量约为40mg乳腺癌肿瘤组织中抽提总RNA,比较珠子研磨法和Covaris系统处理过样品的抽提效率,测定产物浓度和纯度,发现Covaris可以使RNA总产量提高15倍以上,并且保持了良好的纯度。

不同的处理方法:
匀浆机(polytron)
珠子研磨机(Bead-beater)
研钵研磨(morter/pestle)
Covaris

不同的样本类型:
Lung:120mg
Brain:300mg
Kidney:300mg
股骨(Femur)和胫骨(Tibia)取全骨,仅比较研钵研磨和Covaris处理的效果。

结果证明:不同的组织分别用匀质搅拌机、珠子研磨机、研钵研磨和Covaris处理,结果证明Covaris处理得到的RNA的量远远多于其他方法, 并且研钵研磨法得到的RNA基本完全降解

经Covaris系统处理后,可提高蛋白质组学分析的数据信息量

Covaris 系统在低温、等温环境中处理样本,可防止因过热效应造成的蛋白降解,例如,将E.coli裂解物进行2D DIGE分析,对Cy2标记的内标进行成像后,可见,经Covaris处理过的样本中保留了大量的高分子量蛋白(左图),而经过传统的Sonicator处理的样本中小分子量蛋白显著增多,由此可见,传统的Sonicator由于热效应会造成蛋白质的降解(右图)。经Covaris处理的样本,其异质性更高,质谱鉴定的结果具有更多的峰(Covaris44个峰,对照组33个峰)

Covaris 自适应聚焦声波(Adaptive Focused Acoustics™ (AFA))专利技术的优势:

• 非接触和等温的处理过程
• 标准的程序得到高重复性的结果
• 聚焦的超声能量可得到高产量和高质量的结果
• 高频的处理功率,无热损伤,无噪音

这些优点提高数据质量,使不同实验室的研究者使用相同的操作流程,有可比较的数据结果,得到高质量的起始样本材料。Covaris AFA系列仪器是您进行样本制备,组织匀浆等的理想工具,尤其适用于微量、珍贵不可再生的样本。将组织、细胞等匀浆破碎成微米甚至纳米级大小的颗粒,最大量充分有效的释放目的分子,提高得率,并保证生物大分子完整性,这是样本制备的重要环节,重返保证了后续结果的准备性和完整性。

用TruSeq Library Construction Kit进行建库

TruSeq DNA PCR-Free Library Preparation Kit | Simple prep for whole-genome sequencing https://www.illumina.com/products/by-type/sequencing-kits/library-prep-kits/truseq-dna-pcr-free.html

Product Highlights

TruSeq DNA PCR-Free Library Preparation Kits provide simple, all-inclusive library preparation 一站式测序准备 for whole-genome sequencing applications.
Researchers can sequence a wide variety of organisms, from small genomes such as bacteria to human whole-genomes. 小到细菌大到人都能测

The kits offer:

Shortened gel-free workflows that remove the need for PCR 无需PCR
Ability to sequence the most challenging regions
Improved genome coverage to identify the greatest number of variants 提高覆盖率
Sequence the most challenging regions

TruSeq DNA PCR-free kits offer superior coverage of areas which are traditionally difficult to sequence such as high GC-rich regions, promoters, and repetitive content. 可测GC富集区域,启动子,重复片段

The kits are tunable to a variety of read lengths and are supported on all Illumina sequencing instruments. This permits the researcher to tailor each run to the needs of the experiment.

Detect the greatest number of variants 检测大量变异

PCR-free means reduced library bias and gaps.无需PCR意味着减少文库偏差和空缺
The result is unsurpassed data quality. This enables you to detect the greatest number of variants. Excellent genome coverage means your results have the lowest and smallest number of gaps and enhanced coverage of high G/C rich regions.

Use PCR-free for faster protocols

Removing PCR creates a faster protocol and superior data quality. Bead-based size selection shortens the workflow. In tandem with Illumina sequencing systems, the TruSeq DNA PCR-Free Library Preparation Kit provides a range of enhancements to the industry’s most widely adopted library preparation workflow.

Access flexible throughput options

Kits include reagents, sample purification beads, and indexes, with two options for flexibility:
试剂盒包含实际,纯化beads,索引
TruSeq DNA PCR-Free LT Library Preparation Kits support 24-plex manual processing for low-throughput studies. 低通量
TruSeq DNA PCR-Free HT Library Preparation Kits are 96-plex for high-throughput studies, and can be automated on liquid handling robots (or processed manually).高通量

PE150测序方式
目前暂不可以用PE150测转录组。主要原因如下:首先,目前常规转录组建库的插入片段为100-200bp,所以如果使用PE 150测序,则需要构建200-300bp插入片段的文库,以避免读到大量的adaptor,从而影响质量。其次,除了denovo项目,其他产品对150PE的需求很小;illumina也并不推荐用HiSeq2000来跑150PE,没有配套的试剂,所以目前还未上线,仅作为研发使用。

Agilent 2100检查文库的insert size
Agilent 2100生物芯片分析系统
比凝胶电泳更快速(30分钟内给出多达 12 个样品的定性定量数字化数据)。
使用简单—读取芯片,只需按一下“start”键,仪器就会自动完成所有工作
方便使用的检测和预包装试剂盒
耗样品量少 (1-4 µL)
可重现的数据
快速简单的样品比对
可重现的, 完整的,以及数字型的数据
简单处理 ,存储,交换的数字化数据
对每个样品中的每个独立片断进行定量,给出纯度结果。
法规遵循服务满足在规定环境下工作的要求
最大限度地减少与有害物质的接触
提供符合21CFR第11部分要求的工具
www.agilent.com/cs/library/usermanuals/Public/G2938-90007_Inst-Safet_EN.pdf http://www.agilent.com/cs/library/usermanuals/Public/G2938-90007_Inst-Safet_EN.pdf

重点就是分析结果里面的测序数据质量评估和参考序列比对分析。

Raw reads:统计原始序列双端read pair总数目;根据FASTQ的格式,以四行为一个单位进行统计
Raw data:统计原始序列数据量。
Effective:过滤后用于后续的生物信息分析的Clean reads占原始数据的比例。
Error rate:
Q20、Q30:分别计算 Phred 数值大于20、30的碱基占总体碱基的百分比。
GC content:计算碱基G和C的数量总和占总的碱基数量的百分比。

测序覆盖深度用来衡量参考序列比对分析,如果测的一堆序列都无法比对到参考基因组上面,或有倾向性的比对到部分基因组,又或者基因组某些区域没有覆盖到,那么测序是无效的
测序数据要能较好的覆盖基因组的所有染色体

Total:clean data双端总reads数目
Duplicate:重复的reads数目
Mapped:比对到参考基因组上的总reads数目(比例)
Properly mapped:比对到参考基因组**且方向正确的**reads数目(比例)
PE mapped:双端reads比对到参考基因组上的reads数目(比例)
SE mapped:仅单端read比对到参考基因组上的reads数目(比例)
with mate mapped to a different chr:比对到不同染色体的reads数目
with mate mapped to a different chr (mapQ>=5):比对到不同染色体且比对质量不低于5的reads数目
Average_sequencing_depth::比对到参考基因组的平均测序深度(测序数据量/基因组大小)
Coverage:比对数据对全基因组区域的覆盖度(碱基覆盖长度占全基因组碱基总长的比例)
Coverage_at_least_4X::全基因组区域中碱基覆盖深度不低于4X的比例
Coverage_at_least_10X:全基因组区域中碱基覆盖深度不低于10X的比例
Coverage_at_least_20X:全基因组区域中碱基覆盖深度不低于20X的比例

KPGP00001全基因组下载完了,但不知道为什么我的数据都是JIMMY的二倍,难道是下了两遍?
mary@administrator-ThinkStation-P710:~/reference/genome/KPGP00001$ ls -lh
总用量 22G
-rw-rw-r– 1 mary mary 8.9G 2月 12 2014 KPGP-00001_L1_R1.fq.gz
-rw-rw-r– 1 mary mary 32 2月 12 2014 KPGP-00001_L1_R1.fq.gz.md5
-rw-rw-r– 1 mary mary 6.9G 2月 12 2014 KPGP-00001_L1_R2.fq.gz
-rw-rw-r– 1 mary mary 32 2月 12 2014 KPGP-00001_L1_R2.fq.gz.md5
-rw-rw-r– 1 mary mary 5.4G 3月 2 17:24 KPGP-00001_L2_R1.fq.gz

用md5文件来校验下载是否完整
标粗的是命令

mary@administrator-ThinkStation-P710:~/reference/genome/KPGP00001$ md5sum KPGP-00001_L1_R1.fq.gz > KPGP-00001_L1_R1.fq.gz.md5

mary@administrator-ThinkStation-P710:~/reference/genome/KPGP00001$ md5sum -c KPGP-00001_L1_R1.fq.gz.md5

KPGP-00001_L1_R1.fq.gz: 确定

mary@administrator-ThinkStation-P710:~/reference/genome/KPGP00001$ md5sum KPGP-00001_L1_R2.fq.gz > KPGP-00001_L1_R2.fq.gz.md5

mary@administrator-ThinkStation-P710:~/reference/genome/KPGP00001$ md5sum -c KPGP-00001_L1_R2.fq.gz.md5
KPGP-00001_L1_R2.fq.gz: 确定

反馈是确定,那就表示下载完整了

明天要处理KPGP-00001数据
参考下面的文件流程
Korean Personal Genomes Project (KPGP)中的 35 Korean genomes里面的WGS数据,文章中用了两套SNV calling流程来处理:http://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-15-S11-S6 流程如下

你可能感兴趣的:(BioInfo)