基因组的那些事儿--基础

偶然间翻出来了18年学习jimmy的”直播我的基因组系列“所做的一些理解，文章写于18.7.30，因为当时感觉工程浩大，所以迟迟没有发出来，但现在我想，“攒着攒着就烂了”，好的内容不能浪费，不踏出第一步，之前的努力就都白费了。当然自己可能还有一些理解不到位的地方，后续内容会补充完整

关于基因组

正常人都是有22对常染色体加XY性染色体。基因组是指生物体所携带的一套完整的单倍体序列，也就是22条+X+Y。每个染色体包括全套基因和间隔序列。他们由A、T、C、G碱基组成，总共长度大约是30亿个碱基。

关于基因检测

随着社会的发展，人们对于健康愈发重视，开始涌现了大量的基因检测，它的个性化定制再加上后续的医师指导，更加准确和便捷获得自身健康信息，预计未来会代替传统体检。

基因检测是在分子水平上对人体遗传密码进行破译，通过单核苷酸多态性和GWAS的分析对人体患病风险进行预测，从而进行预防干预及个体化治疗。目前全基因组测序成本（30X）已经不足一万元，这种测序就是来检测全部的30亿个碱基对是如何排列的，得到从第一个到第30亿个碱基的排列方式。

全基因组检测帮助确诊引起某个疾病的病因，尤其是癌症病人；或者指导有家族性后发遗传病的病人进行有针对性的治疗，比如安吉丽娜·朱莉接受预防性的双侧乳腺切除。

怎么测： 最常用illumina的二代测序，测序长度在150-250bp，取几百万的细胞破碎后，把所有的染色体随机打断成小片段，一个个进行测序，会测得上亿个片段

【还有一种是三代测序，不需要PCR过程，直接对每一条DNA分子进行测序，长度1w-5w nt（因为没有经过PCR，一直是单链状态测，所以不存在碱基对bp，只能称之为碱基nt），准确度要低一些】

测哪里： 也就是测序的样本从哪里获得？

唾液？：唾液肯定可以提取出DNA，而且也最方便。但是会混在口腔微生物的DNA，即使后来通过比对人类参考基因组来去除污染，但最后大概三成数据是要被浪费的。目前基于取唾液兴起的基因检测是测一部分高频变异位点，那不是做的全基因组测序，是利用基因芯片技术进行，成本在三位数

23魔方

血液？除非提供者正患有菌血症（外界的细菌经由体表的入口或是感染的入口进入血液系统后，在人体血液内繁殖并随血流在全身播散），一般血液是最纯净的。从血液里面分离白细胞然后提取DNA的技术也是非常成熟的。

测序报告：

处理流程

数据来源：

一般推荐：全基因组测序，覆盖度30X，也就是90G的raw data，测序策略是PE150，采用illumina的HiSeq X，DNA小片段文库(350bp)进行建库。

几个名词：

覆盖度30X：平均下来能把身体内的30亿个碱基每个都测到30次，因为测序是随机的，必然有一些测序深度高一点，有些低一点

这个30的标准怎么定的？为什么不是20X或者更高的40、50X？
有研究做过饱和度分析～看看5~60X的模拟梯度对寻找遗传变异的能力差异大小，结果发现平均深度达到30X的时候，可以覆盖基因组的95%；另外测序深度越高，价格越贵，30X的高性价比足够挖掘到一定量的遗传变异Sequencing depth and coverage: key considerations in genomic analyses - Nature Reviews (2014)
90G raw data：测序深度30X，人类基因组大约30亿碱基，而一亿10⁸ 就等于1Gb的测序数据；拿到的就是3Gb*30X=90Gb。【注意这里的Gb是测序字符的数量】
测序策略PE150:也就是标准的双端测序模式（Paired End），目前双端比单端价格还要便宜，而且一条序列这边测一次，另一边测一次，更准确。所以一般分析基本也没有用单端的了。150就是这边测150bp，那边测150bp。【当然打断的片段一般是大于300bp的，所以每个reads中间会有一部分测不到，这就对了！毕竟reads是随机打断，也就是打断的位置不同。虽然这一条reads的中间部分区域测不到，但是另外的reads就能测到。如果说，一条reads长度200却采用双端150bp，那么中间就会有重叠区域，被测了两遍，这在高通量测序中是非常浪费资源的，每次测都是要花钱的啊！】
Hiseq ：美国Illumina公司作为二代测序仪生产领先企业，自2006年进军基因测序市场以来，陆续发布了HiSeq，MiSeq，NextSeq，NovaSeq等一系列测序仪器。

Hiseq系列～HiSeq 2000，HiSeq 2500，HiSeq 3000，HiSeq 4000
HiSeq系列测序仪问世以来，以通量高，产量大，生产规模著称，能够快速、经济的进行大规模平行测序，在大型全基因组测序，全转录组，全外显子组测序，靶向基因测序方面优势明显。HiSeq 3000/4000系统基于成熟的HiSeq 2500系统，采用创新的有序流动槽技术最大限度提高效率，3.5天内可完成12个基因组、100个转录组或180个外显子组测序

HiSeq X系列——HiSeq X Five，HiSeq X Ten
HiSeq X Ten系统的问世完成了人类历史上一大里程碑事件——千元基因组时代的到来。HiSeq X Ten系统是由一套共10台超高通量的HiSeq X仪器组成，其中每台仪器可在3天内产生高达1.8 Tb测序数据，即每天高达600 Gb。10台联合工作，每年能带来超过18,000个人类基因组，而每个基因组的价格约为1000美元，让癌症和复杂疾病的研究达到新的水平

至于NovaSeq嘛，应该是17年开始交付使用，被称为“史上最贵洗衣机”的NovaSeq6000，以其酷炫的外形和美丽的价格（100w美金）成为了高端测序领导者，旨在冲刺“100美元基因组测序”。它的通量更高，运行周期48小时，2个flowcell每次产生大于2Tb的数据。另外还有它兄弟Novaseq 5000，差异就是他们的流动槽，5000可以运行S1、S2两种，6000可以运行S1、S2、S3、S4四种，一个S4流动槽每次运行可达到80-100亿数量的reads / clusters。双S4流动槽运行可以不到两天内解码48个人类基因组（6万亿硷基通量），比双S2流动槽通量翻三倍

DNA小片段（350bp）建库：根据公司不同，将DNA用超声波随机打断成一定长度（如350bp），加接头，作为测序前的准备工作，
Gb与GB你混了吗：

Gb是测序中的数据量，1 Gigabase= 十亿碱基。人类全基因组测序得到了90G的原始数据，也就是900亿碱基。原始数据是fastq格式，而fastq格式是这样的：第二行中一个碱基对应第四行中的一个测序质量

得到的900亿碱基，也对应900亿个质量值，加起来就是1800亿个字符。
第一行是测序说明，一般是45个字符，也就是说，每一条测序reads中第一行就有大概45个字符。

那么多少条reads呢？根据PE150计算：测序策略是一条reads包括150bp，现在900亿碱基，就对应900亿/150=60亿条reads 。因此第一行总字符是：60亿*45=270亿个字符。
注意到fastq文件共四行，其中1、2、4行的总数量分别为270亿、900亿、900亿，第三行就是一个+，基本可以忽略不计。加起来总共2070亿字符。计算机中，根据编码规则不同，字符与字节对换关系不同。

Fastq文件是ASCII编码文件，其中每一个字符就对应一个ASCII码，也就等于一个字节。计算机的1 GB（Gigabytes） 是1024³ 个字节
因此，二者对换关系就是：全基因组测序的90Gb对应（2070*10⁸ /1024³ ）=

193GB计算机存储空间。

或者更快的计算： 测序报告会给出reads数，如果测序策略是PE150，那么占用硬盘空间大小就是n(reads)(150+150+45)/1024³*

另外，测序仪下机后的数据都是用gz压缩后的文件.fastq.gz，能压缩2.7倍，大概71G左右。

欢迎关注我们的公众号～_～　　
我们是两个农转生信的小硕，打造生信星球，想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到[email protected]

Welcome to our bioinfoplanet!