水稻BSA之利用Mutmap快速进行基因定位

许多重要的农艺性状为数量性状,由多个基因位点控制。利用传统的分子标记技术进行基因定位,常常需要花费较长的时间和大量的人力物力。2012年日本岩手大学(Iwate university)的科学家Ryohei Terauchi 和他的团队在Nature biotechnology上发表了Mutmap方法,该方法利用混池重测序可以快速实现基因定位,大大提高了遗传定位的效率。

Ryohei Terauchi 等于2012年发表于nature biotechnology上的文章

并在Iwate biotechnology research center上发布了mutmap的pipeline和protocol。

网站地址:http://genome-e.ibrc.or.jp/home/bioinformatics-team/mutmap

Iwate biotechnology research center 网站mutmap主页

1 利用Mutmap进行基因定位的原理

1)对已有参考基因组的野生型材料进行诱变,产生突变体材料,例如使用EMS进行诱变处理。

2)利用突变后代进行自交,直到得到纯合稳定的突变后代。对携带重要农艺性状或感兴趣的性状的纯合突变体进行研究。

3)将选出来的突变体与野生型进行杂交,产生的F1进行自交产生F2(>100),对F2植株进行表型鉴定。

4)在F2群体中,大部分的位点的野生型/突变体SNP、Indels的分离比为1:1,但是在纯合突变表型的F2个体中与控制表型的位点连锁越紧密的SNP出现突变体型的SNP的概率越高,突变体型的SNP概率范围为50%~100%。

5)将F2群体中表现为突变体表型的植株进行混池测序(Sequence the bulked DNA)。

6)利用SNP index=含有突变体型SNP的reads数目/所有比对到该位点的reads数,SNP index值越趋近于1,该SNP与目的基因位点连锁越紧密,SNP index 值越趋近于0.5,该SNP与目的基因位点距离越远。

7)测序深度、突变体混池群体大小、表型分裂和鉴定都会影响最终SNP index的结果。作者在supplementary data中利用统计学方法对这些因素进行分析,帮助判断哪些SNP index值较高的SNP为假阳性位点。

7.1)混池测序植株数目和测序深度的影响(Fig S 1)

假设n为进行bulk sequencing 的植株数,G为测序深度。通过统计学分析可以得出,测序深度G一定时,增加n可以显著将降低SNP index的变异程度,当n一定时增加G,虽然也可降低SNP index的变异程度,但降低的水平较小。

Figure S1

因此可以通过增加混池测序植株数目n或提高测序深度,来降低假阳性出现的概率。

7.2)表型鉴定误差的影响(Fig S 2)

在混池测序时,应准确选取突变表型的植株。如果将表型为野生型的个体混入,就会降低casual SNP 的 index值,从而造成假阴性的错误。为此作者假设错误表型个体混入的植株数目为j,混池测序植株数目为n,测序深度为G。从图A可知,G和n固定,随着j的增大,SNP index逐渐向左移,且方差变大。由图B可知,n和j固定增加测序深度,可以显著降低方差,且high SNP index数量增加。由图C可知,j/n固定,随着n的增加,SNP index的分布变化不大。

由此,当池中混入野生型个体时,应提高测序深度G来降低假阴性的概率。

此外,作者还指出,使用全基因组较少的SNP数目,可以提高准确性,因此应选取高质量的SNP位点进行后续分析。casual SNP附近出现的high SNP index的SNP cluster,可以帮助判断casual SNP的真实性。

Figure S2

2 利用Mutmap方法对水稻浅绿色叶片突变体进行遗传分析

作者利用Mutmap方法对



3 分析流程

所有分析操作均在Mutmap protocol中,此处仅写出主要步骤及注意事项。

1)Protocol、pipeline及数据下载

1.1)protocol和pipeline:http://genome-e.ibrc.or.jp/home/bioinformatics-team/mutmapa

Mutmap pipeline和protocol下载

1.2)日本晴参考基因组:

https://rapdb.dna.affrc.go.jp/download/archive/irgsp1/IRGSP-1.0_genome.fasta.gz

http://rice.plantbiology.msu.edu/pub/data/Eukaryotic_Projects/o_sativa/annotation_dbs/pseudomolecules/version_7.0/all.dir/all.chrs.con

1.3)野生型测序数据和突变体混池测序数据:

建议使用lftp进行下载

如:lftp ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/DRA000/DRA000499 -e "mirror -c --parallel=3;exit"

野生型和混池数据下载地址

2)数据压缩及重命名

数据压缩及重命名

重命名的规则*_[0~9]_[1,2]_sequence.txt.gz

其中*为样品的名称或自己想要的标记(可将后续操作中anyname、mybulk目录修改为*),[0~9]为测序时flow cell的编号,[1,2]此处只能填写1或2,为双端测序的read1和read2。

3)参数设置

3.1)建立原始文件链接

在/myhome/MutMap_test/1.qualify_read/anyname和cd /myhome/MutMap_test/1.qualify_read/mybulk目录下,利用ln -s分别建立原始测序数据链接 。

3.2)添加参考基因组fasta文件

cp public.fasta /myhome/MutMap_test/downloaded_fasta/

3.3)编辑config.txt修改pipeline参数

按照protocol中的要求修改~/MutMap_test/config.txt中的参数。

3.4)运行Bat_make_common.fnc.sh文件

./myhome/MutMap_test/Bat_make_common.fnc.sh

运行后,会在/disk5/mwang/mutmap/MutMap_test/1.qualify_read/anyname(和mybulk)/q30p90/下产生sep_pair目录,对于后续运行重要。

4)通过SNP替换产生野生型的参考基因组

第一步,利用BWA将过滤后的野生型双端测序数据比对到日本晴基因组上。

第二步,用比对产生的SNP对日本晴参考基因组进行替换,产生野生型的参考基因组。

第三步,将被过滤的reads

你可能感兴趣的:(水稻BSA之利用Mutmap快速进行基因定位)