小麦穗粒数转录组分析(三)-----Fst的计算

小麦穗粒数转录组分析(三)-----Fst的计算_第1张图片

                    小麦穗粒数转录组分析(三)-----Fst的计算

                                                本期作者:Neal

Hi,大家好!今天非常惊喜的看到两篇Pm21的文章以背靠背的形式发表在Molecular Plant上,去年的时候这两篇文章都在预印本biorxiv网站上在线了,当时我们也推送了两篇有关的内容,Pm21,掀起你的盖头来,Pm21的“盖头”被完全掀开——有着一张熟面孔。这种背靠背的形式发表文章一来大家互相验证,二来影响力要远远高于单独发表。我们在2017年的总结中也提到了Pm21的克隆,年度盘点:2017年小麦研究领域的重大事件。再次对这两个团队表示祝贺。那些做图位克隆的小伙伴也要加油哈!

好了,我们言归正传。这是本系列的第三集。这是前面的两集,小麦穗粒数转录组分析(一),小麦穗粒数转录组分析(二)——SNP的筛选。忘了的同学可以回顾一下。

我都不知道该如何开始这个话题。Fst是用来描述种群内和种群间差异的一种衡量指标,表示一个种群内两个亚群等位基因频率差异的某种标准化,是差异性的一种代表。当Fst较小时,表示两个群体间差异较小,反之亦然。基于Fst可以进行选择性消除分析。比方说,我们已知有两个小麦群体,一个是育成品种群体,它们的农艺性状普遍较好,也即是人工选择的结果;另外一个是地方品种群体,它们更多的是长期自然选择的结果。说到人工选择,不同时期人们的偏好会不一样,有一段时期会追求某一方面的性状,而过一段时期又会追求另外的性状。当我们收集了不同群体的基因型之后,我们就可以做一些群体进化方面的分析。比如,我想知道河南省最近10年推广的品种中哪些基因组区段受到了选择。再比如,我收集了100份千粒重很高的品种和100份千粒重比较低的材料,我们就可以比较这个群体里在某些区段等位基因频率的差异,那些等位基因频率差异很大的区域就是受到选择的区域。

大家可以参见徐洲更同学写的这一篇会算Fst还不够,还得知道它的用途,也可以参见这一篇文章,群体遗传进化必备小知识,我就不再搬砖了。

回到我们的话题。前面我们提到这90份微核心种质,包括两个群体,一个是包含16份育成品种群体,剩下的是地方品种群体。这一群体的信息,可以查阅文章“Transcriptome Association Identifies Regulators of Wheat Spike Architecture”。现在我们可以试着计算这两个群体之间的Fst。

使用的工具是vcftools, 这实在是一个犀利的工具,今天我们只谈一谈如何使用vcftools计算Fst。命令如下,

```

vcftools --vcf 90_mini_core_UG_first_third_filter_eff.vcf --weir-fst-pop EV_population.txt --weir-fst-pop L_population.txt --out pop1_vs_pop2 --fst-window-size 500000 --fst-window-step 50000

# 90_mini_core_UG_first_third_filter_eff.vcf是我们前面得到的vcf文件;

# EV_population.txt是一个包含品种名字的文件,每行一个品种。这里的品种名字要和vcf的名字对应

# L_population.txt 是另外一个包含品种名字的文件,即地方品种群体。

#计算的窗口是500kb,而步长是50kb。我们也可以只计算每个点的Fst,去掉参数(--fst-window-size 500000 --fst-window-step 50000)即可。

```

输出结果如下面的格式:

CHROMBIN_STARTBIN_ENDN_VARIANTSWEIGHTED_FSTMEAN_FST

chr1A700001120000010.24290.2429

chr1A750001125000030.3102950.300006

chr1A800001130000030.3102950.300006

chr1A8500011350000100.3114090.306106

chr1A9000011400000100.3114090.306106

chr1A9500011450000100.3114090.306106

chr1A10000011500000100.3114090.306106

chr1A10500011550000100.3114090.306106

chr1A11000011600000100.3114090.306106

根据上述表格我们就可以画图,或者查看我们关心的区域。

�dirpath=("/Users/Desktop/scripts/snpEff_latest_core/snpEff")

setwd(dirpath)

library(ggplot2)

data<-read.table("./pop1_vs_pop2_repeat.weir.fst",header=T)

chr6B = subset(data,CHROM=="chr6B")

#这里只选择了6B这条染色体来看。

p <- ggplot(chr6B,aes(x=POS/1000000,y=WEIR_AND_COCKERHAM_FST)) + geom_point(size=0.5, colour="blue") + xlab("Physical distance (Mb)")+ ylab("Fst") + ylim(-1,1)

p + theme_bw()�

小麦穗粒数转录组分析(三)-----Fst的计算_第2张图片

今天就到这里了,Fst结果的筛选和生物意义挖掘,大家可以参加这方面的文章。这方面我也是第一次做,没啥经验,大家有想法的话可以交流,加“wheatgenome”即可。


欢迎关注“小麦研究联盟”,了解小麦新进展

小麦穗粒数转录组分析(三)-----Fst的计算_第3张图片

投稿、转载、合作以及信息分布等请联系:wheatgenome

你可能感兴趣的:(小麦穗粒数转录组分析(三)-----Fst的计算)