Fst/Pi/Dxy的计算、基因岛屿与曼哈顿图(1) - 个人笔记

待更新  2020.5.10

-1.把Fst值较高的区域(比如前百分之1)当成岛屿(或者Dxy值,这里以Fst为例)  (但为什么要这样做我并不明白)。

0. Fst/Pi/Dxy是什么

1.Fst值(还有Dxy,Pi)的计算

1.1 工具

https://github.com/simonhmartin/genomics_general  使用的是这里的脚本(也可以用vcftools)

wget https://github.com/simonhmartin/genomics_general/archive/refs/heads/master.zip解压即可

1.2 转换格式

./VCF_processing/parseVCF.py -i try.vcf -o try.geno    得到try.geno文件

.geno文件有这几种格式,对应的,更改下一步的 -f 参数  我这里是-f phased

1.3 计算

python popgenWindows.py -w 20000 -m 200 --windType coordinate -g try.geno -o try.csv -f phased -T 5 -p A A1,A2,A3,A4,A5,A6 -p B B1,B2,B3,B4,B5,B6,B7,B8,B9 --popsFile pop.file

-w是窗口值大小;-g是输入文件即1.2的输出文件;-o即输出文件;-m即使MinSites,这里-m 200的意思是:如果这个窗口里面的sites(SNP)低于200,就把这个窗口扔掉;--windType即窗口类型,coordinate 这个类型是指窗口的坐标恒定,但是里面的sites数量可能不同;;另一种窗口类型是 sites ,即每个窗口里面的sites数量相同,但是坐标不同;-T是线程数;-p则指定群体以及群体包含了哪些个体。 --popsFile这个文件的内容是两列,一列是个体名,一列是群体名。

得到try.csv

1.4 结果如下

1.5 画图(R)

对于Pi  

待补充,正在学习


对于Fst和Dxy可以简单粗暴的把一个窗口当成一个SNP,手动加一列就行,然后拿去画图。

qqman、CMplot这两个包均可实现

https://www.jianshu.com/p/1edc44fe922f      qqman

https://www.burning.net.cn/article/article-29     CMplot

但是我的疑问是在于一个窗口中有很多个Sites,如果Sites = SNP,那这样的画法明显不合适

你可能感兴趣的:(Fst/Pi/Dxy的计算、基因岛屿与曼哈顿图(1) - 个人笔记)