文章题目、完成单位、发表期刊
基于全基因组重测序的中国猕猴桃溃疡病菌遗传多样性分析
北京林业大学
植物病理学报 2019
基本思路
我国7个受溃疡病危害最严重的地区21个Psa菌株进行重测序
计算的指标
- 群体Fst
- 核苷酸多态性
- 基因流(Nm)
- Tajima's D 中性检验
- Ka/Ks
参考基因组下载
Psa的模式菌株Psa-J35 序列号为CM002753.1
原始测序数据
根据论文中提供的 SRA number逐个下载
测序数据概况
- 双端150bp
- 测序平台 Illumina HiSeq 4000
- 插入片段长度 350 bp
数据过滤
使用fastp软件默认参数过滤
for i in CGhy_3 CWhy_1 CWhy_2 GLhy_3 GMhy_1 GMhy_2 HFhy_2 HFhy_3 HWhx_2 HWhx_3 HXhy_2 HXzh_1 HYml_1 HZhx_1 HZzh_3 SChy_1 SDhy_2 SHwd_3 SWqm_1 SYhy_3 SZxx_2
do
fastp -i Input/${i}/*_1.fastq -I Input/${i}/*_2.fastq -o Input/${i}/reads_R1.fastq -O Input/${i}/reads_R2.fastq
echo ${i}' Quality Control done'
done
参考序列构建索引
samtools faidx KiwifruitPathogen.fasta
bwa index KiwifruitPathogen.fasta
原始数据比对参考基因组生成BAM文件
for i in CGhy_3 CWhy_1 CWhy_2 GLhy_3 GMhy_1 GMhy_2 HFhy_2 HFhy_3 HWhx_2 HWhx_3 HXhy_2 HXzh_1 HYml_1 HZhx_1 HZzh_3 SChy_1 SDhy_2 SHwd_3 SWqm_1 SYhy_3 SZxx_2
do
bwa mem -t 4 -R '@RG\tID:foo\tPL:illumina\tSM:'${i} Reference/KiwifruitPathogen.fasta Input/${i}/reads_R1.fastq Input/${i}/reads_R2.fastq | samtools view -Sb - > Output/${i}.bam
echo ${i}' bam file done'
samtools sort -m 4G -O bam -o Output/${i}.sorted.bam Output/${i}.bam
rm -f Output/${i}.bam
echo ${i}' sorted bam done'
gatk MarkDuplicates -I Output/${i}.sorted.bam -O Output/${i}.sorted.markdup.bam -M Output/${i}.sorted.markdup_metrics.txt
rm -f Output/${i}.sorted.bam
echo ${i}' markdup done'
samtools index Output/${i}.sorted.markdup.bam
echo ${i}' index done'
done
BAM文件生成VCF文件
bcftools mpileup -Ou -f ../Reference/KiwifruitPathogen.fasta CGhy_3.sorted.markdup.bam CWhy_1.sorted.markdup.bam CWhy_2.sorted.markdup.bam GLhy_3.sorted.markdup.bam GMhy_1.sorted.markdup.bam GMhy_2.sorted.markdup.bam HFhy_2.sorted.markdup.bam HFhy_3.sorted.markdup.bam HWhx_2.sorted.markdup.bam HWhx_3.sorted.markdup.bam HXhy_2.sorted.markdup.bam HXzh_1.sorted.markdup.bam HYml_1.sorted.markdup.bam HZhx_1.sorted.markdup.bam HZzh_3.sorted.markdup.bam SChy_1.sorted.markdup.bam SDhy_2.sorted.markdup.bam SHwd_3.sorted.markdup.bam SWqm_1.sorted.markdup.bam SYhy_3.sorted.markdup.bam SZxx_2.sorted.markdup.bam | bcftools call -f GQ,GP -vmO z --ploidy 1 -o ../KiwifruitPathogen.vcf.gz
得到了vcf文件第一步准备工作完成,接下来是利用vcf文件计算用于说明问题的指标。预知后事如何,请听下回分解。
更新
利用以上命令得到的vcf文件中好像没有每个样品的测序深度信息,应该是 需要额外的参数
对得到的vcf文件进行简单过滤
- 只保留snp位点
- 只保留二等位基因位点
- 最低质量分数不低于30
- 过滤掉缺失率高于50%的位点
这里参考 https://www.jianshu.com/p/57d21bea1002
vcftools --gzvcf KiwifruitPathogen.vcf.gz --remove-indels --minQ 30 --max-missing 0.5 --min-alleles 2 --max-alleles 2 --recode --recode-INFO-all --out KiwifruitPathogenFiltered
使用SnPHylop根据vcf文件构建进化树
这里参考 如何构建SNPs-based phylogenetic tree
使用SNPHylop遇到报错暂时还不知道如何解决
参考上文的第二种方法
先使用python脚本将vcf格式的文件转化为phy格式的文件,然后使用IQ-tree构建进化树
python vcf2phylip.py -i KiwifruitPathogenFiltered.recode.vcf
iqtree -s KiwifruitPathogenFiltered.recode.min4.phy -bb 1000
原论文中构建进化树的时候还用到了外类群,那么如何选择外类群的序列呢?
使用ggtree对进化树进行可视化
ggtree(tree)+geom_tiplab()+xlim(0,0.25)
原论文中加了参考序列和外类群,具体该如何实现自己还得好好琢磨一下
更新
参考文章
- 1、宇宙实验媛 公众号文章 《群体结构分析三种常用方法(上篇)》作主成分分析
- 2、PCA分析 https://www.jianshu.com/p/968c5cb911dd
plink --vcf ../KiwifruitPathogenFiltered.recode.vcf --make-bed --out KiwifruitPathogen --allow-extra-chr
按照参考文章1将结果整理到文件中
genotypename: KiwifruitPathogen.bed
snpname: KiwifruitPathogen.bim
indivname: KiwifruitPathogen.indv
evecoutname: KiwifruitPathogen.evec
evaloutname: KiwifruitPathogen.eval
numoutevec: 8
numoutlieriter: 0
运行
smartpca -p pca.par
遇到报错
fatalx:
bad chrom: CM002753.1
Aborted (core dumped)
暂时还不知道如何处理
更新
在学习admixure软件时找到了解决办法
将plink软件生成的bim文件中的第一列替换成整数数字就可以了
运行结果
#eigvals: 4.371 3.629 3.204 2.019 1.834 1.166 0.852 0.748
CGhy_3 0.0184 0.0653 -0.0180 -0.0011 -0.0030 -0.0257 -0.0213 -0.0211 Chongqing
CWhy_1 0.2864 0.0132 0.0540 0.0466 0.0869 -0.0366 0.0149 0.0362 Chongqing
CWhy_2 0.2891 0.0148 0.0583 0.0563 0.0937 -0.0038 0.0360 -0.0575 Chongqing
GLhy_3 -0.2206 -0.0962 0.1795 -0.0329 0.0034 0.6263 -0.0896 -0.6671 Guizhou
GMhy_1 -0.2718 -0.1064 0.2074 0.0004 0.0030 -0.4677 -0.0116 -0.1506 Guizhou
GMhy_2 -0.2756 -0.1102 0.2130 -0.0043 0.0049 -0.4802 -0.0032 -0.1843 Guizhou
HFhy_2 0.0909 0.0878 -0.0280 -0.4252 -0.8578 0.0302 0.0440 0.0750 Hunan
HFhy_3 -0.2414 -0.1080 0.2132 -0.0002 0.0241 0.1168 0.0666 0.2953 Hunan
HWhx_2 -0.1299 0.3049 -0.2426 0.2558 -0.0313 0.0176 0.2045 -0.0082 Hubei
HWhx_3 -0.1324 0.3054 -0.2465 0.2570 -0.0347 0.0107 0.2058 -0.0296 Hubei
HXhy_2 0.2884 -0.0066 0.0578 0.0182 0.0213 -0.1173 -0.0465 -0.1607 Henan
HXzh_1 0.2954 -0.0060 0.0658 0.0210 0.0179 -0.1348 -0.0458 -0.1762 Henan
HYml_1 -0.0881 0.2633 -0.2613 -0.7628 0.4671 -0.0109 0.0172 0.0244 Hunan
HZhx_1 -0.1311 0.3071 -0.2442 0.2591 -0.0361 0.0055 0.2021 -0.0246 Hubei
HZzh_3 0.3040 -0.0057 0.0671 0.0236 0.0207 -0.1400 -0.0284 -0.1857 Henan
SChy_1 -0.0788 0.1637 -0.1409 0.1551 -0.0251 0.0361 -0.9073 0.1961 Sichuan
SDhy_2 -0.0275 -0.7301 -0.6453 0.0287 -0.0123 -0.0034 0.0304 0.0043 Sichuan
SHwd_3 0.2541 -0.0690 0.1446 0.0575 0.1057 0.1855 0.1074 0.2577 Shaanxi
SWqm_1 -0.2385 -0.1101 0.2076 -0.0052 0.0210 0.1091 0.0630 0.2525 Shaanxi
SYhy_3 0.2479 -0.0681 0.1449 0.0527 0.1064 0.1746 0.0967 0.2394 Sichuan
SZxx_2 -0.2388 -0.1091 0.2136 -0.0004 0.0241 0.1079 0.0651 0.2847 Shaanxi
欢迎大家关注我的公众号,小明的数据分析笔记本