文献笔记四十五:基于全基因组重测序技术的中国猕猴桃溃疡病菌遗传多样性分析

文章题目、完成单位、发表期刊

基于全基因组重测序的中国猕猴桃溃疡病菌遗传多样性分析
北京林业大学
植物病理学报 2019

基本思路

我国7个受溃疡病危害最严重的地区21个Psa菌株进行重测序
计算的指标

  • 群体Fst
  • 核苷酸多态性
  • 基因流(Nm)
  • Tajima's D 中性检验
  • Ka/Ks
参考基因组下载

Psa的模式菌株Psa-J35 序列号为CM002753.1

原始测序数据

根据论文中提供的 SRA number逐个下载
测序数据概况

  • 双端150bp
  • 测序平台 Illumina HiSeq 4000
  • 插入片段长度 350 bp
数据过滤

使用fastp软件默认参数过滤

for i in CGhy_3 CWhy_1 CWhy_2 GLhy_3 GMhy_1 GMhy_2 HFhy_2 HFhy_3 HWhx_2 HWhx_3 HXhy_2 HXzh_1 HYml_1 HZhx_1 HZzh_3 SChy_1 SDhy_2 SHwd_3 SWqm_1 SYhy_3 SZxx_2
        do
                fastp -i Input/${i}/*_1.fastq -I Input/${i}/*_2.fastq -o Input/${i}/reads_R1.fastq -O Input/${i}/reads_R2.fastq
                echo ${i}' Quality Control done'
        done
参考序列构建索引
samtools faidx KiwifruitPathogen.fasta 
bwa index KiwifruitPathogen.fasta
原始数据比对参考基因组生成BAM文件
for i in CGhy_3 CWhy_1 CWhy_2 GLhy_3 GMhy_1 GMhy_2 HFhy_2 HFhy_3 HWhx_2 HWhx_3 HXhy_2 HXzh_1 HYml_1 HZhx_1 HZzh_3 SChy_1 SDhy_2 SHwd_3 SWqm_1 SYhy_3 SZxx_2 
    do
        bwa mem -t 4 -R '@RG\tID:foo\tPL:illumina\tSM:'${i} Reference/KiwifruitPathogen.fasta Input/${i}/reads_R1.fastq Input/${i}/reads_R2.fastq | samtools view -Sb - > Output/${i}.bam
        echo ${i}' bam file done'
        samtools sort -m 4G -O bam -o Output/${i}.sorted.bam Output/${i}.bam
        rm -f Output/${i}.bam
        echo ${i}' sorted bam done'
        gatk MarkDuplicates -I Output/${i}.sorted.bam -O Output/${i}.sorted.markdup.bam -M Output/${i}.sorted.markdup_metrics.txt
        rm -f Output/${i}.sorted.bam
        echo ${i}' markdup done'
        samtools index Output/${i}.sorted.markdup.bam
        echo ${i}' index done'
    done
BAM文件生成VCF文件
bcftools mpileup -Ou -f ../Reference/KiwifruitPathogen.fasta CGhy_3.sorted.markdup.bam CWhy_1.sorted.markdup.bam CWhy_2.sorted.markdup.bam GLhy_3.sorted.markdup.bam GMhy_1.sorted.markdup.bam GMhy_2.sorted.markdup.bam HFhy_2.sorted.markdup.bam HFhy_3.sorted.markdup.bam HWhx_2.sorted.markdup.bam HWhx_3.sorted.markdup.bam HXhy_2.sorted.markdup.bam HXzh_1.sorted.markdup.bam HYml_1.sorted.markdup.bam HZhx_1.sorted.markdup.bam HZzh_3.sorted.markdup.bam SChy_1.sorted.markdup.bam SDhy_2.sorted.markdup.bam SHwd_3.sorted.markdup.bam SWqm_1.sorted.markdup.bam SYhy_3.sorted.markdup.bam SZxx_2.sorted.markdup.bam | bcftools call -f GQ,GP -vmO z --ploidy 1 -o ../KiwifruitPathogen.vcf.gz

得到了vcf文件第一步准备工作完成,接下来是利用vcf文件计算用于说明问题的指标。预知后事如何,请听下回分解。

更新

利用以上命令得到的vcf文件中好像没有每个样品的测序深度信息,应该是 需要额外的参数

对得到的vcf文件进行简单过滤
  • 只保留snp位点
  • 只保留二等位基因位点
  • 最低质量分数不低于30
  • 过滤掉缺失率高于50%的位点

这里参考 https://www.jianshu.com/p/57d21bea1002

vcftools --gzvcf KiwifruitPathogen.vcf.gz --remove-indels --minQ 30 --max-missing 0.5 --min-alleles 2 --max-alleles 2 --recode --recode-INFO-all --out KiwifruitPathogenFiltered
使用SnPHylop根据vcf文件构建进化树

这里参考 如何构建SNPs-based phylogenetic tree
使用SNPHylop遇到报错暂时还不知道如何解决

参考上文的第二种方法

先使用python脚本将vcf格式的文件转化为phy格式的文件,然后使用IQ-tree构建进化树

python vcf2phylip.py -i KiwifruitPathogenFiltered.recode.vcf
iqtree -s KiwifruitPathogenFiltered.recode.min4.phy -bb 1000

原论文中构建进化树的时候还用到了外类群,那么如何选择外类群的序列呢?

使用ggtree对进化树进行可视化
ggtree(tree)+geom_tiplab()+xlim(0,0.25)
文献笔记四十五:基于全基因组重测序技术的中国猕猴桃溃疡病菌遗传多样性分析_第1张图片
image.png

原论文中加了参考序列和外类群,具体该如何实现自己还得好好琢磨一下

更新

参考文章

  • 1、宇宙实验媛 公众号文章 《群体结构分析三种常用方法(上篇)》作主成分分析
  • 2、PCA分析 https://www.jianshu.com/p/968c5cb911dd
plink --vcf ../KiwifruitPathogenFiltered.recode.vcf --make-bed --out KiwifruitPathogen --allow-extra-chr

按照参考文章1将结果整理到文件中

genotypename: KiwifruitPathogen.bed
snpname: KiwifruitPathogen.bim
indivname: KiwifruitPathogen.indv
evecoutname: KiwifruitPathogen.evec
evaloutname: KiwifruitPathogen.eval
numoutevec: 8
numoutlieriter: 0

运行

smartpca -p pca.par

遇到报错

fatalx:
bad chrom: CM002753.1
Aborted (core dumped)

暂时还不知道如何处理

更新

在学习admixure软件时找到了解决办法
将plink软件生成的bim文件中的第一列替换成整数数字就可以了
运行结果

#eigvals:     4.371     3.629     3.204     2.019     1.834     1.166     0.852     0.748 
              CGhy_3     0.0184      0.0653     -0.0180     -0.0011     -0.0030     -0.0257     -0.0213     -0.0211        Chongqing
              CWhy_1     0.2864      0.0132      0.0540      0.0466      0.0869     -0.0366      0.0149      0.0362        Chongqing
              CWhy_2     0.2891      0.0148      0.0583      0.0563      0.0937     -0.0038      0.0360     -0.0575        Chongqing
              GLhy_3    -0.2206     -0.0962      0.1795     -0.0329      0.0034      0.6263     -0.0896     -0.6671          Guizhou
              GMhy_1    -0.2718     -0.1064      0.2074      0.0004      0.0030     -0.4677     -0.0116     -0.1506          Guizhou
              GMhy_2    -0.2756     -0.1102      0.2130     -0.0043      0.0049     -0.4802     -0.0032     -0.1843          Guizhou
              HFhy_2     0.0909      0.0878     -0.0280     -0.4252     -0.8578      0.0302      0.0440      0.0750            Hunan
              HFhy_3    -0.2414     -0.1080      0.2132     -0.0002      0.0241      0.1168      0.0666      0.2953            Hunan
              HWhx_2    -0.1299      0.3049     -0.2426      0.2558     -0.0313      0.0176      0.2045     -0.0082            Hubei
              HWhx_3    -0.1324      0.3054     -0.2465      0.2570     -0.0347      0.0107      0.2058     -0.0296            Hubei
              HXhy_2     0.2884     -0.0066      0.0578      0.0182      0.0213     -0.1173     -0.0465     -0.1607            Henan
              HXzh_1     0.2954     -0.0060      0.0658      0.0210      0.0179     -0.1348     -0.0458     -0.1762            Henan
              HYml_1    -0.0881      0.2633     -0.2613     -0.7628      0.4671     -0.0109      0.0172      0.0244            Hunan
              HZhx_1    -0.1311      0.3071     -0.2442      0.2591     -0.0361      0.0055      0.2021     -0.0246            Hubei
              HZzh_3     0.3040     -0.0057      0.0671      0.0236      0.0207     -0.1400     -0.0284     -0.1857            Henan
              SChy_1    -0.0788      0.1637     -0.1409      0.1551     -0.0251      0.0361     -0.9073      0.1961          Sichuan
              SDhy_2    -0.0275     -0.7301     -0.6453      0.0287     -0.0123     -0.0034      0.0304      0.0043          Sichuan
              SHwd_3     0.2541     -0.0690      0.1446      0.0575      0.1057      0.1855      0.1074      0.2577          Shaanxi
              SWqm_1    -0.2385     -0.1101      0.2076     -0.0052      0.0210      0.1091      0.0630      0.2525          Shaanxi
              SYhy_3     0.2479     -0.0681      0.1449      0.0527      0.1064      0.1746      0.0967      0.2394          Sichuan
              SZxx_2    -0.2388     -0.1091      0.2136     -0.0004      0.0241      0.1079      0.0651      0.2847          Shaanxi

欢迎大家关注我的公众号,小明的数据分析笔记本


文献笔记四十五:基于全基因组重测序技术的中国猕猴桃溃疡病菌遗传多样性分析_第2张图片
公众号二维码.jpg

你可能感兴趣的:(文献笔记四十五:基于全基因组重测序技术的中国猕猴桃溃疡病菌遗传多样性分析)