2022-12-06

重测序SNP分析

------二代测序数据检测;SNP calling;SNP过滤;遗传多样性分析;PCA分析;群体遗传结构分析;系统进化分析;QTL连锁不平衡分析;GWAS全基因组关联分析(关键基因挖掘);全基因组范围内核心SNP筛选;DNA指纹图谱构建;SNP位点功能验证;

与各位学者、前辈共同交流学习。

1.重测序数据获取;数据准备;软件下载

(1)建库然后进行测序,一般是illuminate平台、

(2)数据准备:参考基因组,ref=../ref/genome.fasta,为便于软件读取,需先将参考基因组建立索引,

index genome.fasta

#bwa 生成

genome.fasta.amb

genome.fasta.ann

genome.fasta.bwt

genome.fasta.pac

genome.fasta.sa

(3)软件下载:GitHub/conda

2.数据过滤;数据质量检测

fastqc +软件路径 -i dna双端的一条序列的路径 -I dna双端的另外一条序列的路径 -o 输出文件名 -O输出文件名

3.比对;将序列与参考基因组对其

去重复:java -Xmx4g -XX:ParallelGCThreads=2 -jar MarkDuplicates I=S.sort.bam O=S.markup.bam REMOVE_DUPLICATES=true M=S.marked_dup_metrics.txt

重排序:samtools sort -@ 24 -m 2G -o S.sort.bam

bwa mem -t 96 -M -P -R '@RG\tID:S\tSM:S1\tLB:S\tPL:illumina' /ref.fa S1.clean.fq.gz S2.clean.fq.gz 2>S.bwa.log | samtools sort -@ 96 -m 4G -o S.sort.bam

4.比对率与覆盖率统计

测序深度:samtools depth S.sort.bam > S.sort.bam.depth 

测序覆盖度:samtools coverage S1.sort.bam > S1.sort.bam.coverage

5.变异检测

基础质量校准:sentieon driver -r ref.fa -i --aglo QualCal recal_data.table

单样本变异检测:

sentieon driver -r ref.fa

  -i deduped.bam \

  -q recal_data.table \

  --interval $calling_intervals_list \

  --algo Haplotyper \

  --emit_mode gvcf \

  output.g.vcf.gz

群体样本变异检测:

sentieon driver -r ref.fa \

  --interval $calling_intervals_list \

  --algo GVCFtyper \

  -v output.g.vcf.gz \

  --call_conf 10 \

  --emit_conf 10 \

  -d $known_dbsnp \

  output.vcf.gz

6.SNP过滤

7.SNP数据提取

8.SNP注释(下期详述)

你可能感兴趣的:(2022-12-06)