hisat2的index差别

1.下载三个index:

2.重命名为:

hisat2_grcm38_genome_index/genome [1-sam]

hisat2_grcm38_genome_snp_tran_index/genome_snp_tran [1-sam]

hisat2_mm10_genome_index/genome [1-sam]

3.hisat2比对命令:

hisat2 -p 10 -x ../hisat2_grcm38_genome_index/genome -1 R1.fq -2 R2.fq -S 1.sam

hisat2 -p 10 -x ../hisat2_grcm38_genome_snp_tran_index/genome_snp_tran -1 R1.fq -2 R2.fq -S 2.sam

hisat2 -p 10 -x ../hisat2_mm10_genome_index/genome -1 R1.fq -2 R2.fq -S 3.sam

4.比对率:

1-sam
2-sam
3-sam

嘿嘿:比对发现转录本的比对率高

导入igv也没啥差异

5.查看sam文件寻找差异:

也就chr是不同的

6.看chr有哪些?

1和2的sam
3的sam

结论:基因组还是有差别的,也就是说后续的gtf不能混用!


7.下载查看gtf:

gencode:

axel -n 50 ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_mouse/release_M19/gencode.vM19.chr_patch_hapl_scaff.annotation.gtf.gz

gencode.vm19.GRCm38.all.ano.gtf

gencode

ensembl:

axel -n 20 ftp://ftp.ensembl.org/pub/release-94/gtf/mus_musculus/Mus_musculus.GRCm38.94.chr_patch_hapl_scaff.gtf.gz

ensembl.GRCm38.94.all.ano.gtf

ensembl

NCBI:

wget -c ftp://ftp.ncbi.nih.gov/genomes/M_musculus/GFF/ref_GRCm38.p4_top_level.gff3.gz

ncbi.GRCm38.p4.all.ano.gff3

看不懂

UCSC:

UCSC

结论:

hisat2-GRCm38-index比对后:

无--add-chrname,则肯定用enseml的gtf

若加了--add-chrname,则用gencode的gtf改造“+chr”/或者ensembl改造也行“+chr”

hisat2-mm10-index比对后:

使用UCSC的gtf

就转录本而言,其实用哪个都行...

gencode和ensembl的gtf的确是相同的

8.下载查看fasta:

gencode:

axel -n 100 ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_mouse/release_M19/GRCm38.p6.genome.fa.gz

GRCm38.p6.genome.fa

gencode

ensembl:

axel -n 100 ftp://ftp.ensembl.org/pub/release-94/fasta/mus_musculus/dna/Mus_musculus.GRCm38.dna_sm.toplevel.fa.gz

Mus_musculus.GRCm38.dna_sm.toplevel.fa

ucsc:

axel -n 30 ftp://hgdownload.soe.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz

cat *.fa > mm10.fa

ucsc

查看具体序列:

相同的!!!

结论:三者大部分相同,也有略微不同

gencode和ucsc有chr

ensembl没有chr

相比较而言,gencode和ensembl比较像,但是基本的fasta并不影响。

总结论:

使用哪个基因组的fasta都ok

使用gencode和ensembl的gtf也是一样的

差别在chr这块

你可能感兴趣的:(hisat2的index差别)