10.17 IGV可视化 snpEFF注释 解压缩命令

一、IGV可视化

查看bam文件:samtools view -h in.bam 可以加限制看具体位置

第一,把你想查看的那部分区域用samtools view提取出来,生成一份小一些的BAM,然后下载下来,在导入到IGV中。

$ samtools view -h in.bam chr22:16050103-16050203 | samtools view -Sb - > small.bam

但是我的文件不大,直接scp下来。

安装IGV需要先安装java。

IGV使用:https://www.jianshu.com/p/e5338858dd82(还介绍了如何自己构建参考基因组)

其实文件挺大的

选择参考基因组,这里直接使用NC_000913

file  loadfile加载bam文件,需要sort过,并且有索引

加载时间过长,可以出高端图用。

还可以igvtools将bam文件转换为tdf文件:https://www.jianshu.com/p/c0635eb9ac24

但是tdf文件只能反映基因组每个区域的测序深度,无法看到具体的比对情况,适合用来check找到的peak或者CNV

第二,不下载,直接在终端用samtools tview进行查看。samtools tview有类似于IGV的功能,虽然体验会稍差一些。

samtools tview --reference ./ref2/E.coli_K12_MG1655.fa ./out/bamout/SRR1770413.sorted.markdup.bam

(效果确实很不好,注意reference前--,参考基因组和bam文件都要有索引)

在该模式下,按下键盘‘g’后,会跳出一个Goto框,在里面输入想要调整过去的位置.

https://www.jianshu.com/p/364e640d3c9f


二、参考基因组数据的查找和注释文件查找

参考基因组:Genome Browser

https://link.jianshu.com/?t=http://genome.ucsc.edu/index.html

downloads ->    genome data 里面都是动物的基因组,sad


注释文档:gtf gff文件

GFF全称为general feature format,这种格式主要是用来注释基因组。

GTF全称为gene transfer format,主要是用来对基因进行注释。

https://www.gencodegenes.org/



https://www.jianshu.com/p/1b9426d0f9f4  

https://www.jianshu.com/p/3e545b9a3c68

上两篇:讲解人的基因组数据下载和文件解压合并。与导入IGV



三、snpEFF注释

http://snpeff.sourceforge.net/SnpEff_manual.html#databases

1.下载zip

2.scp到服务器

3.home dir  :unzip snpEff_latest_core.zip

在mac上进行,p到服务器上:

服务器没网,在mac上查看,需要JDK才可以使用java命令行

4.查看有哪些database:java -jar snpEff.jar databases 

10.17 IGV可视化 snpEFF注释 解压缩命令_第1张图片
mac上成功下载

5.java -jar ./snpEff/snpEff.jar download Escherichia_coli_mgh_57 

下载失败了,没connect上

6.下载成功之后,在软件安装目录的data文件夹下,会有一个以数据库名字命名的文件夹,里面就是下载好的所有文件

https://www.jianshu.com/p/ad1ab3d7fcd0



自己制作database:

http://blog.csdn.net/msw521sg/article/details/77103620

1.首先下载参考基因组和注释文件

2.在snpEff目录下创建data文件

3.在data中创建E.coli 和genomes两个文件

4.将gff文件放到E.coli中,genomes中放入fa文件(fna要改为fa)

5.在snpEff目录下的snpEff.config 中最后:

输入的内容

6.snpEff目录下执行:

java -jar snpEff.jar build -gff3 -v E.coli

7.vcf文件移到data目录下后

java -jar snpEff.jar E.coli data/SRR1770413.HC.vcf >SRR1770413.HC.eff.vcf

8.得到三个文件



其他:

解压缩命令:

.tar

解包:tar xvf FileName.tar

打包:tar cvf FileName.tar DirName

(注:tar是打包,不是压缩!)

———————————————

.gz

解压1:gunzip FileName.gz

解压2:gzip -d FileName.gz

压缩:gzip FileName

.tar.gz 和 .tgz

解压:tar zxvf FileName.tar.gz

压缩:tar zcvf FileName.tar.gz DirName

———————————————

.bz2

解压1:bzip2 -d FileName.bz2

解压2:bunzip2 FileName.bz2

压缩: bzip2 -z FileName

.tar.bz2

解压:tar jxvf FileName.tar.bz2

压缩:tar jcvf FileName.tar.bz2 DirName

———————————————

.bz

解压1:bzip2 -d FileName.bz

解压2:bunzip2 FileName.bz

压缩:未知

.tar.bz

解压:tar jxvf FileName.tar.bz

压缩:未知

———————————————

.Z

解压:uncompress FileName.Z

压缩:compress FileName

tar.Z

解压:tar Zxvf FileName.tar.Z

压缩:tar Zcvf FileName.tar.Z DirName

———————————————

.zip

解压:unzip FileName.zip

压缩:zip FileName.zip DirName

———————————————

.rar

解压:rar x FileName.rar

压缩:rar a FileName.rar DirName

———————————————

.lha

解压:lha -e FileName.lha

压缩:lha -a FileName.lha FileName

———————————————

.rpm

解包:rpm2cpio FileName.rpm | cpio -div

———————————————

.deb

解包:ar p FileName.deb data.tar.gz | tar zxf -


查找参考基因组和注释:

使用ncbi genome 输入物种名


移到文件底端:

esc 88888 下键


明天的下篇文章主要学习各种文件所表达的信息和内容

你可能感兴趣的:(10.17 IGV可视化 snpEFF注释 解压缩命令)