linux视频-P11\P12

P11-10个题目的答案讲解

image-20190614142106984
image-20190614141400608

提示: sort -u test和sort test|uniq 效果是一样的

sort的-u 选项它的作用很简单,就是在输出行中去除重复行

image-20190614134619455
image-20190614134732997
image-20190614135618600
image-20190614143625037
题目外-按uniq-c后的数排序
题目外-按uniq-c后的数反向排序
同题4
image-20190614140133472
image-20190614140230182
image-20190614140648804

用tee,可以既显示在屏幕上,又保存下来了

image-20190614145058751
image-20190614145112164
ls -d参数
image-20190614152537701
image-20190614152632582
定向1(正确) 和 2(错误)

不把报错显示出来,但是会存在log日志里

image-20190614155123452
image-20190614155137750
image-20190614160445051
image-20190614160512635

可以查看ubuntu系统配置命令https://blog.csdn.net/kinglyjn/article/details/53584652?utm_source=itdadao&utm_medium=referral

image-20190614161011482
image-20190614161216958
image-20190614161409451
image-20190614161425375
image-20190614161455472

P12-数据格式

fa/fq:测序数据比对

sam/bam:压缩成二进制文件

gff/gtf:描述基因组上的结构

bigwig/wiggle:看测序深度

bed:描述坐标 类型

vcf:记录突变信息

image-20190614162152782
grep '>' 文件名.fa #>是都不会变的,但是2是可能会变的
image-20190614174923067

gz.结尾,用zless查看

可以复制序列在ucsc上查看染色体坐标

image-20190614175234273

对这条fq进行检验,用fastqc

image-20190614175323766
image-20190614175502743
cat tmp.fq|paste - - - - # paset 把四行合并为一行显示
image-20190614175741950
cat tmp.fq|paste - - - -|less -S 
image
接上一张图片
cut -c1 #取出第1个字符(即第一个碱基)
image-20190614181753794

下面这幅图就是统计了每条序列的百分比

image-20190614182220524

接下来看GC含量,但上面指截取了100行,也就是25条序列,下面改成截取250条序列
image-20190614183153853

再跑一遍fastqc

image-20190614183524950
image-20190614183557257

-c 查看碱基A\T\C\G的数量,可看到A和T均比例高于C和G,下面这张图也可看出,绿色A和红色T的比例均高于蓝色C和黑色G

image-20190614183709373
image-20190614190431397

小写字母非常多,如图19630个'g',就是illamina 1.5,'g'地标什么呢?

image-20190614190553505
image-20190614191341899
image-20190614190850098
image-20190614190954213

103-64=29,如上图所示,第一个碱基的质量就是不到40左右

看最后一个碱基

image-20190614191750008
image-20190614191842807

g、f、e、d、c都有

image-20190614191859143
boxplot(rep(39,19000),ylim=c(0,40))#即第一个碱基的boxplot图,如下图
image-20190614192044041
dat=c(rep(35,1524),rep(36,1939),rep(37,3360),rep(38,1230),rep(39,9748))
boxplot(dat,ylim=c(0,40))
image-20190614192401273

当样本多时,可以用multiqc整合成一个报告

sam和bam文件

image-20190614192840002
image-20190614200558259
image-20190614200848836

sam是比对后的fq文件,接下来比对 hg38为构建好的索引

image-20190614202909768
image-20190614203336979

可以用ucsc看是否比对在了2号染色体

image-20190614203839517
image-20190614203937837
image-20190614204037517

sam格式

4I:中间有4个insertion
image-20190614204338197

如何查看bam文件,用samtools查看,就是一种压缩规则,用samtools就可以读取它

image-20190614204726134

gff和gtf文件

gff主要用了注释基因组

Gtf主要用来注释基因

关注:基因名和转录本名还有gene type 如何对应上

image-20190614205501105
image-20190614205519180
image-20190614205636875

bigwig/wiggle文件:看测序深度

用sort bam排序,排序后是按染色体顺序排序的

image-20190614210222045
image-20190614210301890

看下面这两幅图区别,只要加上-h就可以查看头文件,可以看到参考

image-20190614210531006
image-20190614210510195
image-20190614213848653

一个vcf文件的变异是咩有意义的

vcf文件导入到IGV

你可能感兴趣的:(linux视频-P11\P12)