bilibili视频-《转录组测序数据分析》笔记

接下来要从fa转fq文件

ls -lh raw/|wc #看数据

less raw/nohup.out #有后台日志

grep failed raw/nohup.out

zless SRR1039508_1.fastq.gz #查看

非常长，要用报告来看，如何做报告，如下：

fastqc SRR1039510_1.fastq.gz
fastqc -t -10 SRR1039510_1.fastq.gz#-t -10加参数使速度加快

（写不进去，是因为是老大的命令，要放进自己的路径）

ls *gz |xargs fastqc -t 10#批量生成fastqc报告

fastqc文件生产后，用multiqc，综合生产一个报告

multiqc ./

老大视频里的未修改前的循环

更改后的

在后台运行

注：如果有config，在cat后改为config，如果没有就是$1

source activate rna
bin_trim_galore=trim_galore
dir='/mm/project/airway/clean'
cat $1 |while read id
do
      arr=($id)
      fq1=${arr[0]}
      fq2=${arr[1]}
nohup $bin_trim_galore -q 25 --phred33 --length 36 -e 0.1 --stringency 3 --paired -o $dir $fq1 $fq2 &
done
source deactivate

dir='/mm/project/airway/clean'
cat config |while read id
do
      arr=($id)
      fq1=${arr[0]}
      fq2=${arr[1]}
nohup trim_galore -q 25 --phred33 --length 36 -e 0.1 --stringency 3 --paired -o $dir $fq1 $fq2 &
done

trim_galore一个

之前就没跟着一起跑过这个循环，自己弄也跑不出来，和老大的代码一样也不行，改下也不行，真不知道怎么回事了.....就是没有我的任务

config也没啥问题

划重点了，我要默念一百遍！以上是我未跑出来的过程，为了记录过程，还是保留。最后还是我老大一语中的，我明明是就改了dir的输出路径，出了问题，那我就应该把问题集中在路径这里就好了!

###这个是最后能跑的

source activate rna
bin_trim_galore=trim_galore
dir='/four/mm/project/airway/clean'  ###问题就在这个路径这，我没从根目录出发，是从mm这个相对路径出发的
cat $1 |while read id
do
      arr=($id)
      fq1=${arr[0]}
      fq2=${arr[1]}
nohup $bin_trim_galore -q 25 --phred33 --length 36 -e 0.1 --stringency 3 --paired -o $dir $fq1 $fq2 &
done
source deactivate

已经跑了

好像又出来什么问题，任务显示能跑，但是为什么是gzip

单个跑

trim_galore --phred33 -q 25 -e 0.1 --length 36 --stringency 3 --paired -o ./ ~/fqmm/SRR1039508_1.fastq.gz ~/fqmm/SRR1039508_2.fastq.gz

RNA-seq：7-alignment

从老大视频里扒来的链接，先收藏

https://blog.csdn.net/xubo245/article/details/50878760

https://blog.csdn.net/xubo245/article/details/50836185

比对：hisat2、subjunc、star大多是针对转录组的，bwa、bowtie2是基因组

老大的参考基因组位置

/public/reference/genome/*

老大的参考基因组索引位置

/Public/reference/index/*

加了✳️和不加是不一样的，加了✳️可以把文件夹内的内容同时显示出来，不加的话只会显示当前路径下的文件夹

hisat有单独文件夹

/public/reference/index/hisat/*

每个文件取前1000行

ls ./*gz |while read ijfmklmf;do(zcat $ijfmklmf |head -1000 > 一个文件名)；done

因为加了管道符，所以要加（）

由于输出到clean文件里了，所以想只要文件名

改名字

sam文件

我跟着做的

是不是链接过来的文件不能做下面这样的操作呢？

上面是链接过来的文件就不行，我自己trim_galore的文件就可以，不知道为什么啊

上面是链接过来的文件就不行，我自己trim_galore的文件就可以

但是改成去掉“gz”的以后，就不能比对了哇，好神奇，知道了呢！是因为我按照老大的去掉了“.gz”后，就把fq.gz的文件给移动到别的文件夹了，然后就不可以了，因为RR1039508_1_val_1.fq只是SRR1039508_1_val_1.fq.gz的类似快捷方式的东西吧，并不是文件本身，-lh也能看到它没有大小。我在把fq.gz文件移动回来以后，就可以啦

呃，但是报错了，是因为fq-2是0，这是为什么呢/

视频里老大的比对：

单个文件比对：

hisat2 -p 4 -x /four/mm/index/hisat/hg38/genome -1 SRR1039508_1_val_1.fq.gz -2 SRR1039508_2_val_2.fq.gz -S SRR1039508.tmp.sam#也可以输出为SRR1039508.hisat.sam，是没去掉gz的，要去掉gz的原因是有些软件会识别成压缩软件

总之，不去掉.gz是可以比对的，就行了

用循环比对，hisat2比对到索引文件，然后samtools直接对生成的bam文件排序，以利于后续软件分析。

nohup cat SRR_Acc_List.txt |while read id;do  #复制一份id到当前路径下
hisat2 -p 5 -x ~/index/grch38/genome -1 \
${id}_1_val_1.fq.gz -2 ${id}_2_val_2.fq.gz | \
samtools sort -@ 5 -o ~/rna.GSE52778/sort.bam/${id}.sort.bam -
done &

差异分析

崔老师ppt里的，也没跑出来

for fn in {508..523}
do
featureCounts -T 5 -p -t exon -g gene_id \
-a /four/mm/project/gtf/gencode.v29.annotation.gtf \ 
-o SRR1039$fn.counts.txt SRR1039$fn.sort.bam
# donot set dir
done

###我改完以后的，跑不出来
cat SRR_Acc_List.txt |while read id;do featureCounts -T 5 -p -t exon -g gene_id 
-a /four/mm/project/gtf/gencode.v29.annotation.gtf 
-o ${id}.counts.txt ${id}.sort.bam 
# donot set dir 
done

bilibili视频-《转录组测序数据分析》笔记

划重点了，我要默念一百遍！以上是我未跑出来的过程，为了记录过程，还是保留。最后还是我 老大一语中的，我明明是就改了dir的输出路径，出了问题，那我就应该把问题集中在路径这里就好了!

RNA-seq：7-alignment

差异分析

你可能感兴趣的:(bilibili视频-《转录组测序数据分析》笔记)

划重点了，我要默念一百遍！以上是我未跑出来的过程，为了记录过程，还是保留。最后还是我老大一语中的，我明明是就改了dir的输出路径，出了问题，那我就应该把问题集中在路径这里就好了!