RNA-seq 实操

操作才发现问题真的很多，

纸上得来终觉浅，绝知此事要躬行

1.软件准备

# 下载 miniconda
wget -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda2-4.5.11-Linux-x86_64.sh
bash Miniconda2-4.5.11-Linux-x86_64.sh    # 安装
# 配置镜像
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda
conda config --set show_channel_urls yes 
 # conda config --set show_channel_urls yes 的意思是从channel中安装包时显示channel的url，这样就可以知道包的安装来源了。
# 创建名为rna的软件安装环境
conda create -n rna python=2
# 查看当前conda环境
conda info --envs
# 激活/进入conda的rna环境，避免每次用-n rna
source activate rna
# 安装 sra-tools软件
conda search sra-tools
conda install -y sra-tools # done正确安装，且能调出软件help

2.数据下载：

# 找到SRA数据
https://www.ncbi.nlm.nih.gov/sra?term=SRP033351 [可修改SRP号]
# 获得fastq
## 1. 激活环境
source activate rna
mkdir project && cd project
mkdir RNAseq
# 创建  SRR_Acc_List.txt
cat > SRR_Acc_List.txt

下载的时候发现下载的非常慢，
出现https 下载，决定配置aspera，参考崔老师的

prefetch  'SRR1039510'

SRA（Sequence ReadArchive）数据库是用于存储二代测序的原始数据，包括 454，Illumina，SOLiD，IonTorrent，Helicos 和 CompleteGenomics。除了原始序列数据外，SRA现在也存在raw reads在参考基因的比对信息。Runs 表示测序仪运行所产生的reads。SRA数据库用不同的前缀加以区分：ERP或SRP表示Studies；SRS 表示 Samples；SRX 表示 Experiments；SRR 表示 Runs

3. SRA数据转成fastq

ls ./1.SRA/*sra | while read id; do (fastq-dump --gzip --split-3 -O ./ ${id}); done
因为 只下载了部分，所以计划一个一个转换
fastq-dump --gzip --split-3 -O ./ ${id}
## 参数解释：
##fastq-dump加上--split-3之后, 他会把原来双端拆分成两个文件,但是原来单端并不会保存成两个文件. 
## 还有你用--gzip就能输出gz格式, 能够节省空间的同时也不会给后续比对软件造成压力, 比对软件都支持，就是时间要多一点。

3.1 格式转化结果

存在问题，为什么会出现两个序列之外的文件；

转化结果

4. 质量控制

用双端转化的结果，计划晚上睡觉之前提交上服务器；
安装好之后进行质控
配置qc.sh
试运行的结果

试运行qc.sh 的结果

ls SRR*.gz |paste - -  > fq_name.txt
cat $1|while read id
do
   arr=(${id})
   fq1=${arr[0]}
   fq2=${arr[1]}
    echo $fq1   sssssssssssssssssttttttttttttttttttttttaaaaaaaaaaaaaaaaaaaaaatttttttttttttttttttt~~~~~~~~~~~~~~~
   /four/tt/biosoft/TrimGalore-0.4.5/trim_galore -q 25 --phred33 --length 36 --stringency 3 --paired -o ../fastq_qc/ $fq1 $fq2
    echo $fq1 $fq2 finished ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
done
## 调试了好多次，最后命令还是用绝对路径比较好；

遗留问题
转化fastq 格式的时候发现一部分数据无法访问，这是怎么回事；

SRR_13号：

结果

quality control 结果，黄色有异常

-conda 没有搜索到trimgalore，需要 cutadapt，然后原代码Trim Galore
trim_galore,安装
参照github上需要安装两个依赖软件，下载原代码，然后进行路径配置，
vim .barshrc

配置好了

image.png

每次样本拿到之后看一下md5sum 这样保证拷贝的数据没有重复性；
数据集下载，图示：

1，

image.png

2,

step2

3,

step3

4,

step4

RNA-seq 实操

1.软件准备

2.数据下载：

3. SRA数据转成fastq

4. 质量控制

你可能感兴趣的:(RNA-seq 实操)