miRNA测序数据生信分析——第三讲,已知物种的生信分析实例

miRNA测序数据生信分析——第三讲,已知物种的生信分析实例

  • miRNA测序数据生信分析——第三讲,已知物种的生信分析实例
    • 1. 下载测序数据
    • 2. 原始数据质控——软件fastqc
    • 3. 注释tRNA和rRNA,使用Rfam数据库——软件blast,Rfam_statistics.py脚本
    • 4. 注释miRNA,包括种类,序列及定量,靶基因和绘图
      • 4.1 鉴定,使用miRBase数据库——软件blast
      • 4.2 定量和miRNA序列提取——脚本miRBase_sequence.py
      • 4.3 miRNA靶基因,使用miRTarBase和miRDB数据库
        • 4.3.1 miRTarBase数据库——脚本miRTarBase_Target.py
        • 4.3.2 miRDB数据库——脚本miRDB_Target.py
        • 4.3.3 整合两个数据库——脚本Total_Target.py
      • 4.4 绘制miRNA-靶基因互作图——软件Cytoscape
    • 5. 总结

miRNA测序数据生信分析——第三讲,已知物种的生信分析实例

1. 下载测序数据

SRA号:DRR463940 单端测序 测序类型:miRNA-seq
点击FASTQ,下载即可。文件DRR463940.fastq
miRNA测序数据生信分析——第三讲,已知物种的生信分析实例_第1张图片

2. 原始数据质控——软件fastqc

cd /home/zhaohuiyao/miRNA_seq/DRR463940/00Rawdata
#质控
/home/zhaohuiyao/Biosoft/general/FastQC/fastqc ./DRR463940.fastq
#Read数目:311289;Read长度分布:8~136bp
#查看质控下的每一个模块,都是可以理解的,判断不修剪
/home/zhaohuiyao/Biosoft/seqkit fq2fa -w 0 ./DRR463940.fastq > ./DRR463940.fasta

3. 注释tRNA和rRNA,使用Rfam数据库——软件blast,Rfam_statistics.py脚本

这里需要的Rfam数据库数据是博文:miRNA测序数据生信分析——第二讲,数据库下载整理,中提到的1.2.2 用于注释ncRNA/sRNA测序中的tRNA和rRNA序列,整理的。
为什么要做这一步呢?
从第二步质控结果Read长度分布:8~136bp,判断虽然是miRNA测序,但是依旧有rRNA和tRNA混入。做这一步,可以看看混入占比。

cd /home/zhaohuiyao/miRNA_seq/DRR463940/01Rfam
#只保留一个比对结果
/home/zhaohuiyao/Biosoft/general/ncbi-blast-2.10.0+/bin/blastn -db /home/zhaohuiyao/Database/Rfam/Rfam -query …/00Rawdata/DRR463940.fasta -out DRR463940_Rfam.annotations -outfmt 6 -evalue 1e-5 -num_alignments 1 -num_threads 36
#统计
python ./Rfam_statistics.py -i ./DRR463940_Rfam.annotations -db1 /home/zhaohuiyao/Database/Rfam/family.txt -db2 /home/zhaohuiyao/Database/Rfam/Rfam.full_region -o ./
miRNA测序数据生信分析——第三讲,已知物种的生信分析实例_第2张图片
#注意1:这里Subclass为ncRNA指在Rfam数据库中定义了Class但没有定义Subclass的ncRNA。注意2:可以看中重点比对结果出现在tRNA和rRNA,而其他注释类型少。
#结果
#总比对结果数目:98127条(98127/311289=31.52%)
#tRNA比对结果数目:75446条(75446/311289=24.24%)
#rRNA比对结果数目:4709条(4709/311289=1.51%)

4. 注释miRNA,包括种类,序列及定量,靶基因和绘图

测序物种已知,人类Homo sapiens(hsa)。且该物种在后续使用的miRBase、miRDB、miRTarbase数据库中都存在。

4.1 鉴定,使用miRBase数据库——软件blast

cd /home/zhaohuiyao/miRNA_seq/DRR463940/02miRNA/known/
grep “Homo sapiens” /home/zhaohuiyao/Database/miRBase/organisms.txt
在这里插入图片描述
#提取miRBase数据库中物种hsa的所有miRNA序列,制作物种特异数据库。
grep -A 1 “hsa” /home/zhaohuiyao/Database/miRBase/mature.fa | grep -v “--” > /home/zhaohuiyao/Database/miRBase/hsa_mature.fa
grep -c “>” /home/zhaohuiyao/Database/miRBase/hsa_mature.fa #2656个miRNA
/home/zhaohuiyao/Biosoft/general/ncbi-blast-2.10.0+/bin/makeblastdb -in /home/zhaohuiyao/Database/miRBase/hsa_mature.fa -dbtype nucl -out /home/zhaohuiyao/Database/miRBase/hsa_mature
#只保留一个比对结果
cd /home/zhaohuiyao/miRNA_seq/DRR463940/02miRNA/known/01miRBase
/home/zhaohuiyao/Biosoft/general/ncbi-blast-2.10.0+/bin/blastn -task blastn-short -db /home/zhaohuiyao/Database/miRBase/hsa_mature -query /home/zhaohuiyao/miRNA_seq/DRR463940/00Rawdata/DRR463940.fasta -out DRR463940_miRBase.annotations -outfmt 6 -evalue 1e-5 -num_alignments 1
#统计
wc -l ./DRR463940_miRBase.annotations #66776条比对结果(66776/311289=21.45%)
cut -f 2 ./DRR463940_miRBase.annotations | sort | uniq | wc -l #367种miRNA

4.2 定量和miRNA序列提取——脚本miRBase_sequence.py

cd /home/zhaohuiyao/miRNA_seq/DRR463940/02miRNA/known/02Sequence_Quantity
python ./miRBase_sequence.py -i …/01miRBase/DRR463940_miRBase.annotations -db /home/zhaohuiyao/Database/miRBase/hsa_mature.fa -o ./
在这里插入图片描述
#两个结果文件:
DRR463940_miRBase.annotations.fa和DRR463940_miRBase.annotations.readscount
在这里插入图片描述
在这里插入图片描述

4.3 miRNA靶基因,使用miRTarBase和miRDB数据库

#三个子目录miRTarBase/、miRDB/和Total/

4.3.1 miRTarBase数据库——脚本miRTarBase_Target.py

cd /home/zhaohuiyao/miRNA_seq/DRR463940/02miRNA/known/03Target/miRTarBase
#确保物种在miRTarBase数据库中
grep “hsa” /home/zhaohuiyao/Database/miRTarBase/miRTarBase.organism
在这里插入图片描述
python ./miRTarBase_Target.py -i …/…/02Sequence_Quantity/DRR463940_miRBase.annotations.readscount -db /home/zhaohuiyao/Database/miRTarBase/miRTarBase_MTI.txt -o ./
#结果文件DRR463940_miRBase.annotations.miRTarBase
在这里插入图片描述

4.3.2 miRDB数据库——脚本miRDB_Target.py

cd /home/zhaohuiyao/miRNA_seq/DRR463940/02miRNA/known/03Target/miRDB
#确保物种在miRDB数据库中
grep “hsa” /home/zhaohuiyao/Database/miRTarBase/miRDB.organism
在这里插入图片描述
python ./miRDB_Target.py -i …/…/02Sequence_Quantity/DRR463940_miRBase.annotations.readscount -db /home/zhaohuiyao/Database/miRDB/miRDB_v6.0_prediction_result.txt.hsa -o ./
在这里插入图片描述
#结果文件DRR463940_miRBase.annotations.miRDB
miRNA测序数据生信分析——第三讲,已知物种的生信分析实例_第3张图片

4.3.3 整合两个数据库——脚本Total_Target.py

#取两个数据库的并集,获得最终miRNA-Gene关系文件
cd /home/zhaohuiyao/miRNA_seq/DRR463940/02miRNA/known/03Target/Total
python ./Total_Target.py -db1 …/miRTarBase/DRR463940_miRBase.annotations.miRTarBase -db2 …/miRDB/DRR463940_miRBase.annotations.miRDB -o ./
在这里插入图片描述
#结果文件DRR463940_miRBase.annotations.target
在这里插入图片描述

4.4 绘制miRNA-靶基因互作图——软件Cytoscape

因为这个互作关系很庞大,有351413条关系。因此绘制会比较难,我就单独提取了部分互作关系,进行绘图,在Windows下进行。绘图查看另一篇公众号文章:https://mp.weixin.qq.com/s/vbFAre601-9atwah9PMwUw查看

5. 总结

以上就是针对已知物种的miRNA分析。同时满足miRBase、miRTarBase和miRDB三个数据的物种,只有5种。因此针对未知的分析是重要的,而且在你时候的时候,可能会交叉使用。上面步骤中涉及了很多脚本,但都是很简单的文件内容提取比对。

你可能感兴趣的:(miRNA分析,数据库,linux,生物信息学)