RNA-seq 数据上游分析

一、质控 -- FastQC

https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

FastQC旨在提供一种简单的方法,对来自高通量测序的原始序列数据进行一些质量控制检查。它提供了一组模块化的分析,您可以使用这些分析快速了解您的数据是否存在任何问题,在进行进一步分析之前,您应该了解这些问题。

FastQC的主要功能是:

  • 从BAM、SAM或FastQ文件导入数据(任何变体)

  • 提供一个快速的概述,告诉您在哪些方面可能存在问题

  • 快速评估数据的摘要图表

  • 将结果导出到基于HTML的永久报表

  • 允许在不运行交互式应用程序的情况下自动生成报表的脱机操作

使用方法

fastqc -q -t Nthread -o outdir read1 read2

参数说明

  • -o --outdir
    处理结果的保存路径。你应该确认此这个路径是存在的,,程序不会自动为你创建。如果不设置,结果将保存在与输入文件的同一目录下。

  • -q --quiet
    禁止程序运行过程中的输出信息,仅保留报错信息

  • -t --threads
    指定可以同时处理的文件数。每个线程将分配250MB内存,因此运行的线程不应超过
    可用内存将处理,且32位机器上不超过6个线程

HTML报告解读

知乎 -- 孟浩巍:20160410 测序分析——使用 FastQC 做质控

二、基因组比对 -- STAR

STAR的使用方法下面这篇文章记录地很清楚:

知乎 -- 既见君子:转录组分析 | 使用STAR进行比对

三、转录组定量 -- kallisto

Kallisto主要有6个命令,分别是index,quant,pseudo,h5dump,version,cite。其中最常使用的是前2个,index建立转录组索引,quant进行转录本水平的表达定量。

Kallisto使用说明

四、数据质控

用法和介绍 github 写的很清楚:RNA-seQC

五、覆盖度可视化

bamCoverage

你可能感兴趣的:(RNA-seq 数据上游分析)