零代码进行转录组数据分析实战(一):质量控制

一个完整的转录组测序项目大概分为以下三个阶段:

  • 体内:mRNA 生成阶段。转录生成 mRNA 前体,再经过转录后加工形成成熟的 mRNA。

  • 体外:建库测序阶段。RNA提取、片段化、逆转录以及上机测序。

  • 生信:生物信息分析阶段。数据质控、比对、定量,以及差异表达基因分析等。

零代码进行转录组数据分析实战(一):质量控制_第1张图片

从本文开始,着眼于生信阶段,开始带领大家进行转录组实战。首先就是测序数据质控。

进入网站

进入 Galaxy 生信云平台:https://usegalaxy.cn/

创建一个新的历史

点击历史面板顶部的加号:

零代码进行转录组数据分析实战(一):质量控制_第2张图片

数据上传

我们使用 Galaxy 平台提供的测试数据。两个RNA-seq样本:一个处理,一个未处理。

  • GSM461177 (untreated): GSM461177_1,GSM461177_2

  • GSM461180 (treated): GSM461180_1,GSM461180_2

数据共享 > 数据库 > RNA-seq > GSM461177_GSM461180,找到4个fastq文件,全部选择后,点击 Add to History 菜单中的 as Datasets。

零代码进行转录组数据分析实战(一):质量控制_第3张图片

创建一个配对数据的集合

  • 回到历史面板中,选中4个Fastq文件,点击菜单中的 Build List of Dataset Pairs。

零代码进行转录组数据分析实战(一):质量控制_第4张图片

  • 将两个样本配对后的名称改为:

GSM461177_untreat_paired, GSM461180_treat_paired。

零代码进行转录组数据分析实战(一):质量控制_第5张图片

  • 填入一个名称:2 PE fastqs

  • 点击 Create collection 创建一个数据集合。

质量控制

因为 FastQC 软件一次只能处理双端Fastq文件中的一个,所以我们要先将刚才创建的配对数据集合转换成单个Fastq文件的列表。

  1. 工具 Flatten collection 

    Input Collection: 2 PE fastqs

  2. 工具 FastQC

    Raw read data from your current history: 点击 Dataset collection,选择工具 Flatten collection 的输出结果

  3. 工具 MultiQC

    按下图所示设置参数:

零代码进行转录组数据分析实战(一):质量控制_第6张图片

质控结果查看

FastQC的结果经MultiQC汇总后,可以展示以下指标:

  • 基本统计

零代码进行转录组数据分析实战(一):质量控制_第7张图片

  • 单碱基序列质量

零代码进行转录组数据分析实战(一):质量控制_第8张图片

  • 单碱基序列内容

零代码进行转录组数据分析实战(一):质量控制_第9张图片

  • 单碱基N含量

零代码进行转录组数据分析实战(一):质量控制_第10张图片

  • 序列质量分布

    零代码进行转录组数据分析实战(一):质量控制_第11张图片

  • 序列GC含量分布

    零代码进行转录组数据分析实战(一):质量控制_第12张图片

  • 序列长度分布

    4d8eca1dab5806bae993f905b8ca2f34.png

  • 重复序列分析

    零代码进行转录组数据分析实战(一):质量控制_第13张图片

  • 序列重复水平分析

    零代码进行转录组数据分析实战(一):质量控制_第14张图片

  • 过表达序列分析

    234f2254107623f4657f1a9d426c8d89.png

  • 接头分析

    f53eb4c3dee4c9b54f8f80873dc70cdf.png

可以看到 MultiQC 汇总的结果中,从单碱基水平,到序列水平,进行了全方位的质量控制。根据这些指标我们很容易判断每一个测序文件的质量。

关于简说基因

  • 生信平台

    Galaxy中国(UseGalaxy.cn)致力于打造中国人的云上生物信息基础设施。大量在线工具免费使用。无需安装,用完即走。活跃的用户社区,随时交流使用心得。

  • 生信培训

    简说基因的生信培训班,荣获学员的一致好评。如果你也对生物信息学感兴趣,欢迎来跟简说基因,学真生信

  • 生信分析

    我们能够承接所有 NGS 组学数据分析业务,包括但不限于 WGS / WES / RNA-seq 等。基因组组装、注释,以及各种重测序业务都可以与简说基因合作。

你可能感兴趣的:(数据分析,数据挖掘)