Genomic Data Science- JHU Course 2 Genomic Data Science with Galaxy 笔记

Introduction

Galaxy是一个公开的基因组学分析平台,包含了一系列流程化分析工具,针对质控、组装、注释以及包括Chip-seq、RNA-seq、变异鉴定等常见的组学流程pipeline。

Galaxy平台地址:https://usegalaxy.org/

Galaxy 101

地址https://galaxyproject.org/tutorials/g101/,给新手一个小项目进行练习来熟悉galaxy的操作,通过101来熟悉Genomic invervals、Workflows以及Annotation, sharing and Publishing的一些操作。

Genomic Intervals

现在101上面的练习题和视频里好像不太一致,按照视频里的项目任务来说,练习项目的目的是为了找到人类22号染色体上哪个coding exon包含的repeats数目最多。

打开https://usegalaxy.org/ ,界面如下:

image.png

可以看到Galaxy的界面主要由左边的工具栏和右边历史栏构成(可以注册账户,拥有私人的历史记录任务空间,最好注册一下,之前没注册发现历史记录好像只能保存一个工作)。

tools点击get data,找到UCUS main:


image.png

转到UCSC界面如下,注意在position那里选择chr22,输出格式bed,输出到Galaxy

image.png

然后点击get output,弹出页面如下,由于我们要研究的是coding exons,所以勾上,然后点send query to galaxy


image.png

然后就会转到galaxy页面,可以看到历史栏已经有了工作记录
image.png

点击眼睛那个icon可以打开展示

image.png

接下来我们继续在22号染色体上找repeats,也是按照同样方式打开UCSC,group改成repeats,

image.png

image.png

然后就发现有两个工作记录了

点击左边tools栏的operate on genomic intervals里的Join,将两个数据集合并


image.png

然后按照如下方式进行内连接


image.png

然后就可以看到连接好的数据集,


image.png

接下来我们找到Join, Substract and Group里的Group选项,来为我们进行计数

image.png

Group by cloumn那里设置Column:4,因为这个是唯一的exon标识符,最主要的是Operation选项里的设置,如下,就可以计数了,

image.png

然后就有了个4号任务,点击查看就展示了对每个外显子中的repeat的计数

image.png

你还可以用join将这个4号数据集和1号join一下,这样就包含了位置信息,用tools里Text Manipulation下的cut工具可以选择要展示的列,这里就不再做演示,最后下载下来可以用excel啊什么的看下哪个最多。

Workflows

workflow这个功能可以让你保存你的工作流程,比如上述exon和repeats的合并然后计数,我们保存工作流之后,下次我们需要做exon和其他features的合并,就不需要再从头来了,按下图操作:


image.png
image.png
image.png

点击edit可以对每个流程的标签改名


image.png

右上角保存后

image.png

回到主页面
image.png

接下来我们按照类似的方式得到chr22上的cpg岛信息

image.png

点击左下角All workflows,然后更改下参数,就可以重新进行类似的计数了!

image.png

得到结果如下,就是Coding exon和cpg岛的overlap计数

image.png

Annotation, Sharing, and Publishing

首先是Annotation,你可以看到在基本所有记录最右边上有两个图标,一个像铅笔一个像气泡,点击它们可以加Tag annotation和history annotaion,如下:

image.png

通过对Tags的标注,我们可以很方便的在搜索历史里面对tag搜索来找到我们要的记录。

接下来是Share和publish,依次点击

image.png
image.png
image.png

这样就可以将历史记录分享给特定的其他用户。

同样也可以用链接方式分享

image.png

然后就可以在数据共享里面看到我们的链接上传到公共数据库里了

image.png

当然感觉非常献丑就赶紧关了。。。。实际上在数据共享里面,所有的公开的东西都非常有用,还有最近对于covid-19的研究的workflow、原始数据,这个我觉得是非常棒的!

image.png

如果你要对你的分享页面添加描述页,你可以点开账号管理下的我的页面,对你的page添加描述,来方便别人的查看和了解,这里不做过多阐述。

Quality Control

在Galaxy上面也集成了一系列包括FastQC等质控工具,可以很方面的使用。

首先我们可以从数据库里得到一个数据集来进行练习

image.png

搜索illumina,点击IDEA Datasets

image.png

然后选第一个添加到当前历史

image.png

接下来点击FastQC,执行即可

image.png

然后就可以看到生成了网页版本的统计和raw data数据统计信息,点小眼睛查看,展示的内容和本地FastQC得到的结果是一样的(各个结果的意义,请移步FastQC官网,或者google、一下)

image.png

对于低质量序列的过滤,galaxy也拥有trimmomatic、cutadapt、直接trim等一系列的工具,都包含在FASTQ这个工具栏下面

image.png

Chip-Seq Analysis with MACS

Chip-seq主要实验目的在于研究与抗体蛋白结合的DNA region,这个抗体可以是修饰的Histone的,也可以是转录因子的。

其中一个分析的主要步骤就是Call peaks,就是看主要DNA的富集区域,这里有个很常用的工具叫MACS,在galaxy中也很容易使用它。

首先我们获取数据

image.png

然后用bowtie2比对

image.png

用MACS2 callpeak


image.png

得到的原始结果我们还可以用UCSC展示

image.png

后续部分

后面还介绍了一些RNA-seq和本地化Galaxy的东西,由于感觉RNA-seq现在各种跑流程的教程很多很多,也没必要学习这种网页的。。。所以就略过

你可能感兴趣的:(Genomic Data Science- JHU Course 2 Genomic Data Science with Galaxy 笔记)