m6A原始数据识别差异甲基化——使用RADAR分析MeRIP-seq数据

Step1:原始数据的准备

从EMBL数据库根据SRR号下载SRAxxxxxxx.fastq.gz文件(有的是单端测序,有的是双末端测序)

EMBL数据库网站连接:https://www.ebi.ac.uk/ebisearch/error.ebi

数据展示:双末端:SRR7763560_1.fastq.gz  SRR7763560_2.fastq.gz;

                    单末端:SRR9029562.fastq.gz

数据下载linux命令:1.wget  数据的下载连接

                快速下载:2.ascp-QT-l20m-P33001-i /home/wangi/anaconda2/etc/asperaweb_id_dsa.openssh [email protected]:/vol1/fastq/SRR110/000/SRR1104940/SRR1104940.fastq.gz /home/wanghongli/histone/sheet46/GSE53938/SRR1104940.fastq.gz



Step2:比对,利用hisat2讲原始数据比对到参考基因组 

1.hisat2下载安装

参考此链接:https://www.jianshu.com/p/2b41765358bc

2.构建hisat2的索引

需要先下载hg38参考基因组,下载hg38.fa.gz文件

文件下载地址:http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz,下载解压

索引构建命令:hisat2-build -p 8 hg38.fa hg38 

大概耗时半个小时,需耐心等待

3.hisat2 比对命令,生成sam文件

双末端:

hisat2 -p 16 -t -x /hisat2索引所在的文件路径/hg38 -1 SRR7763560_1.fastq.gz -2 SRR7763560_2.fastq.gz -S SRR7763560.sam

单末端:

hisat2 -p 16 -t -x /hisat2索引所在的文件路径/hg38 -U SRR9029562.fastq.gz -S SRR9029562.sam


Step3:

1.利用samtools将sam文件转换为bam文件

命令:samtools view -bS SRAxxxxxx.sam > SRAxxxxxx.bam

2.去除低质量的比对(MAPQ<30)

命令:samtools view -b -q 30 SRAxxxxxx.bam > SRAxxxxxx.q30.bam

3.利用samtools sort  bam文件得到sort.bam文件,用于接下来的处理

命令:samtools sort SRAxxxxxx.q30.bam -o SRAxxxxxx.sort.bam

4.去除duplication

命令:samtools rmdup -s SRAxxxxxx.sort.bam SRAxxxxxx.rmdup.bam


Step4:利用RADAR方法识别差异甲基化区域

详细参考:https://scottzijiezhang.github.io/RADARmanual/workflow.html#1quick_start

1.将获得SRAxxxxxx.sort.bam重新命名:

如果是intput数据,则重命名为ctrlX.intput.bam【control组】/cX.intput.bam【case组】,如果是IP数据则重名为:ctrlX.m6A.bam【control组】/cX.intput.bam【case组】,注意。这里input.bam和m6A.bam中的X是一致的,因为他们是配对的。

补充:m6A甲基化数据展示:分为control组和case组,每一条数据都有配对的IP和input数据,所以重命名时要很好的区分IP和input数据同时还要区分control和case

2.差异分析,需要使用R语言

需要下载hg38对应的注释文件:

下载地址:ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_32/gencode.v32.annotation.gtf.gz

Rcode:

if (!requireNamespace("BiocManager", quietly = TRUE))

  install.packages("BiocManager")

BiocManager::install("devtools")

library(devtools)

install_github("RADAR")

library(RADAR)

radar <- countReads(

samplenames = c("ctrl1","ctrl2","ctrl3","c1","c2","c3"),

  gtf = "/注释文件所在文件路径/gencode.v32.annotation.gtf",

  bamFolder = "bam文件所在的文件路径",

   modification = "m6A",

    outputDir = "文件输出路径",

     threads = 10

)

radar <- normalizeLibrary( radar )

radar <- adjustExprLevel( radar )

variable(radar) <- data.frame( Group = c("Ctl","Ctl","Ctl","Case","Case","Case",) )

radar <- filterBins( radar ,minCountsCutOff = 15)

radar <- diffIP_parallel(radar,thread = 10)

radar <- reportResult( radar, cutoff = 0.1, Beta_cutoff = 0.5 )

res <- results( radar )

write.table(res,file='/home/wanghongli/m6adata/GSE87190/MA9.3ITD/0911_diff.xls',sep='\t',quote=F)


samtools view -b -q 30 $i.bam > $i.q30.bam

你可能感兴趣的:(m6A原始数据识别差异甲基化——使用RADAR分析MeRIP-seq数据)