bedtools求overlap

简介

1、概述

BEDTools是可用于genomic features的比较,相关操作及进行注释的工具。而genomic features通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件表示

2.格式说明

genome features: 功能元素(gene), 遗传多态性 (SNPs, INDELs, or structural variants), 已经由测序或者其他方法得到的注释信息,也可以是自定义的一些特征信息。

genome features的基本信息: 染色体或者scaffold的位置, 起始位置,终止位置,哪条链,feature的name

Overlapping / intersecting features: 两个genome features的区域至少有一个bp的共同片段

BED和GFF文件的一个差异:BED文件中起始坐标为0,结束坐标至少是1,; GFF中起始坐标是1而结束坐标至少是1。

3.使用方法

准备两个测试文件,

cpg.bed,其内容为

chr1    20  70  CPG_1

chr1    100 120 CPG_2

chr1    150 250 CPG_3

exon.bed,其内容为

chr1    10  40  exon_1

chr1    50  60  exon_2

chr1    130 180 exon_3

chr1    200 280 exon_4

使用默认参数,求这个文件的overlap,运行

bedtools intersect -a cpg.bed  -b exon.bed

结果为

chr1    20  40  CPG_1

chr1    50  60  CPG_1

chr1    150 180 CPG_3

chr1    200 250 CPG_3

可以看出,默认情况下只输出A中overlap的区域

添加-wa 参数, 再次运行

bedtools intersect -a cpg.bed  -b exon.bed -wa

结果为:

chr1    20  70  CPG_1

chr1    20  70  CPG_1

chr1    150 250 CPG_3

chr1    150 250 CPG_3

可以看出,加上-wa 参数后,只要A中的这段区域与B中区域有交集,就输出,而且overlap几次,就输出几次

添加-wb 参数,运行

bedtools intersect -a cpg.bed  -b exon.bed -wb

结果为:

chr1    20  40  CPG_1   chr1    10  40  exon_1

chr1    50  60  CPG_1   chr1    50  60  exon_2

chr1    150 180 CPG_3   chr1    130 180 exon_3

chr1    200 250 CPG_3   chr1    200 280 exon_4

可以看出,加上-wb参数后,除了输出A中的overlap区域外,还会输出B中的整个区间

加上-wa, -wb 参数,再次运行

1

bedtools intersect -a cpg.bed  -b exon.bed -wa -wb

结果为:

1

2

3

4chr1    20  70  CPG_1   chr1    10  40  exon_1

chr1    20  70  CPG_1   chr1    50  60  exon_2

chr1    150 250 CPG_3   chr1    130 180 exon_3

chr1    150 250 CPG_3   chr1    200 280 exon_4

可以看出,同时添加-wa和-wb参数会将overlap 区域成对输出

-c参数,统计A中每个区域与Boverlap的次数

bedtools intersect -a cpg.bed  -b exon.bed -c

结果为:

chr1    20  70  CPG_1   2

chr1    100 120 CPG_2   0

chr1    150 250 CPG_3   2

-v参数:只输出A中没有与Boverlap的区域

bedtools intersect -a cpg.bed  -b exon.bed -v

结果为:

chr1    100 120 CPG_2

可以看出,只要只要与B有overlap就不输出。

你可能感兴趣的:(bedtools求overlap)