注释 bed 文件中 feature 的基因名

需求

现有一个 bed 文件,想要知道 feature 对应的基因名(gene symbol)等注释内容。

解决方案

方法1. 使用 UCSC Table browser

以人类为例,依次设定以下选项:
clade: Mammal
genome: Human
assembly: GRch37/hg19 #基因组版本
group: Genes and Gene Prediction Tracks
track: UCSC Genes
table: knowGene
region: 点击 defined regions 按钮;粘贴或上传 bed 文件(注意网页上的格式要求);点击 submit 按钮
output format: selected fields from primary and related tables
点击 get output 按钮;选择 hg19.kgXref 表中的 geneSymbol 字段;点击 get output 按钮

方法2. 使用 bedtools intersect

下载注释数据

本文所用注释文件下载自 UCSC Table Browser 。具体过程为:
clade: Mammal
genome: Human
assembly: GRch37/hg19
group: Genes and Gene Prediction Tracks
track: UCSC Genes
table: knowGene
region: genome
output format: selected fields from primary and related tables
output file: gs.anno #将选择的数据输出到 gs.anno 文件, 默认输出到浏览器
点击 get output 按钮;选择 hg19.knownGene 表中的 chrom, txStart, txEnd 字段,hg19.kgXref 表中的 geneSymbol 字段;点击 get output 按钮

使用 bedtools intersect 求交集

#将注释文件中空字段填充内容,否则 bedtools 会报错
awk -v OFS='\t' '{if($4=="") $4="na"}1' gs.anno>gs.anno.fillna
#取交集
bedtools intersect -a in.bed -b gs.anno.fillna -wb

要点

获取带有基因名的基因组注释文件。人类基因组的注释文件可以到 USCS 获取。

你可能感兴趣的:(生物信息)