1bp的CDS/UTR region,原来是microexon

最近一直在做基因组区间上的突变分析,在研究CDS/UTR长度时发现了一些有意思但也颇为困惑的事情。

CDS为例,我先是用Ensembl v75gtf注释文件抓取CDS信息,然后观察它们的区间长度:

> summary(CDS$end - CDS$start)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    0.0    79.0   116.0   152.3   164.0 21692.0 

可以看到差值最小的是0,也就是start位点和stop位点是同一个位置,也就是有的CDS才1bp长。

看看有多少个:

> nrow(CDS[CDS$end - CDS$start == 0, ])
[1] 355

刚发现这个问题的时候还怎么注意,以为是0bp长(咳咳--),怎么编码蛋白??在https://www.biostars.org/p/261324/#261348 还提了问题,才知道有microexon这个东东。百度一个介绍http://www.life.umd.edu/labs/mount/RNAinfo/microexons.html,microexon就是那种特别短的外显子。那么到底它有啥用,参加蛋白编码吗?who can tell me?

我看一些文献用GENCODE数据库的注释文件,所以也下载下来看看它CDS区域的情况,发现类似:

 zcat gencode.v19.annotation.gtf.gz | awk '{OFS="\t";}{if ($3=="CDS") {print $1,$2,$3,$4,$5}}' | gzip > hg19_CDS_from_gencode.gz

wsx@wsx-ubuntu:~/下载$ zcat hg19_CDS_from_gencode.gz | awk '{OFS="\t";}{if(($5 - $4)==0)print $0}'
chr1    HAVANA  CDS 1636464 1636464
chr1    HAVANA  CDS 1636464 1636464
chr1    HAVANA  CDS 6522723 6522723
chr1    HAVANA  CDS 6522723 6522723
chr1    HAVANA  CDS 6523132 6523132
(只截取了一部分)

UTR区间的长度结果类似。看来我还是太年轻啊~

你可能感兴趣的:(1bp的CDS/UTR region,原来是microexon)