摘要:
选择性剪接通过增加表达的mRNAs的多样性赋予人类基因组复杂性。通过高通量数据集的差异选择性剪接分析,已经鉴定出数百或数千个剪接区域。然而,很难解释每个拼接事件的功能影响。蛋白质结构域的形成和无义介导的衰退被认为是剪接的主要功能特征。然而,其他功能特征,如miRNA靶位点、磷酸化位点和单核苷酸变异直接受到选择性剪接的影响,并影响下游功能。因此,我们建立了一个ASpedia数据库:一个全面的人类可变剪切数据库,它包含各种功能,从基因组注释到转录本的特定功能。该数据库提供了三个特征:(一)从DNA和RNA,蛋白质中提取的基因组注释;(ii)从RNA-seq测序数据集分析的转录和调控元件;和(iii)从已知和公开的数据集中收集的同种型特异性功能。ASpedia web应用程序包括三个组件:一个注释数据库、一个检索系统和一个专门用于识别人类可变剪切事件的浏览器。高通量分析产生的多重事件搜索,自动化系统浏览器包含基因组轨迹。因此,自动化媒体促进了对多个自动化事件的功能影响的系统注释。
数据库链接:http://combio.snu.ac.kr/aspedia/
前言:
选择性剪接(AS)事件可以从约95%的多外显子人类基因中估计,并且这些赋予基因功能多样性。据报道,各种AS事件在分子和细胞功能中起着关键作用。目前,AS事件的推断主要使用外显子拼接微阵列或RNA-Seq。高精度平台分析侧重于精确的统计模型开发,以估计不同的自动化系统。尽管已经提出了许多统计方法,但是许多AS活动场所的功能影响仍然未知。为了理解AS的功能,人们使用了蛋白质证据,如蛋白质结构域丢失和非神经介导的衰减(NMD)。例如,一个独立的应用程序AltAnalyze测试差异剪接,并将剪接事件与蛋白质结构域、miRNA结合位点、分子相互作用或途径整合在一起。SpliceR是一个R包,可用于预测蛋白质编码潜力和NMD。外显子本体(exot)提供了源自各种蛋白质特征的功能影响术语,PoSAS从剪接位点和同种型识别功能性蛋白质结构。已经为非蛋白质证据建立了几个AS数据库,如ASAP II、ASD和H-DBAS,包括剪接事件分类和跨物种保护(10–12)。组织和疾病特异性剪接事件也在TCGASpliceSeq和ASPA II中进行了编目。这些应用预测了由AS诱导的蛋白质活性。然而,AS的功能影响不仅仅由蛋白质结构域或蛋白质编码潜力决定。
最近,在各种基因组领域积累了关于AS功能的新线索。在上皮-间质转化细胞和乳腺癌细胞系中,功能性磷酸化位点和AS位点的亚细胞定位已被系统研究。已经在全基因组水平上建立了同种特异性蛋白质相互作用网络。富含AU的重复元素3’UTR保留的β-连环蛋白内含子已被证明会影响人β-连环蛋白mRNA的稳定性。miRNA let-7D与3’UTR的剪接位点结合DMT1,miRNA控制其调节。已经系统预测了影响剪接的变异体或点突变,为了揭示这些由AS引起的新的功能特征,我们需要一个数据库扩展来注释AS事件,并需要一个检索系统来查询剪接位点。
这里,我们介绍ASpedia,一个全面的人类AS数据库,包括基因组特征,以及同种型水平的功能。从脱氧核糖核酸、核糖核酸和蛋白质序列研究了与AS功能影响相关的基因组特征。大规模转录调控及其元件也被整合。ASpedia支持识别唯一AS IDs的检索系统和可视化每个AS事件的浏览器。该检索系统还可用于从使用RNA-Seq的差异AS分析的结果中搜索多个AS位点。我们相信ASpedia可以成为一个广泛的注释应用程序和一个强大的搜索工具。更多详细信息、用户手册和统计数据都在ASpedia网站上提供。
数据库概述
aspedia数据库是通过整合从基因模型推断的AS事件和相关的注释数据集而建立的。集成步骤如图1A所示。首先,人类基因组GRCh37 Ensembl第82版和RefSeq第105版被制备作为参考基因模型,我们使用astalavista鉴定AS事件。然后,事件被分为五种类型:3’剪接位点(A3SS),5’剪接位点(A5SS),跳过外显子(SE),互斥外显子(MXE)和保留内含子(RI)。与AS事件相关的功能注释信息是从各种数据集收集的:DNA、mRNA、蛋白质、mRNA调节和亚型特异性功能。
下一节将描述每个注记数据集的特征和挖掘状态。注释数据集如图1A左项目包括基因组坐标信息。这些项目必须存在于特定的自动化系统区域。例如,依赖于AS的功能性miRNA结合位点应该位于排除或包含外显子。因此,我们设计了过滤策略,注释项目的基因组坐标精确地属于图1B所示的特定区域。其余的注释数据集、mRNA调节和同工型特异性功能简单地通过用同工型id或AS事件id作图来识别。下一节将描述每个自动化系统注释项的特定过滤策略和标识映射状态。在进行标注数据选择步骤后,最终构建了ASpedia数据库。图1A显示了整个数据库组件和工作流程,表1总结了数据库的状态和数量。
[if !supportLists]1)[endif]AS事件区域的基因组注释
基因组注释数据库是从DNA、RNA和蛋白质序列中提取的。收集剪接位点周围的所有功能序列。然后,我们消除噪声序列,以避免赋予AS特异性。过滤策略分为三种情况,如图1B所示。首先,剪接区域过滤策略选择外显子边界周围的基因组序列(2)。变体属于这种类型。重复序列、miRNA结合位点、蛋白质结构域和翻译后修饰(PTM)位点仅在包含或排除外显子区域发挥功能作用。这些属于外显子内区域过滤的情况,如图1B所示。图1B所示的剪接调节区表示可能影响剪接调节机制的区域。建立每个注释数据库的细节描述如下:
进化保守性:我们根据AS结构中外显子和内含子的平均得分计算了保守性得分。原始数据来自 UCSC 基因组浏览器的 phastCons100ways 和 phastConst45ways (19)。分别计算灵长类、胎盘哺乳动物和脊椎动物数据集的分数。
变体:单核苷酸变体(snv)和影响剪接的供体和受体位点周围的体细胞突变是从dbSNP v138和COSMIC v77 (20,21)中研究的。我们提供了疾病相关的snv来解除SPIDEX的剪接(17)。结果也被纳入这一类别。
miRNA结合位点:我们参考了UCSC基因组浏览器的targetScan预测结果。miRNA结合位点被认为与3’UTR地区。
重复序列:我们从UCSC基因组浏览器收集了五个重复数据库:中断的Rpts、微卫星、重复序列、自链和简单重复序列(19)。RepeatMasker提供了10种不同类型的重复。使用剪接调节区过滤策略和重复序列大小过滤所有重复序列。重复序列大小的截止是通过确认补充部分1和图S1中描述的分布来决定的。
NMD位点:NMD位点是从位于3’剪接产生的外显子-外显子连接的末端。利用基因模型数据推断出已知的终止密码子,根据dbSNP和COSMIC的无义突变推断出新的终止密码子。
蛋白质结构域:研究了所有转录物序列的Pfam结构域(22)。为了与AS事件相匹配,每个结构域被表示为其基因组坐标。接下来,我们使用外显子内过滤策略提取与AS区域重叠的结构域。
PTM位点:从磷站点收集了九种类型的PTM站点(23)。只有外显子内区域的PTMs被认为具有功能影响。
[if !supportLists]2)[endif]转录调控及其要素
为了建立转录调控数据库,我们研究了来自不同NGS平台的组织特异性差异AS事件和剪接调控元件,即RNA结合蛋白。组织特异性AS事件是从EBI阵列表达核糖核酸序列中收集的。我们参照hg19建立了一个RNA-Seq比对管道。在使用修整器读取质量修整后,使用STAR校准来自241个样本的26个组织的数据集。一个代表性的AS事件测量,拼接指数百分比,表示与AS事件相对应的外显子包含百分比。每种组织的PSI值由rMATS估算。
ASpedia数据库支持转录调控元件信息,包括剪接因子,以阐明剪接机制。RBP NGS数据集(RIP-Seq和CLIP-Seq)是从ENCODE项目中收集的。表2总结了RBP数据集的状态。补充部分2和图S2描述了具体的RBP分析工作流程。每个平台使用三种峰值呼叫方法(28–30)。基于P值、峰长、RPKM和剪接调节区过滤策略过滤出结果。峰值长度和RPKM截止值是根据补充图S3中所示的每个平台的长度分布决定的。
[if !supportLists]3)[endif]同种型特异性功能
蛋白质相互作用和亚细胞定位在同种型水平上表征。从全基因组酵母双杂交体和蛋白质相互作用数据库iRefIndex整合了一个亚型特异性蛋白质相互作用数据库。亚细胞定位数据来自UniProt。我们将原始数据集的混杂id转换为Ensembl和RefSeq转录本id。最后,我们将一个亚型特异性功能数据库的转录物标识与相应的AS事件转录物标识进行匹配。在蛋白质相互作用和亚细胞定位方面,分别发现了超过2300和1300个RefSeq基因。
系统概况
ASpedia系统包含三个主要组件:注释数据库、检索系统和浏览器。可以使用两种输入格式查询系统,如图2A所示。在注释数据库中,我们定义了源自染色体位置的关键AS IDs,没有任何基因模型依赖性,并且这些密钥与AS事件具有一对一的关系。这些标识可用于搜索事件和注释相关信息。基于文件的搜索允许用户浏览多个活动站点。系统需要一个bed格式文件,包括匹配的AS ID。基于文件的AS事件查询适用于标注RNASeq的差分AS分析结果。此外,我们的系统支持RNA-Seq差异AS分析结果的文件转换器。转换器将几个程序结果转换为ASpedia BED格式。转换器jar执行文件可以从ASpedia网站下载,它是在Java版本下开发的。查询差异替代拼接分析结果的具体用法在补充部分3,图S4–5和网站手册中有所描述。因此,用户可以轻松准备ASpedia输入文件。基于基因符号的搜索模式只需要基因名称列表作为输入。ASpedia会在所有已保存的AS事件中搜索输入基因。
搜索结果在ASpedia浏览器中进行分类和可视化。映射注释状态和搜索结果计数汇总在第一个结果网页中。搜索结果可以在ASpedia的左侧面板中确认,列表可以使用不同的过滤选项进行选择,如图2B所示。每个AS事件都可以通过基本的基因组信息在浏览器面板中可视化。根据基因组注释和RBP峰值数据集,基因轨迹是可扩展的。热图中显示了组织特异性AS事件和同种型特异性功能的PSI值。用户还可以以制表符分隔的文本文件格式下载注释结果,并通过电子邮件获得所有AS浏览器图形。详细的用户手册可以在ASpedia网站上找到。
讨论
ASpedia提供了一个集成异质基因组信息的替代剪接注释系统。该数据库包括独特的新内容,如同工型特异性蛋白质相互作用,以及蛋白质结构域等基础信息。为了方便用户,每个带注释的as事件在AS浏览器中都以基因组轨迹图的形式呈现。一个额外的优势是能够查询使用核糖核酸序列从差异AS分析中估计的多个AS事件。最后,我们的自动化系统注释结果支持决定自动化系统功能影响的重要证据。
ASpedia的建立是为了支持Ensembl和RefSeq的基因模型。这些基因模型赋予数据源依赖性来构建数据库。ASpedia在识别定制基因模型或新外显子方面存在局限性。GENCODE或UCSC已知基因与Ensembl和RefSeq共享大量基因模型,但定制基因模型中存在的一些独特的AS事件仍然缺失。为了减少基因模型依赖导致的用户数据丢失,我们将扩展数据库以包括众所周知的基因模型,并考虑添加人类基因组版本hg18和GRCh39。
已知的同种型特异性蛋白质相互作用相对未被揭示;因此,发布数据集是不够的。因此,同种型特异性功能很少被收集在ASpedia数据库中。在下一次更新中,我们计划定量和定性地补充同种型特异性功能。可以考虑几种预测算法或新的分析方法来更新该数据库,例如亚细胞定位预测。
尽管人类AS事件具有功能重要性和多样性,但在全基因组水平上对AS事件进行功能研究的方法仍然不足。ASpedia解决了这个问题。我们相信,ASpedia可以成为在基因组尺度上理解和研究AS功能影响的优秀工具。在进一步的研究中,我们计划维护和扩展这个数据库,使其具有良好的蛋白质特征和疾病特异性转录调控。