第三章 隆线溞不同生殖个体间RNA-seq与miRNA-seq分析
3.1 前言
隆线溞(Daphnia carinata)隶属节肢动物门(Arthropoda)、甲壳纲(Crustacea)、鳃足亚纲(Branchiopoda)、双甲目(Diplostraca)、枝角亚目(Cladocera)、溞科(Daphniidae),是鱼类的优质蛋白质来源(Yang 1994)。隆线溞生命周期短,易于在实验室进行培养,拥有独特的生活史,涉及周期性孤雌生殖,随着变化的环境条件转变生殖模式(Harris et al 2012),可被用作枝角类生殖学研究的重要模型。
当环境条件适宜时,雌性通常以孤雌生殖方式进行繁殖,恶劣的环境条件,如食物缺乏、低温或高温和高种群密度,会诱导雄性的产生,生殖方式由孤雌生殖转变为有性生殖(Gordo et al 1994; Cao et al 2001)。这种生殖转化的繁殖策略有利于枝角类快速适应不同的环境条件,有助于维持其种群的活力(Toyota et al 2016)。因此,隆线溞也是一种用于阐明枝角类性别决定和生殖转化分子基础的重要的模式生物。尽管如此,关于隆线溞的生殖转化的详细机制知之甚少。
环境因子变化对隆线溞生殖的影响的研究较少(Leung 2009)。Dinh等研究了食物的质量与数量、光照强度和培养体积对隆线溞休眠卵产生的影响,结果表明,在中等光强条件下饲喂栅藻可以诱导其进行有性生殖;食物限制并不是其从孤雌生殖转向有性生殖的必然要求;培养体积可能是其进行有性生殖的重要决定因素(Dinh et al 2018)。陆开宏等研究表明高温或大幅变温、高密度和半饥饿状态条件下皆能明显诱发隆线溞冬卵的形成(陆开宏等1992)。
在分子调控层面,张明凤等提取了隆线溞孤雌溞和两性雌溞的可溶性蛋白进行双向电泳和质谱鉴定,发现一类酸性脱氢酶(21234)可能在隆线溞的生殖转化中发挥重要作用(张明凤等2006)。徐晓倩和秦芬在构建隆线溞孤雌溞和有性雌溞的cDNA文库中发现在不同生殖体中存在一些高表达的基因(徐晓倩2009;秦芬2009)。此外,隆线溞生殖转化相关基因及其对性别分化的影响已在多项研究中得到阐述,如DapcaDsx1(Zhang et al 2014)、cuticular protein (CP)(Liu et al 2014b)、DcarTra(Kong et al 2015)、DcarChk1(Kong et al 2016)和Chemosensory proteins (DacaCSP2和DacaCSP3)(Li et al 2016)等。由于枝角类生殖转换过程的复杂性,上述的研究并未真正确定枝角类的生殖转换机制。
近年来,第二代测序技术的进步促使了许多关于miRNAs的研究。miRNAs是一类独特的短(18-25 nt)非蛋白编码内源RNA,参与各种细胞过程(Bartel 2004)。作为关键的转录后调节因子,miRNAs主要通过抑制靶基因表达来调节基因表达(Guo et al 2005)。假设一些miRNAs在隆线溞等枝角类的生殖转化的转录重组过程中起着至关重要的调节作用,但是关于隆线溞miRNAs的信息很少。为了更好地探索miRNAs对隆线溞生殖转化的调节作用以及获得重要见解,一个miRNAs和mRNA转录组的整合分析是必需的。
为了研究miRNA/mRNA调控在生殖转化中的潜在作用,本研究在隆线溞的有性生殖雌体(SF)、孤雌生殖雌体(PF)和雄性(M)中进行了miRNA和mRNA转录表达谱分析。据调查,这是第一次整合miRNA和mRNA转录组数据分析研究以支持miRNA介导的不同生殖个体在生殖转换中基因表达的调控。为进一步研究枝角类复杂生殖转化阶段的分子基础和性别分化奠定了基础。总之,隆线溞转录组和miRNA数据集为生殖转化系统的研究提供了宝贵的资源。
3.2 材料与方法
3.2.1 枝角类培养系统的构建及动物材料收集
构建了一种半自动化实验室枝角类高量扩增的系统,包括货架、温控系统、充氧系统、光控系统、培养系统以及饵料投喂系统。货架呈层式结构,通过隔板分隔为六个独立的空间单元;培养系统包括培养容器,培养容器放置在货架上的各个空间单元内;充氧系统包括静音气泵、气流管道、气流缓冲装置以及独立阀门(图3-1)。该系统可使枝角类养殖实现条件可控、稳质高产、实验室规模化生产。
隆线溞是从南湖(中国,武汉)分离出来的,建立纯系培养了2年。隆线溞的培养在上述的高效培养系统中进行,培养温度控制在25±2℃,光周期设定为光:暗=16 h:8 h,并喂食斜生栅藻。根据隆线溞的生物学特性,当种群密度达到一定水平时就会发生生殖殖转化。使用OLYMPUS BA200显微镜分别收集并鉴定健康有活力的SF、PF和M(图3-2),放入冻存管中(100只/瓶)。然后将冻存管中的隆线溞用无菌ddH2O洗涤2-3次并将水吸干,在液氮中快速冷冻,然后储存在-80℃。在进行测序时,转录组测序使用3个生物学重复,小RNA测序使用2个生物学重复。
3.2.2 主要仪器与试剂
1)主要仪器:梯度PCR仪L96G(杭州朗基科学仪器有限公司),微量移液器(Eppendorf),凝胶成像分析系统(Syngene),DYY-III型电泳仪及水平电泳槽(北京六一仪器厂),台式低温高速冷冻离心机(Eppendorf),超净工作台(江苏苏净集团有限公司),恒温水浴锅(北京六一仪器厂),GZX-III系列光照培养箱(上海新苗医疗器械制造有限公司),组织研磨器TissueLyser II(QIAGEN),实时荧光定量PCR仪(ThermoFisher Scientific),NanoDrop 2000分光光度计(赛默飞)等。
2)主要试剂:PCR反应试剂(rTaq酶,dNTP等)(Takara),Trizol(上海翊圣生物科技有限公司),DL2000 DNA Marker(Takara公司),RNA 6000 Nano kit (Agilent Technologyies, Santa Clara, CA),TruSeq RNA sample prep Kit (San Diego, CA, USA),TruseqTM Small RNA sample prep Kit (San Diego, CA, USA),PrimeScript RT reagent kit (Takara),One Step Prime-Script miRNA cDNA Synthesis Kit (Takara),Hieff qPCR SYBR® Green Master Mix(上海翊圣生物科技有限公司)等。
3.2.3 mRNA-seq、小RNA文库构建和Illumina测序
使用TRIzol试剂从每种动物材料中提取总RNA。使用Nanodrop 2000分光光度计评估样品纯度和RNA浓度,并使用RNA 6000 Nano kit(Agilent Technologyies, Santa Clara, CA)在Agilent 2100生物分析仪上分析RNA的质量。对于mRNA-seq,cDNA文库构建和测序在Majorbio Biotech Co., Ltd.(中国上海)进行。简言之,用来自总RNA的磁性Oligo-dT珠(Invitrogen, USA)分离poly(A)+ mRNA,然后使用来自Illumina的TruSeq RNA sample prep Kit(San Diego, CA, USA)根据Illumina协议构建文库,使用Illumina HiSeqTM 2000系统(Illumina Inc.)进行测序。为了得到小RNA文库,使用TruseqTM Small RNA sample prep Kit(San Diego, CA, USA)将来自每种材料的总量为1μg的总RNA作为输入材料来构建小RNA文库。随后,在Illumina HiSeqTM 2000系统上进行SE50测序。
3.2.4 mRNA分析
将mRNA测序得到的raw data 进行质控后,使用Trinity程序以默认设置de novo组装成更长且无间隙的contigs(Grabherr et al 2011)。然后使用BLASTX与NR、Swiss-Prot、COG和KEGG数据库进行比对来注释由mRNA reads组装产生的unigenes,E-value截断值设置为1e-5(Camacho et al 2009, Grabherr et al 2011)。使用Blast2GO软件(Conesa et al 2005)分析GO的功能注释,并使用WEGO软件对unigenes进行GO功能分类(Ye et al 2006)。基因表达量的计算方法使用FPKM(Li and Dewey 2011)。使用edgeR确定SF、PF和M之间基因表达差异的显著性(Robinson et al 2010)。将|log2FC|≥1且P-value<0.05作为基因表达显著差异的阈值。使用Goatools(或KOBAS)软件对差异表达的基因(DEGs)进行GO或KEGG pathway富集分析。将校正的(Bonferroni)P-value≤0.05分别作为GO条目或pathways显著富集的阈值。
3.2.5 小RNA分析
对原始测序reads质控后筛选出clean reads,然后,将高质量的sRNAs reads映射到Rfam(版本12.1)数据库,以丢弃rRNA-、snRNA-、scRNA-、snoRNA-、tRNA-和核酶相关的reads(Nawrocki et al 2015)。使用BLASTN搜索针对所有已知的Daphnia miRNA前体和成熟序列(miRBase 21)来鉴定和注释保守的miRNAs,不超过一个错配(Kozomara and Griffithsjones 2014)。然后,使用miRDeep2鉴定新的成熟miRNAs(Friedländer et al 2012)。随后,使用RNAfold软件预测它们的发夹二级结构(Hofacker et al 1994),并且基于序列相似性将鉴定的miRNAs以家族分组。将miRNAs的read counts归一化为TPM。使用edgeR鉴定SF、SP和M之间的差异表达的miRNAs(DEMs)(Robinson et al 2010)。将|log2FC|≥1且P-value<0.05设置为miRNAs显著差异表达的阈值。使用miRanda软件预测已知miRNAs和新miRNAs的潜在靶基因(Enright et al 2003),并且从mRNA转录组数据分析中鉴定的DEGs列表中获取miRNAs靶基因的表达水平。通过将DEMs的靶基因定位于GO条目和KEGG pathways进行GO和KEGG分析。如前面部分所述,使用已用于DEGs的类似方法进行miRNA靶基因的GO富集和pathway富集分析。
3.2.6 mRNA和miRNAs表达谱的整合分析
使用DEGs和DEMs靶基因构建了差异基因库和miRNA靶基因库,然后在两个基因库中进行相关分析,并选择在表达水平上与miRNA相关的差异靶基因。随后,利用miRNAs与靶基因的调控关系,对miRNAs及其靶基因进行整合网络分析,分析关键的miRNA-mRNA对,筛选出所有相关的miRNA-mRNA对。使用Cytoscape软件对miRNA-靶基因对进行网络可视化分析(Shannon et al 2003)。
3.2.7 RT-qPCR验证
使用TRIzol试剂分别从SF、PF和M样品中提取总RNA,使用Nanodrop 2000分光光度计评估样品纯度和RNA浓度。使用PrimeScript RT reagent kit (Takara)分别将SF、PF和M的10μg总RNA进行逆转录。为了测定miRNA的表达,使用One Step Prime-Script miRNA cDNA Synthesis Kit (TaKaRa)将SF、PF和M的10μg总RNA进行逆转录,其在miRNA的3'末端添加ploy(A)尾,并且利用已知的oligo-dT连接物引导进行转录。使用针对DEGs或DEMs的特异性引物在ABI 7500 real-time PCR系统上(Applied Biosystems, United States)对获得的RT样品进行qPCR。引物序列和反应体系见表3-1和表3-2,采用三步法对mRNA进行RT-qPCR,具体如下:预变性95℃ 10 min,接着36个循环包括变性95℃ 15 sec,64℃退火30 sec及72℃延伸30 sec;采用两步法miRNA进行RT-qPCR,具体如下:预变性95℃ 5 min,接着40个循环包括变性95℃ 15 sec,64℃退火45 sec。在基因表达量分析中,使用QuantStudioReal-Time PCR 软件和2-ΔΔCt方法分析目的基因的相对表达量(Livak and Schmittgen 2001)。为了准确评估SF、PF和M中基因和miRNA的表达水平,将GAPDH和dpu-miR-276(在各样本组织中表达量相同)分别用作mRNA和miRNA的内参对照。
3.3 结果
3.3.1 转录组测序、注释和比较分析
对隆线溞SF、PF和M构建的3个cDNA文库在Illumina HiSeq 2000测序后,分别从SF、PF和M文库获得530,415,70、476,790,98和453,596,98条clean reads,并且所有Q30均高于92%。然后,将clean reads合并在一起并de novo组装成25,428个unigenes,平均长度为1355 bp,N50长度为2746 bp。然后将所有unigenes通过Blastx比对到NR、Pfam、String、Swiss-Prot、GO和KEGG数据库进行注释。使用FPKM分析比较这些文库来研究SF、PF和M中unigenes的表达水平,以P-value<0.05和|loglog2FC|≥1作为显著差异表达的阈值条件。总共有1127(657个基因在SF中上调,470个基因在SF中下调)、1616(914个基因在M中上调,702个基因在M中下调)和738(405个基因在M中上调,333个基因在M中下调)个基因分别在SF vs. PF、M vs. SF和M vs. PF中显著差异表达。
为了更好地了解生殖转化中涉及的生物过程,我们分别分析了三组DEGs在两两比较中GO富集和pathway富集的丰度差异(SF vs. PF、M vs. SF和M vs. PF)。
GO条目富集分析表明:1)SF vs. PF:SF中富集的类别包括结构分子活性、表皮相关(如表皮和几丁质结合的结构成分)、氧化应激相关(如氧化还原酶活性和氧化还原过程)和血红蛋白相关(如四吡咯结合、血红素结合和铁离子稳态);PF中富集的GO条目与DNA包装(如核酸结合和DNA结合)、转录(如转录的调节和基因表达的调节)和代谢过程广泛相关(图3-3)。2)M vs. SF:M中主要富集的GO条目包括结构分子活性(如核糖体的结构成分)、转移酶活性、肽代谢过程(如翻译和肽生物合成过程)、糖基化和表皮的结构成分;SF中富集的GO类别包括氧化应激相关(如氧化还原酶活性和氧化还原过程)、角质层的结构成分、超氧化物代谢过程和激酶活性(图3-4)。3)M vs. PF:M相关基因显著富集的GO类别涉及结构分子活性、信号传导受体活性(如跨膜信号受体活性和G蛋白偶联受体活性)和刺激过程(特别是光刺激过程相关的光转导、检测、视觉感知和感官知觉);PF相关基因大多数富集于转运活性、细胞周期调节和激酶相关功能,如底物特异性转运蛋白活性、细胞周期蛋白和蛋白激酶活性的调节(图3-5)。
KEGG通路富集分析:1)SF vs. PF:在SF和PF中代表性的通路分别是溶酶体和各种类型的N-聚糖生物合成,此外它们都富集于蛋白质消化与吸收以及ECM-受体相互作用(图3-6)。2)M vs. SF:M相关基因主要聚集在核糖体和各种类型的N-聚糖生物合成的通路中,而在SF中显著富集的通路是溶酶体、过氧化物酶体和内质网中的蛋白质加工(图3-7)。3)M vs. PF:核糖体、各种类型的N-聚糖生物合成和糖鞘脂生物合成的通路在M中显著富集,而对于PF相关基因,它们主要富集在蛋白质消化吸收、细胞周期和神经活性配体-受体相互作用的通路(图3-8)。有趣的是,在上述三组通路富集分析中,各种类型的N-聚糖生物合成通路在任何一组中均显著富集。
此外,从前12个通路中选出了几个值得注意的与环境信息处理和代谢相关的类别,如与PF相比,在SF中上调的ECM受体相互作用通路、PI3K-Akt信号通路和谷胱甘肽代谢通路;与SF相比,在M中上调的鞘糖脂生物合成通路、糖胺聚糖生物合成通路和神经活性配体-受体相互作用通路;与PF相比,在M中上调的鞘糖脂生物合成通路、糖胺聚糖生物合成通路、神经活性配体-受体相互作用通路、光转导通路和AMPK信号传导通路(表3-3)。这些结果可以作为三个不同生殖个体中发生显著不同的生物过程的指示,为进一步研究确定其在生殖转化中的功能提供有价值的信息。
3.3.2 与生殖转化相关的DEGs
重点关注SF、PF和M之间生殖相关基因的变化以揭示与生殖转化相关的候选基因。因此,在GO/pathway富集分析和参考注释的基础上,1)SF vs. PF:与PF相比较,在SF中鉴定出了42个上调(表3-4)和37个下调(表3-5)的与生殖相关的基因,如上调的胶原蛋白家族基因(COL4A3、Col1a1、COL1A1等)、氧化还原相关基因(CYP4C1、Cyp4c3、Cyp18a1等)、chitin_bind_4-家族基因(Lcp5、Lcp17、Lcp22等)、氧气运输相关基因(FCP、CAB1、Dhb1等)、HSP类(l(2)efl和HSP82)和下调的胚胎发育相关基因(Chst11和sp8b)、homeobox家族基因(B-H2、Gsc、hoxa1a等)、转移酶相关基因(C1GalTA、Pomt1、Pomt2等);2)M vs. SF:与SF相比较,在M中发现40个上调(表3-6)和41个下调(表3-7)与生殖相关的基因,如上调的细胞外基质相关基因(PXDN、MUC5AC、Col1a1等)、雄性性别决定基因(dmrt1)、核糖体家族(Rpl18、Rpl4、Rpl5等)、胰蛋白酶家族基因(Klkb1、Prss27、Trypsin 1和Trypsin 2等)、转移酶样类别基因(B4galt1、B4galt6、B3galt4等)和下调的氧化还原基因(SOD1、SOD2、SODCC等)、细胞色素P450家族基因(CYP4C1、CYP4C1等)、cyclin_N家族基因(ccnb2、CYCA1-4等)、Chitin_bind_4-家族基因(PCP20、CP19.8、CP10.9等)、HSP类基因(HSP70、l(2)efl等);3)M vs. PF:与PF相比较,在M中鉴定出了23个上调(表3-8)和37个下调(表3-9)与生殖相关的基因,如上调的细胞外基质相关基因(PXDN、COL1A2和Sgs3)、7tm_1家族基因(Cckar、CEO1、CEO2等)、galactosyl_T-家族基因(B3GNT2、B3GNT3和B3GNT7)和下调的胶原蛋白家族基因(COL4A5、Col9a1)、胰蛋白酶家族基因(TRY4B、HA)、蛋白结合相关基因(Pclo、Twist1、His3、Prmt8等)、cyclin_N-家族基因(ccnb2、CycE等)和转运蛋白相关基因(AMT1-3、abcG23、Tret1等)。这些与生殖转化相关的基因资源有助于对隆线溞生殖调节有更好地理解。
3.3.3 miRNA表达谱
miRNA是一类短的非编码内源RNA,在各种生物和代谢过程中发挥重要作用。尽管过去几年已经对miRNA进行了长期研究,但对于隆线溞中的miRNA却知之甚少。为了深入探究miRNA在隆线溞生殖转化过程中的作用,分别对SF、PF和M构建了3个小RNA文库。测序和质控后,分别获得来自SF的94,663,25条clean reads,来自PF的78,177,44条clean reads和来自M的70,208,01条clean reads,长度为18~32个核苷酸,最具代表的长度为25-26 nt。通过Rfam数据库注释分析将rRNA、tRNA、snRNA、核酶等去除,分别来自SF、PF和M的大约1%、1.12%和1.19%的unique reads被注释为miRNA。
为了鉴定隆线溞中的保守miRNAs,将来自3个文库的数据与miRBase 21.0中已知的miRNAs进行比较。与已知miRNA具有同源序列的miRNA被分类为保守的miRNAs,总共获得39个保守的miRNAs,类属31个已知的miRNAs家族。除了保守的miRNA,还在隆线溞中鉴定出8个新的miRNAs,但未获得它们miRNA家族信息。在保守的miRNAs家族中发现bantam、mir-iab-4、miR-7、miR-124和miR-252家族成员可能在隆线溞生殖转化期间起着重要作用。随后,分别比较SF & PF、M & SF和M & PF之间的标准化miRNA表达水平以鉴定DEMs,并将|log2FC|≥1且FDR < 0.05作为miRNA显著差异表达的阈值。结果表明,在M vs. SF和M vs. PF中分别获得7个DEMs(6个保守miRNA和1个新miRNA)和6个DEMs(3个保守miRNA和3个新miRNA)。有趣地是,在SF vs. PF中没有发现DEMs。在M vs. SF中,4个miRNA在M中上调,而5个miRNA在M中下调;在M vs. PF中,三个miRNA在M中上调,而三个miRNA在M中下调。
4.3.4 隆线溞中DEMs的靶基因预测和功能分析
miRNAs靶基因的鉴定是进一步了解miRNAs调节功能的重要步骤。为了探究隆线溞中鉴定到的保守以及新的DEMs的生物学功能,基于转录组数据进行了miRNA靶标分析,共获得了2055个相应的靶基因。为了进一步更好地探究DEMs在生殖转化期间靶向基因集的功能,对预测的靶标进行了前10个GO和pathway富集分析。
GO富集分析表明:1)M vs. SF:上调保守DEMs的靶基因在分子结合类和代谢过程类中高度富集;同时,下调保守DEMs的靶基因在分子结合类和蛋白质修饰过程类中高度富集(图3-9 A)。与保守的DEMs不同,上调的新DEMs的靶基因富集在基本的生物学过程,如细胞过程和代谢过程(图3-9 B)。2)M vs. SF:上调保守DEMs的靶基因在结合和代谢过程类高度富集;同时,下调保守DEMs的靶基因在生物过程的调控、膜部分和结合类高度富集(图3-10 A)。与保守的DEMs不同,上调新DEMs的靶基因主要涉及细胞成分、细胞过程和催化活性类;而下调新DEMs的靶基因主要涉及分子结合类(图3-10 B)。
通路富集分析表明:1)M vs. SF:保守DEMs的靶基因均广泛分布于细胞过程中,包括粘着斑通路和肌动蛋白细胞骨架的调节通路。同时,保守上调和下调DEMs的靶基因分别在轴突导向通路和环境信息处理通路(ECM-受体相互作用和notch信号传导途径)中高度富集(图3-11 A)。与保守的DEMs不同,上调的新DEMs的靶基因主要涉及mRNA监测通路、内吞作用通路和卵母细胞减数分裂通路(图3-11 B)。2)M vs. PF:上调保守DEMs的靶基因与信号转导通路高度相关,包括MAPK信号通路、ras信号通路和hedgehog信号通路;而下调的保守DEMs的靶基因主要涉及信号转导通路(如钙信号传导通路)和神经系统通路(如胆碱能突触和逆行内源性大麻素信号传导)(图3-12 A)。与保守的DEMs不同,上调新DEMs的靶基因广泛参与神经系统,包括谷氨酸能突触通路、逆行内源性大麻素信号传导通路和胆碱能神经突触通路,以及感觉系统,包括光转导–fly;但是在下调的新DEMs的靶基因中没有富集到值得注意的通路(图3-12 B)。这些结果表明保守miRNA和新miRNA可能在生殖转化中参与了特定的过程并发挥了特定的功能。
3.3.5 预测的DEMs差异表达靶基因的鉴定
为了鉴定参与生殖转化的潜在miRNA-mRNA调控网络,构建并可视化了差异表达miRNAs与其预测的差异表达靶基因的网络图。12个差异表达miRNAs及其预测的差异表达靶mRNA的网络展示在图3-13,14中。虽然miRNAs及其相应靶基因具有互反表达模式,但在本研究中不仅观察到了miRNAs与其靶基因表达水平呈负相关,而且还观察到了与其靶基因表达水平呈正相关,包括55对正相关的miRNA-target和40对负相关的miRNA-target,如M与PF相比,novel-miR-6在M中显著上调,其靶基因GRIK2也显著上调;M与SF或PF相比,dpu-miR-375在M中显著下调,而其靶基因DapmaDsx1-a也显著上调。此外,在网络图中可以看出有2个或更多的候选调控miRNAs共享多个预测的mRNA靶基因。引人注目地是1个差异表达mRNA(Lrp2)是3个差异表达miRNA的预测靶基因,并且8个差异表达mRNA(Pxd、DAPPUDRAFT_308008、HINFP、Tgfbi、CG7218、Pclo、Wdr35和POSTEN)是2个差异表达miRNAs的预测靶基因。此外还发现了两个差异表达的新miRNA(novel-miR-1和novel-miR-6)可能是关键的分子调控因子。这些结果证明了隆线溞生殖转化过程中miRNA-靶基因相互作用的复杂性。
3.3.6 候选mRNAs和miRNAs的表达验证
为了验证那些差异表达的mRNA和miRNA的表达模式,我们随机选择了24个DEGs和4个DEMs并用qRT-PCR验证了它们的相对表达水平。结果如表3-10,11所示,表明24个mRNA和4个miRNA差异表达,表达模式与NGS数据分析相匹配,但差异表达的程度不同。