【现学现卖·自学生信】链霉菌的全基因组分析（1）

Complete genome sequences ofStreptomyces spp. isolated from disease suppressive soils(Heinsch et al., 2019)在抑制病害土壤中分离的链霉菌的全基因组

一、摘要

链霉菌是很多天然活性产物的主要来源，是抑制土壤病原物的重要因子，可以接种在土壤中使用，预防疾病的同时促进植物生长。为了对它们的生态学和进化有更多的了解，我们对三株从抑制病害土壤中分离出来的有很好抑菌效果的链霉菌菌株进行了全基因组测序，并将它们与之前测序的菌株进行比较。

文章展示了从头测序（de novo sequencing）获得的3个链霉菌菌株的高质量全基因组。Streptomyces sp. GS93–23，Streptomyces sp. 3211–3和Streptomyces sp. S3–4为线性染色体，大小分别是8.24 Mb，8.23 Mb和大于7.5 Mb，其中2个菌株还包含大的线性质粒。每个菌株都有26-38个天然产物生物合成基因簇，与之前测序的链霉菌属的菌株的基因簇数量类似。作者将这3个菌株的基因与之前测序的菌株进行比较，发现两个亲缘关系很近的菌株之间也存在大量的天然产物合成多样性，游离DNA（episomal DNA）的得失是基因组进化的主要驱动力。

较长的read测序数据保证了高GC含量链霉菌基因组的contigs组装。通过比较这3个与之前链霉菌的基因组，我们没有看到足够的证据表明从抑制病害土壤中分离出来的链霉菌在生物合成基因簇数量方面有特别的优势。菌株GS93–23与之前分离的Streptomyces lydicus的序列之间较高相似度暗示着物种招募（Recruitment）在抑制病害土壤微生物群落的进化中具有贡献作用。

二、综述节选

研究发现可以抑制病害的土壤（disease-suppressive soils，DSSs）可以长期稳定的抑制土壤中植物的病原物。这种土壤可以在长期单一种植一种作物之后形成，然而长期单一种植并不是一个最好的产生DSSs的方法，所以我们要了解DSSs的组成与生态，通过认为控制土壤中的生物群落来保护植物。

近年来人们开始研究DSSs的机制，包括DSSs的宏基因组分析（metagenomic analyses）和菌株表型特征。描述DSSs的出现和维持的生态模型表明植物多样性与DSSs进化有关。

DSSs关键是微生物产生的活性物质，对其机制有三种假设：一是DSSs中的菌株拥有更多天然产物合成基因簇（biosynthetic geneclusters，BGCs）；二是基因簇数量一样，但是表达量更大；三是其他都一样，但是活性高。假设一可以通过全基因组测序和比较而得出。

本文应用long-read PacBio和short-read Illumina技术获得高质量，近乎完整的菌株全基因组序列，并与前期分离的其他菌株进行生信分析和比较。

三、实验方法

1. Preparation of high molecular-weightDNA-准备DNA材料

从IWL-4固体培养基（培养基配方我从另一个文献中找到了，Solid medium IWL-4 for Streptomyces spore isolation：37 g/L Difco ISPmedium 4；0.5 g/L yeast extract；1g/L tryptone）上分离单菌落，将其在液体培养基R2YE（R2YE medium is avariation of R2 containing yeast extract：Make up the following solution: 103 g Sucrose；0.25 g K2SO4；10.12 g MgCl2·6H2O；10g Glucose；0.1 g Difco Casaminoacids；800 ml dH2O）中培养。培养3d后，离心收集细胞并用10%蔗糖溶液清洗，再重悬菌体于450μl的TSE缓冲液中，缓冲液含有溶菌酶（5mg/ml）（TSE buffer：15% sucrose；25 mM Tris；25 mMEDTA, pH 8），37℃孵育1h，再加入225μl的2% SDS溶液，室温下孵育5min。然后进行苯酚：氯仿抽提，醇沉。得到的DNA样品加RNase提高其品质。最后得到的DNA样品溶解于150μl的TE buffer，通过凝胶电泳、分光光度计、原位微量PicoGree定性定量的检测提取品质。

在此推荐一个放线菌的网站，里面有很多已经标准化的放线菌实验方法和材料介绍。

https://actinobase.org/index.php?title=Main_Page

2. DNA sequencing and assembly-DNA测序和装配

使用BluePippin Size Selection (Saga Science)构建3个菌株的20kb大小的文库，用于PacBiolong-read测序。测序使用P4试剂和两个SMRT cells，P6试剂和一个SMRT cell进行测序，从三个菌株S3-4，GS93-23和3211-3中分别得到1.26Gb，1.40Gb和1.18Gb的subread序列数据，平均读长（read length）6703kb，6482kb和6478kb，N50分别为9095kb，8819kb和8680kb。

3. Short-read sequencing and errorcorrection-短read测序和矫正

Illumina MiSeq测序在UMN基因组学中心进行。对这三个基因组DNA样品进行了独特的条形码编码（DNA barcoding），并与其他菌株的基因组一起测序，样品占MiSeq泳道的30％。使用明尼苏达大学基因组学中心的标准方案进行Nextera文库的制备。使用Breseq将250nt的配对末端reads mapping到PacBio的参考基因组序列，生成BAM文件。使用Pilon工具校正单碱基差异和小的缺失（indel），生成最终的误差校正基因组。

4. Annotation of genomic features-基因注释

用Prokka给编码区DNA序列（CDS）注释，用RNAmmer注释核糖体RNA，Aragorn注释tRNA，SignalP注释信号前导者肽，以及Infernal注释非编码RNA。每个基因组都用Prokka软件包默认选项和“ --compatible”命令来强制遵守GenBank。

用BASys Web服务器执行假定的功能类别分配（Assignment of putative functional categories）。对于每个CDS，以列表格式（tabular format）提供开始位置，结束位置，链信息和唯一标识符，以确保Prokka生成的注释可以用于Glimmer，分析蛋白直系同源基因簇（clusters of orthologous genes，COG）。

BASys分析功能类别时设置的选项如下：革兰氏阳性，线性contig，细菌遗传密码。表2中蛋白质的功能分配是通过EggNOG-mapper完成的。以下是EggNOG-mapper设置：将mapping模式设置为DIAMOND，将类别范围设置为所有细菌，使用所有直系同源物，并选择nonelectronic gene ontology evidence terms。

5. Phylogenetic analysis-系统发育分析

从PATRIC (https://www.patricbrc.org/)中下载streptomyces的基因组。选择分子系统发育标记atpD, gyrB, recA, rpoB和trpB，确定了要比较的区域，并将它们头尾串联（进行multilocus sequence analysis），进行多序列比对，在MEGA7中构建最大似然系统发育树（Maximum-likelihood phylogenetic tree）。菌株S3–4树系统发育构建时发现recA序列不适用于WM6372，所以S3-4系统发育树使用的是四基因级联。

文中用到的一些软件工具和数据库我整理在了微信公众号，由于是用了模板编辑的，无法复制到这里。还请大家点击以下链接，今天是自学生物信息学第一天，还希望找到一起学习的朋友！

https://mp.weixin.qq.com/s?__biz=MzI4MzU2Mjc1OA==&mid=2247484490&idx=1&sn=05f02459495f6c6c0c5021d7a8d2b13a&chksm=eb898223dcfe0b35062dd987e3b7240c49e4a626722227f1d1a2e35f2135a3f2219c7217a832&token=1908966490&lang=zh_CN#rd

【现学现卖·自学生信】链霉菌的全基因组分析（1）

你可能感兴趣的:(【现学现卖·自学生信】链霉菌的全基因组分析（1）)