刘永鑫Adam

NBT：牛瘤胃微生物组的参考基因组集

文章目录

牛瘤胃微生物组的参考基因组集

热心肠日报
摘要
主要结果

图1. 来自牛瘤胃4,941个末培养和Hungate系列基因组的进化树
图2. 末培养基因组与Hungate和发表数据比较
图3. Illumina和nonopare宏基因组装统计数据比较
图4. 预测碳水化合物代谢蛋白与CAZy数据库的相似度
图5. 蛋白质的分类学和功能分布

方法

宏基因组的组装和分箱
宏基因组分类
基因组质量和比较基因组
绵羊甲烷数据分析
瘤胃普查分析
纳米孔序列数据的组装和分析
蛋白质组分析

代码可用
Reference
猜你喜欢
写在后面

[外链图片转存失败(img-4hUMgabG-1565163532280)( http://210.75.224.110/Note/LiuYongXin/190802NBTrumen/0.png)]

牛瘤胃微生物组的参考基因组集

用于瘤胃微生物组生物学和酶发现的4,941个瘤胃宏基因组组装基因组的汇编

Compendium of 4,941 rumen metagenome-assembled genomes for rumen microbiome biology and enzyme discovery

Nature Biotechnology [IF:31.864]

2019-08-02 Articles

DOI: https://doi.org/10.1038/s41587-019-0202-3

全文可开放获取 https://www.nature.com/articles/s41587-019-0202-3.pdf

第一作者：Robert D. Stewart¹

通讯作者：Mick Watson^1*

其它作者：Marc D. Auffret², Amanda Warr¹, Alan W. Walker³, Rainer Roehe²

作者单位：

¹ 英国爱丁堡大学，罗斯林研究所和皇家（迪克）兽医研究院(The Roslin Institute and the Royal (Dick) School of Veterinary Studies, University of Edinburgh, Easter Bush, UK)

² 苏格兰乡村学院，英国爱丁堡(Scotland’s Rural College, Edinburgh, UK)

³ 英国阿伯丁大学，Rowett研究所(The Rowett Institute, University of Aberdeen, Aberdeen, UK)

热心肠日报

https://www.mr-gut.cn/papers/read/1066063689?kf=xread_daily

创作：刘永鑫审核：刘永鑫 08月06日

原标题：用于瘤胃微生物组生物学和酶发现的4,941个瘤胃宏基因组组装基因组的汇编

瘤胃微生物组在反刍动物消化植物物质中非常重要，但大多数组分末被培养；
基于283个牛胃样本获得6.5T二、三代测序数据，组装分箱得到4941个宏基因组组装基因组（MAG），同时鉴定了40多万个碳水化合物代谢相关的基因；
本文提出一种组装工作流程，可获得80％完整的细菌和古细菌基因组；
此参考基因集将宏基因组数据可比对率从15%的提高至50-70％，有助于更好地了解瘤胃微生物组的结构和功能。

主编评语：反刍动物为全世界数十亿人提供必需的肉、奶等重要营养。瘤胃是一种特殊的胃，适应植物来源的复合多糖的分解。瘤胃微生物组的基因组编码数千种适于消化植物物质的酶，它们主导反刍动物饮食结构。本文对近三百个牛胃样本进行宏基因组二、三代混合测序，获得了近五千个宏基因组组装的基因和40多万个碳水化合物代谢相关基因，为深入研究牛瘤胃微生物组提供了参考基因组，可进一步挖掘功能基因和筛选高转化效率菌种提供基础。同时也是近期第三篇Nanopare技术参与发表在自然生物技术杂志在宏基因组领域的文章，可见新技术在宏基因组中应用带来的巨大优势。另两篇详见 https://www.mr-gut.cn/papers/read/1088940721
和 https://www.mr-gut.cn/papers/read/1074446025

更重要的是本文提供了宏基因组分箱、下游分析的全套流程和方法标准，值得参考，详见方法和代码。此外，一个重要的研究趋势是参考基因集已经有点过时了，要发表就得要参考基因组集，即知道功能，更要清楚功能的来源菌种。

摘要

反刍动物为全世界数十亿人提供必需的营养。瘤胃是一种特殊的胃，适应植物来源的复合多糖的分解。瘤胃微生物组的基因组编码数千种适于消化植物物质的酶，它们主导反刍动物饮食结构。作者使用来自283只反刍动物牛的大约6.5TB的短读长和长读长序列数据，组装了4,941个瘤胃微生物的宏基因组组装基因组（MAG）。作者提出了一种基因组分辨的宏基因组学工作流程，该工作流程能够组装至少80％完整的细菌和古细菌基因组。值得注意的是，我们获得了三个由长读长数据组装而成的单重叠群，即瘤胃细菌的全染色体组装，其中两个代表以前未知的瘤胃物种。使用我们的瘤胃基因组集合，我们预测并注释了大量的瘤胃蛋白。我们的瘤胃MAG集将瘤胃宏基因组测序序列的比对率从15％提高到50-70％。这些基因组和蛋白质资源将有助于更好地了解瘤胃微生物组的结构和功能。

Ruminants provide essential nutrition for billions of people worldwide. The rumen is a specialized stomach that is adapted to the breakdown of plant-derived complex polysaccharides. The genomes of the rumen microbiota encode thousands of enzymes adapted to digestion of the plant matter that dominates the ruminant diet. We assembled 4,941 rumen microbial metagenome-assembled genomes (MAGs) using approximately 6.5 terabases of short- and long-read sequence data from 283 ruminant cattle. We present a genome-resolved metagenomics workflow that enabled assembly of bacterial and archaeal genomes that were at least 80% complete. Of note, we obtained three single-contig, whole-chromosome assemblies of rumen bacteria, two of which represent previously unknown rumen species, assembled from long-read data. Using our rumen genome collection we predicted and annotated a large set of rumen proteins. Our set of rumen MAGs increases the rate of mapping of rumen metagenomic sequencing reads from 15% to 50–70%. These genomic and protein resources will enable a better understanding of the structure and functions of the rumen microbiota.

主要结果

图1. 来自牛瘤胃4,941个末培养和Hungate系列基因组的进化树

Fig. 1: Phylogenetic tree of 4,941 RUGs from the cattle rumen, additionally incorporating rumen genomes from the Hungate collection.

[外链图片转存失败(img-NAhiNAPr-1565163532282)(http://210.75.224.110/Note/LiuYongXin/190802NBTrumen/1.png)]

本树采用PhyloPhlAn基于同源蛋白序列连接后构建，并使用GraPhlAn可视化。标签展示只选择不重叠有信息的Hungate基因组名称（Hungate数据集有410个培养的瘤胃细菌和古菌）。

The tree was produced from concatenated protein sequences using PhyloPhlAn, and subsequently drawn using GraPhlAn. Labels show Hungate genome names, and were chosen to be informative but not overlap.

图2. 末培养基因组与Hungate和发表数据比较

Fig. 2: A comparison of the RUG dataset with the Hungate collection and previously published data.

a，b，4,941个RUG与Hungate集合的比较（a）和我们之前公布的Stewart等人的数据（b）。黑线表示蛋白质与最接近匹配的平均百分比（右手y轴），蓝点表示每个RUG与比较数据集中最接近的匹配之间的混合距离（k = 100,000, 衡量两个不同DNA序列之间的差异）。正如预期，高蛋白质相似度与低mash距离相关，反之亦然。 RUG由a和b的平均蛋白质相似度独立分类。图2b中有一个明显的拐点，大约是沿x轴的一半，蛋白质同一性下降到90％以下，混合距离上升，整齐地展示了我们新的更大数据集所代表的新颖性。

a,b, A comparison of the 4,941 RUGs with the Hungate collection (a) and our previously published data from Stewart et al.8 (b). The black line indicates the average percentage protein identity with the closest match (right-hand y axis), and blue dots indicate the mash distance (k = 100,000) between each RUG and the closest match in the comparison dataset (a measure of dissimilarity between two DNA sequences). As expected, a high protein identity relates to a low mash distance, and vice versa. The RUGs are sorted independently by average protein identity for a and b. There is a clear inflection point in Fig. 2b, roughly half way along the x axis, where the protein identity dips below 90% and the mash distance rises, neatly demonstrating the novelty represented by our new larger dataset.

图3. Illumina和nonopare宏基因组装统计数据比较

Fig. 3: A comparison of Illumina and nanopore metagenomic assembly statistics.

彩色直方图显示了282 Illumina组装的统计分布，并突出显示了单个纳米孔组装。 a，N50值。 b，组装的总长度。 c，最长重叠群的长度。纳米孔组装N50为268kb，比平均Illumina组装（4.7kb）长56倍以上，Illumina组装总长度通常更长（平均600M b），纳米孔组装总长度（长度为178Mb）不是我们获得的组装中最短的，纳米孔组装产生3.8 Mb的最长重叠群，比Illumina组件的平均长度（479 kb）长7倍，比最长的单Illumina重叠群长1.74倍（1.38 Mb; 13个重叠群中的一个来自99.19％完全度且未培养的拟杆菌RUG14538）。就直接比较而言，相同样品的仅Illumina组装的N50为12.2kb，总长度为247Mb，最长的重叠群为358kb。

The colored histograms show the distribution of statistics for 282 Illumina assemblies, and the single nanopore assembly is highlighted. a, N50 values. b, Total length of the assembly. c, Length of the longest contig. The nanopore assembly N50 of 268 kb was over 56 times longer than that for the average Illumina assembly (4.7 kb), the Illumina assemblies were often longer (average of 600 Mb), the nanopore assembly (at 178 Mb in length) was not the shortest of the assemblies we produced and the nanopore assembly produced the longest contig at 3.8 Mb, seven times longer than the average for the Illumina assemblies (479 kb) and 2.74 times longer than the longest single Illumina contig (1.38 Mb; one of 13 contigs from the 99.19% complete uncultured Bacteroidia bacterium RUG14538). In terms of a direct comparison, the Illumina-only assembly of the same sample had an N50 of 12.2 kb, a total length of 247 Mb and a longest contig of 358 kb.

图4. 预测碳水化合物代谢蛋白与CAZy数据库的相似度

Fig. 4: Maximum percentage identity between CAZyme-predicted proteins from the RUGs and the CAZy database.

GH，糖苷水解酶（n = 235,001）; GT，糖基转移酶（n = 120,494）; PL，多糖裂解酶（n = 6,834）; CE，碳水化合物酯酶（n = 55,523）; AA，辅助活性; CBM，碳水化合物结合模块（n = 23,928）; SLH，S层同源结构域（n = 150）; cohesin，黏连蛋白结构域（n = 80）。中心线表示中值; 方框显示了四分位数范围; 并且胡须延伸到最极端的数据点，但数据点不超过盒子四分位数范围的1.5倍。

GH, glycoside hydrolase (n = 235,001); GT, glycosyl transferase (n = 120,494); PL, polysaccharide lyase (n = 6,834); CE, carbohydrate esterase (n = 55,523); AA, auxiliary activities; CBM, carbohydrate-binding module (n = 23,928); SLH, S-layer homology domain (n = 150); cohesin, cohesin domain (n = 80). Center lines indicate the median value; boxes show the interquartile range; and whiskers extend to the most extreme data point that is no more than 1.5 times the interquartile range from the box.

图5. 蛋白质的分类学和功能分布

Fig. 5: Taxonomic and functional distribution of proteins.

[外链图片转存失败(img-6zbKInp2-1565163532283)(http://210.75.224.110/Note/LiuYongXin/190802NBTrumen/5.png)]

顶部，12门和未知细菌的蛋白质总数。

中间，蛋白质组预测为CAZymes的百分比。

底部，八个CAZyme类的分布占预测CAZymes总数的比例。

Top, total number of proteins for 12 phyla and the group of unknown bacteria. Middle, percentage of the proteome predicted to be CAZymes. Bottom, distribution of eight CAZyme classes as a proportion of the total number of predicted CAZymes.

方法

宏基因组的组装和分箱

Metagenomic assembly and binning

该研究总共测序了282个样品，每个样品产生0.24-1.4亿个PE150碱基对的读长(7.2 - 42 GB)。样品在五批48个样品和一批42个样品中进行测序（这42个样品批次是Stewart等人的唯一基础）。另一个样品用于Stewart等人的Hi-C测序，并且来自该样品的宏基因组装的基因组包括在去冗余数据集中。

除非另有说明，否则所有使用的参数均为默认值。使用如前所述的覆盖率和含量单独组装和分箱每个样品。简而言之，每个样本使用idba_ud49（v.1.1.3）和选项’–num_threads 16 --pre_correction --min_contig 300’组装。 BWA MEM50（v.0.7.15）用于将读段比对至过滤的组装重叠群，Samtools（v.1.3.1）用于转换为BAM格式。 MetaBAT2（v.2.11.1）中的脚本jgi_summarize_bam_contig_depths用于计算生成的BAM文件的覆盖范围。还使用MEGAHIT（v.1.1.1）为六批样品中的每一批产生了一个共同组装，参数‘–kmin-1pass -m 60e+10 --k-list 27,37,47,57,67,77,87 --min-contig-len 1000 -t 16’。

使用MetaBAT2和选项’–minContigLength 2000 --minContigDepth 2’将宏基因组分箱应用于单样品组件和共组装。 单样品分箱共生产37,153个箱，共组装分箱再生产23,335个箱。所有60,743个箱子合并在一起，然后使用dRep（v.1.1.2）进行去重复。 dRep去重复工作流程选项为’dereplicate_wf -p 16 -comp 80 -con 10 -str 100 -strW 0’。因此，在预过滤中，只有CheckM评估的箱（v.1.0.5）具有≥80％的完整性和≤10％的污染，用于成对去重复比较（n = 10,586）。 Bin评分为完整性 - 5×污染+ 0.5×log（N50），并且只有来自每个二级簇的最高评分RUG保留在去冗余组中。对于我们的数据集，获得了4,941个去重复的RUG。

请注意，我们运行了连续的重复数据删除工作流程。因此，我们之前发布的所有913个RUG（包括MetaBAT2和Hi-C）都已与新的RUG合并，并且已经去冗余。因此，虽然此处发布的较新数据集中存在一些先前发布的RUG，但许多已被更高质量的新RUG取代。

补充数据5给出了每个样本中每个基因组的平均深度，如MetaBAT2（参考文献52）（v.2.11.1）包中的脚本jgi_summarize_bam_contig_depths所计算。

宏基因组分类

Metagenomic assignment

宏基因组分箱的输出只是一组含有假定基因组的DNA FASTA文件。使用CheckM（v.1.0.5）评估这些是否完整和污染。使用MAGpy分析了4,941个最佳分箱，这是一个Snakemake工作流程对分箱进行了一系列分析，包括CheckM（v.1.0.5）; prodigal（v2.6.3）蛋白质预测; Pfam_Scan（v.1.6）; DIAMOND（v.0.9.22.123）搜索UniProt TrEMBL; PhyloPhlAn（v.0.99）和sourmash（v.2.0.0）搜索所有公共细菌基因组。 MAGpy结果用于为每个分箱产生推定的分类学分配，如下所示：

如果分配给一个物种的蛋白质比例≥0.9且平均氨基酸同一性(average amino acid identity)≥0.95，则根据DIAMOND结果分配给种(species);
如果sourmash评分≥0.8，则根据sourmash结果分配给种(species);
如果PhyloPhlAn概率很高且分类水平是属(genus)或种，则根据PhyloPhlAn结果分配分类;
如果分配到一个属的蛋白质的比例≥0.9且平均氨基酸同一性≥0.9，则根据DIAMOND结果分配给属(genus);
如果PhyloPhlAn概率高或中等且水平是属(genus)，则根据PhyloPhlAn结果分配到属;
如果PhyloPhlAn概率高或中等且水平为科(family)，则根据PhyloPhlAn结果分配至科;
如果分配给一个科的蛋白质比例≥0.8且平均氨基酸同一性≥0.6，则根据DIAMOND结果分配给科(family);
如果PhyloPhlAn概率为高或中等且水平为目(order)，则根据PhyloPhlAn结果分配给目;
如果分配给命令的蛋白质比例≥0.6且平均氨基酸同一性≥0.6，则根据DIAMOND结果分配给目(order);
如果PhyloPhlAn概率高或中等且等级为纲(class)，则根据PhyloPhlAn结果分配给纲;
如果PhyloPhlAn概率高或中等且水平为门(phylum)，则根据PhyloPhlAn结果分配给门;
其它，根据CheckM世系分配分类。

重要的是，在这个阶段，这些只是推断分类学。使用这些标签、FigTree（v.1.4.3），iTol（v.4.3）、PhyloPhlAn（v.0.99）和GraPhlAn（v.0.9.7）从连接的蛋白质子序列产生由RUG和来自Hungate集合的基因组组成的系统发育树。注释在它们可能的地方得到了改进 - 例如，MAGpy只在类别上属水平分配一个分类，但基因组与在物种水平注释的Hungate 1,000基因组紧密聚类，注释将被更新。还使用FigTree在Bacteria-Archaea分支处手动设置根。

基因组质量和比较基因组

Genome quality and comparative genomics

使用CheckM（v.1.0.5）评估基因组完整性和污染（见上文）。使用tRNAscan-SE（v.2.0.0）注释tRNA基因，并使用barrnap（v.0.9）预测16S rRNA基因。使用promer用MUMmer（v.3.23）计算全基因组比对，以发现基因组之间的匹配率。使用FastANI（v.1.1）计算氨基酸同一性ANI。使用DIAMOND blastp（v.0.9.22.123）和MASH（v.2.0，参数’-k 21 -s100000’）将RUG与Hungate集合和我们之前的数据集进行比较。

使用如上所述的dRep对瘤胃超集合进行去冗余，对于大于99％ANI的菌去冗余’参数 -sa 0.99’，对于95％ANI的去冗余’参数-sa为0.95’。使用UpSetR（v.1.3.3）绘制组之间的重叠。读长物种分类使用kraken（v.0.10.5）计算，参数’–fastq-input --gzip-compressed --preload --paired’。

绵羊甲烷数据分析

Analysis of sheep methane data

基于Shi等人的低和高甲烷样品中数据，使用kraken分配到瘤胃超集数据库的不同分类水平。得到的计数数据用作为DESeq2（v.1.22.2）的输入用于差分分析。使用DESeq2中的plotPCA（）函数创建主成分分析图，并使用gplots包（v.3.0.1.1）中的heatmap.2（）函数创建热图。对于株水平分析，从Shi等人的低甲烷和高甲烷样品中读长使用BWA-MEM（v.0.7.15）直接与瘤胃超集数据库比对，并将每个基因组的主要比对计数用作DESeq2的输入。所有比较的P值由DESeq2计算并使用多重检验校正。

瘤胃普查分析

Rumen census analysis

每个数据集中每个基因组的平均深度和总深度（补充数据5）用作数据集中丰度的代表。将Kraken（如上所述）与瘤胃超集数据库一起使用以计算所有样品中变形菌门丰度。

纳米孔序列数据的组装和分析

Assembly and analysis of nanopore sequence data

使用poRe（v.0.24）提取纳米孔读长并进行质量控制，并使用具有默认设置和基因组大小= 150Mb参数下的Canu（v.1.8）组装。使用MAGpy分析所得组装结果。使用Minimap2（v.2.12）将Illumina的短读长数据比对纳米孔组装结果（参数-x sr），再使用Nanopolish（v.0.10.2）和Racon（v.1.3.1）校正组装结果。使用IDEEL（https://github.com/mw55309/ideel）提取查询与目标长度数据并绘图。使用promer使用MUMmer（v.3.23）计算全基因组比对，以发现基因组之间的匹配。使用Prokka（v.1.13.3）注释三个完整的纳米孔细菌基因组及其Illumina对应物。创建纳米孔组装结果，其最小重叠长度为1 kb; 因此在比较之前Illumina组装有相似的限制条件。

蛋白质组分析

Proteome analysis

使用Prodigal（v.2.6.3）和选项’-p meta’预测蛋白质。使用DIAMOND，针对KEGG（2018年9月15日下载），UniRef100，UniRef90和UniRef50（2018年10月3日下载）和CAZy（dbCAN2版本，2018年7月31日）搜索每种蛋白质。蛋白质预测结果由CD-HIT（v.4.7）以100％，90％和50％的同一性聚类，与UniRef的方法类似。

使用dbCAN2和HMMER（v.3.1b2）针对CAZy数据库搜索所有蛋白质预测，并使用PULpy预测拟杆菌RUG的PUL。

代码可用

Code availability

比较基因组分析采用MAGpy (https://github.com/WatsonLab/MAGpy)，它于去年发表于Bioinformatics，用于下游分析宏基因组组装基因组的分析流程; PUL分析使用PULpy (https://github.com/WatsonLab/PULpy)，用于多糖预测的流程;分析nanopore 数据的插入和缺失采用using IDEEL (https://github.com/mw55309/ideel)

注：WatsonLab即为本文通讯作者

Reference

文章链接：https://www.nature.com/articles/s41587-019-0202-3

PDF：https://www.nature.com/articles/s41587-019-0202-3.pdf

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外5000+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍末解决群内讨论，问题不私聊，帮助同行。

学习扩增子、宏基因组科研思路和分析实战，关注“宏基因组”

点击阅读原文，跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

【AI模型学习】ESM2 千233 深度学习人工智能学习 python
文章目录1.版本2.开始2.1安装2.2使用预训练模型2.2.1代码2.2.2讲解2.2结构预测3.任务类型总结1.蛋白质结构预测（ESMfold）2.特征嵌入提取（esm-extract）3.零镜头变体预测（ESM-1v/ESM-2）4.逆向折叠（ESM-IF1）5.宏基因组图谱数据（ESMAtlas）6.多序列比对分析（ESM-MSA-1b）7.生成式蛋白质设计（ESM-2）1.版本ESM-2
生信小白记录4-宏基因组上游分析流程记录和常用工具说明 giraffb python 人工智能开发语言
宏基因组上游分析是研究复杂微生物群落基因组的关键步骤，根据是否有参考基因组，可分为有参分析和无参分析。有参分析（Reference-basedAnalysis）优点高准确性：由于有参考基因组，能够准确定位和注释基因。高效：比对过程相对较快，计算资源需求较低。缺点依赖参考基因组：如果样本中有大量未被参考基因组覆盖的微生物，可能会遗漏重要信息。偏见：存在参考基因组偏向性，可能会忽略一些少见或未知的物种
edger多组差异性分析_R语言统计分析微生物组数据 weixin_39961636 edger多组差异性分析
我在学习这本书记了一些笔记，如果你有学习，欢迎分享你的笔记或者教程。我的已有笔记汇总如下：宏基因组学习笔记宏基因组学习笔记2宏基因组笔记(第二章)R语言宏基因组学统计分析学习笔记(第三章-1)R语言宏基因组学统计分析学习笔记(第三章-2)https://link.springer.com/book/10.1007/978-981-13-1534-3下载方法，sci-hub大法啦。出版日期：2018
MicrobeCensus：快速估计宏基因组数据中的平均基因组大小邪恶的凹凸曼笔记算法
MicrobeCensus：快速估计宏基因组数据中的平均基因组大小在微生物组学研究中，了解微生物群落的平均基因组大小（AGS）对于揭示群落结构和功能至关重要。今天，我将为大家介绍一个非常实用的工具——MicrobeCensus。它能够从宏基因组数据中快速估计微生物群落的平均基因组大小，帮助我们更好地理解微生物群落的组成和功能。接下来，我将详细分享如何安装和使用这个强大的工具。一、为什么选择Micr
高通量测序的数据处理与分析指北(二)--宏基因组篇 lantary
博客原文宏基因组篇前言之前的一篇文章已经从生物实验的角度讲述了高通量测序的原理，这篇文章旨在介绍宏基因组二代测序数据的处理方式及其原理。在正文开始之前，我们先来认识一下什么是宏基因组。以我的理解，宏基因组就是某环境中所有生物的基因组的合集，这个环境可以是下水道，河流等自然环境，也可以是人体内肠道，口腔等体环境。而宏基因组中的生物往往指的是微生物，如真菌，细菌，病毒，古细菌。我们这里主要以肠道微生物
【现学现卖】CHEER中的概念解释——k-mer 番茄随笔
“概念理解”CHEER:HierarCHicaltaxonomicclassificationforviralmEtagEnomicdataviadeepleaRning对这篇文章中概念的理解：【现学现卖】CHEER与病毒宏基因组数据分析（1）【现学现卖】CHEER与病毒宏基因组数据分析（2）k-mer单独的k-mer很好理解，就是从一段序列中迭代分割提取长度为k的几个子序列（一般k为奇数，使用例
高通量测序的数据处理与分析(二)-宏基因组2 lantary
博客原文宏基因组数据处理方法数据下载wget下载宏基因组的数据主要分布在两个数据库：1.NCBI的SRA数据库，2.ENA。近年来也有许多研究者将数据上传到中国的数据库：NGDC你可以直接通过网页下载数据，或者是通过各个网站提供的下载工具进行批量下载。也可以到sra-exporter这个网站上输入项目号获得样本的下载链接。用wget或者其他下载工具进行下载，示例的命令如下:wget-cftp://
肠道微生物研究的“法宝” 茗创科技数据分析
摘要人类微生物组由以细菌为主的微生物群的集体基因组组成，这些微生物生活在人体的各个部位，其中肠道包含更多的微生物群。由于缺乏用于分离非培养微生物的科学工具，肠道微生物组的最重要特性尚不清楚。随着分子测序工具和技术的迅速发展，肠道微生物组在人类微生物组的研究过程中取得了长足的进步。这些发现揭示了在重组和改革疾病病理与药物方面有着非凡未来的可能性。新的科学方法，如通过二代测序的宏基因组工具，为基于肠道
菌群宏基因组分析能解答哪些科学问题？ f70420f979c3
更多案例分享：菌群多样性分析能解答哪些科学问题？比较基因组学在微生物领域的应用基因组测序在细菌基因组中的应用基因组测序在真菌基因组中的应用宏基因组研究内容：1.研究环境样本中微生物的构成与丰度；2.研究环境样本中的功能基因信息及丰度；3.研究不同环境样本间细菌群落、功能组成及丰度的差异（不同处理对环境中物种与基因的影响）；3.探究不同环境样本间引起细菌群落结构/功能差异的物种及相关的环境因子，探究
ggtreeExtra的开发及其在宏基因组上的应用斗战胜佛oh
开发ggtreeExtra的初衷因为我之前工作的时候主要是做微生物组学数据的分析工作，工作中往往需要对这些数据进行可视化以方便数据展示与解析，简单的可视化还好，有ggplot2就行了。然而，微生物组学数据分析中往往需要将相关的外部数据信息与进化树或者是物种层级树联系起来才能更好展示并解析相关结果，而对于这样的操作来说，目前的很多工具基本都难以使用，除了ggtree。因为该软件包继承了ggplot2
2018-04-18宏基因组实战qiime2-201802（四）用dada2 过滤和建树小郑的学习笔记
因为我是双端数据，所以这一步我主要是参考了这个实战：https://docs.qiime2.org/2018.2/tutorials/atacama-soils/我前一步已经拿到了我切过引物的数据，要先看一下这个质量分布切之后这里我先上代码qiimedada2denoise-paired\--p-n-threads0\--i-demultiplexed-seqstrimmed-seqs.qza\-
Gut Microbes+ Microbiome | 揭示太空环境对微生物的影响 ee00dc6faab7
从神话故事“嫦娥奔月”，到现在的载人航天、空间站的建立，我们从未停止对宇宙的探索。在不断拓展太空图谱的同时，太空中的辐射、微重力、高真空等极端环境，会对小鼠/宇航员体内微生物产生哪些影响，而暴露于太空的微生物，又可以为航天任务提供哪些信息呢？借助16S扩增子、宏基因组、转录组等生物学技术，我们一起来探究在太空环境下，微生物所发生的变化。航天飞行期间，小鼠肠道微生物和宿主代谢的变化[1]肠道微生物通
抗性基因数据库(1) Zoeyer
抗性基因数据库（1）宏基因组：检测细菌、病毒等序列耐药基因：检测检出非人序列中的已知耐药基因，找到对应耐药基因的抗生素耐药/抗性基因数据库ARDB（AntibioticResistanceGenesDatabase）数据库。整合了来自NCBI和SwissProt数据库的13,254个耐药基因信息，经过数据过滤和去重后，保留4,554个完整非冗余的耐药蛋白数据。这些蛋白数据和GO、CDD、COG、物
宏基因组CAG、MGS、MLG、MAG傻傻分不清？斗战胜佛oh
在之前的Binning文章中（文章链接：《如何打破瓶颈，提升宏基因组研究level》、《宏基因组高分文章里的小技巧》），主要针对Contig进行聚类，旨在得到潜在的单菌基因组信息。除了Contig，宏基因组中还有一类序列信息，即Gene。所以类似的，我们也可以基于基因丰度进行序列聚类，比如Canopy聚类算法、Chameleon算法，得到的集合（Cluster）称为CAG、MLG、MGS等，不同的
张启发院士的肺腑之言，值得每一位硕士/博士细细品读 M_321
转载来源：宏基因组公众号原文链接：https://mp.weixin.qq.com/s/WzXmLVf4VXjC4_2_a-lzvQ最近我拜读了各位送交的年度工作计划，仔细推敲后，仍感到有三个方面的问题十分严重：第一，对课题理解不够，有的根本谈不上理解，做了不止一年，尚未进入角色。第二，已经完成的工作量严重偏少，博士（有的是从本室硕士上来的）做了几年还未见到可以发表的东西。第三，在计划中倾向于以最
宏基因组组装软件mataSPAdes输出文件解读 WDPLA 生物信息学 Linux linux
#metaSPAdes作为宏基因组数据组装软件，数据结果表现优秀，以下对metaSPAdes软件输出的结果进行解读，若有不对之处请指正#共输出7个文件夹及16个单独的文件，下面进行逐一解读：7个文件夹：这些文件夹都是MetaSPAdes分析过程中生成的临时或输出文件的存储位置。它们包含了不同阶段的结果和中间文件，用于帮助生成最终的组装结果。K21，K33，K55文件夹的解释：metaSPAdes使
linux系统下，将.fastq文件统一改为.fq文件 WDPLA Linux 生物信息学 linux 运维服务器
#高通量测序获得宏基因组/宏转录组进行后续分析的过程中，常碰到.fastq与.fq文件后缀不一致的问题#在Linux系统中，你可以使用rename命令或者mv命令来将文件名中的特定后缀进行修改。以下是两种方法：方法一.使用rename命令：#renamerename's/\.fastq$/.fq/'*.fastq这个命令将把当前目录下所有以.fastq结尾的文件的后缀修改为.fq。方法二.使用mv
Linux系统下，提取.fasta文件中序列长度＞n的序列(举例：sqlen＞1000) WDPLA linux 服务器运维
#在宏基因组/宏转录组数据进行组装后，常需要去除短片段，筛选出较长的片段以供后续分析#在Linux系统中，您可以使用一些文本处理工具来提取长度大于n的序列。其中，常用的工具之一是awk命令，它可以用于处理文本文件并提取符合条件的行。以下是在Linux系统中使用awk命令来提取长度大于1000的序列的示例命令：awk'/^>/{if(seqlen>1000){if(seqname!=""){prin
宏转录组组装软件rnaSPAdes输出文件解读 WDPLA Linux 生物信息学组装 linux
#rnaSPAdes作为宏转录组数据组装软件，数据结果表现优秀。mataSPAdes更适用于宏基因组组装，宏转录组组转推荐rnaSPAdes。以下对rnaSPAdes软件输出的结果进行解读，若有不准确之处敬请指正#共输出5个文件夹及14个单独的文件，下面进行逐一解读：5个文件夹：K49和K73:这些目录可能包含组装结果的子目录，分别使用不同的k-mer大小（例如，K49和K73）。这表明在组装过程
在线作图|如何绘制一个好看的堆叠柱状图维凡生物
Question1：什么是堆叠柱状图？柱形图用来比较两个或多个的含量或者丰度（不同时间或者不同条件），只有一个变量，通常适用于于较小的数据集分析，堆叠柱形图是柱形图的变形，可以清晰地比较某一个维度数据中不同类型数据之间的差异，还可以十分清晰直观比较总数的差别，在统计和组学数据分析中运用广泛。比如，在微生物组成谱和宏基因组测序中，堆叠柱形图常常用来展示微生物物种的组成情况。Question2：如何不
MetaHipMer2 - MHM2超算系统宏基因组短读长序列组装神器的介绍和使用小果运维生信分析-bioinfo mhm2 MetaHipMer2
berkeleylab/mhm2/Downloads—Bitbucket文章：Terabase-scalemetagenomecoassemblywithMetaHipMer|ScientificReportsMetaHipMer(MHM)是一种从头开始的宏基因组短读组装器。这是版本2(MHM2)，完全用UPC++、CUDA和HIP编写，可以在单服务器和多节点超级计算机上高效运行，可以扩展以共同组
Microbiome揭示中国人群宿主遗传、肠道菌群与复杂疾病的关系尐尐呅
|本文转载自“宏基因组”公众号2020年10月，西湖大学、中山大学、中国科学院病原微生物与免疫学重点实验室等单位的研究团队在《Microbiome》发表题为“Theinterplaybetweenhostgeneticsandthegutmicrobiomerevealscommonanddistinctmicrobiomefeaturesforcomplexhumandiseases”的科研成果
会议 | 宏基因组和生物信息学进行病原检测的进展和未来胡童远
文献信息文章：Currentprogressandfutureopportunitiesinapplicationsofbioinformaticsforbiodefenseandpathogendetection:reportfromtheWinterMid-AtlanticMicrobiomeMeet-up,CollegePark,MD,January10,2018杂志：Microbiome时
高性能计算环境大规模DNA测序数据集柱状工具HipMer的介绍，安装和使用方法小果运维高性能大型组装序列 HipMer
HipMer介绍HipMer是一个基因组组装软件，它特别为高性能计算环境设计，旨在处理大规模的DNA测序数据集。HipMer（全称High-PerformanceMetagenomeAssembler）利用先进的算法和并行计算技术来高效地组装大基因组或复杂微生物群落（即宏基因组）的序列数据。HipMer的特点包括：高效率：通过优化的数据结构和算法，在大规模集群上实现高效的内存使用和并行处理，能够处
使用Diamond比对NR数据库获取物种注释 CAAS_IFR_zp 数据库
之前用Kraken2注释宏基因组的contig，发现只有30%左右可以被Kraken2注释Kraken2+Bracken：宏基因组物种注释-CSDN博客不信邪，再用NR库试试参考：将NR数据库diamond比对结果做物种注释_diamond物种注释-CSDN博客NR下载nohupwget-t0-c-bhttps://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz
噬菌体宏病毒组
丝状噬菌体，一种单链DNA病毒，在猪粪便噬菌体组比较多。噬菌体的宿主预测：利用细菌的spacers和自己宏基因组测序得到的序列，细菌的spacers建立blast索引，然后使用blastn参数：blastn-short-e1e-5进行比对。
Megahit, metaSPAdes, metabat2, GTDB-tk, checkM 苦中作乐613 其他
参考https://zhuanlan.zhihu.com/p/470457258、德布鲁因图和OLC组装基因组-简书(jianshu.com)、[算法学习1]基因组组装算法DeBruijnGraph-知乎(zhihu.com)、https://nmdc.cn/感谢国家微生物科学数据中心和互联网。Megahit（宏基因组组装工具）原理基于kmer迭代的DBG算法。kmer：kmer指将reads切碎
一文详解宏基因组组装工具Megahit安装及应用 JaneMarple️ 生物医疗健康数据分析生物信息学数据分析数据挖掘 linux
要点Megahit简介Megahit的基本组装原理Megahit的安装和使用Megahit实战hello，大家好，今天为大家带来关于宏基因组组装工具Megahit的超详细安装及应用教程。我们将持续为大家带来生物医疗大数据分析一文详解系列文章，欢迎大家关注，可以更及时看到文章哦。一、Megahit简介Megahit是一款超速的宏基因组从头组装工具，由港大—华大基因联合实验室（HKU-BGI）开发，和
宏基因组组装神器-MEGAHIT使用及常见问题 Neptuneyut Bioinformatics linux 运维服务器
文章目录简介安装和使用常见报错和解决方法输出结果对内存需求样本实际组装时间参考简介宏基因组测序获得海量短片段测序数据，这些数据混合着环境中各种各样的微生物基因组序列，如何恢复出这些微生物基因组序列，基因组组装成为至关重要的一步。在考虑如此复杂的数据之前，不妨先看看单个基因组组装的常规步骤：首先，通过shotgun测序产生reads，然后利用连续reads之间的重叠信息（overlap）进行组装产生
宏基因组：MEGAHIT组装拼接及quast评估狗蛋儿张宏基因组组装软件宏基因组组装评估 megahit soapdenovo
Megahit组装软件很多下面介绍三款组装软件：MEGAHIT下载地址https://github.com/voutcn/megahitgitclonehttps://github.com/voutcn/megahit.gitcdmegahitmake其他两款组装软件下载地址SOAPdenovo下载地址http://sourceforge.net/projects/soapdenovo2/file
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb