刘永鑫Adam

NAR：UNITE真菌鉴定ITS数据库——处理未分类和并行分类(数据库文章阅读模板)

上方文章标题要求：包括杂志名缩写(一个词的杂志名不缩写，两个及上用实词首字母)和吸引人且有重要信息的语句，中间用中文冒号(：)分隔

注：文中灰色部分（引用格式）为写作说明文字，帮助编辑规范Markdown语言创造笔记和完成必要的内容，在正式稿件中可删除

目录[TOC]，用于把握全文的层级结构，方便导航；一般分为三级标题；一级为文章标题，二级为摘要、背景、结果、方法和结论等，三级为主要结果、图表、方法中小节，内容较多的小节可设置四级标题。(此语法仅在有道云笔记/云协作/CSDN中支持较好，公众号发布时可删除)

文章目录

真菌分子鉴定联合数据库：处理暗分类和并行分类

划重点
摘要
背景
数据库

序列数据与质控
UNITE物种注释
表1. 按98.5%相似度聚类各分类的地理信息(2018.8)
数据库结构和元数据标准
数据集

核心数据
辅助数据
用户导出数据集

网站

物种假设系统
图1. *Tomentella Atorarenicolor*在Unite SH数字对象标识符（DOI）页面的屏幕截图
鉴定服务

展望
参考文献
本文译者简介
猜你喜欢
写在后面

文章网页或PDF首页截图，包括杂志、标题、作者、单位等信息；具体以美观且有冲击力为主。推荐使用FastCapture截图，图片命名为0.png

中英文标题，直译，中文为一级标题，英文加粗。注：以下全文所有段落之间保持一个空行作为段落分隔符。

真菌分子鉴定联合数据库：处理暗分类和并行分类

The UNITE database for molecular identification of fungi: handling dark taxa and parallel taxonomic classifications

译者和编辑姓名、单位，可使用笔名

翻译：刘永鑫中科院遗传发育所

责编：刘永鑫中科院遗传发育所

文章基本信息：杂志、影响因子、DOI、出版日期、(共同)第一作者、(共同)通讯作者、其它参与作者、一作和通讯单位或全部作者单位，注意上角标用^文字实现

Nucleic Acids Research, [11.561]

https://doi.org/10.1093/nar/gky1022

Published online 29 October 2018

第一作者：Rolf Henrik Nilsson¹

通讯作者：Rolf Henrik Nilsson¹ [email protected]

合作作者： Karl-Henrik Larsson2, Andy F.S. Taylor3,
Johan Bengtsson-Palme 4,5,6, Thomas S. Jeppesen7, Dmitry Schigel7, Peter Kennedy8,
Kathryn Picard9, Frank Oliver Gl ¨ockner10, Leho Tedersoo11, Irja Saar11, Urmas K˜ oljalg11 and
Kessy Abarenkov12

主要单位(至少包括一作和通讯)：

¹ 瑞典，哥德堡大学，生物与环境科学系，哥德堡全球生物多样性中心

划重点：译者总结文章要求，非摘要，根据背景提炼读者可能关注的信息，至少摘要、图表阅读后总结。提示：摘要中有重点信息，每个主图或表也有重要信息，软件可写用户体验。一般3-5句话，采用数字项目编号列表，200字左右。请先检索热心肠日报，有短科普可直接引用。

划重点

UNITE数据库是目前真菌ITS整理最全面的数据库，基于上百万的全长ITS高质量序列，包括45万多个假定物种；
假定物种包括DOI号，方便在论文中引用提供唯一性；
新整合部分ITS2和PacBIO高通量数据，并改进末分类物种注释；
数据库为主流分析流程QIIME、Mothur和USEARCH都制作了相应格式的文件，方便使用。

摘要，原文翻译，尽量优化语言流畅度和可读性；注2, 3, 4级标题出现，需要在下方添加英文标题原文并加粗，方便读者查找阅读原文

摘要

ABSTRACT

UNITE（https://unite.ut.ee）是一个基于网络的真菌分子鉴定数据库和序列管理环境。它的目标是形成正式的真菌条形码——核核糖体内部转录间隔区（ITS）区域，并提供所有～1,000,000公共真菌ITS参考序列。这些被归类为～459,000个假定物种，并分配数字对象标识符（DOIs），以促进跨研究的精确参考引用。在过去15年中，内部和基于网络的第三方序列管理和注释对数据进行了超过275,000次改进。UNITE是一系列扩增子(宏条形码)分析流程的数据提供者，定期与所有主要真菌序列数据库和其他社区资源交换数据。最近的改进包括重新设计对不可分类假定物种的处理方案，整合了全球生物多样性信息设施的分类主体，以及支持不限制数量的并行计算分类系统。

软件、数据库类文章，摘要后截图主页或程序界面

UNITE数据库主页 https://unite.ut.ee

背景知识，专业词汇首次出来现，用括号注明英文原词，方便读者学习专业词汇；重点语句请加粗，方便读者重点阅读。注意链接结尾需要插入空格，保证链接正确结束

背景

INTRODUCTION

真菌界估计有2.2-3.8百万种的异养真核生物，DNA序列通常用于DNA条形码来探索真菌群落。大约600 bp的ITS是本领域的主要遗传标记，目前国际核苷酸合作序列数据库（International Nucleotide Sequence Databases Collaboration, INSDC）提供超过1,000,000的Sanger测序全长真菌ITS作为参考数据库。但这些序列用于为其它序列分类注释前，需要进行严格筛选和处理注释，因此2003年启动了真菌分子鉴定联合据库UNITE，致力于提供真菌的可重复鉴定，并通过收集和传播从其序列数据中得知的所有真菌的分类、生态和地理元数据，促进真菌学进展。

真菌的宏条形码与大量的OTU一直存在斗争。UNITE定期将序列按几个序列相似性阈值进行聚类，以获得假定物种（species hypotheses, SHs）—— 近似物种水平OTU。这些SHs分配有DOI，即使没有完整的名称也可以保持引用的统一性。大家可以下载多序列比对文件、使用blast比对SHs、使用最近基于概率分类的方法PROTAX、或其它序列搜索工具。此外，SHs提供了QIIME、MOTHUR、USEARCH和MICCA等主流软件兼容的数据格式文件 (https://unite.ut.ee/repository.php )。

UNITE支持基于网页的序列数据第三方注释，以反映最近的命名和分类变化，并纠正公共DNA序列中分类注释和其他元数据项的通常次优状态。通过组织针对性注释，例如植物病原真菌或构建真菌组，鼓励参与序列注释工作。所做的任何更改都是通过DOI的共同作者进行，由DataCite（https://www.datacite.org/ ）监视的所有DOI（SHs）。UNITE面向社区的特性鼓励参与，但也包含了处理用户提供的注释审查过程。这一体系与一系列其他质量控制措施一起实施，以保持UNITE项目的高质量标准。

2003年，UNITE首次公开发行。从那时起，随着高通量测序（high-throughput sequencing, HTS）方法和认识到未被描述的“黑暗（dark，末被发现的）”类群渗透到真菌生命树中并可能主导地球的功能性生物多样性，真菌学发生了深远的变化。术语规则和分类原则的变化进一步推动了这一领域。在这篇文章中，我们详细介绍了我们为应对真菌和分子生态群落的技术和概念进步所带来的挑战而联合实施的最新应对方案。

数据库

DATABASES

序列数据与质控

标题保留英文原文，并加粗，方便读者快速定位原文段落阅读

Sequence data and quality control

公共真菌ITS序列来源于INDSC，并接受一系列质量控制措施，包括用ITSx和UCHIME处理，以尝试排除非ITS和嵌合体序列。不合格的条目将保留以备将来参考，但不用于鉴定的目的。发现包含ITS区域中完整ITS2子区域的序列以97-100%的相似性聚集在一起，以0.5%的步长生成SHs。从每个SH中最丰富的序列类型中随机选择一个代表性序列。目前正在努力将HTS研究产生的部分ITS序列纳入该系统，包括>10亿条真菌ITS序列的SRA数据库，再加上ITS1和ITS2序列的非重叠数据集难以关联阻碍了进展。我们目前正在努力将ITS2衍生的HTS研究添加到Unite中。与此同时，从PacBIO和Oxford Nanopore等技术中读取的长HTS正在逐渐变得可用。我们添加了第一组长PacBIO产生序列，包括完整的ITS区域和大约1000个碱基的LSU基因来联合和用于假定物种系统。

基于Web的第三方注释序列条目涵盖公共序列的大部分信息，包括分类名称、收集国家地区和收集条件。保留所有注释的历史记录，以便能够跟踪随时间的变化，例如在给定序列的名称中。允许表达分类注释的不同观点(competing views)。截至2018年秋季，UNITE用户共提供276,889条第三方注释（包括收集国家增加101,833条、收藏条件注释69,539条、分类重新注释23,410条）。

UNITE物种注释

UNITE taxonomy

文中图表出现时，标明对应图表编号并加粗，方便读者结果描述和图表对应阅读

默认情况下，UNITE使用NCBI分类法分类作为分类主干，并辅以修改的Index Fungorum http://www.indexfungorum.org）和MycoBank为索引。表1提供了分类和地理方面的SHs细节（2018年8月）。UNITE的目标是向用户提供所有公共真菌的序列，从分类的角度来看，这些数据通常是复杂的，分类错误很普遍，大量缺乏有意义的分类注释的序列（例如“未培养的真菌”）。具有冲突分类信息序列的SHs由专家或经验丰富的用户标记为手动校正。此类受信任的第三方用户可以通过其Web浏览器重命名序列。来自类型材料的序列（例如GenBank RefSeq Loci）用于通知相似序列的分类注释。例如，一个未命名的序列在全球范围内至少有97%的相似性，它与一个完全注释的类型的序列对齐，这样可以在科水平安全地注释，通常也可以在属级别上注释。保留原始名称以及重新注释的历史记录，以供所有序列参考。

图表标题为三级标题，注释要全部翻译，位于图表下面

表1. 按98.5%相似度聚类各分类的地理信息(2018.8)

大多数SHs包括的序列来自多个国家，一些SH有由多国家贡献。图中仅列出了贡献最大的前10个国家。

虽然最近发表了一篇综述文章，但目前还没有公认的最新真菌分类系统。真菌分类处于不断变化的状态，不同的、部分不兼容的分类系统被用于不同的真菌资源，如Index Fungorum （http://www.index fungorum.org ）、MycoBank （http://www.mycobank.org ）和INDSC。为了满足存在竞争和分歧的分类系统导航的需要，UNITE 的新版本允许表示任意数量的可选分类系统。为此，我们引入了分类假设（Taxon Hypothesis, TH）的概念，允许基于序列的SHs在许多分类上同时通讯。与SHs一样，所有的THs都将收到基于DOI的唯一稳定标识符，并且单个SHs可以属于不同分类中的不同更高分类。不同研究的结果具有可比性，并且在使用DOIs进行通信时可重复使用。分类假设页面于2018年底上线。

数据库结构和元数据标准

Database structure and adherence to metadata standards

UNITE是在Plutof平台（https://plutof.ut.ee/ ）上管理的数据集集合，使用PostgreSQL（https://www.postgresql.org/）和Postgis数据库引擎以及ember.js和drf框架。Plutof包含近200个表，并进行了建模，以允许准确、符合标准的DNA序列和序列元数据表示，如分类法、命名法、生态学和地理。对于序列数据和元数据，实现了MIXS标准。对于分类、生态和其他数据类型，使用了一系列标准（例如Darwincore、生态元数据语言和微生物学公共语言）。Plutof平台是数据站点联盟的一部分，该联盟允许UNITE发布SHs和DOI。Plutof平台与全球生物多样性信息设施（gbiodity information facility，GBIF；https://www.gbif.org/ ）合作，UNITE的基于序列的SHs自2018年6月起成为GBIF分类骨干的一部分。这使得可以将宏条形码研究的结果直接上传到GBIF数据库（https://www.gbif.org/news/2lrgv5t3zugeu2wiymseuk ）中，并将其作为生物学观察结果进行评分，即使基础分类群没有正式的科学名称。

数据集

Datasets

核心数据

UNITE core release

UNITE的序列数据以多种交互和静态方式提供给用户。我们的非冗余核心版本（https://unite.ut.ee/repository.php ）包含来自每个非单体SH的代表性序列，目前包括458,797 SHs，以97–100%的相似性进行了不同的划分，以尽可能地反映物种水平，鉴于其在真菌生命之树内的变异性差异。此版本以fasta格式提供，例如本地BLAST搜索，以及为一系列扩增子分析流程（包括QIIME、MOTHUR和USEARCH）量身定制的格式。所有~1,000,000个序列的通用fasta版本也可用。经验丰富的用户将发现这些文件的其他可用变体，是否包括单体(singleton，只出现一次的序列)SHs、执行序列修剪的方式以及提供序列的分类隶属关系方面有所不同。所有的版本数据都包括分类的重新注释，这样它们与同一真菌ITS序列的INSDC版本有很大的不同。

辅助数据

UNITE auxiliary releases

UNITE提供了许多为满足科学界的特定需求而量身定制的发布数据集（https://unite.ut.ee/repository.php ）。例如，“最需要的50种真菌”的数据包含了最大的SHs但目前没有任何有意义的分类注释，例如，仅门水平可以注释的序列。其目的是鼓励科学界澄清潜在分类群的分类学归属，并加快它们的正式特征和描述。由于用户的请求，我们还以JSON格式提供数据。我们很高兴考虑对其他格式和数据发布的请求。UNITE是GenBank的一个链接提供者，它将它们的全长真菌ITS序列链接到UNITE中相应的SH页面。自2018年以来，UNITE还是全球生物多样性信息设施（https://www.gbif.org/）的数据和链接提供商，这使得根据UNITE SH系统注释的真菌的序列可以被GBIF索引和查询。SHs成为第一个允许将分子检测和分子鉴定的生物多样性数据纳入GBIF全球数据池的系统，目前由自然历史收集和公民科学项目的形态学证据主导。除了科学使用外，全球政策制定和保护工作中还使用了由全球生物多样性基金（GBIF）介导的数据进行生物多样性评估。

用户导出数据集

Dataset exports by users

UNITE实现了一系列科学标准，这意味着用户可以定制几乎所有受这些标准控制的可想到的查询。例如，由于MIxS-BE和其他标准的原因，可以从建筑环境、在特定海拔或瑞典森林中收集的序列中下载所有序列。从蕨类植物、桉树属或水生环境中分离出的靶向序列同样简单，靶向病原真菌或人类相关真菌也是如此。可以使用多种格式进行下载，包括fasta、逗号分隔符格式，以及用户指定的导出类型。

网站

UNITE WEBSITE

UNITE网站（https://unite.ut.ee ）提供对所有SHs、所有发布文件和所有元数据的直接访问。这些数据在CC BY-SA 4.0软件许可证下可用。下载数据或执行基本元数据和序列搜索不需要注册或登录。但是，要访问UNITE的高级功能，必须注册。注册是一个分层的过程，其中基本注册打开所有数据访问和下载功能。修改或存储数据需要额外的许可，并且一个复杂的系统已经就位，允许控制特定用户可能做什么，也可能不做什么。审查类型过程用于审查用户提供的数据和注释。注册用户可以申请成为特定分类群（如角叉菜科Cantharellaceae）的管理者，这使他们能够重新注释序列并为这些分类群提供新的元数据。要成为特定群体的版主，需要有文件证明你的分类专业知识。

物种假设系统

Species hypothesis system

所有SHs都有一个唯一的URL，其中显示基本的多序列比对和相关的元数据。每个SH都有一个独特的DOI，这使得它们可以在数据集和研究中进行交流，即使SH完全缺乏有意义的分类注释（例如“未培养的真菌”）。UNITE使用DOI版本控制系统，这样就可以随着时间的推移跟踪SH序列的包容性。因此，在某个特定的时间点，总是可以准确地确定哪些序列是某个特定SH的一部分。我们鼓励用户探索他们对我们系统感兴趣的真菌，这些真菌将序列和元数据集合在一起，并以INSDC无法实现的方式进行可视化（图1）。

图按顺序保存为1/2/N.png，图标题在图上为三级标题。图注在图下，每个子图注一段。对于多子图，可独立截图，尽量子图配图注，方便手机阅读和配合图注阅读。

图1. Tomentella Atorarenicolor在Unite SH数字对象标识符（DOI）页面的屏幕截图

https://plutof.ut.ee//datacite/10.15156%2Fbio%2Fsh009889.07fu

（A）从可用序列标识中自动选择（或手动选择，如果默认值被专家用户填写）。

（B）DOI的简短ID。

（C）选择参考序列的信息，以表示该SH。

（D）SH的真菌分类和单个序列的鉴定记录。Taxon名称后面的数字表示带有该名称的序列数。

（E）选择有关SH的统计数据。最小距离3.0%是姐妹SHs之间的强制遗传差异。

（F）单个序列的分布图。

（G）生态学信息（交互类群），如果与单个序列相关。

（H）DOI上数据站点的元数据。

（I）提取DNA的样本或样本的图像。只有有限数量的序列附有图像。

（J）SH的图形概述及详细信息。

（K）序列相似性阈值间的SH包容性。阈值（=最小距离）为1.5%，将这些序列分为两个SHs，以不同颜色显示。

（L）2.5%的阈值将所有序列合并为一个单独的SH。每个这样的SH都超链接到自己的唯一网页。

（M）SH的可滚动查看多序列比对。“RefSeq”表示手动选择该序列作为SHs的代表序列。

参考文献来源于类型样本或其他真实和特别值得信赖的材料。这个特殊的SH包含INSDC序列（棕色）和仅在UNITE（黄色）中发现的序列。在这个阶段，只有大约29,000个序列在UNITE中被发现，将在基础研究发表后提交给INSDC。这些序列包含在各种UNITE序列发布和下载文件中。

鉴定服务

Identification services

尽管UNITE主要是一个数据提供者，而不是一个宏条型码或序列分析软件流程，但我们确实为建立新产生的真菌ITS序列的分类隶属关系提供了基本手段。提供了一个多线程的BLAST服务，它是一个将序列集分配给SHs的功能。这些搜索享受UNITE社区提供的23000多个分类重新注释，这样UNITE中的查询将提供INSDC中不存在的信息。所有的重新注释都显示在原始数据中，尽管UNITE与其他序列数据库（包括INSDC）共享重新注释，但其中许多数据库在获得原始序列作者的书面同意之前，在不允许更改名称或序列的其他概念方面的政策下运行。

展望

OUTLOOK

单分子高通量测序技术的迅速发展，使产生跨越完整核糖体操纵子的高质量序列成为可能，包括SSU、ITS和LSU标记的全部。我们已经开始与SILVA数据库合作并交换结果，该数据库针对的是原核生物和真核生物SSU和LSU基因，而不是被夹在它们之间的真核生物ITS区域。相对保守的SSU和LSU基因提供了在门、类和目水平（通常更进一步）对新生成的序列数据进行强大的系统发育分配的优势，但代价是在物种、有时是属和科水平上的分辨率。改良的Unite-Silva合作将提供强大的系统发育位置和物种层面上的明确的可交流性，这是一种广受欢迎的组合。

UNITE将继续动态地向GBIF主干分类法提供SH分类法的版本，来自样本和宏条形码样本的分子出现数据也将通过 https://www.gbif.org 被发现。我们希望并期望将生物多样性的绘图扩展到分子领域，将推动更丰富和公正的生物多样性证据，从而对全球建模和决策产生积极影响。

UNITE致力于为真菌及其在真菌生命之树上的序列提供已解决的分类信息，并采用多种机制来确保这一点。然而，分类位置只能推断生物体生物学的一部分。最近，我们开始与FUNGuild数据库合作，提供关于UNITE中真菌种类和类群的功能性类别(guild )分配的信息。我们很快就可以展示这些真菌（例如菌根、动物寄生或腐生真菌）的分类名称，以及它们的功能组合。因此，使用者不仅可以获得一个分类学上的指纹，还可以获得手边真菌群落的功能/生态指纹。目前，Funguild在科、属和种名级别上与功能性分类联系在一起，这是一个潜在的问题，因为这些分类等级可以分别包括属、种或株，具有不同的生态生活方式。为了解决这个问题，UNITE将包括Funguild为每个任务提供的指定置信级别，以帮助用户进行解释。我们还预计能够将任务与单个DNA序列（真菌个体）联系起来，这样一个更紧密的联合真菌构建协作（所有数据都在两个方向上输入）将能够向UNITE和Funguild的用户提供有关真菌群落功能方面的高度详细信息。

UNITE数据库是一个开源的开放访问计划，由真菌学(Mycological)社区驱动。UNITE有一段适应真菌学界必须和需求的历史，我们的意思是保持这种方式。任何转发给UNITE工作人员的功能请求都将被考虑实施，所有这些实施都将免费提供给整个科学界。

参考文献

引文来自文章官网，包括所有作者的全名，杂志全名使用粗斜体，卷期年月和DOI链接(注：PubMed和Web of Science导出的引文名字和杂志都是缩写，用文章自己官网导出引文复制文本或导入Endnote，杂志Plant Cell格式即为全名)

Rolf Henrik Nilsson, Karl-Henrik Larsson, Andy F S Taylor, Johan Bengtsson-Palme, Thomas S Jeppesen, Dmitry Schigel, Peter Kennedy, Kathryn Picard, Frank Oliver Glöckner, Leho Tedersoo, Irja Saar, Urmas Kõljalg, Kessy Abarenkov, The UNITE database for molecular identification of fungi: handling dark taxa and parallel taxonomic classifications, Nucleic Acids Research, Volume 47, Issue D1, 08 January 2019, Pages D259–D264, https://doi.org/10.1093/nar/gky1022

本文译者简介

刘永鑫，博士。2008年毕业于东北农大微生物学专业。2014年中科院遗传发育所获生物信息学博士学位，2016年博士后出站留所工作，任宏基因组学实验室工程师，目前主要研究方向为宏基因组数据分析和植物微生物组。QIIME 2项目参与人，目前在***Nature Biotechnology、Plant Cell、Genomics Proteomics Bioinformatics、Science China Life Sciences***等杂志发表论文十余篇。2017年7月创办“宏基因组”公众号，目前分享宏基因组、扩增子原创文章600余篇，代表博文有《扩增子图表解读、分析流程和统计绘图三部曲(21篇)》、《QIIME2中文教程(18篇)》、《Nature综述：手把手教你分析菌群数据(1.8万字)》等，关注人数3.8万+，累计阅读500万+。

结尾的文章目录导航和二维码，每篇文章一致即可

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外5000+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍末解决群内讨论，问题不私聊，帮助同行。

学习扩增子、宏基因组科研思路和分析实战，关注“宏基因组”

点击阅读原文，跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

你可能感兴趣的:(扩增子)

扩增子质控流程多，专属名词来揭晓 ee00dc6faab7
在高通量测序王国中，Rawreads（或rawdata）已不陌生，但在扩增子测序的质控数据中还有Rawtags、Cleantags、Effectivetags等一串的专属名词，这些名词代表什么，分析要关注哪些数据，测序数据量要选择多少可以满足需求呢，带着这些疑问，我们将为您一一揭晓：首先简单说下扩增子的实验过程，与其他产品区别就是增加了扩增环节，扩增是依据测序仪器的读长和目标序列，设计特异引物对基
pacbio三代扩增子测序序列比对小鹿不吃香菜
新手小白求问一个fasta文件里面包含很多序列有什么办法能够把TTA开头的提取出来，ATGG开头的提取出来，如图一。关于序列比对的问题求助序列比对完之后可视化方法，比如300多条序列有同样的突变或者缺失规律，该怎样用一条序列或其他可视化方法表示出来。图一
热启动技术如何为您的PCR带来益处？南博屹生物医学
非特异性扩增是可能严重影响PCR性能的主要问题之一，导致以下一种或多种结果：目标扩增子产量低。目标扩增子的灵敏度下降。下游应用效果不佳。非特异性扩增的常见来源是由DNA聚合酶引起的错误引导靶标的延伸和引物二聚体的形成。研究人员用来避免非特异性扩增的一种解决方法是在冰上制备PCR反应混合物。降低温度有助于保持DNA聚合酶的活性低，但是在PCR开始之前仍然可能发生不需要的产物的合成。另一种解决方案是使
Gut Microbes+ Microbiome | 揭示太空环境对微生物的影响 ee00dc6faab7
从神话故事“嫦娥奔月”，到现在的载人航天、空间站的建立，我们从未停止对宇宙的探索。在不断拓展太空图谱的同时，太空中的辐射、微重力、高真空等极端环境，会对小鼠/宇航员体内微生物产生哪些影响，而暴露于太空的微生物，又可以为航天任务提供哪些信息呢？借助16S扩增子、宏基因组、转录组等生物学技术，我们一起来探究在太空环境下，微生物所发生的变化。航天飞行期间，小鼠肠道微生物和宿主代谢的变化[1]肠道微生物通
谈谈数次生信线下活动的收获和体会生信宝典
http://blog.genesino.com/2018/03/ampliconseqsumamry/从2017年11月份到2018年3月份，共进行了5次培训研讨活动，内容依次为转录组高级分析、生物信息作图系列R、Cytoscape及图形排版、应用Python处理生物信息数据和作图、微生物组扩增子分析、应用Linux处理生物信息数据和分析流程。从培训网站的课程顺序可以看到，最开始设计是从Linu
扩增子测序中OTU表进行抽平的两种方式凯凯何_Boy
Arandomrarefactionofsamplereadsaccordingtoaspecificreadslength(usuallythesmallestvalue)shouldbeperformedfirstlyfordownstreamanalysis.扩增子测序拿到OTU表之后通常会被要求进行抽平处理，这样去进行后续比较分析，测序量一致后续分析比较才有意义，但是这种方式的缺陷在于当样
跟着NC学cfDNA全基因组片段化丰度谱分析 zd200572 机器学习人工智能深度学习
继续我们的跟着NC学系列，前面分享的是关于16S扩增子测序和宏基因组数据分析的。考虑到我们有许多小伙伴是做人类基因组方面的，这次分享一篇癌症早筛方面的，血液DELFI全基因组片段化丰度谱检测的分析框架。题目是：Detectionandcharacterizationoflungcancerusingcell-freeDNAfragmentomes。文章虽然不是特别新，发表于2021年，可代码和数据
EasyAmplicon (易扩增子)-扩增子高通量序列分析软件流程及脚本-详细使用方法——来自刘永鑫团队的秘籍小果运维生信分析-bioinfo 扩增子高通量分析流程 EasyAmplicon
其他不重要，重要的是方向，资源，还要好用，建议大家先看看论文介绍：https://doi.org/10.1002/imt2.83EasyAmplicon:Aneasy‐to‐use,open‐source,reproducible,andcommunity‐basedpipelineforamplicondataanalysisinmicrobiomeresearch-Liu-2023-iMeta
EasyMicrobiome-易扩增子、易宏基因组等分析流程依赖常用软件、脚本文件和数据库注释文件小果运维生信分析-bioinfo 数据库生物信息学扩增子宏基因组学微生物 R脚本
啥也不说了，这个好用，给大家推荐：YongxinLiu/EasyMicrobiome(github.com)大家先看看引用文献吧，很有用：https://doi.org/10.1002/imt2.83还有这个，后面马上介绍：YongxinLiu/EasyAmplicon:EasyAmplicondataanalysispipeline(github.com)这个EasyMicrobiome的代码库
植物发育过程中，如何驱动共生微生物组的动态变化？ felix108
期刊《Microbiome》影响因子14.65近期，派森诺与中国科学院生态环境研究中心、中国科学院大学合作，又双叒在《Microbiome》发表论文，通过扩增子测序和宏基因组测序等方法，研究了植物发育过程中微生物群落与气候、土壤因子和施肥调控措施等多种因素交互影响下的土壤和植物微生物群落组合机制，为不同环境条件下植物微生物组结构及功能的时期演替特征提供了系统描述。可喜可贺！研究背景植物、微生物以及
QIIME2进阶六_QIIME2训练分类器及物种注释环微分析环境微生物生物信息分析分享板生物信息学
本文我们主要介绍了如何训练NaiveBayes分类器并把这个分类器应用于扩增子基因序列的物种注释与可视化。本教程将使用来自人源化(humanized)小鼠的一组粪便样品，展示16SrRNA基因扩增子数据的“典型”QIIME2分析。本教程旨在探讨人源化小鼠的遗传背景影响微生物群落的假设。然而，我们还需要考虑其他可能驱动微生物结构而不是小鼠基因型的混杂因素。在本节中，我们将探索样本的物种组成情况。这个
QIIME2进阶二_元数据及数据导入QIIME2 环微分析环境微生物生物信息分析分享板生物信息学
本节主要讲解如何将元数据与数据导入生物信息分析软件QIIME2，实现数据导入与检查。本实战教程将使用来自人源化(humanized)小鼠的一组粪便样品，展示16SrRNA基因扩增子数据的“典型”QIIME2分析。本教程旨在探讨人源化小鼠的遗传背景影响微生物群落的假设。今天，我们先从示例元数据及数据的导入开始介绍。01元数据(Metadata)在开始任何分析之前，熟悉元数据很重要。在本研究中，元数据
QIIME2进阶三_用QIIME2实现对数据的质量控制环微分析环境微生物生物信息分析分享板生物信息学
本文主要介绍了使用生物信息软件QIIME2中的DADA2与Deblur插件对扩增子基因序列进行质量控制。本教程将使用来自人源化(humanized)小鼠的一组粪便样品，展示16SrRNA基因扩增子数据的“典型”QIIME2分析。本教程旨在探讨人源化小鼠的遗传背景影响微生物群落的假设。然而，我们还需要考虑其他可能驱动微生物结构而不是小鼠基因型的混杂因素。序列质量控制和特征表Sequencequali
QIIME2进阶五_QIIME2扩增子基因序列多样性分析环微分析环境微生物生物信息分析分享板生物信息学
本节主要介绍了如何使用生物信息分析分析软件QIIME2对扩增子基因序列进行Alpha和Beta多样性分析，以及Alpha稀疏和深度选择。本教程将使用来自人源化(humanized)小鼠的一组粪便样品，展示16SrRNA基因扩增子数据的“典型”QIIME2分析。本教程旨在探讨人源化小鼠的遗传背景影响微生物群落的假设。01Alpha和Beta多样性分析Alphaandbetadiversityanal
多组学整合，快速定位关键代谢通路，解析分子机制 SHANGHAILINGEN 测序组学
生物学是一种复杂的学科，往往单一组学无法探究想要了解的生物学问题，这时就要运用到多组学联合分析。近年来，多组学研究的不断发展和持续火热，越来越多的研究者开始将微生物组学和代谢组学联合起来。16s全长扩增子测序可提供细菌构成、基因丰度，可以解决who-有谁以及many-有多少的问题。而代谢组学是研究生物体中代谢产物变化的科学，可以解决whathappened-发生了啥的问题。通过多组学整合，快速定位
病原微生物扩增子数据分析实战（一）：bcl2fastq软件完成数据拆分简说基因
懂得了那么多道理，却依然过不好这一生。所以理论归理论，最终要落实到分析代码上，咱们从这一篇开始，介绍一套扩增子数据分析流程。闲话少叙，首先介绍一下项目背景：测序平台:IlluminaMiSeq，双端（Paired-end）测序服务器：CentOS7操作系统，128G内存，CPU48线程编程语言：Bashscript、PythonNGS测序项目大致分为二个部分：湿实验部分，即取样、提取、建库以及上机
了尘兰若的小坑上线啦了尘兰若
个人博客维护了有几年了，终于买了自己的域名，www.liaochenlanruo.fun。Fun代表有趣，就是玩！边玩边学，对，博客主要是生信文，微生物基因组，比较基因组，功能基因组，扩增子，宏基因组等都有所涉猎。边想，边编程，边分析，边记录是我的范儿。欢迎访问了尘兰若的小坑，一起过ResearchGo的幸福科研生活！
2021-09-24 qiime2 DADA2 去噪、序列质控和生成特征表白告2333
文字转载DADA2是用于检测和校正（如果有可能的话）Illumina扩增序列数据的工作流程。正如在q2-dada2插件中实现的，这个质量控制过程将过滤掉在测序数据中鉴定的任何phiX序列（通常存在于标记基因Illumina测序数据中，用于提高扩增子测序质量），并同时过滤嵌合序列。dada2denoise-single方法需要两个用于质量过滤的参数：--p-trim-leftm，它去除每个序列的前m
产品升级！全球尺度下原核基因组关键基因共进化无标题 SHANGHAILINGEN 测序组学
微生物是群落型的生存方式，高通量测序时代到来后，掀起了针对微生物群落整体研究的高潮，比如基于功能基因/16S/ITS/扩增子、宏基因组等进行群落多样性分析。但是，我们基于分离培养等方法获得单菌落，针对单菌开展基因组、转录组的研究同样很有价值，有时甚至是必不可少的。在微生物群落研究异常火爆的今天，仍然有里程碑式的成果离不开单菌基因组的研究。例如可以同时催化两步反应硝化过程的细菌的发现。另一方面，针对
宏基因组研究工具 | 小鼠肠道宏基因组目录(iMGMC) 尐尐呅
近日，来自德国的研究人员在《CellReports》杂志发布了一个宏基因组研究的综合资源：小鼠肠道宏基因组目录(iMGMC)，为宏基因组研究提供高度集成的数据资源，并促进分类学、功能学以及小鼠肠道和其他生态系统群落结构的深入探索。研究概要为什么要构建iMGMC？微生物组研究需要综合资源宏基因组和16SrRNA扩增子序列分析通常使用单独的基因组目录、16SrRNA数据库和宏基因组组装基因组（MAGs
NCBI数据上传（二）：转录组测序（RNA-Seq）数据 bioyigene 转录组测序数据上传 NCBI 大数据
继“16S扩增子原始数据上传”教程发布之后，为满足大家对转录组数据上传的需求，小编马不停蹄地把转录组原始数据上传流程进行了整理，有需求地赶紧收藏吧!1.注册及登录账号1）注册账号：进入NCBI（https://www.ncbi.nlm.nih.gov/）网页，选择对应的账号进行注册，按照提示填写。2）登录账号：输入账号及密码（注册时使用哪种账号注册，登录时选择对应的登录通道登录），点击Login，
将NR数据库diamond比对结果做物种注释江有枫xx python 开发语言
需求：环境菌功能基因扩增子测序的OTU序列已经用diamond进行了NR全库的比对（blastx），还需得知其物种信息。P.S.本人是没接触过扩增子比对相关内容，不保证该过程的合理性。【流程主要参考这个，对于小白如我，该文很详细。本文也只是根据我的需求重新整理了这篇文章】一文完成nt库序列快速下载及blast结果注释物种(qq.com)【装所需文件主要参考这个】(20条消息)NR数据库的物种注释_
微生物多样性（扩增子/16S rDNA测序）—关联与进化分析方法描述 JarySun
一、关联分析&进化关系内容及意义a)RDA/CCA分析基于对应分析发展而来的一种排序方法，又称多元直接梯度分析。RDA是基于线性模型，CCA是基于单峰模型。意义：可以检测环境因子、样本、菌群三者之间的关系或者两两之间的关系。b)OTU共表达网络分析生态学中一般认为功能上关系密切的群落往往表现出丰度的“同升同降”，根据微生物群落丰度信息计算样本中物种之间的相关性，并据此划分不同的共变化组（CAG）。
生物信息分析常用文件格式和软件超人立志做国王
生物信息分析常用文件格式和软件文件格式数据格式fastqfasta注释gtfgffbedbcf比对格式sambam工具类数据质控类cutadaptfastptrimmomaticfastx-toolkit序列处理类seqkitseqtk工具类samtoolsbedtoolsbedopsbcftoolspysamgffutils比对软件bwabowtiebowtie2tophathisat2扩增子测
微生物组-扩增子16S分析和可视化(2023.2) 生信宝典大数据编程语言 python 机器学习人工智能
课程改为长直播模式，报名后就可以学习，时间更充裕，练习更充分具体见：易生信培训改为长周期模式福利公告：为了响应学员的学习需求，经过易生信培训团队的讨论筹备，现决定安排扩增子16S分析、宏基因组、转录组的线上/线下同时开课。报名参加线上直播课的老师可在1年内选择参加同课程的一次线下课。期待和大家的线上线下会晤。目前可以通报的信息：临床基因组学线上/线下开课时间：2022/11/4-2022/11/6
OMG！扩增子大小对qPCR产量影响辣么大～深蓝云
一般情况下，实时荧光定量PCR引物设计原则中会提到扩增子大小对实时荧光定量PCR的扩增效率有一定作用。所以通常建议使用相对较短的扩增子长度，范围为50到150个碱基对（bp）。由于小片段不太容易在传统PCR中所用的琼脂糖凝胶上显现，因此这种小片段扩增在传统PCR中检测更为困难。qPCR的出现使得扩增小于100bp的基因片段成为可能。本文将为大家介绍扩增子大小对qPCR产量的影响，表明使用小片段检测
初试扩增子测序数据的meta分析 Oodelay
测序数据越来越多，发表文章大多被要求上传原始数据，这为进行meta分析提供了丰富的可用资源。近年来，越来越多学者开始尝试meta分析回答单一研究小样本无法回答的大问题。颇有‘一切皆可meta’的趋势。但meta分析需要进行严谨科学的假设，规范的数据收集以及严格的数据整合，而非简单的将收集来的数据进行原样分析，然后简单加总。其中奥秘，需深刻把握。这张图是我的尝试。对收集的每一个数据集，各自进行拼接，
表观技术 | 靶基因DNA甲基化和羟甲基化测序定制精准检测易基因科技
DNA甲基化是最早被发现、也是研究最深入的表观遗传调控机制之一。目前研究中常用的DNA甲基化测序方法包括全基因组（WGBS、oxWGBS等）、简化基因组（dRRBS、RRBS、XRRBS等）、靶向基因组（液相捕获）、靶向基因（扩增子）和850K芯片等，适用于多种不同应用场景。那么基于靶基因的DNA甲基化和羟甲基化测序是怎样的呢？一起来看看吧！EGENE靶基因DNA甲基化和羟甲基化测序亚硫酸盐靶基因
多组学的狂欢！——三代扩增子+代谢组学联合分析！ SHANGHAILINGEN 测序组学
研究微生物组学的老师们~看过来！你还在苦恼微生物研究种属水平注释不全面吗？代谢组学研究不知道结果是啥东西吗？微生物+代谢组学研究到底可以干啥吗？NO~NO~NO~NO~NO~NO~NO~NO~NO~是时候展现真正的技术了！凌恩生物推出三代PacBio全长扩增子+LC-MS代谢组学联合分析项目！劲爆促销活动现在只要650！关键技术团队多年深耕多组学研究，优秀售前方案优质售后服务只为您发表高分PAPE
凌恩生物文献分享|微刊：三代全长16s扩增子——环境多样性研究的明星 SHANGHAILINGEN 测序组学测序组学
在微生物研究领域，PacBio三代全长的时代已经来临，如果你还没用过那就太可惜了！要问三代有什么好，那我可得说道说道。相比于传统二代Illumina平台测序，PacBioSequellle平台获得的序列更长，信息量更多更准确！高精准鉴定，使“种”水平实现了大幅提升；PCR扩增无GC偏好性再加上V1-V9全区域测序，使数据更准确更真实的还原微生物群落结构。口说无凭，让我们来看一些三代全长扩增子的优秀
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include