刘永鑫Adam

宏基因组分析实战教程2. 数据质控fastqc, Trimmomatic, MultiQC

本文英文原版见下方github链接，由中科院朱微金博士翻译、测试、并进行中文注释和补充，全网首发“宏基因组”公众号。

https://2017-cicese-metagenomics.readthedocs.io/en/latest/toc.html

前情提要

如果您在学习本教程中存在困难，可能因为缺少背景知识，建议先阅读本系统前期文章

宏基因组分析理论教程
微生物组入门圣经+宏基因组分析实操课程
1. 背景知识-Shell入门与本地blast实战

测试数据

刘博士帮助把测试数据建立了一个百度云同步共享文件夹，有非常多的好处，请读完下文再决定是否下载：
1. 下载被墙的数据；很多数据存在google, amazon的部分服务器国内无法直接下载，而服务器一般科学上网不方便，下载数据困难。大家下载失败的数据请到共享目录中查找；
2. 预下载好的软件、数据库；有很多需要下载安装、注册的软件(在线安装包除外)，其实已经在共享目录了，节约小伙伴申请、下载的时间；
3. 数据同步更新；任何笔记或教程不可避免的有些错误、或不完善的地方，后期通过大家的测试反馈问题，我可以对教程进行改进。共享目录不建议全部下载或转存，因为文件体积非常大，而且还会更新。你转存的只是当前版本的一个备份，就不会再更新了。建议直接在链接中每次逐个下载需要的文件，也对文件有一个认识过程。
4. 方便结果预览和跳过问题步骤；服务器Linux在不同平台和版本下，软件安装和兼容性问题还是很多的，而且用户的权限和经验也会导致某些步骤相关软件无法成功安装(有问题建议选google、再找管理员帮助；想在群里提问或联系作者务必阅读《如何优雅的提问》)。在百度云共享目录中，有每一步的运行结果，读者可以下载查看分析结果，并可基于此结果进一步分析。不要纠结于某一步无法通过，重点是了解整个流程的分析思路。

最后送上本教程使用到的所有文件同步共享文件夹链接：http://pan.baidu.com/s/1hsIjosk 密码：y0tb 。

数据质控

https://2017-cicese-metagenomics.readthedocs.io/en/latest/quality.html # 有时连接不稳定打不开，等会就会好。或访问它更早版本的链接如下：

https://2017-dibsi-metagenomics.readthedocs.io/en/latest/quality.html

安装软件

安装依赖关系

sudo apt-get -y update && \
sudo apt-get -y install trimmomatic python-pip \
   samtools zlib1g-dev ncurses-dev python-dev unzip \
   python3.5-dev python3.5-venv make \
   libc6-dev g++ zlib1g-de

安装 fastqc

wget -c http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip
unzip fastqc_v0.11.5.zip
cd FastQC
chmod +x fastqc
cd

创建Python3.5虚拟环境

cd
python3.5 -m venv ~/py3
. ~/py3/bin/activate
pip install -U pip
pip install -U Cython
pip install -U jupyter jupyter_client ipython pandas matplotlib scipy scikit-learn khmer
pip install -U https://github.com/dib-lab/sourmash/archive/master.zip

运行Jupyter Notebook

# 配置
jupyter notebook --generate-config -y
cat >>~/.jupyter/jupyter_notebook_config.py <'*'
c.NotebookApp.open_browser = False
c.NotebookApp.password = u'sha1:5d813e5d59a7:b4e430cf6dbd1aad04838c6e9cf684f4d76e245c'
c.NotebookApp.port = 8888

EOF

# 
jupyter notebook &

1. 测序数据准备

我们分析采用 Hu et al., 2016. 文章中数据的子集，下载数据

# 创建数据文件夹
mkdir data
cd data
# 下载测试数据
curl -O -L https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1976948_1.fastq.gz
curl -O -L https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1976948_2.fastq.gz
curl -O -L https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1977249_1.fastq.gz
curl -O -L https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1977249_2.fastq.gz
# 如果无法科学上网而下载失败，尝试在文提供的百度云中的data目录中下载

# 检查文件
md5sum *.gz
# 改原始文件为只读，防止被修改
chmod u-w *

2. fastqc质量评估

# 质控所有gz压缩的原始数据，t启动多线程，一般与文件数量一致
fastqc *.gz -t 4
# 显示所有网页版质量评估报告文件，可下载本地或用firefox查看
ll *.html

3. Trimmomatic去接头和低质量序列

下载Illumina双端接头序列

curl -O -L http://dib-training.ucdavis.edu.s3.amazonaws.com/mRNAseq-semi-2015-03-04/TruSeq2-PE.fa

运行Trimmomatics

# 调用for循环批处理文件
for filename in *_1.fastq.gz
do

# 提取双端公共文件名，并输出检验
base=$(basename $filename _1.fastq.gz)
echo $base

# 运行去接头程序
TrimmomaticPE -threads 9 \
     ${base}_1.fastq.gz \
     ${base}_2.fastq.gz \
     ${base}_1.qc.fq.gz ${base}_s1_se \
     ${base}_2.qc.fq.gz ${base}_s2_se \
     ILLUMINACLIP:TruSeq2-PE.fa:2:40:15 \
     LEADING:2 TRAILING:2 \
     SLIDINGWINDOW:4:2 \
     MINLEN:25 
done

宏基因组拼接前必须去干净接头，防止引入人造序列对结果影响

4. 质控后再评估

fastqc *.qc.fq.gz -t 4
# 查看再次质控结果，与之前的比较试试
ll *.qc_fastqc.html

图1. 比较质控前后第一个样品右端接头污染水平。上图质控前接头污染水平近10%，质控后接近0.

评估报告的结果非常多，自己多读读，不懂上fastqc官网看帮助。

5. MultiQC多样品报告汇总(可选)

需要python3.5

# 激活Pythone3环境
. ~/py3/bin/activate
# 安装包
pip install git+https://github.com/ewels/MultiQC.git
# 生成多样品报告
multiqc . #

虽然是可选步骤，但对于多样品还是非常有意义的。可以方便比较，节省时间。

图2. 多样品质控前后比较。图像还是交互式的，鼠标悬停可显示样品名。

6. K-mer过滤

https://2017-cicese-metagenomics.readthedocs.io/en/latest/kmer_trimming.html

如果我们绘制样品k-mer丰度的柱状图，你会注意到存在大量的unqiue K-mers，即使测序质量很高，但它们也是由测序错误导致的。

图3. 序列末端低质量区有极高复杂度的kmer

本节继续在Python3下运行

# 对质控前后的数据统计单端丰度距离
abundance-dist-single.py -M 1e9 -k 21 SRR1976948_1.fastq.gz SRR1976948_1.fastq.gz.dist

abundance-dist-single.py -M 1e9 -k 21 SRR1976948_1.qc.fq.gz SRR1976948_1.qc.fq.gz.dist

# 只对高覆盖度中的低丰度kmer剪切(更可能是测序错误)；低覆盖度保留
interleave-reads.py SRR1976948_1.qc.fq.gz SRR1976948_2.qc.fq.gz | trim-low-abund.py -V -M 8e9 -C 3 -Z 10 - -o SRR1976948.trim.fq

图4. kmer过滤原理：
只对高覆盖度中的低丰度kmer剪切(更可能是测序错误)；低覆盖度保

为什么要进行k-mer剪切

如果不做这步也是可以的。但会增加下游组装的工作量，本步可使结果更准确，并增加下游拼接速度，以及内存消耗。

unique-kmers.py SRR1976948_1.qc.fq.gz SRR1976948_2.qc.fq.gz
unique-kmers.py SRR1976948.trim.fq

结果如下：

# 质控后的32-mers数据
Estimated number of unique 32-mers in SRR1976948_1.qc.fq.gz: 65344914
Estimated number of unique 32-mers in SRR1976948_2.qc.fq.gz: 85395776
Total estimated number of unique 32-mers: 112758982

# k-mer剪切后的数据
Estimated number of unique 32-mers in SRR1976948.trim.fq: 101285633
Total estimated number of unique 32-mers: 101285633

结果只经过了简单的尾部过滤，k-mer的数量减少了10%以上，对下游分析的准确度和速度都非常有帮助。

按Kmer质控后的结果，感觉趣的再用fastqc评估一下，看看有什么变化？

接下来的文章来会介绍k-mer更大的用途，猜猜是什么？

猜你喜欢

一文读懂：1微生物组 2进化树 3预测群落功能
热文：DNA提取发Nature
必备技能：1提问 2搜索 3Endnote
扩增子分析：1图表解读 2分析流程 3统计绘图 4预测群落功能 5美颜进化树
科研团队经验：1云笔记 2云协作 3公众号
系列教程：1Biostar 2微生物组 3宏基因组
生物科普 1生命大跃进 2细胞的暗战 3人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内五十位PI，六百多名一线科研人员加入。参与讨论，获得专业指导、问题解答，欢迎分享此文至朋友圈，并扫码加创始人好友带你入群，务必备注“姓名-单位-研究方向-职务”。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍末解决推荐生信技能树-微生物组版块(http://www.biotrainee.com/forum-88-1.html) 发贴，并转发链接入群，问题及解答方便检索，造福后人。

学习16S扩增子、宏基因组科研思路和分析实战，关注“宏基因组”

点击阅读原文，跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

你可能感兴趣的:(宏基因组,宏基因组分析)

高通量测序的数据处理与分析指北(二)--宏基因组篇 lantary
博客原文宏基因组篇前言之前的一篇文章已经从生物实验的角度讲述了高通量测序的原理，这篇文章旨在介绍宏基因组二代测序数据的处理方式及其原理。在正文开始之前，我们先来认识一下什么是宏基因组。以我的理解，宏基因组就是某环境中所有生物的基因组的合集，这个环境可以是下水道，河流等自然环境，也可以是人体内肠道，口腔等体环境。而宏基因组中的生物往往指的是微生物，如真菌，细菌，病毒，古细菌。我们这里主要以肠道微生物
【现学现卖】CHEER中的概念解释——k-mer 番茄随笔
“概念理解”CHEER:HierarCHicaltaxonomicclassificationforviralmEtagEnomicdataviadeepleaRning对这篇文章中概念的理解：【现学现卖】CHEER与病毒宏基因组数据分析（1）【现学现卖】CHEER与病毒宏基因组数据分析（2）k-mer单独的k-mer很好理解，就是从一段序列中迭代分割提取长度为k的几个子序列（一般k为奇数，使用例
高通量测序的数据处理与分析(二)-宏基因组2 lantary
博客原文宏基因组数据处理方法数据下载wget下载宏基因组的数据主要分布在两个数据库：1.NCBI的SRA数据库，2.ENA。近年来也有许多研究者将数据上传到中国的数据库：NGDC你可以直接通过网页下载数据，或者是通过各个网站提供的下载工具进行批量下载。也可以到sra-exporter这个网站上输入项目号获得样本的下载链接。用wget或者其他下载工具进行下载，示例的命令如下:wget-cftp://
肠道微生物研究的“法宝” 茗创科技数据分析
摘要人类微生物组由以细菌为主的微生物群的集体基因组组成，这些微生物生活在人体的各个部位，其中肠道包含更多的微生物群。由于缺乏用于分离非培养微生物的科学工具，肠道微生物组的最重要特性尚不清楚。随着分子测序工具和技术的迅速发展，肠道微生物组在人类微生物组的研究过程中取得了长足的进步。这些发现揭示了在重组和改革疾病病理与药物方面有着非凡未来的可能性。新的科学方法，如通过二代测序的宏基因组工具，为基于肠道
菌群宏基因组分析能解答哪些科学问题？ f70420f979c3
更多案例分享：菌群多样性分析能解答哪些科学问题？比较基因组学在微生物领域的应用基因组测序在细菌基因组中的应用基因组测序在真菌基因组中的应用宏基因组研究内容：1.研究环境样本中微生物的构成与丰度；2.研究环境样本中的功能基因信息及丰度；3.研究不同环境样本间细菌群落、功能组成及丰度的差异（不同处理对环境中物种与基因的影响）；3.探究不同环境样本间引起细菌群落结构/功能差异的物种及相关的环境因子，探究
ggtreeExtra的开发及其在宏基因组上的应用斗战胜佛oh
开发ggtreeExtra的初衷因为我之前工作的时候主要是做微生物组学数据的分析工作，工作中往往需要对这些数据进行可视化以方便数据展示与解析，简单的可视化还好，有ggplot2就行了。然而，微生物组学数据分析中往往需要将相关的外部数据信息与进化树或者是物种层级树联系起来才能更好展示并解析相关结果，而对于这样的操作来说，目前的很多工具基本都难以使用，除了ggtree。因为该软件包继承了ggplot2
2018-04-18宏基因组实战qiime2-201802（四）用dada2 过滤和建树小郑的学习笔记
因为我是双端数据，所以这一步我主要是参考了这个实战：https://docs.qiime2.org/2018.2/tutorials/atacama-soils/我前一步已经拿到了我切过引物的数据，要先看一下这个质量分布切之后这里我先上代码qiimedada2denoise-paired\--p-n-threads0\--i-demultiplexed-seqstrimmed-seqs.qza\-
Gut Microbes+ Microbiome | 揭示太空环境对微生物的影响 ee00dc6faab7
从神话故事“嫦娥奔月”，到现在的载人航天、空间站的建立，我们从未停止对宇宙的探索。在不断拓展太空图谱的同时，太空中的辐射、微重力、高真空等极端环境，会对小鼠/宇航员体内微生物产生哪些影响，而暴露于太空的微生物，又可以为航天任务提供哪些信息呢？借助16S扩增子、宏基因组、转录组等生物学技术，我们一起来探究在太空环境下，微生物所发生的变化。航天飞行期间，小鼠肠道微生物和宿主代谢的变化[1]肠道微生物通
抗性基因数据库(1) Zoeyer
抗性基因数据库（1）宏基因组：检测细菌、病毒等序列耐药基因：检测检出非人序列中的已知耐药基因，找到对应耐药基因的抗生素耐药/抗性基因数据库ARDB（AntibioticResistanceGenesDatabase）数据库。整合了来自NCBI和SwissProt数据库的13,254个耐药基因信息，经过数据过滤和去重后，保留4,554个完整非冗余的耐药蛋白数据。这些蛋白数据和GO、CDD、COG、物
宏基因组CAG、MGS、MLG、MAG傻傻分不清？斗战胜佛oh
在之前的Binning文章中（文章链接：《如何打破瓶颈，提升宏基因组研究level》、《宏基因组高分文章里的小技巧》），主要针对Contig进行聚类，旨在得到潜在的单菌基因组信息。除了Contig，宏基因组中还有一类序列信息，即Gene。所以类似的，我们也可以基于基因丰度进行序列聚类，比如Canopy聚类算法、Chameleon算法，得到的集合（Cluster）称为CAG、MLG、MGS等，不同的
张启发院士的肺腑之言，值得每一位硕士/博士细细品读 M_321
转载来源：宏基因组公众号原文链接：https://mp.weixin.qq.com/s/WzXmLVf4VXjC4_2_a-lzvQ最近我拜读了各位送交的年度工作计划，仔细推敲后，仍感到有三个方面的问题十分严重：第一，对课题理解不够，有的根本谈不上理解，做了不止一年，尚未进入角色。第二，已经完成的工作量严重偏少，博士（有的是从本室硕士上来的）做了几年还未见到可以发表的东西。第三，在计划中倾向于以最
宏基因组组装软件mataSPAdes输出文件解读 WDPLA 生物信息学 Linux linux
#metaSPAdes作为宏基因组数据组装软件，数据结果表现优秀，以下对metaSPAdes软件输出的结果进行解读，若有不对之处请指正#共输出7个文件夹及16个单独的文件，下面进行逐一解读：7个文件夹：这些文件夹都是MetaSPAdes分析过程中生成的临时或输出文件的存储位置。它们包含了不同阶段的结果和中间文件，用于帮助生成最终的组装结果。K21，K33，K55文件夹的解释：metaSPAdes使
linux系统下，将.fastq文件统一改为.fq文件 WDPLA Linux 生物信息学 linux 运维服务器
#高通量测序获得宏基因组/宏转录组进行后续分析的过程中，常碰到.fastq与.fq文件后缀不一致的问题#在Linux系统中，你可以使用rename命令或者mv命令来将文件名中的特定后缀进行修改。以下是两种方法：方法一.使用rename命令：#renamerename's/\.fastq$/.fq/'*.fastq这个命令将把当前目录下所有以.fastq结尾的文件的后缀修改为.fq。方法二.使用mv
Linux系统下，提取.fasta文件中序列长度＞n的序列(举例：sqlen＞1000) WDPLA linux 服务器运维
#在宏基因组/宏转录组数据进行组装后，常需要去除短片段，筛选出较长的片段以供后续分析#在Linux系统中，您可以使用一些文本处理工具来提取长度大于n的序列。其中，常用的工具之一是awk命令，它可以用于处理文本文件并提取符合条件的行。以下是在Linux系统中使用awk命令来提取长度大于1000的序列的示例命令：awk'/^>/{if(seqlen>1000){if(seqname!=""){prin
宏转录组组装软件rnaSPAdes输出文件解读 WDPLA Linux 生物信息学组装 linux
#rnaSPAdes作为宏转录组数据组装软件，数据结果表现优秀。mataSPAdes更适用于宏基因组组装，宏转录组组转推荐rnaSPAdes。以下对rnaSPAdes软件输出的结果进行解读，若有不准确之处敬请指正#共输出5个文件夹及14个单独的文件，下面进行逐一解读：5个文件夹：K49和K73:这些目录可能包含组装结果的子目录，分别使用不同的k-mer大小（例如，K49和K73）。这表明在组装过程
在线作图|如何绘制一个好看的堆叠柱状图维凡生物
Question1：什么是堆叠柱状图？柱形图用来比较两个或多个的含量或者丰度（不同时间或者不同条件），只有一个变量，通常适用于于较小的数据集分析，堆叠柱形图是柱形图的变形，可以清晰地比较某一个维度数据中不同类型数据之间的差异，还可以十分清晰直观比较总数的差别，在统计和组学数据分析中运用广泛。比如，在微生物组成谱和宏基因组测序中，堆叠柱形图常常用来展示微生物物种的组成情况。Question2：如何不
MetaHipMer2 - MHM2超算系统宏基因组短读长序列组装神器的介绍和使用小果运维生信分析-bioinfo mhm2 MetaHipMer2
berkeleylab/mhm2/Downloads—Bitbucket文章：Terabase-scalemetagenomecoassemblywithMetaHipMer|ScientificReportsMetaHipMer(MHM)是一种从头开始的宏基因组短读组装器。这是版本2(MHM2)，完全用UPC++、CUDA和HIP编写，可以在单服务器和多节点超级计算机上高效运行，可以扩展以共同组
Microbiome揭示中国人群宿主遗传、肠道菌群与复杂疾病的关系尐尐呅
|本文转载自“宏基因组”公众号2020年10月，西湖大学、中山大学、中国科学院病原微生物与免疫学重点实验室等单位的研究团队在《Microbiome》发表题为“Theinterplaybetweenhostgeneticsandthegutmicrobiomerevealscommonanddistinctmicrobiomefeaturesforcomplexhumandiseases”的科研成果
会议 | 宏基因组和生物信息学进行病原检测的进展和未来胡童远
文献信息文章：Currentprogressandfutureopportunitiesinapplicationsofbioinformaticsforbiodefenseandpathogendetection:reportfromtheWinterMid-AtlanticMicrobiomeMeet-up,CollegePark,MD,January10,2018杂志：Microbiome时
高性能计算环境大规模DNA测序数据集柱状工具HipMer的介绍，安装和使用方法小果运维高性能大型组装序列 HipMer
HipMer介绍HipMer是一个基因组组装软件，它特别为高性能计算环境设计，旨在处理大规模的DNA测序数据集。HipMer（全称High-PerformanceMetagenomeAssembler）利用先进的算法和并行计算技术来高效地组装大基因组或复杂微生物群落（即宏基因组）的序列数据。HipMer的特点包括：高效率：通过优化的数据结构和算法，在大规模集群上实现高效的内存使用和并行处理，能够处
使用Diamond比对NR数据库获取物种注释 CAAS_IFR_zp 数据库
之前用Kraken2注释宏基因组的contig，发现只有30%左右可以被Kraken2注释Kraken2+Bracken：宏基因组物种注释-CSDN博客不信邪，再用NR库试试参考：将NR数据库diamond比对结果做物种注释_diamond物种注释-CSDN博客NR下载nohupwget-t0-c-bhttps://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz
噬菌体宏病毒组
丝状噬菌体，一种单链DNA病毒，在猪粪便噬菌体组比较多。噬菌体的宿主预测：利用细菌的spacers和自己宏基因组测序得到的序列，细菌的spacers建立blast索引，然后使用blastn参数：blastn-short-e1e-5进行比对。
Megahit, metaSPAdes, metabat2, GTDB-tk, checkM 苦中作乐613 其他
参考https://zhuanlan.zhihu.com/p/470457258、德布鲁因图和OLC组装基因组-简书(jianshu.com)、[算法学习1]基因组组装算法DeBruijnGraph-知乎(zhihu.com)、https://nmdc.cn/感谢国家微生物科学数据中心和互联网。Megahit（宏基因组组装工具）原理基于kmer迭代的DBG算法。kmer：kmer指将reads切碎
一文详解宏基因组组装工具Megahit安装及应用 JaneMarple️ 生物医疗健康数据分析生物信息学数据分析数据挖掘 linux
要点Megahit简介Megahit的基本组装原理Megahit的安装和使用Megahit实战hello，大家好，今天为大家带来关于宏基因组组装工具Megahit的超详细安装及应用教程。我们将持续为大家带来生物医疗大数据分析一文详解系列文章，欢迎大家关注，可以更及时看到文章哦。一、Megahit简介Megahit是一款超速的宏基因组从头组装工具，由港大—华大基因联合实验室（HKU-BGI）开发，和
宏基因组组装神器-MEGAHIT使用及常见问题 Neptuneyut Bioinformatics linux 运维服务器
文章目录简介安装和使用常见报错和解决方法输出结果对内存需求样本实际组装时间参考简介宏基因组测序获得海量短片段测序数据，这些数据混合着环境中各种各样的微生物基因组序列，如何恢复出这些微生物基因组序列，基因组组装成为至关重要的一步。在考虑如此复杂的数据之前，不妨先看看单个基因组组装的常规步骤：首先，通过shotgun测序产生reads，然后利用连续reads之间的重叠信息（overlap）进行组装产生
宏基因组：MEGAHIT组装拼接及quast评估狗蛋儿张宏基因组组装软件宏基因组组装评估 megahit soapdenovo
Megahit组装软件很多下面介绍三款组装软件：MEGAHIT下载地址https://github.com/voutcn/megahitgitclonehttps://github.com/voutcn/megahit.gitcdmegahitmake其他两款组装软件下载地址SOAPdenovo下载地址http://sourceforge.net/projects/soapdenovo2/file
iMeta | 青岛华大范广益组基于共标签测序数据的高质量宏基因组组装工具MetaTrass... 生信宝典大数据编程语言 python 机器学习人工智能
点击蓝字关注我们MetaTrass：基于共标签测序数据的人类肠道微生物高质量宏基因组组装工具https://doi.org/10.1002/imt2.46RESEARCHARTICLE●2022年8月15日，青岛华大基因研究院齐彦伟团队在iMeta在线发表了题为“MetaTrass:ahigh-qualitymetagenomeassemblerofthehumangutmicrobiomebyc
Vamb宏基因组分箱：安装与使用 CAAS_IFR_zp 数据分析
mkdir~/Software/VambcdVambgitclonehttps://github.com/RasmussenLab/vamb-bmastercdvambpipinstall-e.vamb-hGitHub-RasmussenLab/vamb:Variationalautoencoderformetagenomicbinning使用参考上述官方文档
链读测序技术在宏基因组组装研究中的应用谷禾牛博
链读测序（Linked-readsequencing）通过将相同的barcode与长DNA片段(10-100kb)的序列连接在一起，能够消除其中的一些错读，从而改进宏基因组组装。但目前还不清楚在使用链读测序时参数的选择对组装的质量的影响如何。近日，香港浸会大学研究人员发表文章"通过链读测序对宏基因组组装全面研究"。模拟数据和模拟菌群中的分析结果表明，模拟数据（simulateddata）中读取深度
原创||宏基因组干货分享专题———组装 bioDeep 宏基因组大数据
拿到宏基因组序列之后，首先要进行质控分析，这步的主要目的是去掉接头和低质量序列。质控结束之后，拿到了干净的数据。就要对基因序列进行组装，组装是一个繁琐且耗时久的一个过程。下面我就带领大家从组装原理到实战给朋友们进行讲解。组装原理什么是组装?就是一个微生物群落里面的全部DNA被提取出来，然后被随机进行剪断、测序，得到一系列短序列；把这些短的序列拼接成连续的长序列过程就叫组装。简单点说就是从短序列拼接
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他