Qiime2 数据导入

在qiime2中进行任何数据分析的第一步永远是将数据导入qiime2并储存为qiime对象(.qza)。qiime2 接受导入的数据类型很多,包括从刚下机到分析过程中产生的任何常用数据格式和类型,如果遇到下面没有提到的数据类型或格式,可以去 QIIME 2 Forum 寻找帮助。

Data with sequence quality information

EMP Protocol format

EMP单端测序

标准的EMP单端测序文件应该包括两个fastq.gz:测序reads和barcode reads。这种格式下的的序列是混合的,例如:所有样品的raw data混合在一个.gz文件中。而文件中的records顺序是联系barcode和测序结果的桥梁,也是分离混合数据的关键。

将两个.gz文件放到一个文件夹如:emp-single-end-sequences中。

qiime tools import \
 --type EMPSingleEndSequences \
 --input-path emp-single-end-sequences \
 --output-path emp-single-end-sequences.qza

EMP双端测序

标准的EMP双端测序文件应该包含三个fastq.gz:forward sequence reads, reverse sequence reads 和 barcode reads。这种格式下的的序列也是混合的,例如:所有样品的raw data混合在 forward 和 reverse .gz文件中。而文件中的records顺序是联系barcode和测序结果的桥梁,也是分离混合数据的关键。

将三个.gz文件放到一个文件夹如:emp-paired-end-sequences中。

qiime tools import \
 --type EMPPairedEndSequences \
 --input-path emp-paired-end-sequences \
 --output-path emp-paired-end-sequences.qza

Casava 1.8 demultiplexed

Casava 1.8 单端测序

Casava 1.8单端测序结果是一个.zip文件夹,里面包含一系列的fastq.gz文件,每一个sample对应一个.gz文件。


Casava 1.8 demultiplexed.png

下划线分割的各区域从左往右包括:

  1. 样品编号;

  2. barcode序列或编号;

  3. lane编号;

  4. 序列方向(由于是单端测序,所以只有R1)

  5. 设定编号。

# 解压zip文件
unzip -q casava-18-single-end-demultiplexed.zip
​
# importing data
qiime tools import \
 --type 'SampleData[SequencesWithQuality]' \
 --input-path casava-18-single-end-demultiplexed \
 --input-format CasavaOneEightSingleLanePerSampleDirFmt \
 --output-path demux-single-end.qza

Casava 1.8 双端测序

与单端测序结果相似,但对任一sample,双端测序结果包括两个fastq.gz文件,由R1和R2区分read 方向。

# 解压zip文件
unzip -q casava-18-paired-end-demultiplexed.zip
​
#importing data
qiime tools import \
 --type 'SampleData[PairedEndSequencesWithQuality]' \
 --input-path casava-18-paired-end-demultiplexed \
 --input-format CasavaOneEightSingleLanePerSampleDirFmt \
 --output-path demux-paired-end.qza

“Fastq manifest” formats

如果测序结果既不是EMP又不是Casava格式,我们就需要先自己创建一个 “manifest file”, 然后再用import 工具导入。

  1. 创建一个名为 “manifest file” 的文本文件,指明诸如:sample-id, forward-absolute-filepath, reverse-absolute-filepath等信息,用tab键分割;绝对路径可以包含如$HOME/PWD等环境变量。

    单端测序:


    单.png

    双端测序:


    双.png

Fastq数据有四种常用格式变体 ,导入时必须在--input-format 中指定。下面提供SingleEndFastqManifestPhred33V2 的导入方法,其他类似。

SingleEndFastqManifestPhred33V2

# 解压序列文件
unzip -q se-33.zip
# 可以利用pwd获得其绝对路径,用R脚本批量构建manifest
​
# importing data
qiime tools import \
 --type 'SampleData[SequencesWithQuality]' \
 --input-path se-33-manifest \
 --output-path single-end-demux.qza \
 --input-format SingleEndFastqManifestPhred33V2

Sequences without quality information

qiime2目前支持seqs.fna文件导入,该文件每个record都有两行:header 和 sequence的fasta文件;每条序列只能是一行,不能拆分为多行;每条序列的ID必须遵循 _ 格式。 是序列所属样本的标识符, 是其样本中序列的标识符。


seqs_fna.png
# importing data
qiime tools import \
 --input-path seqs.fna \
 --output-path seqs.qza \
 --type 'SampleData[Sequences]'
​
# 去重复 (dereplicate)
qiime vsearch dereplicate-sequences \
 --i-sequences seqs.qza \
 --o-dereplicated-table table.qza \
 --o-dereplicated-sequences rep-seqs.qza

Per-feature unaligned sequence data (representative FASTA sequences)

这类数据结构上和上面的seqs.fna文件相似,但它是unaligned (i.e., do not contain - or . characters) ,并且包含未知序列(N),有些插件不支持分析含N的序列。:

qiime tools import \
 --input-path sequences.fna \
 --output-path sequences.qza \
 --type 'FeatureData[Sequence]'

Per-feature aligned sequence data ( aligned representative FASTA sequences)

该类文件与上述的seqs.fna文件相似,但其序列是一一对齐并长度相同的,同样也可以包含未知碱基N,有些插件不支持分析含N的序列。

aliend.png
qiime tools import \
 --input-path aligned-sequences.fna \
 --output-path aligned-sequences.qza \
 --type 'FeatureData[AlignedSequence]'

Feature table data

BIOM v1.0.0

qiime tools import \
 --input-path feature-table-v100.biom \
 --type 'FeatureTable[Frequency]' \
 --input-format BIOMV100Format \
 --output-path feature-table-1.qza

BIOM v2.1.0

qiime tools import \
 --input-path feature-table-v210.biom \
 --type 'FeatureTable[Frequency]' \
 --input-format BIOMV210Format \
 --output-path feature-table-2.qza

Phylogenetic trees

qiime2 支持newick 树文件输入。

qiime tools import \
 --input-path unrooted-tree.tre \
 --output-path unrooted-tree.qza \
 --type 'Phylogeny[Unrooted]'

Other data types

# 查看其它qiime2 支持的格式
qiime tools import \
 --show-importable-formats
# 查看其它qiime2 支持的类型
qiime tools import \
 --show-importable-types

QIIME 2 Forum

遇到的问题很可能以前有人已经遇到过,并且在获得了很好的技术支持并解决了。如果没有,上面也有很多热心的人提供帮助和思路。

importing-data 官方指南

qiime 2 官方文档中文版

你可能感兴趣的:(Qiime2 数据导入)