Qiime2 数据导入

在qiime2中进行任何数据分析的第一步永远是将数据导入qiime2并储存为qiime对象(.qza)。qiime2 接受导入的数据类型很多，包括从刚下机到分析过程中产生的任何常用数据格式和类型，如果遇到下面没有提到的数据类型或格式，可以去 QIIME 2 Forum 寻找帮助。

Data with sequence quality information

EMP Protocol format

EMP单端测序

标准的EMP单端测序文件应该包括两个fastq.gz：测序reads和barcode reads。这种格式下的的序列是混合的，例如：所有样品的raw data混合在一个.gz文件中。而文件中的records顺序是联系barcode和测序结果的桥梁，也是分离混合数据的关键。

将两个.gz文件放到一个文件夹如：emp-single-end-sequences中。

qiime tools import \
 --type EMPSingleEndSequences \
 --input-path emp-single-end-sequences \
 --output-path emp-single-end-sequences.qza

EMP双端测序

标准的EMP双端测序文件应该包含三个fastq.gz：forward sequence reads, reverse sequence reads 和 barcode reads。这种格式下的的序列也是混合的，例如：所有样品的raw data混合在 forward 和 reverse .gz文件中。而文件中的records顺序是联系barcode和测序结果的桥梁，也是分离混合数据的关键。

将三个.gz文件放到一个文件夹如：emp-paired-end-sequences中。

qiime tools import \
 --type EMPPairedEndSequences \
 --input-path emp-paired-end-sequences \
 --output-path emp-paired-end-sequences.qza

Casava 1.8 demultiplexed

Casava 1.8 单端测序

Casava 1.8单端测序结果是一个.zip文件夹，里面包含一系列的fastq.gz文件，每一个sample对应一个.gz文件。

Casava 1.8 demultiplexed.png

下划线分割的各区域从左往右包括：

样品编号；
barcode序列或编号；
lane编号；
序列方向（由于是单端测序，所以只有R1）
设定编号。

# 解压zip文件
unzip -q casava-18-single-end-demultiplexed.zip

# importing data
qiime tools import \
 --type 'SampleData[SequencesWithQuality]' \
 --input-path casava-18-single-end-demultiplexed \
 --input-format CasavaOneEightSingleLanePerSampleDirFmt \
 --output-path demux-single-end.qza

Casava 1.8 双端测序

与单端测序结果相似，但对任一sample，双端测序结果包括两个fastq.gz文件，由R1和R2区分read 方向。

# 解压zip文件
unzip -q casava-18-paired-end-demultiplexed.zip

#importing data
qiime tools import \
 --type 'SampleData[PairedEndSequencesWithQuality]' \
 --input-path casava-18-paired-end-demultiplexed \
 --input-format CasavaOneEightSingleLanePerSampleDirFmt \
 --output-path demux-paired-end.qza

“Fastq manifest” formats

如果测序结果既不是EMP又不是Casava格式，我们就需要先自己创建一个 “manifest file”，然后再用import 工具导入。

创建一个名为 “manifest file” 的文本文件，指明诸如：sample-id, forward-absolute-filepath, reverse-absolute-filepath等信息，用tab键分割;绝对路径可以包含如$HOME/PWD等环境变量。

单端测序：

单.png

双端测序：

双.png

Fastq数据有四种常用格式变体，导入时必须在--input-format 中指定。下面提供SingleEndFastqManifestPhred33V2 的导入方法，其他类似。

SingleEndFastqManifestPhred33V2

# 解压序列文件
unzip -q se-33.zip
# 可以利用pwd获得其绝对路径，用R脚本批量构建manifest

# importing data
qiime tools import \
 --type 'SampleData[SequencesWithQuality]' \
 --input-path se-33-manifest \
 --output-path single-end-demux.qza \
 --input-format SingleEndFastqManifestPhred33V2

Sequences without quality information

qiime2目前支持seqs.fna文件导入，该文件每个record都有两行：header 和 sequence的fasta文件；每条序列只能是一行，不能拆分为多行；每条序列的ID必须遵循 _ 格式。是序列所属样本的标识符，是其样本中序列的标识符。

seqs_fna.png

# importing data
qiime tools import \
 --input-path seqs.fna \
 --output-path seqs.qza \
 --type 'SampleData[Sequences]'

# 去重复 (dereplicate)
qiime vsearch dereplicate-sequences \
 --i-sequences seqs.qza \
 --o-dereplicated-table table.qza \
 --o-dereplicated-sequences rep-seqs.qza

Per-feature unaligned sequence data (representative FASTA sequences)

这类数据结构上和上面的seqs.fna文件相似，但它是unaligned (i.e., do not contain - or . characters) ，并且包含未知序列(N)，有些插件不支持分析含N的序列。:

qiime tools import \
 --input-path sequences.fna \
 --output-path sequences.qza \
 --type 'FeatureData[Sequence]'

Per-feature aligned sequence data ( aligned representative FASTA sequences)

该类文件与上述的seqs.fna文件相似，但其序列是一一对齐并长度相同的，同样也可以包含未知碱基N，有些插件不支持分析含N的序列。

aliend.png

qiime tools import \
 --input-path aligned-sequences.fna \
 --output-path aligned-sequences.qza \
 --type 'FeatureData[AlignedSequence]'

Feature table data

BIOM v1.0.0

qiime tools import \
 --input-path feature-table-v100.biom \
 --type 'FeatureTable[Frequency]' \
 --input-format BIOMV100Format \
 --output-path feature-table-1.qza

BIOM v2.1.0

qiime tools import \
 --input-path feature-table-v210.biom \
 --type 'FeatureTable[Frequency]' \
 --input-format BIOMV210Format \
 --output-path feature-table-2.qza

Phylogenetic trees

qiime2 支持newick 树文件输入。

qiime tools import \
 --input-path unrooted-tree.tre \
 --output-path unrooted-tree.qza \
 --type 'Phylogeny[Unrooted]'

Other data types

# 查看其它qiime2 支持的格式
qiime tools import \
 --show-importable-formats
# 查看其它qiime2 支持的类型
qiime tools import \
 --show-importable-types

QIIME 2 Forum

遇到的问题很可能以前有人已经遇到过，并且在获得了很好的技术支持并解决了。如果没有，上面也有很多热心的人提供帮助和思路。