在qiime2中进行任何数据分析的第一步永远是将数据导入qiime2并储存为qiime对象(.qza)。qiime2 接受导入的数据类型很多,包括从刚下机到分析过程中产生的任何常用数据格式和类型,如果遇到下面没有提到的数据类型或格式,可以去 QIIME 2 Forum 寻找帮助。
Data with sequence quality information
EMP Protocol format
EMP单端测序
标准的EMP单端测序文件应该包括两个fastq.gz:测序reads和barcode reads。这种格式下的的序列是混合的,例如:所有样品的raw data混合在一个.gz文件中。而文件中的records顺序是联系barcode和测序结果的桥梁,也是分离混合数据的关键。
将两个.gz文件放到一个文件夹如:emp-single-end-sequences中。
qiime tools import \
--type EMPSingleEndSequences \
--input-path emp-single-end-sequences \
--output-path emp-single-end-sequences.qza
EMP双端测序
标准的EMP双端测序文件应该包含三个fastq.gz:forward sequence reads, reverse sequence reads 和 barcode reads。这种格式下的的序列也是混合的,例如:所有样品的raw data混合在 forward 和 reverse .gz文件中。而文件中的records顺序是联系barcode和测序结果的桥梁,也是分离混合数据的关键。
将三个.gz文件放到一个文件夹如:emp-paired-end-sequences中。
qiime tools import \
--type EMPPairedEndSequences \
--input-path emp-paired-end-sequences \
--output-path emp-paired-end-sequences.qza
Casava 1.8 demultiplexed
Casava 1.8 单端测序
Casava 1.8单端测序结果是一个.zip文件夹,里面包含一系列的fastq.gz文件,每一个sample对应一个.gz文件。
下划线分割的各区域从左往右包括:
样品编号;
barcode序列或编号;
lane编号;
序列方向(由于是单端测序,所以只有R1)
设定编号。
# 解压zip文件
unzip -q casava-18-single-end-demultiplexed.zip
# importing data
qiime tools import \
--type 'SampleData[SequencesWithQuality]' \
--input-path casava-18-single-end-demultiplexed \
--input-format CasavaOneEightSingleLanePerSampleDirFmt \
--output-path demux-single-end.qza
Casava 1.8 双端测序
与单端测序结果相似,但对任一sample,双端测序结果包括两个fastq.gz文件,由R1和R2区分read 方向。
# 解压zip文件
unzip -q casava-18-paired-end-demultiplexed.zip
#importing data
qiime tools import \
--type 'SampleData[PairedEndSequencesWithQuality]' \
--input-path casava-18-paired-end-demultiplexed \
--input-format CasavaOneEightSingleLanePerSampleDirFmt \
--output-path demux-paired-end.qza
“Fastq manifest” formats
如果测序结果既不是EMP又不是Casava格式,我们就需要先自己创建一个 “manifest file”, 然后再用import 工具导入。
-
创建一个名为 “manifest file” 的文本文件,指明诸如:sample-id, forward-absolute-filepath, reverse-absolute-filepath等信息,用tab键分割;绝对路径可以包含如$HOME/PWD等环境变量。
单端测序:
双端测序:
Fastq数据有四种常用格式变体 ,导入时必须在--input-format 中指定。下面提供SingleEndFastqManifestPhred33V2 的导入方法,其他类似。
SingleEndFastqManifestPhred33V2
# 解压序列文件
unzip -q se-33.zip
# 可以利用pwd获得其绝对路径,用R脚本批量构建manifest
# importing data
qiime tools import \
--type 'SampleData[SequencesWithQuality]' \
--input-path se-33-manifest \
--output-path single-end-demux.qza \
--input-format SingleEndFastqManifestPhred33V2
Sequences without quality information
qiime2目前支持seqs.fna文件导入,该文件每个record都有两行:header 和 sequence的fasta文件;每条序列只能是一行,不能拆分为多行;每条序列的ID必须遵循
# importing data
qiime tools import \
--input-path seqs.fna \
--output-path seqs.qza \
--type 'SampleData[Sequences]'
# 去重复 (dereplicate)
qiime vsearch dereplicate-sequences \
--i-sequences seqs.qza \
--o-dereplicated-table table.qza \
--o-dereplicated-sequences rep-seqs.qza
Per-feature unaligned sequence data (representative FASTA sequences)
这类数据结构上和上面的seqs.fna文件相似,但它是unaligned (i.e., do not contain - or . characters) ,并且包含未知序列(N),有些插件不支持分析含N的序列。:
qiime tools import \
--input-path sequences.fna \
--output-path sequences.qza \
--type 'FeatureData[Sequence]'
Per-feature aligned sequence data ( aligned representative FASTA sequences)
该类文件与上述的seqs.fna文件相似,但其序列是一一对齐并长度相同的,同样也可以包含未知碱基N,有些插件不支持分析含N的序列。
qiime tools import \
--input-path aligned-sequences.fna \
--output-path aligned-sequences.qza \
--type 'FeatureData[AlignedSequence]'
Feature table data
BIOM v1.0.0
qiime tools import \
--input-path feature-table-v100.biom \
--type 'FeatureTable[Frequency]' \
--input-format BIOMV100Format \
--output-path feature-table-1.qza
BIOM v2.1.0
qiime tools import \
--input-path feature-table-v210.biom \
--type 'FeatureTable[Frequency]' \
--input-format BIOMV210Format \
--output-path feature-table-2.qza
Phylogenetic trees
qiime2 支持newick 树文件输入。
qiime tools import \
--input-path unrooted-tree.tre \
--output-path unrooted-tree.qza \
--type 'Phylogeny[Unrooted]'
Other data types
# 查看其它qiime2 支持的格式
qiime tools import \
--show-importable-formats
# 查看其它qiime2 支持的类型
qiime tools import \
--show-importable-types
QIIME 2 Forum
遇到的问题很可能以前有人已经遇到过,并且在获得了很好的技术支持并解决了。如果没有,上面也有很多热心的人提供帮助和思路。