FASTQ with Emoji = FASTQE
表情版的FASTQC,适用于Illumina 1.8+/Sanger format
使用
安装 使用conda 或者pip
$ pip install fastqe
$ conda install -c bioconda fastqe
测试数据下载
$ wget https://zenodo.org/record/3977236/files/female_oral2.fastq-4143.gz
默认是给出平均值,计算fastq文件中的序列最大值和最小值,需要加参数--max,--min
$ fastqe female_oral2.fastq-4143.gz --max --min
输出
[图片上传失败...(image-a004b-1642129204222)]
我们知道fastq文件中质量值以ASCII字符来表示,fastqe 运行时,加上--scale参数,会给出每个表情对应的ascii字符。
#scale for fastqe
# 0 !
# 1 " ❌
# 2 #
# 3 $
# 4 %
# 5 &
# 6 '
# 7 (
# 8 )
# 9 *
# 10 +
# 11 ,
# 12 -
# 13 .
# 14 /
# 15 0
# 16 1
# 17 2
# 18 3
# 19 4
# 20 5 ⚠️
# 21 6
# 22 7
# 23 8
# 24 9
# 25 :
# 26 ;
# 27 <
# 28 =
# 29 >
# 30 ?
# 31 @
# 32 A
# 33 B ☺️
# 34 C
# 35 D
# 36 E
# 37 F
# 38 G
# 39 H
# 40 I
# 41 J
若我们只是简单关心下序列质量好坏程度得一个范围,我么可以用--bin参数。它将一个范围内的质量值以一个表情来表示
$ fastqe female_oral2.fastq-4143.gz --min --max --scale --bin
#scale for fastqe
# 0 !
# 1 "
# 2 #
# 3 $
# 4 %
# 5 &
# 6 '
# 7 (
# 8 )
# 9 *
# 10 +
# 11 ,
# 12 -
# 13 .
# 14 /
# 15 0
# 16 1
# 17 2
# 18 3
# 19 4
# 20 5 ⚠️
# 21 6 ⚠️
# 22 7 ⚠️
# 23 8 ⚠️
# 24 9 ⚠️
# 25 :
# 26 ;
# 27 <
# 28 =
# 29 >
# 30 ?
# 31 @
# 32 A
# 33 B
# 34 C
# 35 D
# 36 E
# 37 F
# 38 G
# 39 H
# 40 I
# 41 J
[图片上传失败...(image-ba505c-1642129204222)]
看,平均值,序列数据有一半是警告或者狗屎。。。
biomojify
将你的序列数据以Emoji来展示,
安装也是pip
$ pip install biomojify
将DNA ATCG序列 转为 :
fastq数据也可以转
$ zcat female_oral2.fastq-4143.gz | head -n 4 > test.fq
[图片上传失败...(image-bead3b-1642129204222)]
查看其帮助文档, 蛋白质序列,vcf也可以转
$ biomojify -h
usage: biomojify [-h] [--version] [--log LOG_FILE] {fasta,fasta_protein,fastq,vcf} ...
Read one or more FASTA or FASTQ files, and convert them to emoji.
positional arguments:
{fasta,fasta_protein,fastq,vcf}
sub-command help
fasta fasta --help
fasta_protein fasta_protein --help
fastq fastq --help
vcf vcf --help
optional arguments:
-h, --help show this help message and exit
--version show program's version number and exit
--log LOG_FILE record program progress in LOG_FILE
参考
https://github.com/fastqe/biomojify
https://fastqe.com/