SRA下载工具fastq-dump参数理解

fastq-dump是常用用来下载NCBI原始测序SRA数据的工具,但是它的参数也是比较杂乱,我根据查到的数据说下我的体会

--outdir             # 输出文件夹名

--gzip                                    # 使用gzip压缩结果 (目的是减少占用硬盘大小)

--skip-technical                    #  只输出biological reads,不然会technical reads输出,而technical reads不是我们想要的

--split-files                            #  把pair-end测序分成两个文件输出

--fasta                  # 直接输出fasta格式,且每行的字符数是

--readids                              #  在每个reads的名字后面加上后缀 .1 和 .2,用于区分 pair-end 测序中的一对reads

--origfmt                               # 显示原始格式,便于追踪来源,同时可以显示长度信息

--dumpbase                        # 确保输出的是A, T, C, G (对于SOLiD测序会输出颜色,其他这个参数是默认的)

--offset               # 对早期的数据进行转化 (默认是33,不要乱改)

--minSpotId         # 输出从minSpotId到maxSpotId的reads,一个spot可能包含多个reads (多数情况会相等)

--maxSpotId        # 输出从minSpotId到maxSpotId的reads,一个spot可能包含多个reads (多数情况会相等)

--minReadlen      # 过滤短reads

--clip                                      #去除标签

--aligned                               #只输出能align到human genome上的

--read-filter      "pass"           #去除全是N的reads

--stout                                   #直接把结果输出到屏幕上

别忘了加最后一个参数,就是数据名称 SRRxxxxxxxxxx

经典的代码是

fastq-dump  --outdir file_name  --gzip  --skip-technical   --readids  --read-filter  pass  --dumpbase --split-files  --clip   SRR_ID

参考自      https://edwards.sdsu.edu/research/fastq-dump

你可能感兴趣的:(SRA下载工具fastq-dump参数理解)