《学习小组Day7笔记--于多多》

Fastq & Fasta

  1. Fastq格式:一种基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式,一般都包含有4行。
    第一行:由‘@’开始,后面跟着序列ID和可选的描述,序列ID是唯一的;
    第二行:碱基序列;
    第三行:由‘+’开始,后面是序列的描述信息;
    第四行:第二行序列的质量评价(quality value)
  2. Fasta格式:
    (1):以“>”为开头,fasta格式标志。
    (2):序列ID号,gi号,NCBI数据库的标识符,具有唯一性。
    格式为:gi|gi号|来源标志|序列标志(接收号、名称等),若某项缺失可以留空,“|”保留。
    (3):序列描述。
    (4):碱基序列,序列中允许空格、换行、空行,一般一行60个
  3. Fastq文件→Fasta文件
    Linux命令
    法1:sed '/^@/!d;s//>/;N' your.fastq > your.fasta
    法2:seqtk seq -A input.fastq > output.fasta
    FASTX-Toolkit
    •一款用于处理Short-Reads FASTA/FASTQ文件的程序,里面包含了丰富的Fasta/Fastq文件格式转换、统计等命令。
    http://hannonlab.cshl.edu/fastx_toolkit/
    ![![
    微信截图_20200301224513组学.png
![微信图片_20200301213604.jpg](https://upload-images.jianshu.io/upload_images/21520065-acf17b0561c36d17.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

测序思维导图.png

你可能感兴趣的:(《学习小组Day7笔记--于多多》)