学习小组Day7笔记--尹露茜

最后一天在豆豆花花的引导下成长
教程的知识总结特别好
是我一直接触又疑惑的部分
喜欢这样的系统归纳
真诚致谢

学习内容

怎么区分一二三代测序
二代测序大体流程
NGS组学都包括哪些分类

测序过程和原理

  • 原理介绍视频:https://share.weiyun.com/5qojuBY 密码: 密码:bxsry4
  • 文章《测序的世界》:https://www.jianshu.com/p/101c14c3a1d2

Fastq & Fasta
Fastq格式:一种基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式,一般都包含有4行。
第一行:由‘@’开始,后面跟着序列ID和可选的描述,序列ID是唯一的;
第二行:碱基序列;
第三行:由‘+’开始,后面是序列的描述信息;
第四行:第二行序列的质量评价(quality value)。
Fasta格式:

1:以“>”为开头,fasta格式标志。
2:序列ID号,gi号,NCBI数据库的标识符,具有唯一性。
格式为:gi|gi号|来源标志|序列标志(接收号、名称等),若某项缺失可以留空,“|”保留。
3:序列描述。
4:碱基序列,序列中允许空格、换行、空行,一般一行60个。

Fastq文件→Fasta文件

Linux命令
法1:sed '/^@/!d;s//>/;N' your.fastq > your.fasta
法2:seqtk seq -A input.fastq  > output.fasta
FASTX-Toolkit

一款用于处理Short-Reads FASTA/FASTQ文件的程序,里面包含了丰富的Fasta/Fastq文件格式转换、统计等命令。
http://hannonlab.cshl.edu/fastx_toolkit/

屏幕快照 2019-07-07 上午10.26.11.png

你可能感兴趣的:(学习小组Day7笔记--尹露茜)