RNA_seq:将修剪后的序列比对到参考基因组

比对参考基因组的2种软件:hisat2、subjunc

hisat2软件

1、构建索引:

  • 官网下载:https://ccb.jhu.edu/software/hisat2/manual.shtml
    hisat2官网下载官方索引
  • 通过hisat2-build构建基因组索引:(不推荐)

2、关于hisat2:

  • Hisat2主要是用来进行转录组数据的比对。使用--help查看选项和参数

hisat2主要参数:
-x ## 索引数据文件的前缀。
-1 ## 双末端测序结果的第一个文件。若有多组数据,使用逗号将
文件分隔。 Reads的长度可以不一致。
-2 ## 双末端测序结果的第二个文件。若有多组数据,使用逗号将
文件分隔,并且文件顺序要和-1参数的对应。 Reads的长度可以不一致。
-U ## 单端数据文件。若有多组数据,使用逗号将文件分隔。可以和-1,-2参数同时使用。 Reads的长度可以不一致。
-p ## 线程数

  • hisat2输出的为sam文件

3、hisat2出现的错误日志:

IndexError: index out of range:此错误并不影响比对过程的完整进行,可以忽略。
https://zhuanlan.zhihu.com/p/121813072

4、比对结果:

比对结果的解释

subjunc比对:

subjunc是subread软件包中用于比对的工具,可用于发现外显子与外显子之间的连接,及发现融合基因。

1、建立参考基因组索引:

(rna) May5 15:21:21 ~/project/airway/05.mapping
$ index=/teach/database/index/subread/hg38/hg38  #技能树

2、subjunc常用参数

subjunc常用参数:
• -i ## 索引数据文件的前缀。
• -r ## 双末端测序结果的第一个文件。 #相当于hisat2的-1参数
• -R ## 双末端测序结果的第二个文件。 #相当于hisat2的-2参数
• -T ## 线程数 #相当于hisat2的-p参数

  • subjunc输出的为bam文件

sam与bam文件

  • 1、SAM全称: sequence alignment/map format。
    BAM是SAM的二进制文件(B源自binary)。

SAM/BAM文件构成:
标头注释部分(header section)
比对结果部分(alignment section)

  • 2、表头注释部分:


    表头注释部分
  • 3、比对结果部分:参考网站:https://www.samformat.info/sam-format-flag
    a.每一行表示一个read的比对信息。
    b.每行包括11个必须字段和1个可选字段,字段之间用制表符分割。

    sam比对结果示例

    比对结果说明

    比对结果说明2

    cigar序列信息表达式解释

你可能感兴趣的:(RNA_seq:将修剪后的序列比对到参考基因组)