单菌 | jellyfish && GenomeScope评估基因组

jellyfish+GenomeScope评估基因组 大小和杂合度

## 计算kmer 分布
jellyfish count -t 24 -C -m 17 -s 4G -o kmer17.out 1.clean.fq 2.clean.fq

-m参数指定kmer的长度
-t指定并行的线程数
-s指定内存中hash的大小
-o 默认将结果输出到mer_counts.jf,重定向使用-o参数
-C --cannonical表示规范化


### 生成kmer 统计表;第一列为kmer,第二列为该kmer频数
jellyfish dump  -c -t kmer17.out -L 2 > kmer17.fasta

-L 用来指定过滤掉的最低频率
-U 用来制定过滤掉的最高频率。


## 统计kmer频数分布
jellyfish histo kmer17.out -o kmer17.histo

data =read.table("kmer17.histo",header = F, sep = " ",stringsAsFactors = F)
ggplot(data, aes(x=V1,y=V2)) +
  geom_line() + 
  theme_bw()

基因组越大,杂合度也大,重复片段越大,该物种的组装难度就越大。基因组越大,杂合度也大,重复片段越大,该物种的组装难度就越大。

 

git clone https://github.com/schatzlab/genomescope
script  genomescope.R  kmer17.histo 17 150 test
第一个参数 kmer17.histo是jellyfish软件产生的kmer频数分布数据;
第二个参数 17 代表kmer的长度;
第三个参数	150代表序列读长
第四个参数test 代表输出目录的名称。

参考:https://www.jianshu.com/p/98f5a65be8b2

 

你可能感兴趣的:(单菌分析,#,生信,生信软件应用)