分析记录|三代细菌基因组理论相关

1.组装

  1. 小基因组比如细菌的(不到10M)可以直接用HGAP3。直接在网页版跑,(<100M)都可以。
  2. 端口配置。SMRT-analysis所有浏览器通用。SMRT-link只在chrome上使用。另外,pacbio的分析软件最好在已配置SGE的服务器上跑。
  3. 重要参数:基因组大小,最好询问客户;习惯值5M
  4. 耗时:0.5-1d

2.任务指标

  1. 真菌基因组组装结果是多个contig。指标是contig N50 (>1M)?
  2. 细菌基因组组装结果是一个contig,指标是完成图。

3.N50介绍

  1. contig N50
  2. scaffold N50

以contig N50 为例。
Reads拼接后会获得一些不同长度的Contigs.将所有的Contig长度相加,能获得一个Contig总长度.然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,contig 3...………Contig 25.将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50.举例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50.ContigN50可以作为基因组拼接的结果好坏的一个判断标准.
成功注释基因组的第一步就是看组装有没有达到要求,除了一些统计指标来表述组装的完整性和连续性之外,最重要的就是N50.尽管没有绝对的标准,但是对于基因预测而言,n50达到基因的平均长度是一个合理的目标,原因十分简单:基因中约有50%有望包括在单个scaffold或者contig中。

2. 流程

2.1 组装

  1. 进入SMRT Portal。
  2. 如何知道编号:下载原始数据中的meta.xml文件,浏览器打开。查看sample name。


    分析记录|三代细菌基因组理论相关_第1张图片
  3. 导入原始数据:增加路径,只用填入cell文件夹所在目录。scan和导入。
  4. create new job:通过sample查找。也可以通过url查找。
  5. HGAP3 protocol,点省略号,在assembly中填写基因组大小。按以下步骤:
  • 5M或别人提供大小:看contig和N50,及contig length。
  • 根据contig length(后续怎么调参数都不会怎么变了,这个基本就是基因组的大小)比如11M
  • 11M尝试:看contig和N50
  • 11.5M尝试:看contig和N50
    复杂的基因组,比如11M算比较大的了,可以尝试用smrtlink也做一下。
  1. 图片结果:
    /opt/pacbio_soft/smrtanalysis/current/common/userdata/jobs/016/016888/results
    下载coverge和post_filter的png。

2.2 甲基化

  1. 导入已经组装的基因组
    方法一:import and manage -> select reference 上传
    有时会失败
    方法二:/opt/pacbio_soft/smrtanalysis/common/references_dropbox 服务器上传,目前无权限..
  2. protocol: RS-modification-and-motif-analysis,选择上传的参考基因组
  3. 甲基化结果:
    /opt/pacbio_soft/smrtanalysis/userdata/jobs/016/016497/data

2.3平台

smrtlink可分析sequel和RSII。RSII的数据导入后,选择显示RSII数据,有protocol转BAM文件(就是sequel下机的数据)。然后继续分析。
smrtportal只能分析RSII。
不同平台的同一个样本的数据最好都导入smrtlink一起来分析。

其他

  1. contig和scaffold:
    scaffold—二代测序才会有,一般是contig因为pair end再次连接得到scaffold
    三代只会得到contig

  2. RSII和sequel的数据会有很大的差别,数据产量,格式,读长都会有一定的差别。
    sequel p1:35.7% RSII:74%
    但数据都是有效的,合并起来分析就可以
    不同的平台,不能比较P1值

  3. 细菌基因组是将完整的基因组打碎来测序,一般构建的是10kb或者20kb的文库
    全长转录组本来就是长长短短的cDNA,因此要根据分析实际来选择,比如选择 大于2kb和小于2kb的文库。来分别针对小的cDNA和长的cDNA。

参考

  1. 微信:N50多少,证明组装的好? link

你可能感兴趣的:(分析记录|三代细菌基因组理论相关)