细菌基因组结构分析

甲基化修饰

  1. 甲基化分析结果(直接从服务器下载,文件名乱码)
    /opt/pacbio_soft/smrtanalysis/userdata/jobs/016/jobID/data
    从该文件夹下载modification和motif名字的4个文件。分别是gff和csv
    用gunzip解压


    细菌基因组结构分析_第1张图片
    image.png
  2. 统计
    motif.gff 中两个类别的修饰,分别计算平均质量值
    motif.summary.csv 平均覆盖度 mean coverage求平均


    image.png

2.4.1 编码基因prodigal

assembly.gff文件注释行:seqnum=1;基因组全长seqlen=5717668; gc_cont=64.44

  1. 编码基因个数:5036
    gff数CDS
    cat assembly.gff | grep CDS | wc -l
    5036
    genes.cds数>
    cat genes.cds | grep "\>" | wc -l
    5036
  2. 编码基因平均长度: 5097850/5036=
    计算编码基因总长: 5097850
    tail -n +3 assembly.gff | awk '{len=$5-$4+1;if(len<0) len=-len;sum+=len}END{print sum}'
    去掉前三行
  3. 编码基因百分比:5097850/5717668=
  4. G+C含量百分比:64.44

2.4.2 重复序列

2.4.2.1 散在重复序列-repeatmasker

  1. 输出文件:gff 和 tbl
  2. 输出结果的统计(tbl文件):主要看interspersed repeats


    细菌基因组结构分析_第2张图片
    tbl

按四个大项:SINE LINE LTR DNA-elements右侧的数据进行统计。小项目比如ALUs,MIRs只有少数确定了的才写出来。
link

2.4.2.2 串联重复序列-TRF

link
可以在线提交 ;也可以本地跑
结果文件:dat,mask,html(结果多的话会分成两个)

  1. 重复序列个数 206
    tail -n +16 assembly.dat|wc -l
    txt.html写了:

This is table 1 of 2 ( 206 repeats found )

  1. total length:18453
    tail -n +16 assembly.fasta.2.7.7.80.10.50.500.dat | awk -F " " '{len=$2-$1+1;if (len < 0) len=-len;sum+=len}END{print sum}'
多个contig的情况

需要整合每个contig的数据


细菌基因组结构分析_第3张图片
image.png

细菌基因组结构分析_第4张图片

将每个contig的信息作为第一列

细菌基因组结构分析_第5张图片
image.png

2.4.3 统计各类非编码RNA

2.4.3.1 统计sRNA - Rfam

详细见此记录
可以得到tRNA,sRNA,rRNA的结果,但只看sRNA的。

2.4.3.2 tRNA-scan-SE

tRNAscan-SE -o tRNA.out -f rRNA.ss -m rRNA.stats ../assembly.fasta
得到三个文件:out ss stats

  1. stats文件有tRNA个数:76


    细菌基因组结构分析_第6张图片
    image.png
  2. ss计算总长度 :5690
    cat rRNA.ss |grep Length | awk '{split($2,x," ");num = x[2];len += num}END{print len}'

2.4.3.3 rRNA

线上分析只能分析1000,000
线下rRNAmmer

  1. 输出文件:rRNA.fasta rRNA.gff2 rRNA.hmmreport rRNA.xml
  2. 需要:gff fasta
  3. 根据fasta统计结果
    seqkit stat rRNA.fasta
    seqkit

2.4.4 基因岛:IslandPath-DIOMB

  1. 需要genbank或者embl格式。
  2. 线上link或者dimob.pl
  3. 线上islandViewer整合了islandpath-DIMOD和SIGI-HMM,IslandPick。

1. 分析方法一

  1. 目前手里有fasta和prodigal分析的gff文件。利用两者来转换得到gbk(genbank)文件的方法有两种:
    seqret help
    1)EMBOSS的seqretseqret -sequence assembly.fasta -feature -fformat gff -fopenfile prodigal/assembly.gff -osformat embl -auto
    2)python脚本,在ipython中。gff_to_genbank.py,用到BIO-seqIO和BCBio-Gff。
  2. Dimob.pl ../assembly.gbk islands.txt
    分析似乎有报错但还是正常结束了,输出文件只有四个结果GIs.txt(和online一致)
    将gbk文件在线上分析,下载整合结果online_all_out和选择Dimob的结果dimob_all_out下载。每个island含多个基因。(ok)

2. 分析方法二

  1. prodigal直接输出gbk文件。
  2. 线上和dimob.pl均报错: 找不到CDS。

3.结果提取

  1. cat online-Dimob_out.csv | awk '{print $1,$2}'|uniq
    取第一行,第二行(island start,end),去重复。

Island start Island end
223663 232240
436628 451563
3691538 3705640
5510000 5539637

  1. sed '1d' online-Dimob_out.csv | awk '{print $3}'|sort -u|awk '{len+=$1}END{print len}
    去除第一行,将第三行(length)取出,去重复。加和。
    67251
    3.保留online-Dimob_out.csv

2.4.5 转座子

TransposonPSI
./transposonPSI.pl fastaFile prot|nuc

  1. 运行报错

processing unitig_0|quiver.
Error, formatdb -i transposonPSI.354.mu01.tmp/unitig_0_quiver/unitig_0_quiver.seq -p F (ret -1) at ../../biosoft/TransposonPSI_08222010/transposonPSI.pl line 115, <$filehandle> line 1.
% ./transposonPSI.pl

问题最终是因为该程序用的是早期版本的blastall和blastpgp,而不是现在的blast+。

  1. 下载早期版本的blast legacy

  2. prot和nuc
    输入文件是核酸序列则选参数nuc
    输入文件是蛋白序列则选参数prot
    Two output files are created:
    fastaFile.topHits (for prot searches)
    fastaFile.allHits (for nuc searches)
    The .topHits file contains only the single best hit (by blast score).
    The .allHits file contains each match scoring above the 1e-5 E-value default.
    On 'nuc' searches, gff3 files are automatically generated for all hits and only the best hits per genomic locus.

  3. 运行要求
    -you must have NCBI blast installed, including blastall and blastpgp
    -bioPerl

  4. 相关信息
    info

  5. 输出文件:allhits 5个文件
    保留gff文件。
    gff统计总长度:1976

2.4.6 前噬菌体

PHAST
线上分析 phast_result.txt

PHASTER
online

两个都是提交后,运行的同时给出每个contig结果的链接。可以查看是否完全。全部完成后再下载。


细菌基因组结构分析_第7张图片
image.png
细菌基因组结构分析_第8张图片
image.png

下载是按contig分别存的文件夹。删除大量的注释信息,并去除行首的空格,分别按contig名字存入txt。


细菌基因组结构分析_第9张图片
image.png

2.4.7 CRISPR

link
2个,len 94 100
似乎无法下载result,打开无反应。
直接复制粘贴。

你可能感兴趣的:(细菌基因组结构分析)