2020-05-26 PASA 基因组结构注释(debugging)

PASA 安装perl 模块GD DBD::myqcl 

1.利用cpan or cpanm安装总提示报错,未解决

再次利用yum install ‘perl(GD)' 安装成功

2. 下载UniVec数据后,formatdb命令格式化数据,formatdb命令找不到

NCBI ftp下载了老版 blast 寻到了formatdb,折腾了一天时间,发现它生成格式与makeblastdb一样

3.Trinity

合并多个bam文件

samtools merge -@ 16 zs.sort.merged.bam -b sort.merge.list (待合并文件列表)

Trinity --genome_guided_bam ../abhv-bam/zs.sort.merged.bam --genome_guided_max_intron 10000  

Trinity拼接利用基因组guide的模式,使用sort -n合并的bam文件报错。

Error,read  entries are out of order

重新对bam文件按照read mapping所在位置进行排序 ,重新排序后可行

4.seqclean对拼接后序列进行修剪

直接上报错,sh:/seqclean/bin/psx: /lib/ld-linux.so.2: bad ELF interpreter:No such file or directory

或者报错:

-= Rebuilding sb-Trinity-GG.fasta cdb index =-

Error at cdbfasta workshop/sb-Trinity-GG.fasta -o sb-Trinity-GG.fasta.cidx

原因:现用linux为64位系统,执行32为程序出现/lib/ld-linux.so.2: bad ELF interpreter:No such file or directory 

安装下glic即可解决  sudo yum install glibc.i686

seqclean ./workshop/sb-Trinity-GG.fasta -v /store_data/xls/biosoft/UniVec/UniVec

5. PASA的配置 conf.txt (源于pasa.CONFIG.template)

MYSQL_RW_USER=xls
MYSQL_RW_PASSWORD=123456 

MYSQL_RO_USER=pasa

MYSQL_RO_PASSWORD=123456

MYSQLSERVER=localhost

PASA_ADMIN_EMAIL=邮箱

BASE_PASA_URL=http://pasa-dev.tigr.org/cgi-bin

至此发现,当前版本为pasa-v2.2.0,很遗憾与构建好的mysql 8.0不兼容。

重新下载新目前最新版pasa-v2.4.1 提示mysql schema更新可兼容最新版mysql

6 conda环境影响pasa安装运行,需要将环境变量中conda相关语句注释掉,包含用户及root账户中的bashrc文件。

开始conda直接安装了gmap blat比对软件,后续运行过程中报错,卸载后手动安装,可行。

7. pasa运行参数中需要提供转录组拼接后fasta fasta.clean文件,并且fasta.cln文件需要与上述两文件出现在同一个文件夹中,不然报错。(原因不详,exploring)

生成mysql数据库和表

./scripts/create_mysql_cdnaassembly_db.dbi -r -c alignAssembly.config -S ./schema/cdna_alignment_mysqlschema

运行PASA主程序将转录本序列比对到基因组上


../Launch_PASA_pipeline.pl -c alignAssembly.config -R -g OsHV-1.CDSB2012.fasta -t sb-Trinity-GG.fasta.clean -T -u sb-Trinity-GG.fasta --ALIGNERS gmap,blat --CPU 16 --stringent_alignment_overlap 80 --MAX_INTRON_LENGTH 20000 --TRANSDECODER

生成fasta.transdecoder.genome.gff3文件

../../scripts/pasa_asmbls_to_training_set.dbi --pasa_transcripts_fasta pasa_sboshv.assemblies.fasta --pasa_transcripts_gff3 pasa_sboshv.pasa_assemblies.gff3

(参考  http://www.chenlianfu.com/?p=1181    https://www.cnblogs.com/zhanmaomao/p/12456073.html   )

你可能感兴趣的:(2020-05-26 PASA 基因组结构注释(debugging))