用BWA-MEM比对ChIP-seq数据到基因组

20200315

  • 诺禾致源给出的测序结果有两个,一个是测序结果原始文件.raw.fq.gz文件,一个是质控过滤raw reads得到的clean reads的.clean.fq.gz文件。如果质疑公司的质控,可以自己尝试质控。
  • 下载安装bwa,注意配置 .conda 文件
$ conda create -n bwa python=3.7
$ conda activate bwa
$ conda install bwa
  • 建立基因组索引 → 比对到基因组
# bwa建立索引
bwa index csi.chromosome.fa
# bwa-mem比对到基因组上
bwa mem csi.chromosome.fa /root/workstation/chipcen3/basefile/Cen_BRRC190000161-1A/Cen_BRRC190000161-1A_1.clean.fq /root/workstation/chipcen3/basefile/Cen_BRRC190000161-1A/Cen_BRRC190000161-1A_2.clean.fq > cenh3.sam
bwa mem csi.chromosome.fa /root/workstation/chipcen3/basefile/input-1_BRRC190000175-1A/input-1_BRRC190000175-1A_1.clean.fq /root/workstation/chipcen3/basefile/input-1_BRRC190000175-1A/input-1_BRRC190000175-1A_2.clean.fq > input.sam
  • 经历与教训
    ① 测序结果文件很大,40G根本不够。运行前可用df -h命令查看储存余量;
    ② 程序挂起,登出。再登入,可用top命令查看程序运行;
    ③ 用1个CPU,将12G的测序结果文件比对到318M的基因组文件,产生14G的结果文件,耗时4.87h;
    ④ bwa可一次将2个测序结果文件比对到基因组上;
    ⑤ 阿里云学生服务器仅40G储存,2GB内存,1CPU,真的是很小很小,不适合用于生信分析。集群式的服务器更适合。

20200316

  • 于是乎在泽哥的帮助下连上了学校服务器,那叫个爽呢!
  • 经历与教训
    ① 学校LSF集群上提交作业时直接用bsub < xxx.lsf 提交,不要用nohup挂起命令,这样会使作业进入排队。直接提交的作业退出登录后也在继续运行;
    作业线程数≤3 最好(申请核数应该与程序跑的线程数相等),且不要用-m指定运行节点,这样不用排队,直接安排到服务器上可以运行的节点上运行;
    ③ 提交作业时 #BSUB -p normal会报错,删掉,不写了;
    ④ 有时候,某一个操作后,服务器输入任何命令都会报错,怪我参数太长 —— 目前还没有很好的解决办法,只有登出服务器,等一会儿再重新登入,好了。无奈... ...
    ⑤ 此外,学了一项新技能:用bypy工具将服务器上的数据直接上传到百度网盘。
  • 参考文章
    比对工具 BWA
    序列比对BWA(Burrows-Wheeler Aligner)
    BWA-MEM算法结构分析
    BWA MEM算法
    BWA使用详解
    bwa 软件用法简介

你可能感兴趣的:(用BWA-MEM比对ChIP-seq数据到基因组)