【GATK加速】如何用天河2号超级计算机跑基因数据分析,详细使用步骤

    本文以广州超算为例,广州超算天河2A为目前全球最大的X86超算中心,X86架构为为目前科学计算和工程计算通用架构,但是随着ARM的崛起,可能会在未来天河3和天河4上有所反应。
    我们来看下广州超算的生信软件配备:

【GATK加速】如何用天河2号超级计算机跑基因数据分析,详细使用步骤_第1张图片

如此众多软件,可以通过Module的功能将这些工具的环境加载到自己账户下,进行提交计算。我们以一款商用NGS组装和比对工具Sentieon来演示整个过程:
1、拿到超算发的VPN账户,使用Hillstone VPN工具进行登录:
【GATK加速】如何用天河2号超级计算机跑基因数据分析,详细使用步骤_第2张图片

  1. 使用超算开通的账户登录Shell:
    【GATK加速】如何用天河2号超级计算机跑基因数据分析,详细使用步骤_第3张图片

  2. 天河上 module load sentieon 加载环境即可使用 sentieon 命令
    在天河上的运行方法,可参考例子/BIGDATA1/app/sentieon/quick_start ,该路径下 包括有 fastq 数据,参考基因 reference 及运行脚本,如下图,用户可将该例子拷贝到账户 存储下进行测试(cp -r /BIGDATA1/app/sentieon/quick_start ~)。
    【GATK加速】如何用天河2号超级计算机跑基因数据分析,详细使用步骤_第4张图片

  3. 运行脚本 sentieon_quickstart.sh 中给出了分析流程,用户可通过设定脚本中的 nt 值 (最大可设为 24)指定计算使用的线程数(第 8 行);可通过设定 DIR 路径指定样本的 路径(第 21 行);如需更换样本名及参考基因可设定脚本中的第 51~60 行,如下图:
    【GATK加速】如何用天河2号超级计算机跑基因数据分析,详细使用步骤_第5张图片
    5.然后执行命令:yhbatch -N 1 sentieon_quickstart.sh 提交作业到计算节点上运行。作 业开始运行后,会生成一个 quick_start_XXXX.log 文件,其中内容为作业运行的输出记 录,用户可通过查看 quick_start_XXXX.log 文件,获取作业的运行情况。
    【GATK加速】如何用天河2号超级计算机跑基因数据分析,详细使用步骤_第6张图片

也可根据实际计算需要编写执行脚本,然后使用 yhbatch 的方式提交到计算节 点上运行,yhbatch 的作业提交步骤可参考:
【GATK加速】如何用天河2号超级计算机跑基因数据分析,详细使用步骤_第7张图片

Sentieon软件特点
–该软件能替换常规的分析工具(GATK4/GATK 3.7/Picard 2.9.0/BWA 0.7.15-r1140), 结 果匹配的同时,还具有如下突出的特点:
–并行计算实现 10 – 50 倍的加速,天河二号上单节点测试,分析外显子组只需半小 时, 30X 全基因组 8 小时。
–在高深度测序区域没有 down-sampling(GATK 对深度大于 500 的区域会做 downsampling),这对于高深度测序尤其是低 allele frequency 的变异的重要性尤其突 出,一个典型的应用是 ctDNA 测序结果分析。
–没有 run-to-run difference:严谨的软件和算法工程实现,去除了原来 GATK 软件中 因为例如 thread-dependency,随机取样等原因导致的结果不可重复的问题 。
–大量 WGS 的 joint-calling:软件能实现大到 10 万个 WGS 数据的一次性 jointcalling, 无需中间步骤,此功能已被软件客户广泛使用。
–TNscope 获得 DREAM challenge 榜首的,自主设计的算法产品,除了能 call 结构变 异之外,对于 snv 和 indel,也给出了更高的准确度。

更多介绍及详情可参考Sentieon中文网站

你可能感兴趣的:(vim,编辑器,算法,ssh,大数据)