生信在线讲座:Sentieon--基于机器学习的多组学分析

在二月份 DahShu 免费线上讲座中,我们将聚焦生物信息基因测序领域, 邀请了来自硅谷的明星创业公司 – 基因测序数据软件 Sentieon 高级数据科学家胡晋南博士 (Dr. Frank Hu) 同我们分享 Sentieon 如何利用机器学习算法、软件和系统优化,使公司在创业初期就跻身成为业界第一快速、准确的商业机密。


讲座嘉宾

  • Dr Frank Hu,胡晋南博士,Sentieon Senior Bioinformatics Scientist
    胡博士目前担任 Sentieon 的高级生物信息学科学家,负责产品周期管理并推动 Sentieon 在亚洲市场(尤其是中国)的业务成功。胡博士于2008年获得南京大学的学士学位,2013年获得俄亥俄州立大学的基因组学博士学位,并在 Joint Genome Institute, Lawrence Berkeley National Laboratory 从事计算生物学的博后工作。 胡博士在 NGS 数据分析方面拥有丰富的经验,以第一作者身份在同行评审期刊上发表了多篇论文。 本期 DahShu 讲座,胡博士将同我们分享 Sentieon 是如何利用机器学习迅速成为 NGS 测序数据软件的世界冠军。

讲座时间
2021年2月19日 星期五
09:00 – 10:00AM (PDT), 12:00 – 1:00PM (EST)

报名链接
点击链接报名:https://dahshu.wildapricot.org/event-4166861
点击链接申请Sentieon软件:https://www.insvast.com/sentieon


作为一名生信领域的研究人员,小编在进行二代测序数据分析时(如SNP/ Indel 突变检测),最常用的就是用 Broad Institue 开发的 BWA+GATK 流程对原始测序数据进行处理。而经过十多年大量样本的反复验证,BWA+GATK 也得到了学术界和业界的广泛认可,是公认的测序数据原始处理的金标准。
但是,BWA + GATK 流程也有几个显著的问题:

  • 高计算成本:流程时间长,资源利用率低 。
  • 测序深度区域的随机降采样降低了突变检测的灵敏度和准确度。
    为了从根源上解决测序数据分析工具的短板,Sentieon 创始人叶军团队提出了三个层次来提升 BWA+GATK:
  1. 数学模型;
  2. 计算机的算法,即如何把一整套数学公式在计算机上用高效的方法去实现;
  3. 用程序也就是计算机语言分解落实到每个细节。
    生信在线讲座:Sentieon--基于机器学习的多组学分析_第1张图片
    首先,Sentieon 基于 BWA+GATK,并不断完善其数学模型,将原本不能提取的基因组信息完整。同时,优化的算法让 Sentieon 拥有极速周转时间和超低成本: 对于一个30X WGS全基因组测序流程,在分布式计算处理中流程小于30分钟,在单个服务器中流程小于2小时 ---- 大大减少了运算时间和成本,同时结果与 BWA/GATK保持近乎100%一致。
    此外,Sentieon还开发了在通用CPU上运行的快速、准确的辅助分析流程,且十分容易部署在本地或者云端,涵盖了 BCL conversion, alignment, germline and somatic variant calling。Sentieon 还开发了具有机器学习功能的 DNAscope 和TNscope 流程,以实现一流的变体调用准确性,并且可以轻松地适应许多测序平台,包括Illumina,MGI 和 PacBio。

自从 Sentieon 2015年正式推出软件产品以来,多次赢得国际生信大赛的第一名或并列第一名:
· 2016 PrecisionFDA Truth Challenge
· 2016 PrecisionFDA Consistency Challenge
· 2016 ICGC-TCGA-DREAM Somatic Mutation Calling Challenge
· 2017 PrecisionFDA Hidden Treasures - Warm Up
· 2018 PrecisionFDA NCI-CPTAC Multi-omics Enabled Sample Mislabeling Correction Challenge, both subchallenge1 and subchallenge2
· 2019 Bio-IT Innovative Practices Awards
· 2019-2020 Sentieon 在 precisionFDA多组学数据挑战赛夺冠

Sentieon 优异的表现也来源于其不断将机器学习和AI 应用到多组学分析中,以实现softPharma 更广阔的视野。与传统的“大数据”机器学习问题不同,多组学的主要挑战在于其小样本、高维度的特质,即每个样本都有深层数据。自2018年以来,Sentieon 参加并赢得了 PrecisionFDA 的三项多组学 AI 建模挑战,展示了其解决这些问题的能力

生信在线讲座:Sentieon--基于机器学习的多组学分析_第2张图片

你可能感兴趣的:(大数据,算法,概率论,机器学习)