python开源工作流引擎_大数据工作流开源系统一览表

Arvados http://arvados.org

产品级的数据科学平台,能处理大数据集,由两个主要系统组成以及涵盖很多相关服务与组件,包括API SDK和虚拟化工具。

Taverna http://www.taverna.org.uk/

一个与具体领域无关的独立的工作流管理系统,包括一系列工具用于设计和科学工作流程的实现。

SHIWA http://www.erflow.eu/

跨国的欧洲工作流用户社区推出的用于科学研究的工作流。

Oozie https://oozie.apache.org/

是一个用于管理Apache Hadoop job的工作流调度系统。

Agave http://agaveapi.co/live-docs/

一个Science-as-a-Service API平台

Drake https://github.com/Factual/drake

易于使用可扩展 基于文本的数据工作流工具,组织围绕数据的命令行执行,类似GNU的 Make

BPipe http://bpipe.org

用于生物学领域的任务运行,用以替代各种脚本任务。

Ruffus https://code.google.com/p/ruffus/

Python可计算的Pipeline,用于生物信息学在并行流程中管理依赖。

NextFlow http://nextflow.io

借鉴Unix管道模型,提供一个流畅的DSL,允许你处理复杂的流交互。

Luigi http://github.com/spotify/luigi

Luigi是一个Python (2.7, 3.3, 3.4, 3.5)库包,帮助你建立复杂的批工作的管道模型pipeline,它处理依赖问题,工作流管理,虚拟化,处理失败,集成命令行等很多功能。

seqware https://seqware.github.io/ https://seqware.github.io/docs/6-pipeline/

seqware工作流是使用java编写,在Oozie工作流引擎中执行,运行在Hadoop或SGE集群,使用Zip64文件分组工作流定义文件 包括取样设置和包含数据依赖性的单个文件。是下代基于网格和云端的数据序列分析。

Pegasus http://pegasus.isi.edu/

工作流管理系统,自动恢复和调式科学计算。

Cosmos/ Cosmos2: https://github.com/LPM-HMS/COSMOS2http://cosmos.hms.harvard.edu/COSMOS2/

主流的并行工作流Python库包,生物科学领域下一代序列流管道模型,提供命令行工具自动利用计算集群能力,提供Web仪表板监视,调试,分析你的job。

Pinball https://github.com/pinterest/pinball

Pinball是个可伸缩扩展的工作流管理器,基于组件,状态以可读格式保存,可靠,管理友好。

bcbio https://bcbio-nextgen.readthedocs.org/en/latest/

提供高吞吐量数据序列流分析,只要编写高层配置指定输入和分析参数,输入会驱动并行管道模型处理被分发的执行任务,幂等处理可重新启动,透明的事务步骤。

Chronos https://github.com/mesos/chronos

Chronos是一个linux cron的替代,它是分布式的失败容错的调度器,运行在 Apache Mesos之上,支持定制优化Mesos执行器作为默认的命令执行器。

Azkaban https://azkaban.github.io/

是一个批工作流任务调度器,由LinkedIn创建,用于运行Hadoop job,解决了job的依赖顺序,提供易于使用的Web用户界面维护和跟踪你的处理流程。

Mistral https://github.com/arteria-project

从主流并行序列流中处理序列数据,提供组件实现自动分析和数据管理任务作为下一代序列流中心,平衡微服务架构,使用StackStorm创建一个事件驱动的自动化系统。灵活可伸缩。

End of Day https://github.com/joestubbs/endofday

docker 容器的可执行工作流,可以使用yaml文件定义。

BigDataScript http://pcingola.github.io/BigDataScript/

在笔记本上开发的数据分析管道模型可以运行在大数据几千节点集群上。

Omics Pipe:

http://sulab.scripps.edu/omicspipe/

开源模块计算平台,自动化multi-omics数据分析管道模型的最佳实践。

Ensembl Hive https://github.com/Ensembl/ensembl-hive

eHive是一个在分布式计算资源运行计算管道模型的系统。

Chipster http://chipster.csc.fi/

新一代测序(NGS),提供超过350分析工具

Airavata http://airavata.apache.org/

基于集群,云端和网格之上组合,管理,执行和监视大规模可伸缩应用和工作流引擎

Clusterflow https://github.com/ewels/clusterflow

一个管道模型工具,在集群环境自动化和标准化生物分析。

CloudSlang http://www.cloudslang.io/

管理协调Docker和CoreOS应用,快速化自动DevOps

omictools http://omictools.com/

提供11573 种分析工具

YAWLhttp://www.yawlfoundation.org/

一个BPM/工作流系统,基于简明和强大的模型语言,处理复杂数据转换,完全集成各种Web服务。

YesWorkflow http://yesworkflow.org

将工作流模型带到脚本语言中

Fireworks. https://pythonhosted.org/FireWorks/

是一个定义 管理和执行工作流的框架,能使用 Python, JSON, 或 YAML定义复杂工作流,存储在MongoDB中,能够通过Web界面监视,工作流执行能自动跨无数个计算资源执行。

你可能感兴趣的:(python开源工作流引擎)