Netflix的目标是能预测顾客之所想观看的电影,也即推荐预测。为了做到这一点,每天会运行大量机器学习工作流,而为了支撑创建这么多机器学习工作流和有效利用资源,Netflix的工程师开发了Meson。
Meson是一个通用的工作流和调度框架,它可以跨异质性系统进行ML管道管理、执行工作流。Meson维护构建、训练和验证个性化算法(视频推荐等)的ML管道的生命周期。
Meson的主要目标之一是提高算法实验的速度、稳定性和可重复性,同时允许工程师使用他们自己选择的技术。
机器学习管道的强大面孔
Netflix当前几种生成机器学习管道的关键角色是Spark, MLlib, Python, R和Docker。
下面来了解下一个典型的视频推荐的机器学习管道,以及它们在Meson中是如何表示和处理的。
工作流涉及到如下几点:
上图展示了一个运行的工作流(前面描述的):
深度解密
接下来让我们揭开Meson神秘的面纱,去理解Meson是如何跨系统运行和生态系统不同组件间是怎样交互的。工作流在运行的过程中有各种资源要求和期望,Meson是利用Apache Mesos来实现的。Mesos提供CPU、内存、存储和其它计算资源的任务级别的隔离和抽象。Meson利用这点特性来实现对任务的高扩展性和容错性。
Meson调度器
Meson调度器被注册为一个Mesos框架,进行管理各种工作流的启动、流控制和运行时。Meson把实际的资源调度发到Mesos,包括各种内存和CPU要求。Meson依赖Mesos进行资源调度,但是Meson的调度器设计成可插入的,所以也可以选择其它框架来做资源调度。
每步一旦被调度,Meson调度器从Mesos申请到实际的资源,并把任务注册到Mesos master。
Meson Executor
Meson Executor是一个定制化的Mesos Executor。写入一个executor允许我们保持Meson间通讯通道,这对长连接任务(框架消息发送到Meson调度器)非常有用。Meson Executor也使得使用者可以传入定制化的丰富数据,而不仅仅传入一些退出代码或者状态信息。
一旦Mesos调度一个Meson任务,它会在slave端下载所有任务依赖后启动一个Meson executor。当核心任务被执行,executor会发送心跳、完成百分比、状态信息等。
Meson提供一个基于Scala的DSL,使得开发人员更容易的使用和创建定制化的工作流。下面展示前述工作流是如何使用DSL来定义:
val getUsers = Step("Get Users", ...) val wrangleData = Step("Wrangle Data", ...) ... val regionSplit = Step("For Each Region", ...) val regionJoin = Step("End For Each", ...) val regions = Seq("US", "Canada", "UK_Ireland", "LatAm", ...) val wf = start -> getUsers -> wrangleData ==> ( trainGlobalModel -> validateGlobalModel, regionSplit **(reg = regions) --< (trainRegModel, validateRegModel) >-- regionJoin ) >== selectModel -> validateModel -> end // If verbs are preferred over operators val wf = sequence(start, getUsers, wrangleData) parallel { sequence(trainGlobalModel, validateGlobalModel) sequence(regionSplit, forEach(reg = regions) sequence(trainRegModel, validateRegModel) forEach, regionJoin) } parallel sequence(selectModel, validateModel, end)
Meson架构扩展
Meson很容易扩展,增加定制化的步骤和扩展功能,比如,Spark Submit Step, Hive Query Step、Netflix的微服务或者其它像Cassandra的系统。
在Meson里,工作流的每步输出都作为“一等公民”对待,并存储为Artifacts。工作流会根据artifact id的存在与否来决定每步的重试是否可跳过。我们也可以通过Meson UI来对Artifacts进行定制的可视化。比如,存储特征重要性作为一个artifact,然后插入一个定制的可视化来比较过去N天特征的重要性。
Mesos Master / Slave
Meson的定制化Mesos executor是跨slave机器发布的。下载所有jar包和定制化的artifact,并发送消息/上下文/心跳到Meson调度器。从Meson提交的Spark作业共享相同的Mesos slave来运行Spark作业启动的任务。
原生Spark支持
支持原生Spark是Meson的一个重要要求。 在Meson里提交Spark作业后可以监控Spark作业过程,并能提供Spark步骤的重试或者杀死Spark作业。Meson也支持指定Spark版本。
Meson支持具有挑战性的Spark多租户环境。Meson能够高效的利用有限的资源,通过匹配潜在满足资源需求和服务等级协议(SLA)需要的Mesos slave。也可以对Mesos slave标签化分组。
ML结构
随着Meson的使用增加,大规模的并行问题(比如,参数扫描、复杂的bootstrap算法和交叉验证)也出现了。
Meson提供一个简单的‘for-loop’ 结构,它允许数据科学家和科研人员在成千上万的docker镜像中表达参数扫描算法。这个结构的使用者可以实时的监控成千的任务过程,通过UI找到失败的任务,打印日志到一个位置来简单的管理并行任务。
结论
Mesos在去年已经完成多ML管道的成百上千的并发作业。它能提高算法团队对推荐算法的效率。
Netflix后期计划在几个月后开源Meson。
英文原文:Meson: Workflow Orchestration for Netflix Recommendations
译者介绍:侠天,专注于大数据、机器学习和数学相关的内容,并有个人公众号:bigdata_ny分享相关技术文章。