字节跳动开源云原生机器学习平台 Klever

字节跳动开源云原生机器学习平台 Klever_第1张图片

SegmentFault 思否消息,字节跳动技术团队官方微信公众号发布消息称:「字节跳动基础架构团队基于火山引擎机器学习平台 Clever 及其丰富的行业落地经验,推出开源项目 Klever,以工程化的方式降低智能技术落地门槛,助力企业快速打造智能业务。」

项目地址 : https://github.com/kleveross


Klever 是一个支持 OCI(Open Container Initiative)标准存储训练模型、支持在线模型服务部署的云原生机器学习平台。算法科学家可以使用 Klever 进行模型管理模型解析模型转换模型服务,它已经解决了智能技术落地流程中的如下问题:

  • 模型的管理和分发
  • 模型解析和转换
  • 在线模型服务部署和管理

同时,基于字节跳动在机器学习和云原生开源社区的技术积累,Klever 提供强大、通用的开源技术标准,方便企业无缝迁移线上应用。

换句话说 Klever 的主要功能是解决 ,算法技术选型到模型最终上线过程中涉及到的大量工程化任务对接,从而解放算法工程师的「双手」,让他们可以聚焦在算法模型上,不必为大量繁琐的配置工作浪费时间。

现在,在字节跳动内部在基于各类实践完善云原生机器学习工程化平台的构建想法,丰富 Klever 的功能和内涵。在外部市场,火山引擎推出的商业化版机器学习平台 Clever 已在金融、制造、零售、能源等行业拥有成熟的解决方案。

Klever 的概述

系统架构

Klever 有四个自研发的组件,并依赖三个开源组件:

  • ormb:模型打包、解压、上传、下载工具
  • model-registry:模型仓库及模型服务 API 管理层
  • modeljob-operator:ModelJob controller,管理模型解析、模型转换任务
  • klever-web:前端组件
  • Istio:开源服务网格组件,模型服务通过 Istio 对外暴露模型服务地址,实现模型服务按内容分流和按比例分流
  • Harbor:模型底层存储组件,对模型配置和模型文件进行分层存储
  • Seldon Core:开源模型服务管理的 Seldon Deployment CRD 的 controller,通过 SeldonDeployment CR 实现模型服务的管理

字节跳动开源云原生机器学习平台 Klever_第2张图片

CI 标准的模型仓库管理,用户可以像使用 Docker 管理镜像一样管理机器学习模型。

其次,整个系统可通过容器化的方式部署在 Kubernetes 容器管理平台之上,用户无需管理模型解析、模型转换、模型服务实际运行在哪台物理机之上,系统会自动调度和运行资源充足的机器,并在模型服务负载较高时自动弹性伸缩。

最后,由于机器学习在不同训练过程中往往使用不同的数据集,会产生不同的模型,Klever 支持多种模型服务运行时,可将产生的模型用于提供生产环境可用的在线服务。

字节跳动开源云原生机器学习平台 Klever_第3张图片

字节跳动开源云原生机器学习平台 Klever_第4张图片

你可能感兴趣的:(字节跳动,开放源代码)