数据湖实操讲解【 AI 训练加速】第十七讲:Fluid + JindoFS 对 HDFS 上的数据进行训练加速...

数据湖技术圈

本期导读  :【 AI 训练加速】第十七讲

主题:Fluid + JindoFS 对 HDFS 上的数据进行训练加速

讲师:辰山,阿里巴巴计算平台事业部 EMR 技术专家

内容框架:

  • 什么是 Fluid + JindoFS (JindoRuntime)

  • 为什么使用 JindoRuntime 加速 HDFS 

  • 如何使用 JindoRuntime 

  • 演示

直播回看链接:(17讲)

https://developer.aliyun.com/live/247034

1

什么是 Fluid + JindoFS  

Fluid 基本介绍:

      CNCF Fluid 是一个开源的 Kubernetes 原生的分布式数据集编排和加速引擎,主要服务于云原生场景下的数据密集型应用,例如大数据应用、AI 应用等。

参考网址:

https://github.com/fluid-cloudnative/fluid

数据湖实操讲解【 AI 训练加速】第十七讲:Fluid + JindoFS 对 HDFS 上的数据进行训练加速..._第1张图片

Fluid 功能概念:

   Fluid 不是全存储加速和管理,而是应用使用的数据集加速和管理

  • Dataset: 数据集是逻辑上相关的一组数据的集合,一致的文件特性,会被同一运算引擎使用。

  • Runtime: 实现数据集安全性,版本管理和数据加速等能力的执行引擎的接口,定义了一系列生命周期的方法。

  • JindoRuntime: 内核基于 JindoFS ,是支撑 Dataset 数据管理和缓存的执行引擎高效实现。

Fluid JindoRuntime:

 背景:云原生环境中使用 JindoFS 缓存加速引擎并进行缓存数据集编排和应用编排

数据湖实操讲解【 AI 训练加速】第十七讲:Fluid + JindoFS 对 HDFS 上的数据进行训练加速..._第2张图片

2

为什么使用 JindoRuntime 加速 HDFS  

HDFS 存储与 AI 训练:

数据湖实操讲解【 AI 训练加速】第十七讲:Fluid + JindoFS 对 HDFS 上的数据进行训练加速..._第3张图片

HDFS 用于 AI 训练场景面临的问题:

  • 计算存储分离,数据读取性能较差,无法满足 AI 训练作业的 IO 性能

  • 很多深度学习训练框架并不适配原生 HDFS 接口,大大增加了开发难度

  • HDFS 集群压力大,甚至存在稳定性问题

Fluid JindoRuntime 实现 HDFS 访问加速:

数据湖实操讲解【 AI 训练加速】第十七讲:Fluid + JindoFS 对 HDFS 上的数据进行训练加速..._第4张图片

JindoRuntime 功能支持:

  • Master 支持 Raft 高可用

  • 支持数据亲和性调度(nodeAffinity),选择合适的缓存节点

  • 支持数据预加载 DataLoad CRD

  • 支持指定 Fuse 用户访问 HDFS

参考网址:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md

3

如何使用 JindoRuntime  

JindoRuntime 加速 HDFS 基本步骤:

  • 下载并安装 Fluid:
    https://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/jindo_fluid/jindo_fluid_jindofs_hdfs_introduce.md

  • 创建 Dataset

  • 创建 JindoRuntime

  • 缓存预加载 DataLoad

  • 执行 AI 训练作业

4

演示   

Fluid JindoRuntime 使用

环境要求:

  • Kubernetes version > 1.14, 支持 CSI

  • Golang 1.12+

  • Helm 3

  • Fluid 0.6.0

参考文档
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md

ISSUEhttps://github.com/aliyun/alibabacloud-jindofs/issues

数据湖实操讲解【 AI 训练加速】第十七讲:Fluid + JindoFS 对 HDFS 上的数据进行训练加速..._第5张图片

演示:对 HDFS 上数据进行加速访问

参考文档:
https://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/jindo_fluid/jindo_fluid_jindofs_hdfs_introduce.md

数据湖实操讲解【 AI 训练加速】第十七讲:Fluid + JindoFS 对 HDFS 上的数据进行训练加速..._第6张图片


相关文档链接:

  • Fluid  JindoRuntime 使用文档:

    https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md

  • 拥抱云原生,Fluid结合JindoFS:加速 HDFS使用指南:

    https://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/jindo_fluid/jindo_fluid_jindofs_hdfs_introduce.md

  • ImageNet 数据集加速测试:

    https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_resnet50_example.md

  • InsightFace 数据集加速测试:

    https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_cache_performance_report.md

  

点击文章下方阅读原文,直接观看第17讲视频回放,获取讲师实例讲解~


Github链接:

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!

数据湖实操讲解【 AI 训练加速】第十七讲:Fluid + JindoFS 对 HDFS 上的数据进行训练加速..._第7张图片

你可能感兴趣的:(编程语言,kubernetes,github,html,大数据)