数据湖实操讲解【 AI 训练加速】第十八讲:Fluid + JindoFS 对海量小文件的训练加速...

数据湖技术圈

本期导读  :【 AI 训练加速】第十八讲

主题:Fluid + JindoFS 对海量小文件的训练加速

讲师:辰山,阿里巴巴计算平台事业部 EMR 技术专家

内容框架:

  • 海量小文件难题

  • Fluid JindoRuntime 小文件优化

  • 使用 JindoRuntime 加速小文件 

  • 演示

直播回看链接:(18讲)

https://developer.aliyun.com/live/247034

1

海量小文件难题   

     

AI 训练场景经常需要处理海量小文件

现状:

   

  • RPC 频繁,NameNode 压力大          

  • 延时高

     

  • 延时高

  • 高频访问稳定性

对缓存系统的诉求:

  • 低延时,高 QPS

  • 稳定可靠的访问性能

  • 能够支撑海量文件数


2

Fluid JindoRuntime 小文件优化  

JindoRuntime:

数据湖实操讲解【 AI 训练加速】第十八讲:Fluid + JindoFS 对海量小文件的训练加速..._第1张图片

高效的元数据缓存:

  • 基于 KV-Store 的元数据组织形式,可支持海量文件数,并且不会占用过多内存资源

  • 高效的元数据查询,并且通过热点缓存进一步加速点查性能

  • 元数据服务(Namespace Service)能够提供低延时、高 QPS 的访问性能

        

数据湖实操讲解【 AI 训练加速】第十八讲:Fluid + JindoFS 对海量小文件的训练加速..._第2张图片

       

数据湖实操讲解【 AI 训练加速】第十八讲:Fluid + JindoFS 对海量小文件的训练加速..._第3张图片

  • Fuse 客户端缓存

高效的数据组织及索引:

  • 针对小文件数据块实现高性能磁盘存储及索引机制

  • 一致性哈希实现数据块的分布式缓存索引,缩短小文件读取的链路

       数据湖实操讲解【 AI 训练加速】第十八讲:Fluid + JindoFS 对海量小文件的训练加速..._第4张图片

3

使用 JindoRuntime 加速小文件  

JindoRuntime 加速小文件基本步骤

  • 下载并安装 Fluid:
    https://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/jindo_fluid/jindo_fluid_jindofs_hdfs_introduce.md

  • 创建 Dataset

  • 创建 JindoRuntime

  • 缓存预加载 DataLoad

  • 执行 AI 训练作业

       数据湖实操讲解【 AI 训练加速】第十八讲:Fluid + JindoFS 对海量小文件的训练加速..._第5张图片

小文件加速效果

参考文章:
《速度提升18倍!微博海量深度学习模型训练效率跃升的秘密》
  https://www.infoq.cn/article/FClx4Cco6b1jomi6UZSy

数据湖实操讲解【 AI 训练加速】第十八讲:Fluid + JindoFS 对海量小文件的训练加速..._第6张图片

 相比于 HDFS 接口

  • 1机 4 卡可以得到5 倍的加速

  • 2机 8 卡可以得到9 倍的加速

  • 3机 12 卡可以得到18 倍的加速

数据湖实操讲解【 AI 训练加速】第十八讲:Fluid + JindoFS 对海量小文件的训练加速..._第7张图片

  • 训练总时长由原来的389小时(16 天)缩短到了16 小时

4

演示   

Fluid JindoRuntime 使用

环境要求:

  • Kubernetes version > 1.14, 支持 CSI

  • Golang 1.12+

  • Helm 3

  • Fluid 0.6.0

参考文档
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md

ISSUEhttps://github.com/aliyun/alibabacloud-jindofs/issues

数据湖实操讲解【 AI 训练加速】第十八讲:Fluid + JindoFS 对海量小文件的训练加速..._第8张图片

演示:对 HDFS 上海量小文件进行访问加速

参考文档:
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/common/jindo_fluid_quickStart.md

数据湖实操讲解【 AI 训练加速】第十八讲:Fluid + JindoFS 对海量小文件的训练加速..._第9张图片

数据湖实操讲解【 AI 训练加速】第十八讲:Fluid + JindoFS 对海量小文件的训练加速..._第10张图片


相关文档链接:

  • Fluid  JindoRuntime 使用文档:

    https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md

  • ImageNet 数据集加速测试:

    https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_resnet50_example.md

  • InsightFace 数据集加速测试:

    https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_cache_performance_report.md

  

点击文章下方阅读原文,直接观看第18讲视频回放,获取讲师实例讲解~


Github链接:

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!

数据湖实操讲解【 AI 训练加速】第十八讲:Fluid + JindoFS 对海量小文件的训练加速..._第11张图片

你可能感兴趣的:(html,大数据,python,tensorflow,github)