百度尤晓赫:EasyDL,加速企业AI转型

不到现场,照样看最干货的学术报告!

嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。


人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,百度全力支持,读芯术、paperweekly作为合作自媒体。承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。2020年4月26日,第14期“AI未来说·青年学术论坛”深度学习线上专场论坛以“线上平台直播+微信社群图文直播”形式行。百度尤晓赫来报告《EasyDL,加速企业AI转型》。

百度尤晓赫的报告视频

尤晓赫,浙江大学硕士,现任百度AI开发平台部高级研发工程师。负责EasyDL定制化模型训练和服务平台的技术研发,包括图像分类、物体检测、图像分割、多目标跟踪等。

 

报告内容:尤晓赫老师的分享内容主要分为三部分,第一部分是EasyDL平台的介绍,包括功能跟特性;第二部分是EasyDL的技术原理;第三部分是EasyDL的实际应用案例。

EasyDL,加速企业AI转型

百度尤晓赫:EasyDL,加速企业AI转型_第1张图片

百度尤晓赫:EasyDL,加速企业AI转型_第2张图片

第一部分是百度大脑EasyDL平台的介绍。各行业场景在AI落地应用当中往往需要定制开发的AI模型,从而使不同企业、不同业务在AI应用过程中都能有更好的效果。百度大脑早期在和波士顿咨询公司的联合调研中,发现约86%的企业需求都需要定制开发业务场景下的AI模型,例如,AI科研机构进行野生生物识别;物流领域进行包裹基于包装自动分拣等等。在定制开发AI模型的时候往往面临着一些困难与挑战,包括大量数据采集及标注成本较高、算法选型及反复调参需要专业算法工程师反复试验、以及在模型训练完毕后需要大量的工程开发来完成AI服务平稳集成在已有业务系统中。为了解决这些困难和挑战,百度团队开发了EasyDL定制化训练和服务平台,EasyDL平台为企业和开发者提供AI模型开发的全流程功能的支撑,并且面向不同企业用户提供多样化的产品形态,主要包括EasyDL经典版、EasyDL专业版和EasyDL零售版。EasyDL经典版是针对AI零算法基础或者追求高效率开发的企业用户和开发者的AI模型与训练平台。EasyDL专业版是针对AI初学者和AI专业工程师的企业用户和开发者推出的可编程AI开发平台。EasyDL零售版是专用于零售快消行业用户的训练商品检测模型的训练平台。

第二部分是EasyDL部分技术原理,尤晓赫老师主要讲解了数据服务、数据预处理和模型训练三块技术。尤晓赫老师首先介绍了EasyDL训练调度的AI WorkflowAI Workflow的基本功能是将架构完全不同的组织组织成工作流,从而使它们自动完成流水线任务。AI Workflow还需要对模型进行并发管理、优先级管理、任务重试等,此外还需要对底层资源进行调度和开发,从而保证流水线可以高效有序地完成。

百度尤晓赫:EasyDL,加速企业AI转型_第3张图片

接着尤晓赫老师介绍了数据服务里面一些功能,重点介绍智能标注功能。百度的智能标注可以让用户只需标注数据集30%左右的数据,即可训练出标注全部数据同等效果的模型。假设用一些训练集已经训练出了一个可以识别猫的模型,接着想加入新的图片到训练集中,如上图中左边显示的三张猫的图片,第一张图片和原有训练集图比较相似,它对于提升模型的泛化能力是没有太大的效果,第二和第三张图片对模型训练有更好的帮助和提升。智能标注原理是为用户挑选出像第二张图片、第三张图片这样的数据进行手动标注,然后算法自动标注第一张图片,从而节省标注成本。上图中右边显示的是百度智能标注的流程,首先需要用户先标注少量的数据,大约每个分类十张图片(建议总训练集在50张以上),接着系统会预先训练出一个模型,用这个模型对数据集中未标注的图片进行识别,然后挑选出其中的“难例”,这里的“难例”是指目前模型还不能正确分类的样本,它们对模型训练有很大的提升作用,系统接着会把“难例”反馈给用户进行人工标注,反复迭代多次之后可以得到效果比较好的标注模型。用户点击结束智能标注流程,然后选择一键标注,就可以让剩下的未标注图片进行自动标注。用智能标注挑选出来的数据训练的模型与全量数据训练出来的模型进行效果对比,智能标注的效果在ACC diff上与全量数据是相当的,但用户总共只标注了30%左右的数据。

百度尤晓赫:EasyDL,加速企业AI转型_第4张图片

尤晓赫老师在EasyDL数据预处理模块部分主要介绍了数据增强技术。举个例子,假设有一个数据集中含两种品牌的车,分别是品牌A和品牌B,数据集中品牌A的车头是朝向左边的,品牌B的车头都朝向右边,将这些数据输入到网络中进行训练,训练出了一个效果比较好的模型,模型的效果大概是识别准确率95%以上。用这个模型去测试车头朝向右边的品牌A的车,此时这个模型并不能很好识别它,这是很多机器学习算法工作过程中会遇到的问题,因为模型会寻找区分感观类别的最明显的特征,很显然A品牌与B品牌最明显特征就是车头的朝向,所以神经网络好坏有时候受给它的训练数据质量好坏的影响。减少这件事情的发生的方法是减少数据集中不相关的一些特征,对于上面描述的轿车分类模型,简单来讲可以通过增加两种品牌车不同的朝向来减少这种朝向所带给它的影响。但并非所有增强技术都对数据集是有意义的,用户在选择使用哪些增强策略时需要自己了解数据集的特点以及服务应用场景。以车的类型识别为例,如上图所示,它们是同一辆车的照片,但是类型识别可能永远不会用到以这些方向呈现的汽车。如果训练一个模型只是对正常的汽车进行分类,那么只有第二张图片才具有增强效果,而在我们该模型中一定不会出现180度旋转的车辆,这样的数据增强对模型是没有好的效果。但是如果训练的模型是用于处理车祸的模型,此时可能就需要判别车辆是否有翻车的情况,此时第三张图片中的180度旋转的数据增强对模型训练就是有帮衬意义的。基于上面两种情况,第三张图片的180度旋转增强有可能有意义,也有可能没有意义,所以在使用数据增强技术的时候,必须确保不增加不相关的数据。要想在有限的数据样本下尽可能提升模型泛化能力,除了对模型本身进行优化外还有一种方法就是数据增强。要想快速有效构建与数据集的特征特性相关的数据增强策略,就需要使用自动数据增强的功能,EasyDL后端就提供自动数据增强的功能,它结合用户数据集和预定义的一系列增强策略进行自动的搜索,然后产生最佳的增强参数运用到模型训练中,自动生成一些新的图片供给模型进行训练来提高模型的泛化效果。

在第二部分的最后,尤晓赫老师介绍了模型训练,模型训练过程中使用的技术和优化包括迁移学习、AutoDL、自动超参调优和分布式训练加速,训练过程是基于Paddle Paddle的框架之上的。迁移学习是事先用一个大的数据集训练一个预训练模型,然后接收用户自定义的小数据集对之前的预训练模型进行fine tuning,对其中的网络结构参数进行微调,从而使模型对用户的小数据集更加敏感达到更好的识别效果。AutoDL所做的事情就是用深度学习来设计深度学习。具体来说,随着硬件应用场景和模块多样化,使用到的模型结构也需要不断进化。模型训练另一个优化机制是自动超参调优,人工调参需要设定一组超参数去进行一组实验,然后根据结果再来调整参数,这个过程是非常耗时的,因此需要转向自动调参。自动调参调优涉及超参推荐策略,即根据上一组实验的反馈,推荐出下一组实验的超参值,从而让任务自动化。此外自动超参调优还涉及搜索方式的优化,普通的搜索方式是并行独立搜索,即并行进行多组实验,全部进行完后的数据结果显示哪组结果好就认为哪组参数是最优的;另一种搜索方式叫PBT(基于群体的训练,Population Based Training),它也是并行搜索但不独立。举个例子说明PBT,假设有两个并发的实验分别在worker0worker1上进行,初始的时候两者的超参数和模型权重都不同,但经过一定模式训练之后对两个worker进行效果对比,发现worker0的效果会比worker1效果要好,这时候PBT就会把worker0的权重和超参数复制到worker1worker0本身训练是不受影响的,而对于worker1来说,它需要再做一步操作就是对复制过来的worker0的超参数加入一些扰动,使它与worker0的参数有所不同然后再进行训练。这样相当于在训练过程当中,把worker1的原始超参数给过滤掉了,并在好的超参基础上进行进一步的实验,从而加快搜索效率。

尤晓赫老师接着介绍了在训练效率上优化的加速方法,即DGC深度梯度压缩机制。DGC是由清华大学和斯坦福大学共同发表的论文提出的,因为观测到在分布式训练过程中,各个workerPS,或者各个worker之间都需要进行大量的梯度数据同步,而数据同步会花费大量带宽,对现代环境要求比较高,同时耗时也高,尤其随着训练节点增多,通信开销也将成倍增长。基于此,DGC挑选出实际有效的梯度数据并进行压缩,从而大大减少分布式训练的途径开销。在论文中,DGC保证在梯度未损失情况下压缩比例达到270600倍。Paddle Paddle1.6.2的版本中开始集成了DGC的一些优化机制,百度将它用到了ACDL专业版中。通过对比实验得到在V100 GPU上加速是比较明显的,其中22卡单batch加速达到了9倍,24卡单batch加速达到了7.4倍。

最后一部分是EasyDL的实际应用案例,尤晓赫老师简单举了四个案例。第一个是医疗方面的,广州凯惠公司使用EasyDL图像分类建立了基于胸部X线影像的肺癌、肺炎和正常肺部等多种情况的诊断辨别模型,准确率达到90%以上,辅助医生诊断的过程中有效提高医生诊断效率。第二个是制造业方面的,柳州源创公司使用了EasyDL物体检测模型,训练喷油嘴瑕疵检测模型,可节约人工检测成本约60/年,检验效率提升约30%第三个是零售行业方面的,自20181月起,惠合科技公司使用EasyDL训练商品检测模型,抽取3000家零售门店接入陈列审核,品牌客户在成本和效率上有了显著的改变,人员效率提升超过30%还有在媒体上一些应用,百度作文小程序通过EasyDL文件分类训练识别出作文中运用了比喻、拟人等修辞的句子,并将修辞句子的数量作为一个参数来对文章质量进行打分,将文章质量高的结果排在前面。

EasyDL是百度大脑面向企业开发者推出的AI开发平台,提供智能标注、模型训练、服务部署等全流程功能,内置丰富的预训练模型,支持公有云/私有化/设备端等灵活部署方式,已在工业、零售、制造、医疗等领域落地应用。

AI未来说*青年学术论坛

第一期 数据挖掘专场

1. 李国杰院士:理性认识人工智能的“头雁”作用

2. 百度熊辉教授:大数据智能化人才管理

3. 清华唐杰教授:网络表示学习理论及应用

4. 瑞莱智慧刘强博士:深度学习时代的个性化推荐

5. 清华柴成亮博士:基于人机协作的数据管理

第二期 自然语言处理专场

1. 中科院张家俊:面向自然语言生成的同步双向推断模型

2. 北邮李蕾:关于自动文本摘要的分析与讨论

3. 百度孙珂:对话技术的产业化应用与问题探讨

4. 阿里谭继伟:基于序列到序列模型的文本摘要及淘宝的实践

5. 哈工大刘一佳:通过句法分析看上下文相关词向量

第三期 计算机视觉专场

1. 北大彭宇新:跨媒体智能分析与应用

2. 清华鲁继文:深度强化学习与视觉内容理解

3. 百度李颖超:百度增强现实技术及应⽤

4. 中科院张士峰:基于深度学习的通用物体检测算法对比探索

5. 港中文李弘扬 :物体检测最新进展

第四期 语音技术专场

1. 中科院陶建华:语音技术现状与未来

2. 清华大学吴及:音频信号的深度学习处理方法

3. 小米王育军:小爱背后的小米语音技术

4. 百度康永国:AI 时代的百度语音技术

5. 中科院刘斌:基于联合对抗增强训练的鲁棒性端到端语音识别

第五期 量子计算专场

1. 清华大学翟荟:Discovering Quantum Mechanics with Machine Learning

2. 南方科技大学鲁大为:量子计算与人工智能的碰撞

3. 荷兰国家数学和计算机科学中心(CWI)李绎楠:大数据时代下的量子计算

4. 苏黎世联邦理工学院(ETH)杨宇翔:量子精密测量

5. 百度段润尧:量子架构——机遇与挑战

第六期 机器学习专场

1. 中科院张文生:健康医疗大数据时代的认知计算

2. 中科院庄福振:基于知识共享的机器学习算法研究及应用

3. 百度胡晓光:飞桨(PaddlePaddle)核心技术与应用实践

4. 清华大学王奕森:Adversarial Machine Learning: Attack and Defence

5. 南京大学赵申宜:SCOPE - Scalable Composite Optimization for Learning

第七期 自动驾驶专场

1. 北京大学查红彬:基于数据流处理的SLAM技术

2. 清华大学邓志东:自动驾驶的“感”与“知” - 挑战与机遇

3. 百度朱帆:开放时代的自动驾驶 - 百度Apollo计划

4. 北理宋文杰:时空域下智能车辆未知区域自主导航技术

第八期 深度学习专场

1. 中科院文新:深度学习入门基础与学习资源

2. 中科院陈智能:计算机视觉经典——深度学习与目标检测

3. 中科院付鹏:深度学习与机器阅读

第九期 个性化内容推荐专场

1. 人民大学赵鑫:基于知识与推理的序列化推荐技术研究

2. 中科院赵军:知识图谱关键技术及其在推荐系统中的应用

第十期 视频理解与推荐专场

1. 北京大学袁晓如:智能数据可视分析

第十一期 信息检索与知识图谱专场

1. 北京邮电大学邵蓥侠:知识图谱高效嵌入方法

2. 人民大学徐君:智能搜索中的排序-突破概率排序准则

3. 百度周景博:POI知识图谱的构建及应用

4. 百度宋勋超:百度大规模知识图谱构建及智能应用

5. 百度冯知凡:基于知识图谱的多模认知技术及智能应用

第十二期 年度特别专场

1. 复旦大学桂韬:当NLP邂逅Social Media--构建计算机与网络语言的桥梁

2. 清华大学董胤蓬:Adversarial Robustness of Deep Learning

3. UIUC罗宇男:AI-assisted Scientific Discovery

4. 斯坦福应智韬:Graph Neural Network Applications

第十三期 AI助力疫情攻关线上专场

1. 清华大学吴及:信息技术助力新冠防控

2. 北京大学王亚沙:新冠肺炎传播预测模型

3. 百度黄际洲:时空大数据与AI助力抗击疫情——百度地图的实践与思考

4. 百度张传明:疫情下的“活”导航是如何炼成的


留言 点赞 发个朋友圈

我们一起分享AI学习与发展的干货

推荐文章阅读

ACL2018论文集50篇解读

EMNLP2017论文集28篇论文解读

2018年AI三大顶会中国学术成果全链接

ACL2017 论文集:34篇解读干货全在这里

10篇AAAI2017经典论文回顾

长按识别二维码可添加关注

读芯君爱你

你可能感兴趣的:(百度尤晓赫:EasyDL,加速企业AI转型)