WAIC|高精准、低成本,九章云极DataCanvas突破AutoML难题

2021 年世界人工智能大会(WAIC)于 7 月 8 日 在上海世博中心拉开帷幕。九章云极DataCanvas董事长方磊受邀参加由世界人工智能大会组委会主办、机器之心承办的“2021 WAIC·AI开发者论坛”,并发表“Hypernets:自动化机器学习的基础框架”主题演讲。

WAIC|高精准、低成本,九章云极DataCanvas突破AutoML难题_第1张图片

本次论坛以「后深度学习的 AI 时代」为主题,作为本届 WAIC 开发者单元的主力军,WAIC· AI开发者论坛与 WAIC·开发者日一脉相承,连续三年始终专注 AI 技术人员与开发者。本次论坛邀请了15位学术界和产业界重磅嘉宾,覆盖多模态机器学习及大规模自动生成技术、AutoML框架、智能社区的多模态数据融合、智能制造中的算法平台以及下一代 AI 基础软件能力等话题,共同探讨AI前沿技术。九章云极DataCanvas董事长方磊围绕AutoML框架的重要性和基本抽象、Hypernets的概念模型和重要特性、Hypernets的具体示例三部分向广大开发者奉献了一场干货满满的技术福利。

WAIC|高精准、低成本,九章云极DataCanvas突破AutoML难题_第2张图片

AutoML框架的本质是空间搜索

AutoML技术的研发与应用是一个持之以恒的课题,随着对其研发的深入,很多AutoML工具的各部分高度耦合,只能针对特定问题,难以扩展。方磊表示,AutoML框架的本质就是空间搜索,在这里面很重要的思想就是抽象性和层级的必要。

AutoML框架是对AutoML领域面对的问题解构和抽象后形成的基础性支撑,无论是超参数优化、Full-Pipeline搜索还是神经网络架构搜索(NAS)问题,主要围绕3个基本部分:搜索空间(Search Space)、搜索策略(Search Strategy)和评估策略(EstimationStrategy)。AutoML框架应对各部分高度解耦以实现各部分自由扩展,开发者可以在此之上不断丰富搜索算法,设计多样搜索空间,避免共性问题重复开发,针对非共性问题实现灵活扩展,加速迭代效率,大幅低于降低自动机器学习的准入门槛,能够让开发者快速实现自动机器学习的搜索。

WAIC|高精准、低成本,九章云极DataCanvas突破AutoML难题_第3张图片

Hypernets——开发者的朋友

一款优秀的AutoML框架应当在上述三个部分具有:富有表现力的搜索空间描述语言、支持高维空间的高效搜索算法和高性能的评估策略。Hypernets作为一个自动机器学习的底层通用框架,满足单节点及分布式高性能的模型训练需求,可以在不同的空间进行搜索与训练,结合各种机器学习和深度学习框架开发专用自动机器学习工具,帮助用户快速开发专用领域的AutoML工具。同时,Hypernets支持最新的神经网络架构搜索(NAS)算法,可以实现深度学习的网络架构设计自动化。

方磊表示,Hypernets与目前众多的机器学习、深度学习框架相结合更快更好的生成自动机器学习工具。用5-10行代码完全可以搜索模型,因此Hyperents一个定位就非常清晰,不管开发一个训练框架还是开发应用模型,都是开发者的朋友。开发训练框架可以让框架使用Hypernets很容易结合出框架本身的自动机器学习能力;如果是开发应用模型,可以组合不同学习训练框架的同时,在上面使用Hypernets,端到端整个pipeline上进行自动机器学习的参数搜索,就会得到非常较好的模型。经过大量在行业上的应用,在特征丰富情况下,Hypernets在搜索能力包括分布式计算能力体现出来很多优势,搜索时间短,算力仅需普通训练的20-30倍,就能够得到一个性能大大提升的模型。

简单快速精准的自动机器学习开发过程

开发者通过Hypernets设计不同的模块空间(Module Space)和相应的参数空间(Parameter Space),通过不同的连接方式(Connection Space)将各个模块空间组合成为一个高维的丰富动态搜索空间(Search Space)。遗传算法作为搜索策略的一个例子,是一种非常有效的寻找局部最优的方法,也可以与其他各类算法组合使用,实现更为强大的策略,例如在空间切分搜索的时候,使用遗传算法加速子空间中的迭代。评估策略的核心在于高效:在评估不精确的情况下,通过指导搜索方向、节省预处理时间、防止过拟合三种方式,减少计算量,高效地利用自动机器学习找到更好的模型。作为Hypernets的一个具体实例,HyperGBM在多个公开数据集上和真实业务场景上,超过或达到了人类专家和其他AutoML工具的水平。

WAIC|高精准、低成本,九章云极DataCanvas突破AutoML难题_第4张图片

强大的自动机器学习开源框架:Hypernets家族

Gartner在2020年十大科技趋势中,将以AutoML为代表的AI普及化作为数据与分析领域的重要战略技术之一。作为帮助用户快速开发专用领域的AutoML工具,Hypernets于2019年在GitHub进行开源,结合各种机器学习和深度学习框架开发专用自动机器学习工具,率先突破了机器学习建模过程中不均衡数据、概念漂移、模型泛化能力和大规模数据等诸多挑战,提供开放的训练服务框架,降低了AutoML工具的开发门槛,实现深度学习的网络架构设计自动化。

WAIC|高精准、低成本,九章云极DataCanvas突破AutoML难题_第5张图片

方磊提到,AutoML的核心内容是降低门槛构建模型。基于Hypernets框架,九章云极DataCanvas自主研发的HyperGBM不仅能够解决生产化困扰,同时实现了数据预处理、特征衍生、特征筛选、模型超参数优化、模型选择、模型融合全过程的全自动机器学习,仅需5行代码就可以实现高质量的模型,拥有开箱即用、简单易用等特点,解决企业在结构化数据建模的需求。

为避免共性问题重复开发,其研发的HyperKeras支持神经网络架构搜索和超参数优,专注非共性问题,实现灵活高效扩展。此外,九章云极DataCanvas对AutoML技术不断探索,开源项目DeepTables荣获全球知名国际性竞赛第一名,全新定义了深度学习技术在结构化数据分析领域的价值。

Hypernets家族开源地址

WAIC|高精准、低成本,九章云极DataCanvas突破AutoML难题_第6张图片

Hypernets

https://github.com/DataCanvasIO/Hypernets

WAIC|高精准、低成本,九章云极DataCanvas突破AutoML难题_第7张图片

HyperGBM

https://github.com/DataCanvasIO/HyperGBM

WAIC|高精准、低成本,九章云极DataCanvas突破AutoML难题_第8张图片

HyperKeras

https://github.com/DataCanvasIO/HyperKeras

随着人工智能时代对于AutoML需求的增加,九章云极DataCanvas将运用Hypernets框架融合更多的深度学习框架,推动神经网络架构搜索的前沿发展,助力实际应用场景中的深度学习模型落地,并且通过在AutoML、AutoDL领域不断的技术创新,为金融、通信、政府等众多行业实现数智化升级提供新动能。

你可能感兴趣的:(机器学习,人工智能)