2021年人工智能产品采购指南 -机器学习平台

报告目录

01. 人工智能市场现状

02. 人工智能产品热力图

03. 机器学习平台介绍

04. 机器学习平台代表产品

05. 机器学习平台未来发展趋势

01.人工智能市场现状

1.1. 人工智能定义

1956年在美国达特茅斯学院举办的夏季学术研讨会中,约翰·麦卡锡、克劳德·香农等人展开“让机器像人一样认知、思考和学习”的讨论,并正式提出“人工智能”这一概念。

根据我国《人工智能标准化白皮书》中对人工智能的定义,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

目前,人工智能已经上升为国家战略,并制定了明确的发展目标。根据2017年7月国务院印发的《新一代人工智能发展规划》,我国的人工智能发展将经历“三步走”:

第一步:到2020年,人工智能总体技术和应用与世界先进水平同步,人工智能产业成为新的重要经济增长点,人工智能技术应用成为改善民生的新途径。

第二步:到2025年,人工智能基础理论实现重大突破,部分技术与应用达到世界领先水平,人工智能成为我国产业升级和经济转型的主要动力,智能社会建设取得积极进展。

第三步:到2030年,人工智能理论、技术与应用总体达到世界领先水平,成为世界主要人工智能创新中心。

1.2. 人工智能发展历程

自1956年人工智能概念提出至今,人工智能的发展跌宕起伏,具体来看可划分为三个阶段:

第一阶段(1950年-1980年):第一阶段是人工智能的起步阶段,突破性的研究包括自动定理证明、LISP语言等,这一阶段由于算法理论较为薄弱、计算机性能限制等原因,对人工智能的研究主要停留在理论层面。

第二阶段(1980年-2000年):第二阶段是人工智能的探索阶段,人工智能逐渐从理论层面走向实际应用。随着机器学习方法的发展,出现了决策树模型和多层人工神经网络,但对复杂度高、规模大的神经网络,计算机模拟难度较大,且受到算力的限制,实际应用的效果并不理想。

第三阶段(2000年至今):第三阶段是人工智能的高速发展阶段,在算法层面,以深度学习为代表的人工智能技术引起学术界和产业界的关注,新的算法层出不穷,图像识别、语音识别等人工智能细分领域均出现巨大突破;在算力层面,GPU、TPU、云计算等为大规模神经网络计算提供基础计算资源;在数据层面,随着互联网、大数据技术的发展,数据量呈指数型增长。算法、算力、数据三要素的共同进步一方面促成人工智能技术的突破,另一方面提高了人工智能的产业落地应用效果。

1.3. 人工智能应用场景

从技术层面看,人工智能关键技术包括语音技术、计算机视觉、自然语言处理、知识图谱、机器学习等,其中语音技术、计算机视觉和自然语言处理主要是模拟人在感知层面对声音、图像、文字的识别,而知识图谱和机器学习则主要是模拟人在认知层面的分析与决策。

目前,不同技术在应用场景上的差异较大,但随着技术的不断成熟和应用场景的丰富,多技术融合应用将成为未来的发展趋势。

(1)语音技术的应用场景

语音技术通过语音信号和机器语言之间的转换,实现人机的语音交互。语音技术的典型应用场景有智能音箱、智能车载、智慧庭审、智能导诊等。

以智能音箱的天气预报功能为例,语音识别将人的声学信号转化为机器可处理的数字信号,机器进行理解后调取天气预报中的信息传递给智能音箱,通过语音合成将数字信号还原为声学信号并进行播报。

(2)计算机视觉的应用场景

计算机视觉是使用计算机模仿人类视觉系统的科学,让计算机拥有类似人类提取、处理、理解和分析图像以及图像序列的能力。计算机视觉的典型应用场景有机场安检、身份验证、医学影像诊断等。

以机场安检为例,通过将人脸识别与护照识别相结合,可以快速验证旅客身份完成安检工作,既降低机场安检人员的工作量,又缩短安检时间,提高旅客的满意度。

(3)自然语言处理的应用场景

自然语言处理是实现计算机理解、分析和生成人类自然语言的技术。自然语言处理的典型应用场景有智能客服、文本分析、智能写作等。

以智能客服为例,基于自然语言处理技术,从大量的未标注语料中进行对话模型的训练,并预装多行业、多领域的知识,客服机器人可以与用户完成单轮和多轮的对话,并精准识别用户意图。

(4)知识图谱的应用场景

知识图谱以关系数据的知识库为基础,通过对数据进行标注,以结构化的方式展现客观世界中实体、概念、事件以及之间的关联关系,并进行更深层的数据挖掘。知识图谱的的典型应用场景有金融反欺诈、公安刑侦、经侦等。

以金融反欺诈为例,通过知识图谱技术搭建用户的关系网络,并通过可视化的图形将关系进行展示,结合反欺诈部门的实战经验,可以快速找出可能存在欺诈风险的用户。

(5)机器学习的应用场景

机器学习是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科,研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习的典型应用场景有精准营销、物流调度、销量预测等。

以销量预测为例,基于历史销量数据,通过线性回归、决策树、随机森林等机器学习算法,根据业务逻辑搭建分析用户偏好、销量影响因素等关键指标的模型,可以提高销量预测的准确性。

02.人工智能产品热力图

人工智能产品是将落地在场景内的人工智能技术成果产品化、标准化。我们对企业用户的人工智能产品采购及使用情况进行长期跟踪,并绘制为产品热力图的形式,以展现企业用户对人工智能产品的采纳度。以下为人工智能产品热力图:

2021年人工智能产品采购指南 -机器学习平台_第1张图片

如图所示,根据产品用户量的不同,产品热力图将人工智能产品由高到低划分为四个层级——标配、普及、专业和创新,各层级的定义如下:

标配:产品逐渐成为或已成为企业客户标配,受到市场广泛认可;

普及:产品已被多个领域企业客户认可,正被大范围普及;

专业:行业头部客户或专业领域客户正使用本类产品解决其业务问题;

创新:产品已被追求创新的企业或部门采购使用,但产品还未被大众所知。

根据应用场景的不同,人工智能产品主要划分为:语音识别、语音合成、文字识别、图像识别、人脸识别、声纹识别、机器翻译、图像搜索、人证核验、知识图谱平台、机器学习平台、文本分析、人体识别、自然语言处理平台、知识管理平台。位于各个层级的人工智能产品及其定义如下所示。

标配:语音识别、语音合成、文字识别

① 语音识别:语音识别是通过语音信号处理和模式识别,使机器将语言信号转换为相应的文本或指令,具体的应用场景可分为消费级和企业级,消费级应用场景包括智能音箱、智能车载等,企业级应用场景则是应用于金融、医疗、教育、政务等垂直行业。

② 语音合成:语音合成基于深度神经网络技术,将文字转换为自然流畅的人声,可广泛应用于通知、播报、阅读等场景。

③ 文字识别:利用光学技术和计算机技术读取印在或写在图片上的文字信息,并转换成计算机可处理且人可以理解的文本格式,满足各种场景下的图片识别需求,有效代替人工录入信息,提升输入效率。

普及:图像识别、人脸识别、声纹识别

④ 图像识别:图像识别是指基于大数据和深度学习算法,对图像进行处理并抽取特征和分类,使计算机具有与人相似的识别物体的能力。

⑤ 人脸识别:人脸识别是指基于人的脸部特征信息进行身份鉴别,目前已经广泛应用于智能安防、智慧交通、金融交易、设备解锁、等多个场景中。

⑥ 声纹识别:声纹识别是指通过语音的声纹特征对说话人进行区分,从而进行身份鉴定与认证。

专业:机器翻译、图像搜索、人证核验、知识图谱平台、机器学习平台、文本分析

⑦ 机器翻译:机器翻译是指机器基于自然语言处理引擎将自然语言(源语言)的文本翻译为另一种自然语言(目标语言),目前机器翻译既可以针对通用领域,也可以针对某一特定领域/专业领域加以定制化。

⑧ 图像搜索:即以图搜图,基于深度学习和图像识别技术,在指定图库中搜索出相同或相似的图片。

⑨ 人证核验:基于人脸识别技术,将采集到的人脸图片与证件中的人脸图片进行比对,验证人与证件是否一致,达到身份核验的目的。

⑩ 知识图谱平台:知识图谱平台基于企业内外部的多源异构数据,实现知识抽取、知识融合、知识推理、知识存储与应用,助力企业完成知识图谱的一站式构建。

⑪ 机器学习平台:机器学习平台覆盖机器学习全流程,为企业提供数据分析和建模工具,企业用户可以在机器学习平台上利用机器学习算法进行模型的构建、部署和监控等,并将模型应用于实际的业务场景中。

⑫ 文本分析:通过自然语言处理技术对非结构化文本信息进行处理和分析,实现对文本信息的自动解析、智能定位和知识抽取等,挖掘信息背后的商业价值。

创新:人体识别、自然语言处理平台、知识管理平台

⑬ 人体识别:识别图像中的人体相关信息,并针对每个识别出的人体,返回人体矩形框位置,可实现人体的检测与跟踪、人流量统计、行为识别等。

⑭ 自然语言处理平台:为企业用户提供NLP任务模块,例如分词、词性标注、命名实体识别、句法分析、意图识别、情感分析等,降低企业用户使用NLP技术的门槛,企业用户可以在平台上开发NLP相关应用。

⑮ 知识管理平台:基于知识图谱构建技术、领域知识、企业数据和经验等帮助企业实现知识的全生命周期管理,并将知识赋能于企业的多场景,充分发挥知识的价值,助力企业成为知识型企业。

03.机器学习平台介绍

3.1. 机器学习平台定义

机器学习平台覆盖机器学习全流程,为企业提供数据分析和建模工具,企业用户可以在机器学习平台上利用机器学习算法进行模型的构建、部署和监控等,并将模型应用于实际的业务场景中。

机器学习平台的优势在于低门槛、高性能、自动化、全流程和高效率。通过机器学习平台,企业用户可以了解整个数据分析流程,探索数据关系和实现业务洞察。

对于企业用户而言,机器学习平台的价值体现在三个方面:

降低建模门槛:机器学习平台为企业用户提供可调用的功能模块以及拖拉拽的建模工具,实现低代码模型开发,降低用户的使用门槛;同时,机器学习平台支持多种预训练模型和特定任务的流程,简化建模流程。

加速模型迭代:模型在部署到业务场景之前需经过多次迭代,不断地进行数据处理与模型迭代以实现模型的最优化,机器学习平台提供数据可视化、数据增强、数据准备工具等,加速模型的迭代过程。

共享数据洞察:企业用户可以使用机器学习平台上的协作工具实现数据、模型、仪表板以及其他相关信息的共享,促进团队协作。

3.2. 机器学习平台功能

机器学习平台通过端到端的建模流程,使企业用户实现机器学习的全生命周期管理。从端到端的流程来看,机器学习平台的功能可分为:

数据接入:支持多种类型数据的接入,既包括结构化数据,又包括非结构化数据,并提供多种接入方式。

数据准备:包括数据清洗和数据探索,在数据清洗环节,机器学习平台一般具备数据融合、数据缺失处理、数据分类、打标签、数据异常处理、数据平滑等功能,在数据探索环节,机器学习平台具备单变量统计、多变量统计、聚类分析、相似度度量、密度检验等功能。

特征工程:支持特征构建、特征选择、特征降维、特征编码等特征工程必备流程,同时提供可视化的特征重要性评估功能,使用户可以快速发现模型中存在的问题。

模型训练:在建模环节,对于编程能力较弱的用户,平台提供拖拉拽的方式方便用户快速建模,降低用户使用门槛,同时也支持Notebook;模型建立后,平台提供可视化超参调整、超参搜索等功能,提高模型训练的效率。

模型部署:通过API接口,一键实现模型从开发环境到生产环境的部署,实现模型快速上线。

模型管理:模型部署到生产环境后仍需要进行监控和管理,以保证模型的准确率和及时更新,模型管理能够将生产环境中的模型与基线或之前的模型进行对比,确定模型效果。此外,很多平台还提供指标跟踪工具,提高模型效果的评估效率。

3.3. 机器学习平台用户

目前金融、零售、能源、医疗等行业都开始上线机器学习平台,但大多处于早期的尝试阶段。

机器学习平台的使用门槛较高,为了降低机器学习平台的使用门槛,机器学习平台通常提供拖拉拽功能、预置常用算法等。目前机器学习平台的用户主要是企业内的数据科学家、数据工程师和数据分析师等。

3.4. 机器学习平台价值

机器学习平台的收费模式以项目制为主,包括机器学习平台的License授权费用、实施交付费用和维保费用。其中,License授权费用通常与平台支持的计算节点数量或并发用户数量相关,企业用户现阶段通常选择买断授权;实施交付费用通常包括应用开发的部分,以人/天计费。目前机器学习平台项目的定制化程度较高,项目平均在几百万左右。

3.5. 机器学习平台部署方式

机器学习平台支持本地化部署和云化部署两种形式,但由于机器学习平台一般使用在企业的核心业务场景中使用,因此企业用户目前基本都会选择本地化部署。

3.5. 机器学习平台典型案例

目前,各大银行都在尝试构建机器学习模型辅助业务开展相关工作,并逐渐线上部署实现模型的自学习过程。

某城商行通过引入机器学习平台的方式实现机器学习建模流程的优化以及控制整个应用“生态”的风险问题。银行的业务及科技人员可通过机器学习平台进行人工智能模型调研探索、模型应用及模型的自学习工作。

机器学习平台主要包括两大模块,分别是模型调研平台和模型自学习平台。

模型调研平台覆盖从业务数据处理到机器学习模型建模的全过程。平台支持大规模数据的分布式计算和处理、特征构建、特征重要性分析,支持主流的机器学习算法,如逻辑回归、梯度提升决策树、支持向量机等,在模型的效果评估指标上,包括AUC、ROC、KS、各阈值下的混淆矩阵及对应的准确度、精确率、召回率等,同时平台还提供模型的版本管理及发布工作。

模型自学习平台主要是基于生产最新的数据,进行模型的迭代,实现模型的自学习。

通过机器学习平台,某城商行实现了精准营销和风控相关的建模工作,包括各类理财产品的精准营销、辅助贷前审批的评分卡模型及贷中风险预警模型等,助力银行提升数据价值,完成数字化转型工作。

04.机器学习平台代表产品

2021年人工智能产品采购指南 -机器学习平台_第2张图片

05.机器学习平台未来发展趋势

5.1. 技术趋势

第一,实现全流程AutoML,降低机器学习平台使用门槛。目前机器学习平台的应用门槛较高,特征提取、模型选择、超参优化、模型评估等环节需要数据科学家、数据工程师等专业人员的人工干预,AutoML可以将与特征、模型、优化、评价相关的重要步骤进行自动化地学习,降低机器学习模型的人工干预。

第二,增强机器学习模型的可解释性。与传统的统计模型相比,机器学习模型有更好的预测能力。但随着需要处理的数据量越来越大,机器学习模型的内部结构越来越复杂,机器学习模型的“黑盒”属性可能会让模型存在不可预知的风险或做出具有偏见的决策,因此需要提高模型的可解释性,让数据科学家更深入的了解内部工作原理。

5.2. 应用趋势

目前,金融、零售、能源等行业的头部企业已经将机器学习平台用于业务实践并带来明显的价值。

随着数字化转型的加速,越来越多的企业将通过引入界面友好的、统一的机器学习平台,更好地支持各业务场景下AI模型的智能化、敏捷化开发,避免烟囱式架构带来的重复建设、资源浪费、数据不互通等弊端,解决企业用户搭建机器学习模型使存在的门槛问题,助力企业数字化、智能化发展。

你可能感兴趣的:(采购指南,机器学习,人工智能,数据挖掘,深度学习)