报告编委
黄勇
爱分析合伙人&首席分析师
孟晨静
爱分析分析师
目录
1. 研究范围定义
2. 厂商全景地图
3. 市场分析与厂商评估
4. 入选厂商列表
1. 研究范围定义
研究范围
经济新常态下,如何对海量数据进行分析挖掘以支撑敏捷决策、适应市场的快速变化,正成为企业数字化转型的关键。机器学习算法能识别数据模型,基于规律完成学习、推理和决策,正广泛的应用在金融、消费品与零售、制造业、能源业、政府与公共服务等行业的各种业务场景中,如精准营销、智能风控、产品研发、设备监管、智能排产、流程优化等。企业传统的机器学习虽然能有效支撑业务决策,但由于严重依赖数据科学家,其技术门槛高、建模周期长的特点正成为企业实现数据驱动的阻碍。
数据科学与机器学习平台是指覆盖数据采集、数据探索、数据处理、特征工程、模型构建、模型训练、模型部署与发布、模型管理与运营等建模全流程的平台,提供一站式建模服务,能显著提升建模效率、降低建模门槛。数据科学与机器学习平台能支持并赋能企业各业务场景实现智能决策,帮助企业打造数据驱动型组织。
本报告对数据科学与机器学习平台市场进行重点研究,面向金融、消费品与零售、制造与能源、政府与公共服务等行业企业,以及人工智能软件与服务提供商的数据部门、业务部门负责人,通过对业务场景的需求定义和代表厂商的能力评估,为企业数据科学与机器学习平台的建设规划、厂商选型提供参考。
厂商入选标准
本次入选报告的厂商需同时符合以下条件:
爱分析基于对甲方企业和典型厂商的调研以及桌面研究,遴选出在数据科学与机器学习市场中具备成熟解决方案和落地能力的入选厂商。
爱分析对本次数据科学与机器学习平台项目的市场分析如下。同时,针对参与此次报告的部分代表厂商,爱分析撰写了厂商能力评估。
市场定义:
数据科学与机器学习平台是指覆盖数据采集、数据探索、数据处理、特征工程、模型构建、模型训练、模型部署与发布、模型管理与运营等建模全流程的平台,提供一站式建模服务,能显著提升建模效率、降低建模门槛。
甲方终端用户:
金融、消费品与零售、制造与能源、政府与公共服务等行业企业,以及人工智能软件与服务提供商的数据科学家、风控建模人员、营销建模人员、业务分析人员、模型应用人员
甲方核心需求:
企业对机器学习的应用越来越广泛。一方面,数据量的激增、算法的突破以及CPU、GPU、DPU等多种算力技术的发展,为以机器学习为基础的数据挖掘、计算机视觉、自然语言处理、生物特征识别等技术在企业的应用奠定了技术基础;另一方面,市场环境的快速变化对企业决策敏捷性要求增强,不仅推动企业将机器学习模型应用到营销、广告、风控、生产等更多业务场景,也对模型精度、模型开发敏捷性以及模型应用广度提出更高要求。然而,机器学习技术门槛高、建模周期长,难以满足企业通过基于机器学习模型提升经营效率的需求。
数据科学与机器学习平台具备工具丰富集成、建模效率提升以及模型资产复用等特点,能充分满足企业对智能应用的需求,正成为企业智能化基础设施的必要构成。
不同企业对数据科学与机器学习平台的需求不同,其差异取决于企业自身机器学习建模能力和对算法的需求。
1、对于金融、消费品与零售、制造与能源、政府与公共服务等行业企业
除大型金融机构外,传统企业普遍不具备机器学习建模能力。大型金融机构数据科学团队人才完善,对机器学习算法的探索和应用更前沿,如将机器学习模型应用在精准营销、智能风控、产品研发、客户体验管理等多个场景中。但更多的传统企业面临IT人才缺失、尚未开始智能化应用或处于局部试验的初期阶段。传统企业对数据科学与机器学习平台的需求主要体现在以下四个方面:
1)降低机器学习建模门槛,使非专业建模人员也能掌握机器学习建模技术,赋能业务。传统机器学习建模技术门槛高,需要组建专门的数据科学团队,包括数据工程师、数据科学家、开发工程师等,人力成本高昂。传统企业希望能降低机器学习建模门槛,如平台能实现数据自动处理、自动特征工程、图形化建模或自动建模等功能,使非专业的业务人员也能快速开展建模工作,广泛赋能业务,实现普惠AI。
2)提供定制化算法、模型部署和运营服务,快速创造业务价值。传统行业多具备行业特性,行业垂直场景下的模型开发耗时耗力,而且传统企业对AI智能应用的探索尚处于初期,更倾向“小步快跑”,因此购买定制化算法能节约人力、实现快速产出以及验证AI智能应用效果。企业需要厂商提供定制化算法服务、模型在硬件平台和操作系统平台的部署服务以及模型运营服务。
3)缩短建模周期,提高业务敏捷响应度。以金融行业为例,金融企业的产品、服务、风控模型均需随着客户行为改变而持续迭代更新。但传统的机器学习建模周期长达数月,无法敏捷响应业务需求。企业需要数据科学与机器学习平台内置丰富的行业算法、模型模板、案例等,供建模人员直接调用,加速模型训练;或是提供一键部署功能,实现模型在生产环境的快速部署。
4)提供咨询服务,提升模型质量。对于具备一定机器学习建模能力的金融机构,需要厂商提供建模咨询支持,协助企业完成数据准备、模型训练、模型部署等环节,提升模型质量。
2、对于人工智能软件与服务提供商
对于中小企业或是刚开始试点智能应用的企业,相较于数据科学与机器学习平台需要的组织、人才、流程上的变革与支持,采购适用于特定场景的AI智能应用是性价比更高、更迅捷的解决方案。人工智能软件与服务商如算法服务商、ISV即面向此类需求,提供模型和智能应用服务。以算法服务商为例,尽管具备专业的数据科学团队,但中小型企业的算法需求多样且个性化,如虽然都是AI视觉算法,智慧城市、智慧工业下的应用场景如安全帽识别、产品瑕疵识别的模型却截然不同,需要基于业务数据集、业务思路分别进行训练。这使得算法服务商常常面临严格的算法交付周期和算法精度要求。具体而言,人工智能软件与服务提供商对数据科学与机器学习平台的核心需求主要体现在以下四个方面:
1)提高机器学习建模效率。软件开发公司、算法提供商面临严格的交付周期,但在传统AI应用开发方式下,数据接入、数据处理、模型训练等一系列建模流程都需要人工操作,建模周期长。其中数据接入环节因开源算法工具对不同类型的数据兼容性较差,需人工将原始数据转化为开源算法所支持的数据类型;数据标注环节往往通过人工完成,并且部分领域的标注过程严重依赖专业知识,整体数据准备将耗费数周时间;模型部署中对模型的集成、监控和更新需要大量的调研和实施工作,单个模型部署到上线需要3-5个月。企业需要完善的数据科学工具和建模功能,支持实现数据采集、数据准备、特征工程、模型训练、模型部署等建模全流程,提高建模效率。
2)满足数据科学家复杂场景建模需求。平台需支持数据科学家在复杂场景下进行灵活建模,如提供丰富的算法,预置主流机器学习框架,支持NoteBook建模方式,以及支持数据科学家在模型训练中手动调参等。
3)对模型开发资源和计算资源进行统一管理,支持计算资源弹性扩容,加速建模计算性能。传统开发模式中重复建设严重,如各项目数据准备、特征工程、模型训练等各自研发,造成模型开发管理资源、计算资源浪费,难以适应大规模智能应用开发需求。另外,机器学习模型训练过程中耗费大量计算资源,而一旦结束训练,计算资源又处于闲置状态。企业需要实现计算资源弹性扩容,满足模型开发不同阶段的计算需求。
4)为多角色的数据科学团队提供协作平台。机器学习建模过程需要数据工程师、数据科学家、数据分析师等多角色共同协作完成,存在反复沟通、协作流程不明确等问题,带来重复性工作。
厂商能力要求:
为满足金融、消费品与零售、制造与能源、政府与公共服务等行业企业,以及人工智能软件与服务提供商等甲方客户的核心需求,厂商需具备以下能力:
1、厂商应具备完善的机器学习模型开发功能,提供包括数据采集、数据准备、特征工程、模型训练、模型部署等功能在内的一站式端到端数据科学与机器学习平台。
1)数据采集方面,平台应具备整合多源异构数据的能力,支持实时接入结构化数据和非结构化数据(如表格、图片、时间序列数据、语音和文本等),并具备基本的ETL能力、数据实时更新和同步能力。
2)数据准备方面,平台应提供丰富的数据清洗、数据探索工具。其中数据清洗环节,应能支持进行数据融合、数据缺失处理、数据分类、数据标注、数据异常处理、数据平滑以及整合非结构化数据和结构化数据等数据清洗工作,减少人工干预。数据探索环节,厂商需具备单变量和多变量统计、聚类分析、地理定位图、相似度度量等分析能力。
3)模型训练环节,针对非专业建模人员,平台应提供简便易用的建模工具,降低机器学习建模门槛。如平台可通过建模全流程可视化降低用户使用门槛,尤其在模型构建环节,应支持以拖拉拽的方式完成建模。针对专业建模人员,平台应具备较高的灵活性和开放性,提供主流开源算法和建模工具。如为专业的数据科学家提供自由灵活的NoteBook建模方式,并预置主流机器学习框架R、TensorFlow、Pytorch、Spark等,以及丰富的机器学习算法。
4)模型部署环节,平台应支持模型一键部署,使建模人员可快速将模型从开发环境部署到生产环境中,并提供API接口供业务人员调用。此外,平台还应提供模型版本管理和模型监控功能,实时监测模型性能,保证模型质量。
5)资源管理方面,平台需能对CPU、GPU资源进行管理和整合,以容器化方式对算力虚拟化,实现弹性扩容、性能加速等功能,且不同部门和项目之间可共享集群资源。
6)平台应具备AutoML能力,包括提供数据自动清洗、智能标注、自动特征工程和自动模型训练等功能,提高建模效率。其中特征工程环节,数据科学与机器学习平台应能实现自动化特征构建、特征选择、特征降维和特征编码;模型训练环节,平台应支持自动化模型选择、自动化调参、自动化超参数搜索、模型自动验证等,减少模型训练时间成本和人力成本。
7)此外,平台还应支持多角色的数据科学团队协作,协同数据工程师、数据科学家、业务人员等不同角色在建模工作流程中的模型注解、讨论、答疑、评论等,使建模过程可追溯、模型可复用,减少重复性工作。
2、厂商需具备垂直行业Know-how能力,为企业提供咨询和实施部署服务。厂商的专业服务能力体现在三个方面:一方面,基于丰富的垂直行业知识和经验积累,厂商能为用户提供行业场景相关的算法、模型模板,或是将行业经验与模型算法相结合,形成诸如精准营销、智能推荐、反欺诈、设备预警等智能业务模型,供用户直接调用;另一方面,厂商能提供建模咨询服务,通过数据科学专家团队规划有效的模型应用到特定业务的运营方案,协助用户完成数据准备、模型训练、模型部署、模型运营等工作,以及将企业既有的数据集经验、特征工程经验、模型经验等提炼形成数字资产,内嵌到平台中。此外,厂商应具备较强的实施部署能力,包括提供定制化模型算法在硬件平台和操作系统平台的部署服务、以及数据科学与机器学习平台的部署服务。
入选标准:
1.符合市场定义中的厂商能力要求;
2.2021Q3至2022Q2该市场付费客户数量≥10个;
3.2021Q3至2022Q2该市场合同收入≥1000万元;
代表厂商评估:
厂商介绍:
北京百分点科技集团股份有限公司(简称“百分点科技”)成立于2009年,是领先的数据科学基础平台及数据智能应用提供商,围绕智慧政务、公共安全、数字产业三大业务板块,为国内外企业和政府客户提供端到端数智化解决方案。
产品服务介绍:
百分点数据科学基础平台围绕数据价值增值过程,提供数据融合治理、数据建模与知识生产、知识应用三大工具集,覆盖从数据集成、数据治理、数据建模、数据分析到数据服务的完整数据价值链条。其中数据建模环节,内置机器学习平台,能一站式、可视化地实现数据准备、特征工程、模型开发与训练、模型部署与发布、模型管理等机器学习建模全流程,帮助企业快速构建数据分析、语义分析、语音分析以及视觉分析应用。
厂商评估:
百分点机器学习平台能实现一站式、可视化机器学习建模全流程管理,具备高效的数据预处理、丰富的模型服务能力。此外,百分点科技具备完善的数据建模上下游数据科学工具,能帮助用户实现“数据——知识——应用”闭环,并在智慧公安、应急管理、客户体验管理等领域沉淀丰富行业经验,能为用户提供端到端解决方案。
典型客户:
中旅中免、应急管理部、北京市公安局、北京市统计局