导读
本文整理自 2022 年 12 月的 DataFun 增强分析论坛上的同名主题分享。
AI 正在让 BI 变得更智能,让业务不仅突破了传统 BI 只能针对历史业务进行分析的限制,还能够对未来业务的发展产生指引。Sugar BI 推出的 DI(智能预测) 功能,使得业务人员可以利用历史数据对未来趋势变化进行预测,做到世事变化皆在方寸把握。
今天的分享会围绕下面三点展开:
介绍 BI 的发展历程,详解各个阶段 BI 的变化;讲述智能 BI 时代的发展趋势,Sugar BI 在智能 BI 上的能力,附带介绍各类预测分析平台的不同;分享 Sugar BI 的智能预测 DI 模块及其应用场景,并演示其 Demo,帮助观众能够很好地将这个能力应用在业务中。
全文5237字,预计阅读时间14分钟。
1865 年,银行家亨利在一本书中第一次使用到了“商业智能”一词,讲述了如何通过收集和分析信息,领先于竞争对手采取商业行动从而去获利的过程,其中重点在于收集和分析信息,而核心就是数据的分析和收集。
1958 年,IBM 计算机科学家汉斯,也就是后来公认的“商业智能之父”,在 business intelligence system 中描述了 BI 的价值和潜能。
1989 年 Gartner 的一位分析师正式将商业智能作为涵盖数据存储和分析的统称。
在 20 世纪 90 年代以后,BI 时代特点逐步展现,到目前大概可以分为 BI 1.0 、BI 2.0 和 BI 2.5 三个阶段。
BI 1.0 时代的到来主要是伴随着数仓的发展,存储在各个地方的业务数据开始逐渐集中,企业中的各个角色可以通过线下的方式去交流并获取数据。
在这一时代,企业中的数据获取大部分都是通过代码的方式或 Excel 工具的方式来实现,耗时耗力,时效性缺乏保障。如下图所示,业务人员使用 Excel 制作出静态报表,首先需要研发同学从数据库中导出数据明细,再用 Excel 表格进行一系列的图表制作。
在这一过程中,数据是静态的,导致决策者拿到数据时至少会存在几个小时的延迟,缺少时效性。而制作周报日报的过程中,通常需要定时并人工手动输出,费时费力,部分企业甚至安排了专门的团队来负责这一工作。
也有部分企业的研发资源比较充足,比如:通过写前端代码的方式制作可视化页面。但是这种方式需要多角色的协同,这就导致完成一个可视化页面时间成本非常高。整个流程前期需要产品经理根据数据情况进行指标梳理,写 PRD 出原型图,再由设计师进行 UI 和 UE 设计,最后由前后端研发同学进行开发连条、全面测试之后再进行页面的上线。
以这种方式制作可视化页面的流程,一般需要耗费一个月左右的时间。如果后续业务关注的指标有所调整,调整和迭代知需要一周左右的时间才能完成。但无论如何,这种方式意味着 BI 在企业中逐步得到有效推广,让更多的人感受到 BI 的价值,但此时 BI 的使用者依然较少。
随着互联网技术和各种IM的发展,数据的时效性和复杂性问题也得到了很好的解决,企业中各个角色基本可以实现通过线上的方式进行交流,并通过线上方式获取数据信息,这时逐渐步入 BI 2.0 时代。
BI 工具不再为专业人士独有,自助式的数据分析平台开始逐步盛行,敏捷 BI 产品也相继诞生,国内外 BI 产品如雨后春笋一般,种类繁多。“人人都是数据分析师”,只要稍微投入一点学习成本的实习生都可以通过几个小时完成一个页面的制作,做到数据实时更新并可以灵活交互。如果遇到页面的改动需求,迭代也可以在几分钟内完成。
然而,虽然人人都可以进行数据分析,但是数据分析基础不同的人分析出来的结果以及对数据价值的展现也是不同的,数据分析经验难以沉淀,导致依赖于数据的业务决策很难被顺利的确定和进行下一步的推进,从这一角度来看,敏捷 BI 依然存在一定局限性。
我们目前处于敏捷 BI 较为成熟,但智能 BI 还暂不成熟的时代,所以我们称之为 BI 2.5 时代。
接下来带大家走进智能 BI。
随着 AI 时代的到来,BI 领域的领军者也逐步将目光转向了 AI+BI,希望可以碰撞出有效火花实现智能 BI,也就是商业智能基础上再叠加一层智能。这一层智能加成是通过一系列增强分析的功能来实现来体现的。
增强分析的概念由 Gartner 在 2017 年提出,是下一代数据和分析范式,面向广泛的业务用户、运营人员和民间数据科学家,利用机器学习将数据准备、洞察发现和洞察共享的过程自动化。任何人都可以轻松的使用机器学习工具,即使完全不懂机器学习和算法也可以通过 BI 增强分析能力,更高效地拿到高水平的数据分析结果。
在建立好数据模型后,通过自动选择报表,智能图表的功能,或一键生成报表的功能,可以更好更快的制作报表和大屏页面。如下图所示,蓝色的部分是 BI 的基础功能,橙色部分是智能化的功能。做好报表大屏页面后,也可以进一步对数据进行分析,对异常数据进行高亮展示。
在 Sugar BI 中,增强分析模块分为四个部分,分别是智能图表、智能分析、智能交互和智能决策。
智能图表指的是当我们有数据,但是不知道用什么图表来展示和分析更加合适时,可以使用一个非常专业的图表推荐算法,把数据拖到图表里面,Sugar BI 就可以推荐最适合这种数据的图表类型,同时提供所有可以用来展示该数据的图表种类供用户选择,智能且尊重用户选择。
智能分析又包括自动分析、异常分析和波动分析。这里着重介绍自动分析功能,这是 Sugar BI 独有的功能之一。在用户没有时间做报表时,可以通过系统一键自动生成报表,Sugar BI 将内置百余种图表与数据进行匹配,可在数十秒内生成一张交互式的报表。本着智能且尊重的原则,Sugar BI 支持用户对自动生成的报表进行任意的调整和删减。异常分析和波动分析在场景上是有关联的,可以通过配置阈值让系统自动监控数据的异常情况并做出预警。当系统提醒用户数据发生异常时,用户可以通过波动分析,让系统自动对图表中的时序数据进行波动原因分析,并给出结论。
智能交互相当于在决策者身边安放了一个数据助手,随时随地可以通过语音向 Sugar BI 进行提问。Sugar BI 内可以配置语音识别和语音理解,随时随地的精准回答决策者的数据问题,或跟随着语音指令调整展示的页面,同时支持移动端, PC 端,大屏端等多端智能交互。
智能决策通俗而言是基于机器学习的预测分析,助力领导层实现各类决策。
主流的预测性分析平台主要分为三类,分别是BI 平台,开源机器学习工具和一体化 AI 开发平台,其目标客群和提供的能力有所差异。
首先,BI 平台分为三种,第一种是与 BI 深度绑定可以把预测结果作为数据集计算字段使用,如 Sugar BI 中智能预测 DI 模块的基础功能,比较适合于没有机器学习基础的用户。第二种是用户为了推进 AI 开发平台建设,将其作为 BI 产品的一个松耦合模块,与其他产品与模块没有强依赖关系。在这种方式下,用户需要自己单独连接数据,形成数据集,并自主内置各种模型与预处理算子,通过拖拽节点与连线形成工作流。这种方式和 BI 的结合度相对较低,比较适合数据科学家来使用。第三种 BI 平台只内置了时序和简单的聚类,用户可以依据图表上的数据直接输出,比较适合日常的业务分析人员。
开源机器学习工具会提供数据预处理,模型训练评估与预测等等一些算子能力,比较适合学生或者是研究者去进行探索性的学习,但因门槛偏高无法在企业中进行大规模的使用。
最后一种预测性分析平台是较为专业的一体化 AI 开发平台,一般为商业平台型产品,比如百度的 BML,提供完整的平台能力,模型大多以 API 形式输出,更适用于 AI 专家和数据科学家的使用。
我们通过和用户的广泛交流,密集地收集到了 AI 和 BI 结合的需求,其中最常提到的就是预测分析,用户主要关注的点在于易用性和实用性。
Gartner 于 2022 年 3 月,举办了名为《从 BI 到 AI》的线上讲座,并进行了如下图所示的调研,从调研的结果中可以看到,业务人员在日常的工作中逐步参与数据分析,但 90% 左右的企业现状是业务方停留在查看数据阶段,AI 预测并没有得到广泛的应用。主要原因就是缺乏低门槛的预测分析的应用工具。
智能预测 DI 就是在 BI 基础上更加接近用户决策一步,力图帮助用户解决正在发生什么,为什么发生这些问题,进一步带给用户未来可能发生什么的指引,更有效的去发挥数据在业务中的决策支持的价值。
DI 的目标人群是业务人员,而不是专业人士,也就是说没有机器学习专业背景和基础的用户也可以使用。它是一个易用性高,不需要写任何代码就可以被人理解的平台。同时,它也需要和 BI 平台融为一体,将预测出来的数据更快更加便捷地用可视化图表展示出来(目前只支持结构化数据)。如此即可贯穿整个数据分析的场景,不仅可以洞察历史数据,展示当前的数据,也能够去预测数据的未来走向,而数据带来的安全感是领导层最需要的。
DI 如何与 BI 很好地进行融合呢?在敏捷 BI 的场景下,仅需连接数据便可以得到模型,做成可视化界面。但在需要预测分析的场景下,需要将数据分为训练集和验证集。不同的算法基于同一个训练集训练得到不同的预测模型,接下来需要用验证集对预测模型进行多次验证,从而得到一个最优的预测模型,用于后续可视化页面的制作。
Sugar BI 的智能预测 DI 的一大特色是内置了自动选择预测模型的算法,如此便可以省去多次训练的过程,一步得到最优的预测模型。联合一下前面的智能图表和自动分析,内置的算法实际上帮助用户省去了专业思考的过程,但是也会智能性列出结果,同时尊重用户选择。
Sugar BI 的功能模块具体进行了如下几部分规划。新建预测模型的方式有三种,分别是内置模型,训练模型,以及自定义模型。除此之外,Sugar BI 还支持上传外部模型和对接第三方预测服务,在功能更为成熟后,我们还会将预测服务开放为 Open API,供下游系统使用,从而发挥预测数据的更大价值。
接下来将逐一演示内置模型和训练模型。
Sugar BI 的内置模型目前支持聚类和回归两大算法。聚类是针对大量数据或样本,根据数据本身的特性研究分类方法,并且遵循分类方法对数据进行合理的分类,最终将相似的数据分为一组。其实这是一个无监督的学习过程,需要跟监督分类进行区分。在监督学习中存在人为划分标准,例如把人分为男性和女性,而无监督学习分类标准未知。第二个算法是线性回归,线性回归是利用称为线性回归方程的最小平方函数,对一个或多个自变量和因变量之间的关系进行建模的一种分析。我们可以用它进行房价分析或存在一定线性关系的变量。
内置模型的使用可以在 Sugar BI 里的数据模型中完成。使用流程包括四个步骤:先选择预测模型,然后进行参数设置,再做输入输出的设置,就可以生成预测字段了。整个流程方便简洁。预测字段和连接数据源,做好数据模型里其他的数据字段是类似的,可以用来做图表和数据分析,直接和图表进行绑定即可。
接下来为大家进行演示
通过演示可以看到通过内置模型新建预测字段是没有训练过程的,整个流程非常方便。但前文中提到内置模型仅支持两种算法,存在局限性。如果有更多算法需求,或者需要训练才能发布模型,就需要训练模型。
训练模型的 demo 中使用到了二分类,结果标签一般通过 0 或 1 来表示,使用场景十分广泛。流程图上展现了训练流程,首先选择数据模型,再根据流程指引选择预测类型、配置数据、配置预测算法等等进行训练,训练完成后即可选择较为完整的模型发布,其余流程与内置模型一致。
Q1:智能问答在平台没有数据用于训练时是如何启动的?
A1:Sugar BI 的 AI 问答功能内置了 NLP 自然语言处理团队的一些能力。AI 问答功能,用户说话,Sugar BI 会自动的把这句话里面的词去拆成字段,把字段和用户连接好的数据库里的数据字段进行匹配,匹配出来的结果用于后续的表格问答,就可以实现展示出来这一图表。用户在使用AI问答过程中,Sugar BI 也支持随时补充数据字段的同义词,从而让 AI 问答更符合您的语言习惯。
Q2:这个产品应该从哪里学习?请问学习这个产品收费吗?
A2您可以访问 Sugar BI 的官网,官网有非常详细的使用教程,帮助文档覆盖了我们绝大部分的功能操作讲解,您可以先结合教程简单的去了解一下 Sugar BI。
同时,我们支持一个月的免费试用,在试用产品的同时,有任何问题可以再去翻阅帮助文档,更好地理解和消化产品。
——END——
百度工程师带你了解Module Federation
巧用Golang泛型,简化代码编写
Go语言DDD实战初级篇
Diffie-Hellman密钥协商算法探究
贴吧低代码高性能规则引擎设计
浅谈权限系统在多利熊业务应用