关河因果:如何实现从关联规则到因果分析

1、关联分析与因果分析

大数据背景下,因果分析在智能决策中的重要性逐步显现,人们开始尝试用人工智能对事件进行因果分析。当前的分析方法,大部分停留在关联分析的阶段,关联分析能够发现大数据项集之间的相关性、以及两个或多个变量取值的规律,其挖掘的关联规则能够为因果分析提供依据。但关联关系不等于因果关系,或者说关联是因果的必要不充分条件。如何基于关联去寻找因果,是当前重中之重的研究方向。

关河因果:如何实现从关联规则到因果分析_第1张图片

想寻求怎样的因果关系,首先要明白因果关系是一个事件(“因”)和第二个事件(“果”)之间的作用关系,其中原因对结果负部分责任,而结果部分取决于原因。

关河因果系统将机器学习融入逻辑规则框,通过自主创新的图关联规则(GAR)与时间关联规则(TACOs)发现算法,进行数据因果分析。以电厂场景为例,系统综合各类特征(例如交易时间、节假日、季节、品类、商品属性、地域等),从全量消费者历史消费行为数据中,自动发现买家消费行为模式和商品之间的潜在关联,并通过时序信息,提升因果预测的准确度。

2、“关河因果”与因果分析

关河因果分析系统是以“因果分析”为核心的数据分析系统。目前大多数的因果分析都是通过统计理论进行处理数据,通过机器学习建立分析模型。而关河因果基于当前因果分析领域的几大痛点问题,在系统核心技术上实现突破。

突破1:解决机器学习“黑盒”不可解释问题

虽然我们可以通过机器学习模型来预测结果,但是我们不清楚预测的过程。机器学习擅长学习输入数据和输出预测之间的联系,但因其过程不可解释,所以难以对因果关系或环境变化进行推理。因果分析不同于关联分析,我们不仅需要判断A事件与B事件的相关性,还需要判断A对B是否存在因果影响,所以可解释性成为因果分析中重要的一环。关河因果通过将机器学习融入逻辑规则框架,自动发现可解释的规则,为决策提供有力支撑。

突破2:用图数据处理复杂关联关系问题

现有的关联性分析工具都是基于关系型数据进行分析,结果通常呈现为下图的表达式:

图片

这些表达式在大部分场景中并不能清晰的描述规则,因而更难去进行深一步的因果分析。同时在数据规模越来越大、数据结构越来越复杂的大数据时代,传统的关系型数据暴露出了建模缺陷、水平伸缩等诸多问题,因此具有更强大表达力的图结构下的数据开始被大量领域用于存储、处理、分析数据。图(Graph)将信息中的实体,以及实体之间的关系,分别抽象表达成顶点以及顶点间的边这样的结构数据。图结构可以更好地表达数据之间的关联性,常用于挖掘人、物和实体间潜在的联系。

关河因果:如何实现从关联规则到因果分析_第2张图片

关河因果基于图关联规则(GAR)理论,对大规模图数据进行关联关系发掘,且它的图数据在点(实体)、边(实体关系)的基础上增加了“属性”维度,大幅提升数据分析的深度,为因果分析的“归因”提供了数据结构基础。深层次、高精准,可解释的关联规则才能辅助数据分析人员进行正确的、有效的、可解释的因果分析。

突破3:关联规则中“时序”的缺失

当前的机器学习方法倾向于过度拟合数据。事实上,他们试图完美地了解过去,而不是发现随着时间的推移将继续存在的真实/因果关系。

关河因果中的TACOs(TemporAl event prediCtiOn rules)是一类用于事件预测的时间关联规则,TACOs通过监测图的更新,捕捉推荐中的时间兴趣和行为变化。算法规避了穷尽的水平搜索环节,大大缩短了传统的规则挖掘过程,且支持发现大模式时间关联规则,进行事件的因果预测。

你可能感兴趣的:(数据挖掘数据分析机器学习)