近年来,事件日志数据越来越多,也越来越容易获取。作为一个年轻的跨领域的交叉研究方向,过程挖掘发展迅速。什么是过程挖掘,过程挖掘算法如何在各类学术和商业系统中得以实现,以及过程挖掘面临哪些技术挑战。本文将进行深入探讨。
过程挖掘(process mining),指从现代信息系统中常见的事件日志中获取过程知识,发现、监测和改进实际系统行为模式(用过程模型来表达)。其原理如图1所示。
面向日益增长的对日志数据进行过程分析的需求,2009年IEEE计算智能学会(Computational Intelligence Society)下的数据挖掘技术委员会(Data Mining Technical Committee)设立了IEEE过程挖掘工作组(IEEE Process Mining Task Force)[1]。
目前IEEE过程挖掘工作组包括三类成员:(1)软件制造商,包括HP、IBM、Infosys、SoftwareAG、Pallas Athena、Fujitsu Laboratories等;(2)咨询公司/最终用户,包括Gartner、Process-Gold、Business Process Trends、Deloitte等;(3)研究机构,包括如TU/e、University of Calabria、Penn State University、Queensland University ofTechnology、University of Haifa、K.U. Leuven、清华大学、University of Innsbruck等。
IEEE过程挖掘工作组的使命:(1)向用户、开发者、咨询顾问、业务经理和研究人员展现过程挖掘的最新成果;(2)促进过程挖掘技术和工具的使用,推动开发新的应用软件;(3)致力于日志数据记录的标准化;(4)组织过程挖掘培训、学术会议、专题研讨班;(5)发表学术文章、出版教程书籍、发布专刊和视频。
为了推动过程挖掘作为业务过程设计、改进和控制的新型工具的进一步发展,2011年IEEE过程挖掘工作组发布了《过程挖掘宣言》[2]。该宣言阐述了过程挖据技术发展现状、应用指南和未来挑战,得到了学术界、工业界和最终用户的广泛关注,目前已被翻译成汉语、荷兰语、法语、德语、希腊语、意大利语、日语、韩语、葡萄牙语、西班牙语、土耳其语等11 国语言。
信息系统的广泛应用使得事件记录(日志数据)变得无处不在,包括从ATM机中取款、医生校准X射线机、公民申请驾照、纳税申报的提交、游客获取电子客票等。简单收集日志数据并不能解决人们所关心的管理问题,比如洞察异常、识别瓶颈、预测问题、违规判定、对策推荐和优化处理等。为了解决上述问题,过程挖掘应运而生,其本质在于支持以一种有意义的方式利用日志数据。
过程挖掘的起点是日志数据。过程挖掘技术假定系统能够连续地记录事件,每个事件代表一个活动(对应过程模型的某个任务),同时每个事件都和一个特定的案例(即一个过程实例)相关。事件日志还包括其它信息,如资源(即人或设备)的执行或初始化活动、事件的时间戳或者在事件涉及的数据元素(如订货数量等)。
图2 三种典型的过程挖掘场景:过程发现、符合性检查和模型增强
过程挖掘典型应用场景(如图2所示)包括:过程模型发现(即从日志数据中挖掘出过程模型)、合规性检查(即通过对比模型和日志来监测运行偏差)、过程模型演化/增强、社交网络/组织挖掘、仿真模型的自动生成、模型修复、案例预测,以及基于历史的推荐等。
认识数据挖掘技术要避免三方面误区:
过程挖掘仅局限于控制流发现 控制流发现当然是过程挖掘中最令人兴奋的应用,然而,过程挖掘并不局限于控制流发现,还可以发现相关的组织模型、案例模型(即业务数据模型)和时间约束等信息。
过程挖掘只是数据挖掘的一种简单应用 传统数据挖掘技术(如关联规则和决策树等)并不是以过程为中心,过程挖掘以支持并发语义的过程模型来表征挖掘结果,传统数据挖掘技术并不能有效解决这一问题。
过程挖掘仅局限于离线分析 过程挖掘通常是从历史事件数据中提取过程知识,但是过程挖掘技术也可以应用于正在运行的案例中。例如,可以借助于发现的过程模型来预测正在执行的用户订单的完成时间。
过程挖掘仍然是一门新兴研究方向,一方面,日志数据规模以惊人的速度增长,软件日志(software log)已成为人们公认的大数据之一[3],另一方面,过程和信息需要进行对齐,以满足与符合性、效率和用户服务相关的需求。《过程挖掘宣言》总结了过程挖掘领域面临的主要挑战如下:
发现、合并和清洗日志数据 获取可用的日志数据需要克服以下困难:(1)数据可能分布在多个数据源上,这类信息需要关联与合并;(2)事件数据有时“以对象为中心”,而非“以过程为中心”,例如,RFID标签记录的事件会指向所绑定的产品、集装箱或容器;(3)事件数据可能是不完备的,有些事件的时间信息可能丢失;(4)一个事件日志可能包含异常行为,也称为噪音或不一致;(5)日志会包括不同粒度与级别的事件,比如,时间戳精度范围从精细的毫秒级别(28-9-2011:h11m28s32ms342)到粗糙的日期信息级别(28-9-2011);(6)某些事件发生在特定环境中,如天气、负载、一周的某一天等等。
处理多类日志数据 不同事件日志的特征有着很大差异。有些事件日志规模特别大,以至于难以处理,而有的事件日志规模特别小,以至于没有足够的可用数据来得出可信的结论。由于事件日志只包含样例行为,它们不应该被假定为完备的。过程挖掘技术需要通过“开放世界假设”来处理不完备性,所谓“开放世界假设”指的是:某些事情没有发生并不意味着它不能发生。这给处理包含许多变化的小规模事件日志带来了挑战。
构建广泛接受的基准 当前过程挖掘技术与产品还没有形成统一的评价标准。一方面需要真实数据集;另一方面也需要人工数据集。对真实数据集的需求是不言而喻的,而人工数据集,如不完备事件日志、有噪音的事件日志,则有助于开发新型过程挖掘技术。
处理概念漂移 概念漂移是指,业务过程模型随着时间推移而改变,即过程演化。例如,在业务初期,两个活动是并发关系,随着业务的推进,日志中这些活动变成了顺序关系。在实际应用中,只有少数过程模型处于相对稳定状态,因此理解概念漂移对于过程管理来说非常重要。为了应对概念漂移需要创新性研究工作。
改进过程模型的表示方式 过程挖掘技术需用一种建模语言(如BPNM或Petri网)描述结果模型。选择一种建模语言,即意味着限制了过程挖掘的探究空间:不能被建模语言表示的过程不能被发现。建模语言是否允许并发,对发现模型的可视化和算法考虑的模型类别都会产生影响。过程挖掘领域需要一种更严谨和精确的表示方式。权衡拟合度、简洁度、精确度和泛化度等。
质量标准 事件日志通常是不完备的,即只记录了一些样本行为。过程模型有四个互相竞争的质量维度:拟合度、简洁度、精确度、泛化度。权衡拟合度、简洁度、精确度和泛化度仍是一项挑战性工作。
跨组织过程挖掘 传统上,过程挖掘应用于单一的组织内部。但是,随着服务技术、供应链集成和云计算的普及,会遇到包含多组织的事件日志的应用分析场景。原则上,对于跨组织的过程挖掘来说,存在以下两种情况:一,我们可考虑不同组织协同工作,处理过程实例的协作环境;第二,不同组织环境中执行相同的过程,需要分享业务经验与知识。跨组织过程挖掘技术应该考虑隐私和安全问题,组织间也许因为竞争或缺乏信任的原因而不想分享信息。因此,开发隐私保护的过程挖掘技术是很有必要。
提供在线运营支持 过程挖掘起步于对历史数据的分析,今天多数数据源都是(接近)实时更新的,我们有时会期望即时完成事件数据的分析。过程挖掘已不局限为离线分析,开始提供在线运营支持。历史数据可以用来构建预测模型,这些模型被用来指导正在执行的过程实例。例如,有时需要预测一个案例的剩余处理时间,有时需要构建一个任务推荐系统,以减少开销、缩短时间。在线过程挖掘技术,对计算能力和数据质量都提出了新的挑战。
融合过程挖掘与其它类型的分析技术 运营管理,特别是运筹学,是一个依赖于建模技术的管理科学分支。它使用了各种数学模型,从线性规划和项目规划到排队模型、马尔科夫链和仿真模型。数据挖掘被定义为“通过对数据集(通常是大数据集)所做的分析,来寻找未知关系,以及用一种容易被数据所有者理解且有用的新型方式总结概括数据”。过程挖掘技术,应该与分类(如决策树学习)、回归分析、聚类(例如,k均值聚类)和模式发现(如关联规则
学习)等已经开发的技术融合使用。
方便最终用户使用 过程挖掘的目标之一是构造“实时过程模型”,即正在使用的过程模型,而不是已经归档的过程模型。新产生的事件数据可被用于发现涌现的行为,事件数据和过程模型之间的关联允许将当前的状态和最近的活动投影到最新的模型上。这样,最终用户需要经常与基于过程挖掘的结果进行交互,因此需要直观、友好的用户界面。
方便最终用户理解 即使产生了过程挖掘结果,并不意味着结果就真正可用。有时,用户由于不理解输出的内容,而被误导到不正确的结论。为了避免这样的问题,挖掘结果应该用一种合适的表示方式展示出来。同时,应明确给出挖掘结果的可信度。现存的过程挖掘技术一般不会对拟合度过低或者过高的结果给出警告,即使有时很明显由于数据量过小而无法得到任何可信的结论。