通过 pandas库 读取csv文件,每一行代表一条活动记录,一般必须要有的信息是 case_id 事件id , activity_name 活动名称,time 时间戳,此外还可以包含 事件类型、活动成本等额外的信息以供进一步分析。pm4py官网提供了一个小样本数据集可用于探索该库的使用。
case_id;activity;timestamp;costs;resource
3;register request;2010-12-30 14:32:00+01:00;50;Pete
3;examine casually;2010-12-30 15:06:00+01:00;400;Mike
3;check ticket;2010-12-30 16:34:00+01:00;100;Ellen
3;decide;2011-01-06 09:18:00+01:00;200;Sara
3;reinitiate request;2011-01-06 12:18:00+01:00;200;Sara
数据读取完成之后,可以获取该事件日志的一些基本信息。注意:这里 case/ trace 表示一个案例,即一次完整的流程,每个case_id 对应了很多可分隔的步骤(也即具体的 事件event / 活动activity) 。后面不再强调这一点,但都会按照这种方式进行叙述,因此需要明确区分 case 和 event 。
event_log = pandas.read_csv(file_path, sep=';') # 读取日志文件
num_events = len(event_log) # 获取日志文件的活动数目
num_cases = len(event_log.case_id.unique()) # 查看有多少次完整的案例记录
此外,通过pm4py提供的函数还可以查看开始活动和结束活动都是哪些。
# 指定case_id,activity_key,timestamp_key分别对应哪个数据列
event_log = pm4py.format_dataframe(event_log, case_id='case_id', activity_key='activity',
timestamp_key='timestamp')
start_activities = pm4py.get_start_activities(event_log) # 起始事件
end_activities = pm4py.get_end_activities(event_log) # 结束事件
print("Start activities: {}\nEnd activities: {}".format(start_activities, end_activities))
pm4py.format_dataframe
将数据表转换为pm4py中的通用格式,它会创建事件日志的副本,并将分配的列重命名为pm4py中使用的标准列名,列case_id会重命名为case:concept:name
,activity 列重命名为concept:name
,timestamp列重命名为time:timestamp
。
pm4py.get_start_activities
和pm4py.get_end_activities
函数返回一个字典,给出起始事件及结束事件分别出现在第一个和最后一个的次数。
PM4Py利用内置的panda函数自动检测输入数据中的时间戳格式。但是,pandas 会孤立地查看每一行中的时间戳值。这就存在一些问题,如果提供的值是2020-01-18,即,首先是年份,然后是月份,然后是日期,在某些情况下,2020-02-01的值可能被错误地解释为1月2日,即,而不是2月1日。为了解决这个问题,可以向format_dataframe()方法提供一个额外的参数 times_format 。在本例中,时间戳格式为%Y-%m-%d%H:%m:%S%z。通常建议指定时间戳格式。
现实中的日志数据通常是复杂、多变、有噪声的,为了得到良好的过程模型,有必要对数据进行仔细的过滤,PM4Py中有各种预构建的过滤器来实现这个需求。
activities
用于指定所关注的 起始事件 的集合; retain
设置为True 表示 保留所有以 activities
中的事件开头的case,为 False 则删除所有以 activities
中的事件开头的case。 activities 和 retain这两个参数在其他函数中也是一样的,因此后面不再介绍。attribute_key
是表示要筛选的属性键的字符串,values
参数指定一组允许的值。如果level
参数设置为“case”,表示在case-level进行属性值的过滤,一个case所包含的多个event中,至少一个event的属性值满足要求,那么整个case的所有事件都将被保留。如果level
参数值设置为“event”,则只保留属性为指定值的事件。variations
参数是活动名称列表的集合,例如 variations=[['a','b','c']]
。('a', 'b')
表示在轨迹中’a’后面直接跟着 ‘b’ ,轨迹<'a','b','c','d'>
包含直接跟在后面的对(‘a’,‘b’),(‘b’,‘c’)和(‘c’,‘d’)。relationship
参数是一组元组,包含活动名称。(“a”, “b”)
的函数时,在某个点观察到活动“a”,在之后某个点观察到活动“b”即可。datetime.datetime
。筛选器有三种模式(默认为“events”):
‘events’
:保留在时间范围之内的事件‘traces_contained’
:保留完全在时间范围之内的轨迹‘traces_intersecting’
:保留至少有一个事件在时间范围之内的轨迹 filtered = pm4py.filter_start_activities(log, {'register request'})
filtered = pm4py.filter_start_activities(log, {'register request TYPO!'})
filtered = pm4py.filter_end_activities(log, {'pay compensation'})
filtered = pm4py.filter_event_attribute_values(log, 'org:resource', {'Pete', 'Mike'})
filtered = pm4py.filter_event_attribute_values(log, 'org:resource', {'Pete', 'Mike'}, level='event')
filtered = pm4py.filter_trace_attribute_values(log, 'concept:name', {'3', '4'})
filtered = pm4py.filter_trace_attribute_values(log, 'concept:name', {'3', '4'}, retain=False)
filtered = pm4py.filter_variants(log, [
['register request', 'check ticket', 'examine casually', 'decide', 'pay compensation']])
filtered = pm4py.filter_variants(log, [
['register request', 'check ticket', 'examine casually', 'decide', 'reject request']])
filtered = pm4py.filter_directly_follows_relation(log, [('check ticket', 'examine casually')])
filtered = pm4py.filter_eventually_follows_relation(log, [('examine casually', 'reject request')])
filtered = pm4py.filter_time_range(log, dt.datetime(2010, 12, 30), dt.datetime(2010, 12, 31), mode='events')
filtered = pm4py.filter_time_range(log, dt.datetime(2010, 12, 30), dt.datetime(2010, 12, 31),
mode='traces_contained')
filtered = pm4py.filter_time_range(log, dt.datetime(2010, 12, 30), dt.datetime(2010, 12, 31),
mode='traces_intersecting')
流程发现模块用于从事件日志中生成流程模型,pm4py实现了多种流程发现算法,并且可以生成不同种类的过程模型。PM4Py目前支持三种不同的流程建模符号,分别是:
pm4py中的流程发现根据所使用的 算法 和 模型 对应着不同的函数,具体如下表所示(表中只是其中部分),然后本文会对这些函数的使用方法和参数进行具体的介绍:
Tuple[PetriNet, Marking, Marking]
Tuple[PetriNet, Marking, Marking]
ProcessTree
HeuristicsNet
BPMN
在介绍绘图之前,先介绍一下各个流程模型之间的转化。pm4py的convert模块提供了多种函数实现 petri 网,过程树,BPMN等模型的转换。
process_tree = pm4py.discover_process_tree_inductive(log) # 流程树
bpmn_model = pm4py.convert_to_bpmn(process_tree) # 将流程树转换为BPMN
BPMN,过程树绘制的函数也都类似,view_xxxx() 用于模型可视化展示,save_vis_xxxx() 用于文件保存,一般可以设置 format 文件类型 和 bgcolor背景颜色。
net, im, fm = pm4py.discover_petri_net_inductive(dataframe, activity_key='concept:name',
case_id_key='case:concept:name',
timestamp_key='time:timestamp')
pm4py.view_petri_net(net, im, fm, format='svg')