笔记】根据公交卡出行记录识别小偷

【笔记】根据公交卡出行记录识别小偷

2018年02月09日 19:23:27 稻蛙 阅读数:327

案例来源:@Bowen Du

案例地址:http://www.kdd.org/kdd2016/papers/files/adf0629-duA.pdf

(以下为案例的简要概述,便于之后能快速检索到相关内容。部分文字与图片可能直接来自原文,如有侵权请告知,谢谢)

1. 目标:根据公交卡出行记录识别小偷

2. 数据:

1)automated fare collection (AFC) systems的数据集(即北京智能公交一卡通数据),包括地铁与公交刷卡记录,在2014年4-6月共有600w用户的16亿条记录

2)根据新浪微博搜索,匹配到一些小偷的公交卡id

3)各个站点附近的POI数据,将其划入home、word、education等类别
image

3. 特征提取

1)出行时间

2)出行频率

3)短途出行占比(<3站的出行次数占所有出行次数的比例):因为小偷会经常换路线避免被乘客抓到

4)出行模式:大部分出行都是有模式的,如早高峰是 住宅区→中转站→工作区,而小偷的出行会缺乏这种模式

5)高频访问地图:一些地区容易偷窃,而且小偷也喜欢在自己熟悉的区域下手

6)与常规出行的背离程度:给定出发点和目的,大部分人的路线差别不大,一般是距离最短或者时间最短,而小偷则不符合这个模式

7)历史行为:七日历史行为的中位数、平均数等
image

4. 识别小偷:因为正例负例规模差距大,一些监督学习算法会有苦难;使用无监督学习方法,容易产生大量误报

1)无监督学习:采用无监督学习做异常检测,如果是正常样本,则过滤掉,下一步骤中只对可能的异常样本做检测。这里采用正常的用户行为做one-class SVM,实现无监督的异常检测

2)有监督学习:缩小了样本后,征服例比例规模差距缩小,因此可以做有监督学习。这里采用SVM做有监督学习

5. 效果

image

你可能感兴趣的:(笔记】根据公交卡出行记录识别小偷)