解决的问题:
信用卡欺诈检测
问题及难点:
1. 欺诈手段会随着时间的推移而变化。欺诈模式的改变是因为欺诈者继续创新新的方法,
以规避防止欺诈的措施。有限的数据和不断变化的模式使学习困难。
2. 获得具有良好非欺诈行为的样本比表现出欺诈模式的样本更容易,因为后者是稀缺且时
变的,类别不平衡问题严重。
方法思想:
1. 通过使用聚类方法的集成为每个数据点分配一个一致性分数来检测大数据集中的异常值。
2. 我们假设与不良行为不同,良好行为不随时间变化,代表良好行为的数据点在不同的分组下
具有一致的空间排列。基于此假设,我们提出了一套进行离群值检测的聚类方法。
3. 如果我们可以开发一种方法来估计每个数据点的一致性行为(良好行为),那么我们就可以
将异常值识别为具有低一致性得分的数据点。
4. 我们认为在不同的空间分组下,属于同一集群(或近距离集群)的数据点是一致的。基于这
一理解,我们尝试通过估计每个数据点的一致性评分来解决离群值检测的问题。
方法细节:
1. 离群值检测的目标是提取那些包含关于数据所描述的系统异常行为的有用信息的数据点。
2. 估计每个数据点的一致性的一种方法是通过运行一个无监督集群的集合。由于一致点的空间
排列不改变,它们应该形成封闭的簇。我们对k的二误差值运行简单的k-means聚类算法N
次,其中k的范围从2到k。样本集上的k-means运行将把每个数据点分配给N个聚类,其中
N个质心与各自的聚类相关。注意,每个数据点用对应于N个运行的N个质心表示。
3. 下一步是估计每个数据点的一致性分数。我们使用点积来计算这个一致性分数。
4. 从这些向量的形式计算一个签名。 5. 将这个分数标准化,才能得到每个数据点0到1之间的分数,其中1意味着高度一致性,0意味
着一致性较差。
评估方式:
1. 精确召回曲线更适合,因为精度将假阳性与真阳性(异常值)而不是真阴性(内部值)进行比
较,因此不受类别不平衡问题的影响。
2. 在我们的案例中,我们有一个巨大的类不平衡的问题,因为信用卡欺诈检测数据集中阳性类
的样本数量仅占总样本的0.172%。因此,我们更关心该算法在识别阳性样本方面的性能,
而不是在识别阴性样本方面的性能。
结论:
1. 正如预期的那样,当异常值重叠时,算法可以将异常值分离出来。因此,我们看到了很多假
阴性。在这种情况下,理想的方法是可以最大化真阳性,同时最小化假阴性。当我们增加阈
值时,我们看到假阴性的数量在下降,但假阳性的数量在不断增加。在这种情况下,正确的
方法将取决于应用程序和领域。
2. 在本文中,我们提出了一种方法,通过为每个数据点分配一个一致性分数来识别异常值和纯
内联值方面具有巨大的潜力。该方法假定对异常值或异常值都没有先验知识。我们证明了所
提出的方法在不同的场景中的应用,如推荐潜在的异常值,以进一步的高精度研究,并为新
颖性检测算法创建训练集。我们还提出了一个更好的评价度量,并表明,对于异常值检测问
题,精度召回曲线下的面积优于ROC曲线下的面积。
随手记:
1. unsupervised clusters
2. 点积通常被用作两个向量相似性的代理。
3. 对于每个数据点,一致性是通过估计其所属的质心的加权平均相似度得分(s)来确定的。
重要操作:
1. 然而,由于我们的算法是对k的二误差值的kmeans的集合,它遇到了与k-means算法相同的
问题。它可能会遇到局部最小值,并可能对数据中显示的顺序很敏感。因此,我们随机化我 们的数据集,并运行我们的算法10次,以获得这些问题可能产生的方差的估计。