本文原文:https://www.tibco.com/blog/2017/10/09/top-10-methods-for-outlier-detection-in-spotfire/
在数学上,远离大量数据的任何观察都被归类为异常值。在实践中,异常值可能来自不正确或低效的数据收集,工业机器故障,欺诈零售交易等。检测和隔离异常值以应用纠正处理变得至关重要。您可以使用TIBCO Spotfire以10种方式巧妙识别和标记异常值。
1.使用箱形图
盒子和胡须图/Box and whisker plot(盒图) 通过使用五个数字摘要 - 最小值,第一四分位数(Q1),中位数,第三四分位数(Q3),最大值来显示数字y-变量和分组x-变量之间的关系。除上述之外,Spotfire还提供较低的相邻值(LAV)和较高的相邻值(UAV),定义如下:
LAV = Q1 - 1.5 * IQR
UAV = Q3 + 1.5 * IQR
IQR在四分位数范围内。任何落在LAV和UAV以外的点都被标记为异常值。工具提示标签包含关于异常值的附加信息,与图中所有其他数据点相比,这些信息是不同的。
2.配置其他图
Spotfire快速访问菜单中的其他图通常用于识别异常值:
3.通过数据面板直方图
内存中的列概览数据面板以及in-db数据显示数字列的分布直方图。概述还包含诸如标准偏差和平均值之类的度量,当将其作为直线插入到直方图中时,智能地识别分布的异常值。
图显示了具有异常值的直方图,其标识为距平均值2个标准差以上的点
用户还可以插入自定义行来隔离多模式数据中的异常值。考虑来自标准正态分布数据的情况,大约5%的数据超出2个标准偏差,因此通过常规统计测试将被挑选为异常值。但这只是这些观点所遵循的分布的本质。对于这种情况,Spotfire允许您灵活地从自定义表达式中插入行,而无需完全依赖预定义的异常值检测方法。
4.选择列聚合函数
Spotfire中可用的可视化类型的y变量可以汇总以显示异常值计数,异常值百分比,百分比和四分位数。这些度量可以传递给配置属性,如下面第6点中所述的配色方案,以便将异常值与其余数据进行直观分离。
5.使用TERR来检测异常值
自定义表达式,表达式函数和数据函数允许用户通过使用TERR或开放源代码R与CRAN中的10,000多个软件包无缝集成来扩展Spotfire功能。将TERR表达式与颜色相结合的示例可以是基于渐变色彩方案通过一行表达式计算离群值分数:
outlier.score < - Rlof :: lof(datacolumn,k = 5)
这里,Rlof包含有lof函数,该函数是广泛使用的用于检测异常值的局部异常因子算法的实现。这些脚本将Spotfire数据元素(表格,列,属性等)映射到R函数输入,并可跨列,可视化配置等进行保存和重用。Spotfire的这种灵活性和可扩展性是任何同时代市场无法比拟的。
对于更广泛的分析,例如离群点检测的马氏距离分析,可以利用TERR数据函数。数据功能的输出可以自动绘制到交互式,刷式链接的可视化中。
6.启用配色方案规则
该图显示了所有可用的配色方案和突出显示的离群值颜色方案
根据用户可以启用的动态规则,可以使用动态异常值颜色方案巧妙地识别异常值。这些规则包括:
7.利用曲线拟合或回归
Spotfire可视化属性中的线条和曲线允许您插入曲线拟合或线条拟合数据。然后这个拟合可以用来识别极端偏离点 - 异常值!
8.相似性或聚类
Spotfire提供了开箱即用的功能,可将线性相似性和K均值聚类应用于工具菜单中的可视化。用户可以选择相似性度量 - 欧几里得或相关 - 以及其他参数,如聚类数量来创建数据中的行相似性或聚类标签列。然后可以使用此栏来选择颜色或网格。
通过对数据应用分层聚类可以找到稳定的聚类数量。分层聚类也可从Spotfire的工具菜单中获得,并根据距离度量结果进行树图热图可视化。将截断点滑动到树状图中的所需位置有助于确定稳定的聚类数量。
图显示了数据的K-means聚类。空簇中的灰线是异常的。
如果数据具有异常值,则它们将落入其自己的群集中,群集数量大于稳定数量。
9.探索高级配置
我们讨论了使用表达式,表达式函数和数据函数来创建新的计算和列。这些可以连接到自动标记异常值的配置选项。来自可视化属性的高级配置超出了颜色特征,并且可以在可视化中同样应用于标记,过滤器,子集和标签。
10.使用社区交换模板
为了帮助公民数据科学家,Spotfire数据科学团队根据“分析”标签在社区交换中免费提供了多个即插即用模板。这些模板允许用户通过按下按钮来插入他们的数据,并以最少的配置探索见解。
使用深度学习 神经网络的异常检测就是一种这样的模板,它可以分析输入数据,以便在无监督学习期间根据重现误差找到异常。另一个特定领域用例是 质量控制模板 ,用于从各个点的既定控制限制,移动平均值和方差中识别违规或异常值。这些模板允许用户将定义从一个常见的异常值扩展到一个特定于域的异常值,并巧妙地识别和标记相同值。
我如何学习更多?
这简要总结了用于异常值检测的前10种方法。观看页面并投票,获取有关详细更新的通知。您还可以通过以下方式请求关于Spotfire博士上述任何特定方法的特色会话 :
也可以看看:
TIBCO社区交换分析