在数学上,任何远离大量数据的观察都被归类为异常值。在实践中,异常值可能来自不正确或低效的数据收集,工业机器故障,欺诈零售交易等。因此,检测和隔离异常值以应用纠正处理变得至关重要。您可以使用Spotfire以下列方式智能地识别和标记异常值:
原文链接:https://community.tibco.com/wiki/top-10-methods-outlier-detection-tibco-spotfire
目录
1.使用方框图
Box和whisker plot(方框图)通过使用五个数字汇总 - 最小值,第一个四分位数(Q1),中位数,第三个四分位数(Q3),最大值来显示数字y变量和分组x变量之间的关系。除了上述Spotfire提供的下邻值(LAV)和上邻值(UAV)定义如下
LAV = Q1 - 1.5 * IQR
UAV = Q3 + 1.5 * IQR
其中IQR是四分位数范围。落在LAV和UAV之外的任何点都标记为异常值。工具提示标签包含有关异常值的其他信息,与图中的所有其他数据点不同。
2.配置其他图
Spotfire快速访问菜单中的其他图表通常用于识别异常值:
3.通过数据面板直方图
内存数据库和数据库数据的列概述数据面板显示数值列的分布直方图。
用户还可以插入自定义行以隔离多模态数据中的异常值。考虑来自标准正态分布的数据的情况 - 大约5%的数据超过2个标准偏差,因此将通过常规统计测试作为异常值。但这只是分数所遵循的分布的本质。对于这种情况,Spotfire允许您灵活地从自定义表达式插入行,而不完全取决于异常值检测的预定义方法。
图1显示了直方图,其异常值被识别为超过2标准的点。偏离平均值
4.选择“列聚合函数”
可以聚合Spotfire中可用的可视化类型的y变量来显示异常值,异常值百分比,百分位数和四分位数。这些度量可以传递给配置属性,如下面第6点中描述的颜色方案,以便在视觉上将异常值与其余数据分开。
5.使用TERR检测异常值
自定义表达式,表达式函数和数据函数都允许用户通过使用TERR或Open Source R将其与来自CRAN的10,000多个包无缝集成来扩展Spotfire功能。将TERR表达式与颜色组合的示例可以是选择渐变颜色方案基于一行表达式计算的离群值得分:
outlier.score <- Rlof::lof(datacolumn, k=5)
这里Rlof包包含lof函数,它是广泛使用的Local Outlier Factor算法的一种实现,用于检测异常值。这些脚本将Spotfire数据元素(表,列,属性等)映射到R函数输入,并且可以跨列,可视化配置等进行保存和重用.Spotfire中的这种灵活性和可扩展性是任何市场同时代人都无法比拟的。
对于像离群检测的马哈拉诺比斯距离分析这样的更广泛的分析,可以利用TERR数据功能。数据函数的输出可以自动绘制到交互式画笔链接可视化上。
6.启用颜色方案规则
可以使用基于用户可以启用的动态规则的动态异常值颜色方案来巧妙地识别异常值。这些规则包括:
7.利用曲线拟合或回归
Spotfire可视化属性中的线条和曲线允许您插入曲线拟合或适合数据的线条。然后可以使用此拟合来识别极端偏离点,即异常值!
8.相似性或聚类
Spotfire提供了开箱即用功能,可以将“线相似度”和“K均值”聚类应用于“工具”菜单中的可视化。用户可以选择相似度量 - 欧几里得或相关和其他参数,如簇数,以在数据中创建线相似性或聚类标签列。然后,此列可用于颜色或格子选项。
通过对数据应用分层聚类,可以找到稳定数量的聚类。也可以从Spotfire的“工具”菜单中获得分层聚类,并根据距离度量使用树状图进行热图可视化。将截止点滑动到树形图中的期望位置有助于确定稳定数量的簇。
如果数据具有异常值,则它们将落入其自己的群集中,因为群集的数量大于稳定数量。
9.探索高级配置
我们讨论了使用表达式,表达式函数和数据函数创建新的计算和列。这些可以连接到自动标记异常值的配置选项。可视化属性的高级配置超出了颜色特征,可以类似地应用于可视化中的标记,过滤器,子集和标签。
10.社区交流模板
为了帮助Citizen Data Scientist,Spotfire数据科学团队在“Analytics”标签下的community.tibco.com/extensions上免费提供了几个即插即用模板。这些模板允许用户通过按下按钮插入数据,并以最少的配置探索洞察。
使用深度学习神经网络的异常检测是一种这样的模板,其分析输入数据以基于无监督学习期间的娱乐错误发现异常。另一个特定于域的用例是质量控制模板,用于根据各个点的既定控制限制,移动平均值和方差来识别违规或异常值。这些模板允许用户将定义从公共异常值扩展到特定于域的异常值,并巧妙地识别和标记相同的异常值。
这简要总结了异常值检测的十大方法。观看该页面并进行投票以获得有关详细更新的通知。您还可以通过以下方式从Spotfire博士上面的任何特定方法请求特色会话:
附件 | 尺寸 |
---|---|
data_panel_histogram.png | 75.93 KB |
boxplot.png | 56.77 KB |
colour_scheme_rules.png | 84.33 KB |
histogram_for_outlier_detection.png | 47.87 KB |
列aggregation.png | 115.22 KB |
clustering.png | 121.81 KB |
社区exchange.png | 39.21 KB |
如需要联系TIBCO原厂采购,各位可以访问如下链接
https://www.tibco.com/company/locations
中国北京Main Office Phone
+86 10 8341 3723