TIBCO Spotfire使用技巧:TIBCO Spotfire中异常检测的十大方法 (Outlier Detection)

在数学上,任何远离大量数据的观察都被归类为异常值。在实践中,异常值可能来自不正确或低效的数据收集,工业机器故障,欺诈零售交易等。因此,检测和隔离异常值以应用纠正处理变得至关重要。您可以使用Spotfire以下列方式智能地识别和标记异常值:

原文链接:https://community.tibco.com/wiki/top-10-methods-outlier-detection-tibco-spotfire

目录

  • 1.使用方框图
  • 2.配置其他图
  • 3.通过数据面板直方图
  • 5.使用TERR检测异常值
  • 6.启用颜色方案规则
  • 7.利用曲线拟合或回归
  • 8.相似性或聚类
  • 9.探索高级配置
  • 10.社区交流模板
  • 我如何了解更多信息?
  • 也可以看看

1.使用方框图

TIBCO Spotfire使用技巧:TIBCO Spotfire中异常检测的十大方法 (Outlier Detection)_第1张图片

Box和whisker plot(方框图)通过使用五个数字汇总 - 最小值,第一个四分位数(Q1),中位数,第三个四分位数(Q3),最大值来显示数字y变量和分组x变量之间的关系。除了上述Spotfire提供的下邻值(LAV)和上邻值(UAV)定义如下

LAV = Q1 - 1.5 * IQR 

UAV = Q3 + 1.5 * IQR

其中IQR是四分位数范围。落在LAV和UAV之外的任何点都标记为异常值。工具提示标签包含有关异常值的其他信息,与图中的所有其他数据点不同。

2.配置其他图

Spotfire快速访问菜单中的其他图表通常用于识别异常值:

  • 直方图配置中的条形图以识别单变量异常值
  • QQ图配置中的散点图用于识别分布中的双变量异常值
  • Pareto图表配置中的组合图,用于根据累积值识别异常值
  • 用于离群检测的平行坐标图(PCP)多变量分析

3.通过数据面板直方图

TIBCO Spotfire使用技巧:TIBCO Spotfire中异常检测的十大方法 (Outlier Detection)_第2张图片

内存数据库和数据库数据的列概述数据面板显示数值列的分布直方图。 

用户还可以插入自定义行以隔离多模态数据中的异常值。考虑来自标准正态分布的数据的情况 - 大约5%的数据超过2个标准偏差,因此将通过常规统计测试作为异常值。但这只是分数所遵循的分布的本质。对于这种情况,Spotfire允许您灵活地从自定义表达式插入行,而不完全取决于异常值检测的预定义方法。

TIBCO Spotfire使用技巧:TIBCO Spotfire中异常检测的十大方法 (Outlier Detection)_第3张图片

图1显示了直方图,其异常值被识别为超过2标准的点。偏离平均值

4.选择“列聚合函数”

TIBCO Spotfire使用技巧:TIBCO Spotfire中异常检测的十大方法 (Outlier Detection)_第4张图片

可以聚合Spotfire中可用的可视化类型的y变量来显示异常值,异常值百分比,百分位数和四分位数。这些度量可以传递给配置属性,如下面第6点中描述的颜色方案,以便在视觉上将异常值与其余数据分开。

5.使用TERR检测异常值

自定义表达式,表达式函数和数据函数都允许用户通过使用TERR或Open Source R将其与来自CRAN的10,000多个包无缝集成来扩展Spotfire功能。将TERR表达式与颜色组合的示例可以是选择渐变颜色方案基于一行表达式计算的离群值得分:

outlier.score <- Rlof::lof(datacolumn, k=5)

这里Rlof包包含lof函数,它是广泛使用的Local Outlier Factor算法的一种实现,用于检测异常值。这些脚本将Spotfire数据元素(表,列,属性等)映射到R函数输入,并且可以跨列,可视化配置等进行保存和重用.Spotfire中的这种灵活性和可扩展性是任何市场同时代人都无法比拟的。

对于像离群检测的马哈拉诺比斯距离分析这样的更广泛的分析,可以利用TERR数据功能。数据函数的输出可以自动绘制到交互式画笔链接可视化上。

6.启用颜色方案规则

TIBCO Spotfire使用技巧:TIBCO Spotfire中异常检测的十大方法 (Outlier Detection)_第5张图片

图1显示了所有可用的配色方案和突出显示的盒子异常值颜色方案

可以使用基于用户可以启用的动态规则的动态异常值颜色方案来巧妙地识别异常值。这些规则包括:

  • 排除预定义颜色方案中的异常值颜色方案
  • 最简单的条件内置颜色选项,适用于低于内部中间围栏或大于上部内部围栏的点
  • 阈值,均值,中位数,自定义用户指定的表达式
  • 如上所述,使用渐变颜色方案和在TERR中创建的动态异常值分数

7.利用曲线拟合或回归

Spotfire可视化属性中的线条和曲线允许您插入曲线拟合或适合数据的线条。然后可以使用此拟合来识别极端偏离点,即异常值!

8.相似性或聚类

Spotfire提供了开箱即用功能,可以将“线相似度”和“K均值”聚类应用于“工具”菜单中的可视化。用户可以选择相似度量 - 欧几里得或相关和其他参数,如簇数,以在数据中创建线相似性或聚类标签列。然后,此列可用于颜色或格子选项。

通过对数据应用分层聚类,可以找到稳定数量的聚类。也可以从Spotfire的“工具”菜单中获得分层聚类,并根据距离度量使用树状图进行热图可视化。将截止点滑动到树形图中的期望位置有助于确定稳定数量的簇。

TIBCO Spotfire使用技巧:TIBCO Spotfire中异常检测的十大方法 (Outlier Detection)_第6张图片

图。显示了开箱即用的数据聚类。空集群中的灰线是异常值。

如果数据具有异常值,则它们将落入其自己的群集中,因为群集的数量大于稳定数量。

9.探索高级配置

我们讨论了使用表达式,表达式函数和数据函数创建新的计算和列。这些可以连接到自动标记异常值的配置选项。可视化属性的高级配置超出了颜色特征,可以类似地应用于可视化中的标记,过滤器,子集和标签。

10.社区交流模板

TIBCO Spotfire使用技巧:TIBCO Spotfire中异常检测的十大方法 (Outlier Detection)_第7张图片

为了帮助Citizen Data Scientist,Spotfire数据科学团队在“Analytics”标签下的community.tibco.com/extensions上免费提供了几个即插即用模板。这些模板允许用户通过按下按钮插入数据,并以最少的配置探索洞察。

使用深度学习神经网络的异常检测是一种这样的模板,其分析输入数据以基于无监督学习期间的娱乐错误发现异常。另一个特定于域的用例是质量控制模板,用于根据各个点的既定控制限制,移动平均值和方差来识别违规或异常值。这些模板允许用户将定义从公共异常值扩展到特定于域的异常值,并巧妙地识别和标记相同的异常值。

我如何了解更多信息?

这简要总结了异常值检测的十大方法。观看该页面并进行投票以获得有关详细更新的通知。您还可以通过以下方式从Spotfire博士上面的任何特定方法请求特色会话:

  • 使用标签#DrSpotfire发布您的问题
  • 使用标签#DrSpotfire 将您的问题发布到TIBCO社区“答案”部分
  • 请通过[email protected]直接联系Dr. Spotfire

也可以看看

  1. 相邻值和异常值
  2. Spotfire中的自定义表达式和表达式函数
  3. 如何在Spotfire中组合图表配置Pareto图表
  4. Shewhart控制图和 Spotfire中的趋势图
  5. 使用Spotfire 简化群集
  6. TIBCO社区交流分析
  7. 使用自动编码器机器学习模型进行异常检测 Wiki页面

附件

附件 尺寸
图像图标 data_panel_histogram.png 75.93 KB
图像图标 boxplot.png 56.77 KB
图像图标 colour_scheme_rules.png 84.33 KB
图像图标 histogram_for_outlier_detection.png 47.87 KB
图像图标 列aggregation.png 115.22 KB
图像图标 clustering.png 121.81 KB
图像图标 社区exchange.png 39.21 KB

 

如需要联系TIBCO原厂采购,各位可以访问如下链接

https://www.tibco.com/company/locations

中国北京Main Office Phone

+86 10 8341 3723

你可能感兴趣的:(TIBCO,Spotfire技巧篇)