EnsembleLens: Ensemble-based Visual Exploration of Anomaly Detection Algorithms with Multidimensiona

EnsembleLens: Ensemble-based Visual Exploration of Anomaly Detection Algorithms with Multidimensional Data

作者

同济大学:

  • Chaoguang Lin
  • Qiuhan Zhu
  • Shunan Guo
  • Zhuochen Jin
  • Nan Cao

匹兹堡大学:

  • Yu-Ru Lin

EnsembleLens: Ensemble-based Visual Exploration of Anomaly Detection Algorithms with Multidimensiona_第1张图片

摘要

异常检测的结果对检测算法的选择很敏感,因为它们专用于不同的数据属性,尤其是多维数据。因此,选择合适的算法至关重要。为了系统地选择算法,已经开发了集成分析技术来支持异构算法的组装和比较。然而,由于缺乏这些异常检测器的真实数据、解释或评估,挑战依然存在。在本文中,我们提出了一个名为 EnsembleLens 的视觉分析系统,它基于集成分析过程来评估异常检测算法。该系统通过一组新颖的视觉设计和多个协调的上下文视图来可视化集成过程和结果,以满足异常检测算法的相关性分析、评估和推理的要求。我们还引入了一个交互式分析工作流,该工作流动态地生成上下文化和可解释的数据摘要,从而允许基于用户反馈进一步细化探索结果。我们通过定量评估、三个真实世界数据的案例研究和对两位领域专家的访谈来证明 EnsembleLens 的有效性。

Introduction

异常检测的固有障碍:

  • 异常点的严格定义通常不存在
  • 用于训练异常检测的估计模型的高质量标记数据通常是不可获得的或者是耗时的

评估候选算法自然需要人类的判断

挑战:

  • 比较:在设计可扩展的可视化以基于多个标准和原始数据环境来比较多个集成组件时会遇到困难。
  • 解释:缺乏能够通过展示算法选择和集成结果之间的关系以及可集成组件本身的成对相关性,直观地表示模型行为或揭示结果背后的语义意义的设计。
  • 交互:支持集成调查,结合人类判断和反馈,以及迭代地引导系统产生异常检测算法的更好评估的需求还没有得到解决。

贡献:

  • 系统。我们介绍了一个集成的可视分析系统,它提供了一个基于集成分析的多维数据异常检测算法的用户引导评估。
  • 互动探索。我们采用一种交互式集成方法,通过三个步骤支持异常集成的构建:算法设置、特征打包和组装组合。
  • 可视化设计。我们提出了一套可视化设计,以及布局算法,用于有效地总结和评估由各种异常检测器生成的集成组件。
  • 评估。EnsembleLens 的有效性通过多种形式的评估得到了证明。

Related Work

  • 异常检测算法及其评估
  • 视觉集成分析技术
  • 异常检测算法的视觉探索

System Overview

Requirements:

  • 集成的生成
  • 异常检测算法的多方面比较
  • 在上下文中解释探索结果
  • 人参与的集成分析

事实上,用户应能够在探索过程中标记数据,以便系统能够根据用户反馈对异常检测算法进行精确的评估

EnsembleLens: Ensemble-based Visual Exploration of Anomaly Detection Algorithms with Multidimensiona_第2张图片
Four major modules:

  • Preprocessing
  • ensemble analysis
  • visualization
  • interaction modules

Ensemble Anomaly Detection

EnsembleLens 模型:

  • Feature Bagging Algorithms
  • Baseline Anomaly Detection Algorithms
  • Combination Algorithms

EnsembleLens: Ensemble-based Visual Exploration of Anomaly Detection Algorithms with Multidimensiona_第3张图片
EnsembleLens 实现了三种特征打包方法

  • Random Feature Bagging
  • Non-Redundant Feature Bagging
  • Rotated Bagging

Baseline Anomaly Detection Algorithms

  • One-Class Support Vector Machine (oc-SVM)
  • Kth-Nearest Neighbor (KNN)
  • Local Outlier Factor(LOF)
  • Angle-Based Outlier Detection (ABOD)
  • Robust Covariance Estimation (RCov)
  • Isolation Forest (iForest)

Combination Algorithms

O ( r ) ‾ = ∑ l w ( l ) O ( r ) l , ∑ w ( l ) = 1 \overline{O(r)}=\sum_{l} w(l) O(r)_{l}, \sum w(l)=1 O(r)=lw(l)O(r)l,w(l)=1

Anomaly Ensembles Assessment

avg ⁡ τ ( r ) = ∑ ( j ≠ r j ∈ E ) tau ⁡ ( r , j ) ∣ E ∣ , tau ⁡ ( r , j ) = p − q ( p + q + t ) ( p + q + u ) \operatorname{avg}_{\tau}(\mathbf{r})=\frac{\sum_{(\mathbf{j} \neq \mathbf{r} \mathbf{j} \in \mathscr{E})} \operatorname{tau}(\mathbf{r}, \mathbf{j})}{|\mathscr{E}|}, \operatorname{tau}(\mathbf{r}, \mathbf{j})=\frac{p-q}{\sqrt{(p+q+t)(p+q+u)}} avgτ(r)=E(j=rjE)tau(r,j),tau(r,j)=(p+q+t)(p+q+u) pq

Judging the similarity or correlation among different rankings of anomaly scores is an important way to compare and evaluate detection results

Visualization

Design Tasks

  • 展示整体概述。

  • 在多属性上下文中解释异常集合

  • 通过集成来促进检测器的比较和相关性

  • 增强集成异常检测的视觉推理

  • 允许灵活选择和设置异常检测器

  • 根据人的判断更新评估结果

  • 提供对原始数据的简单访问

  • Overview & Pairwise Comparison

  • Detailed Anomaly Ranking

  • Validation & Reasoning
    EnsembleLens: Ensemble-based Visual Exploration of Anomaly Detection Algorithms with Multidimensiona_第4张图片
    EnsembleLens: Ensemble-based Visual Exploration of Anomaly Detection Algorithms with Multidimensiona_第5张图片
    EnsembleLens: Ensemble-based Visual Exploration of Anomaly Detection Algorithms with Multidimensiona_第6张图片
    EnsembleLens: Ensemble-based Visual Exploration of Anomaly Detection Algorithms with Multidimensiona_第7张图片

Evaluation

Three Case Studies

  • Analysis of Breast Cancer Dataset
  • Analysis of Glass Dataset
  • Analysis of Biodegradation Dataset

EnsembleLens: Ensemble-based Visual Exploration of Anomaly Detection Algorithms with Multidimensiona_第8张图片
Quantitative Evaluation:

  • Consistent with each case study, validating the case study results

Two Expert Interviews:

  • a project manager, a posdoc, both majored in data mining

Contribution & Future Work

Contribution:

  • A visual analytics system for evaluating anomaly detection algorithms
  • An interactive exploration workflow involving human feedback
  • Two views with novel visual design

In future

  • Allow more custom settings for anomaly ensemble generation
  • Extend for anomaly detection

你可能感兴趣的:(论文阅读,论文)