TargetVue: Visual Analysis of Anomalous User Behaviors in Online Communication System

论文传送门
视频

作者

IBM T.J. Watson 研究中心

  • Nan Cao
  • Conglei Shi
  • Sabrina Lin
  • Jie Lu
  • Ching-Yung Lin

匹兹堡大学

  • Yu-Ru Lin

摘要

在线通信系统(例如电子邮件和社交媒体平台)中行为异常的用户可能对社会构成威胁。为了解决这个问题,已经开发了基于高级机器学习技术的自动异常检测。但是,由于难以获得用于模型训练和评估的正确真实数据,目前仍然存在挑战。因此,通常需要对自动分析结果进行大量的人工判断,才能更好地调整异常检测的性能。不幸的是,仍然缺乏使用户能够更有效地判断理解分析结果,对异常做出可靠判断以及在其上下文中探索数据的技术。在本文中,我们提出了一种新颖的可视分析系统TargetVue,该系统可通过无监督学习模型检测异常用户,并通过新颖的可视化设计和多种协调的上下文视图在行为丰富的上下文中可视化可疑用户的行为。特别地,TargetVue合并了三个新的以自我为中心的图示符,以可视方式总结了用户的行为,从而有效地呈现了用户的交流活动,功能和社交互动。一种有效的布局方法被提出来将这些图示符放置在三角形网格上,该网格捕获用户之间的相似性并有助于比较不同用户的行为。我们通过使用Twitter数据,基于电子邮件记录的案例研究以及与专家用户的访谈,在社交机器人检测挑战中的应用展示了TargetVue的强大功能。我们的评估表明,TargetVue有助于检测通信行为异常的用户。

TargetVue: Visual Analysis of Anomalous User Behaviors in Online Communication System_第1张图片

Introduction

最近,在线通信系统,如电子邮件和社交媒体平台(如推特和脸书),为用户提供了跨越时空共享信息的新机制。每天,这些系统生成记录各种用户活动的巨大数字数据档案,引入大量机会来了解用户的交流行为。分析这些行为不仅有助于发现公众采用的常见通信模式,更重要的是有助于发现对社会构成潜在威胁的异常用户。

数据可视化通过上下文信息的直观表示提供了一个很好的方法来评估分析结果,这为支持或反驳分析结论提供了额外的证据。然而,为了设计有效的可视化来描绘用户在交流过程中的行为模式,需要解决三个挑战:

  • 通过简单和集成的视觉设计来显示和捕捉交流过程的丰富上下文,以便于高效的视觉比较
  • 捕捉时间模式(例如,通信过程的频率和持续时间)、内容模式(例如,围绕其发生交互的主题)和活动模式(例如,用户如何在推特上发帖)对于揭示用户行为的洞察力是如何重要的
  • 基于从不同通信系统收集的各种数据,设计一个通用的可视化来支持用户的异常检测,其中缺乏标准的方法或对典型通信过程的底层结构的共同理解。

为了应对这些挑战,我们引入了 TargetVue,这是一种新颖的可视分析系统,用于检测、总结、解释和比较各种通信数据中存档的异常用户行为。TargetVue 采用无监督学习模型 TLOF(一种经过充分研究的异常检测技术),根据一组定义明确的特征来检测异常用户并对其进行排名。TargetVue 中使用多个协调视图来直观地总结和表示分析结果以及用户通信行为的各个重要方面。这些方面包括话题、情感、用户交流特征的时间动态及其影响,以及不同用户之间的关系。协调视图允许分析师从不同的角度浏览和比较用户在 TargetVue 中的通信行为。

贡献:

  • 系统:我们介绍了一种新颖的视觉分析系统,它利用先进的机器学习算法和可视化技术来检测和支持具有各种视觉表现和视角的异常用户的交互式探索。
  • 可视化:我们提出了新的字形设计和布局算法来有效地总结和比较不同的通信行为。
  • 评估:我们展示了 TargetVue 系统在 Twitter 上的机器人检测挑战中的威力,并基于电子邮件数据集进行了案例研究。

Related Work

异常检测:

  • 监督学习
  • 非监督学习

降维和多维可视化技术:

  • MDS
  • PCA
  • SOM
  • 平行坐标

System Design and Overview

TargetVue: Visual Analysis of Anomalous User Behaviors in Online Communication System_第2张图片
设计要求:

  • 特征选择
  • 上下文中的异常检测
  • 威胁排名
  • 从用户反馈中学习

TargetVue 系统:

  • 数据采集模块
  • 预处理模块
  • 分析模块
  • 可视化模块

Detecting Anomalous User Behaviors

模型:time-adaptive local outlier factor model (TLOF)
优点:

  • 它是一种不需要训练数据的无监督学习模型,适合我们的应用场景,即事先不知道异常用户;
  • 它考虑了用户行为的时间序列,而不仅仅是行为的一个快照,以减少误报;
  • 它分配异常分数而不是二进制标签(正常或异常),从而提供用户的排序列表,这对于在视觉分析过程中减少搜索空间是重要的
  • 基于欧氏距离检测异常值,使结果易于可视化解释;
  • 该算法是有效的,并且能够以接近实时的方式计算结果(时间复杂度为 O(NlogN),其中 N 是用户的数量),因此允许其容易地集成到交互式视觉分析系统中。

用户行为:
X = [ x 1 , x 2 , … , x T ] X=\left[x_{1}, x_{2}, \ldots, x_{T}\right] X=[x1,x2,,xT]

异常分数:
s ( X ) = α ⋅ Z 1 ( X ) + ( 1 − α ) ⋅ Z 2 ( X ) s(X)=\alpha \cdot Z_{1}(X)+(1-\alpha) \cdot Z_{2}(X) s(X)=αZ1(X)+(1α)Z2(X)
Z 1 ( X ) = L O F ( x T ) − ∑ t = T − W t = T − 1 L O F ( x t ) / W Z_{1}(X)=L O F\left(x_{T}\right)-\sum_{t=T-W}^{t=T-1} L O F\left(x_{t}\right) / W Z1(X)=LOF(xT)t=TWt=T1LOF(xt)/W
Z 2 ( X ) = 1 − P N ( LOF ⁡ ( x T ) , μ , σ ) Z_{2}(X)=1-P_{N}\left(\operatorname{LOF}\left(x_{T}\right), \mu, \sigma\right) Z2(X)=1PN(LOF(xT),μ,σ)

L O F k ( x t ) = ∑ y ∈ N k ( x t ) D k ( y t ) ∣ N k ( x t ) ∣ D k ( x t ) L O F_{k}\left(x_{t}\right)=\frac{\sum_{y \in N_{k}\left(x_{t}\right)} D_{k}\left(y_{t}\right)}{\left|N_{k}\left(x_{t}\right)\right| D_{k}\left(x_{t}\right)} LOFk(xt)=Nk(xt)Dk(xt)yNk(xt)Dk(yt)
D k ( x t ) = ∣ N k ( x t ) ∣ ∑ q ∈ N k ( x t ) ( max ⁡ ( d k ( q ) , d ( x t , q ) ) ) D_{k}\left(x_{t}\right)=\frac{\left|N_{k}\left(x_{t}\right)\right|}{\sum_{q \in N_{k}\left(x_{t}\right)}\left(\max \left(d_{k}(q), d\left(x_{t}, q\right)\right)\right)} Dk(xt)=qNk(xt)(max(dk(q),d(xt,q)))Nk(xt)

tripartite graph
TargetVue: Visual Analysis of Anomalous User Behaviors in Online Communication System_第3张图片
用户通信行为的高级特征分类:

  • Behavior Features
  • Content Features
  • Interaction Features
  • Temporal Features
  • Network Features
  • User Profile Features

User Interface and Visualization

设计任务:

  • 显示数据概述和检测结果
  • 从不同角度诠释用户行为
  • 便于可视化数据比较。
  • 揭示用户在社交媒体中的影响
  • 轻松浏览原始数据
  • 灵活的数据标签

用户所处位置的密度定义为:
f ( x u ) = 1 n h ∑ 1 n K ( x u − x i h ) f\left(x_{u}\right)=\frac{1}{n h} \sum_{1}^{n} K\left(\frac{x_{u}-x_{i}}{h}\right) f(xu)=nh11nK(hxuxi)

TargetVue: Visual Analysis of Anomalous User Behaviors in Online Communication System_第4张图片
TargetVue: Visual Analysis of Anomalous User Behaviors in Online Communication System_第5张图片
TargetVue: Visual Analysis of Anomalous User Behaviors in Online Communication System_第6张图片
Z-Glyph
z-score:
Z i ( x ) = ( f i ( x ) − μ i ) / σ i Z_{i}(x)=\left(f_{i}(x)-\mu_{i}\right) / \sigma_{i} Zi(x)=(fi(x)μi)/σi

Layout
相邻glyph的相似性:
F = 1 ∣ E ∣ ∑ ( v i , v j ) ∈ E s i j \mathscr{F}=\frac{1}{|E|} \sum_{\left(v_{i}, v_{j}\right) \in E} s_{i j} F=E1(vi,vj)Esij

Interaction

  • Query
  • Filter
  • Highlight
  • Inspection
  • Switch Contexts
  • Data Labeling
  • Zoom and Pan

Evaluation

  • Social Bot Detection Challenge
  • Interpreting the Email Data
  • Domain Expert Interview

Conclusion

在这篇文章中,我们提出了一个新的视觉分析系统,TargetVue,用于通过新颖的可视化设计来检测异常用户,该设计具有多个协调的上下文视图和一个被广泛采用的非可视化学习模型。TargetVue 整合了三个新的以自我为中心的符号,以直观的方式总结用户的行为,有效地再现用户的交流活动、特征和社交互动。提出了一种有效的布局方法,将这些字形放置在三角形网格上,捕捉用户之间的相似性,便于比较不同用户的行为。我们利用推特数据、基于电子邮件记录的案例研究以及对专家用户的采访,通过在社交机器人检测挑战中的应用,展示了 TargetVue 的能力。目前,基于用户反馈调整异常检测模型是通过手动过程完成的。在未来,我们希望设计和集成基于主动学习技术的更先进的方法到系统中。我们还想进行一项正式的用户研究,以进一步评估我们系统的可用性。

你可能感兴趣的:(论文阅读,论文)