论文传送门
视频
IBM T.J. Watson 研究中心
匹兹堡大学
在线通信系统(例如电子邮件和社交媒体平台)中行为异常的用户可能对社会构成威胁。为了解决这个问题,已经开发了基于高级机器学习技术的自动异常检测。但是,由于难以获得用于模型训练和评估的正确真实数据,目前仍然存在挑战。因此,通常需要对自动分析结果进行大量的人工判断,才能更好地调整异常检测的性能。不幸的是,仍然缺乏使用户能够更有效地判断理解分析结果,对异常做出可靠判断以及在其上下文中探索数据的技术。在本文中,我们提出了一种新颖的可视分析系统TargetVue,该系统可通过无监督学习模型检测异常用户,并通过新颖的可视化设计和多种协调的上下文视图在行为丰富的上下文中可视化可疑用户的行为。特别地,TargetVue合并了三个新的以自我为中心的图示符,以可视方式总结了用户的行为,从而有效地呈现了用户的交流活动,功能和社交互动。一种有效的布局方法被提出来将这些图示符放置在三角形网格上,该网格捕获用户之间的相似性并有助于比较不同用户的行为。我们通过使用Twitter数据,基于电子邮件记录的案例研究以及与专家用户的访谈,在社交机器人检测挑战中的应用展示了TargetVue的强大功能。我们的评估表明,TargetVue有助于检测通信行为异常的用户。
最近,在线通信系统,如电子邮件和社交媒体平台(如推特和脸书),为用户提供了跨越时空共享信息的新机制。每天,这些系统生成记录各种用户活动的巨大数字数据档案,引入大量机会来了解用户的交流行为。分析这些行为不仅有助于发现公众采用的常见通信模式,更重要的是有助于发现对社会构成潜在威胁的异常用户。
数据可视化通过上下文信息的直观表示提供了一个很好的方法来评估分析结果,这为支持或反驳分析结论提供了额外的证据。然而,为了设计有效的可视化来描绘用户在交流过程中的行为模式,需要解决三个挑战:
为了应对这些挑战,我们引入了 TargetVue,这是一种新颖的可视分析系统,用于检测、总结、解释和比较各种通信数据中存档的异常用户行为。TargetVue 采用无监督学习模型 TLOF(一种经过充分研究的异常检测技术),根据一组定义明确的特征来检测异常用户并对其进行排名。TargetVue 中使用多个协调视图来直观地总结和表示分析结果以及用户通信行为的各个重要方面。这些方面包括话题、情感、用户交流特征的时间动态及其影响,以及不同用户之间的关系。协调视图允许分析师从不同的角度浏览和比较用户在 TargetVue 中的通信行为。
贡献:
异常检测:
降维和多维可视化技术:
TargetVue 系统:
模型:time-adaptive local outlier factor model (TLOF)
优点:
用户行为:
X = [ x 1 , x 2 , … , x T ] X=\left[x_{1}, x_{2}, \ldots, x_{T}\right] X=[x1,x2,…,xT]
异常分数:
s ( X ) = α ⋅ Z 1 ( X ) + ( 1 − α ) ⋅ Z 2 ( X ) s(X)=\alpha \cdot Z_{1}(X)+(1-\alpha) \cdot Z_{2}(X) s(X)=α⋅Z1(X)+(1−α)⋅Z2(X)
Z 1 ( X ) = L O F ( x T ) − ∑ t = T − W t = T − 1 L O F ( x t ) / W Z_{1}(X)=L O F\left(x_{T}\right)-\sum_{t=T-W}^{t=T-1} L O F\left(x_{t}\right) / W Z1(X)=LOF(xT)−∑t=T−Wt=T−1LOF(xt)/W
Z 2 ( X ) = 1 − P N ( LOF ( x T ) , μ , σ ) Z_{2}(X)=1-P_{N}\left(\operatorname{LOF}\left(x_{T}\right), \mu, \sigma\right) Z2(X)=1−PN(LOF(xT),μ,σ)
L O F k ( x t ) = ∑ y ∈ N k ( x t ) D k ( y t ) ∣ N k ( x t ) ∣ D k ( x t ) L O F_{k}\left(x_{t}\right)=\frac{\sum_{y \in N_{k}\left(x_{t}\right)} D_{k}\left(y_{t}\right)}{\left|N_{k}\left(x_{t}\right)\right| D_{k}\left(x_{t}\right)} LOFk(xt)=∣Nk(xt)∣Dk(xt)∑y∈Nk(xt)Dk(yt)
D k ( x t ) = ∣ N k ( x t ) ∣ ∑ q ∈ N k ( x t ) ( max ( d k ( q ) , d ( x t , q ) ) ) D_{k}\left(x_{t}\right)=\frac{\left|N_{k}\left(x_{t}\right)\right|}{\sum_{q \in N_{k}\left(x_{t}\right)}\left(\max \left(d_{k}(q), d\left(x_{t}, q\right)\right)\right)} Dk(xt)=∑q∈Nk(xt)(max(dk(q),d(xt,q)))∣Nk(xt)∣
tripartite graph
用户通信行为的高级特征分类:
设计任务:
用户所处位置的密度定义为:
f ( x u ) = 1 n h ∑ 1 n K ( x u − x i h ) f\left(x_{u}\right)=\frac{1}{n h} \sum_{1}^{n} K\left(\frac{x_{u}-x_{i}}{h}\right) f(xu)=nh1∑1nK(hxu−xi)
Z-Glyph
z-score:
Z i ( x ) = ( f i ( x ) − μ i ) / σ i Z_{i}(x)=\left(f_{i}(x)-\mu_{i}\right) / \sigma_{i} Zi(x)=(fi(x)−μi)/σi
Layout
相邻glyph的相似性:
F = 1 ∣ E ∣ ∑ ( v i , v j ) ∈ E s i j \mathscr{F}=\frac{1}{|E|} \sum_{\left(v_{i}, v_{j}\right) \in E} s_{i j} F=∣E∣1∑(vi,vj)∈Esij
Interaction
在这篇文章中,我们提出了一个新的视觉分析系统,TargetVue,用于通过新颖的可视化设计来检测异常用户,该设计具有多个协调的上下文视图和一个被广泛采用的非可视化学习模型。TargetVue 整合了三个新的以自我为中心的符号,以直观的方式总结用户的行为,有效地再现用户的交流活动、特征和社交互动。提出了一种有效的布局方法,将这些字形放置在三角形网格上,捕捉用户之间的相似性,便于比较不同用户的行为。我们利用推特数据、基于电子邮件记录的案例研究以及对专家用户的采访,通过在社交机器人检测挑战中的应用,展示了 TargetVue 的能力。目前,基于用户反馈调整异常检测模型是通过手动过程完成的。在未来,我们希望设计和集成基于主动学习技术的更先进的方法到系统中。我们还想进行一项正式的用户研究,以进一步评估我们系统的可用性。