论文研读-社交媒体可视化-大规模地理社交媒体数据的可视化抽象与探索

大规模地理社交媒体数据的可视化抽象与探索

  • 1 论文概述
    • 1.1 摘要
    • 1.2 引言
    • 1.3 文章贡献
    • 1.4 文章组织结构
  • 2 相关工作
    • 2.1 主题建模和评估
    • 2.2 社交媒体数据可视化
    • 2.3 地理数据的可视化抽象
  • 3 任务分析和系统概述
    • 3.1 数据描述
    • 3.2 任务分析
    • 3.3 系统概览
  • 4 可视化设计
    • 4.1 语义特征提取
    • 4.2 语义保持取样
    • 4.3 多目标优化
    • 4.4 伪代码
  • 5 可视化界面
    • 5.1 地图视图
    • 5.2 LDA视图
    • 5.3 语义视图
    • 5.4 主题河流
    • 5.5 控制视图
  • 6 评估
    • 6.1 案例研究
    • 6.2 定量比较
    • 6.3 专家访谈
    • 6.4 讨论
  • 7 结论
  • 8 收获

1 论文概述

2019年11月18日发表在Neurocomputing上题为Visual abstraction and exploration of large-scale geographical social media data的一篇文章,浙江财经大学、浙江大学计算机辅助设计与计算机绘图国家重点实验室的成果。

1.1 摘要

带有地理标签的社交媒体数据提供了大量的文本和地理信息,这为深入了解不同地方的社会行为提供了前所未有的机会。随着地理标记社交媒体数据规模的不断扩大,大量的视觉映射元素相互重叠,难以视觉捕捉感兴趣的主题及其空间分布。(问题)

在本文中,我们提出了一个可视化的抽象框架,用于探索大规模地理标记的社交媒体数据。首先利用概率主题模型对文本的语义进行总结,提取出一组感兴趣的主题特征。然后,设计了一种多目标抽样模型生成原始数据集的一个子集,这不仅会降低大型社交媒体数据可视化的视觉上的混乱,但也保留感兴趣的主题的排序功能以及原始社会媒体的地理分布数据集。可视化抽象框架集成了丰富的可视化设计,如文字云、文本流和热图等,使用户能够从语义主题、时间变化和空间分布等不同角度对采样结果进行评估。 (方法和结果)

基于真实世界数据集的案例研究和对领域专家的采访,证明了我们的系统在简化大规模地理标记社交媒体数据的地理可视化以及探索不同地方的社会行为方面的有效性。(评估)

1.2 引言

社交媒体是一种交互式的、流行的基于web的技术,允许用户通过在线社区和网络发布和分享信息、想法和其他表达形式。随着计算机科学和互联网技术的发展,一套丰富的应用程序被开发出来,帮助用户方便地访问社交媒体服务,如Twitter、Facebook和微博。作为最受欢迎的社交媒体平台,Twitter拥有超过3.35亿活跃用户,每天发布近5亿条推文。因此,为深入了解人类生活和社会行为提供了前所未有的机会,从公共安全、城市服务到电子商务、营销[1]等各个应用领域都具有重要意义。(背景

在文本挖掘和可视化分析领域,已经有大量的技术被提出用于热点话题的提取和跟踪。例如,LSA[2]、PLSA[3]和LDA[4]是传统的文本数据挖掘模型,用于主题提取。Havre等人提出了一系列视觉分析系统,对演进主题[5]进行视觉化。近年来,许多研究聚焦于基于地理标签的社交媒体数据可视化分析[6 - 8],其发布的文本总是在地理地图视图中标注点,使用户能够轻松捕捉感兴趣的主题的空间分布。不幸的是,由于地理标记的社交媒体数据集的规模不断扩大,视觉映射元素相互重叠,这在很大程度上干扰了对当地社会行为的视觉感知和探索[9 - 11 1]。例如,大规模的社交媒体数据集的实际分布似乎是一致的,但往往由于视觉杂波而误导用户[11]。因此,在地图视图中可视化地呈现大规模地理标记的社交媒体数据集是一项困难的任务,这是从空间信息学到可视化分析等研究领域的一个感兴趣的话题[12,13]。(问题

为了减少大规模地理空间数据可视化中的杂波,人们提出了各种各样的方法,如填充、聚合和采样。为简化大规模的地理可视化,在过滤方案中经常考虑属性信息。属性值位于感兴趣范围内的数据项被保留,而其他的在结果可视化中被过滤掉[6,14,15]。聚合方案考虑数据项的spa分布,将彼此靠近的可视映射元素聚合为超级元素,如节点聚合[16]和边缘捆绑[17,18]。采样是简化地理空间可视化的一种有效方法,它选择数据项的子集来表示原始的大规模数据集,采样结果中保留属性信息或spa分布[18,19]。虽然采样策略能够减少大规模地理可视化的视觉杂波,但往往只关注原始数据集的空间分布,忽略语义信息。尤其对于地理标记的社交媒体数据集,文本是探索社会行为的重要线索。考虑到文本的语义特征,将极大地提高采样的有效性。(目前解决方案

在本文中,我们提出了一个可视化的抽象系统,以直观地探索地理社交媒体数据集。首先,对社交媒体文本的语义结构进行概率主题建模,将数据项划分为不同的主题。然后,设计一个快速采样模型来保持主题的特征分布,在不进行过多采样的情况下生成原始数据集的子集。在快速采样的过程中,通过蓝噪声采样进一步优化了采样结果的空间分布。我们提供了多种视觉设计,让使用者可以从不同的角度(如话题变化、话题演变和话题分布)来评估我们的抽样模型的有效性。实现了一个可视化框架,将采样模型、可视化设计和丰富的交互集集成在一起,使用户能够轻松感知感兴趣话题的空间分布,并对人类在线社交行为有更深入的了解。(本文解决方案)

本文贡献

文章组织结构

1.3 文章贡献

  1. 一种减少社交媒体数据集规模的快速抽样模型,在很大程度上保留主题的特征分布。
  2. 快速采样和蓝噪声采样相结合,也将尽可能保留语义结构的空间分布。
  3. 一套从语义,时间演变和空间分布等不同的角度来评估主题的变化的改进可视化设计
  4. 集成了算法模型、评估设计和可视化界面的可视化抽象系统,使用户能够轻松地探索人类在线社交行为。

1.4 文章组织结构

本文的其余部分的结构如下:
第2节回顾了相关工作
第3节介绍了本文使用的数据集、分析任务和系统概述
第4节详细介绍了用于探索地理社交媒体数据的快速抽样模型
第5节介绍了可视化框架的可视化设计
第6节讨论了领域专家访谈案例研究
第7节得出结论,并对未来的研究进行展望

2 相关工作

在本节中,相关工作分为主题建模与评价、社交媒体数据可视化和地理数据可视化抽象三大类。

2.1 主题建模和评估

主题建模是一种常用的文本挖掘方法,用于捕获文档集合中的语义结构。主题模型分为非概率模型和概率模型两大类。向量空间模型(VSM)[20]、潜在语义索引(LSI)[2]和非负矩阵因子化(NMF)[21]是常用的非概率模型。另外,基于潜在空间存在的假设,采用概率模型来捕获主题特征。例如,PLSA是一种基于概率的主题模型,通过最大化文档和单词[3]同时出现的概率来实现文档的特征向量。David等人提出了一种无监督的主题模型潜狄利克雷分配(Latent Dirichlet Allocation, LDA),其中集合中的每一项都被建模为基于主题集[4]的有限混合。与非概率模型相比,概率方法以牺牲精细化[22]的确定性和稳定性为代价,产生了更高质量的结果。Blei等人提出了一个全面的调查,总结了不同的概率主题建模方法[23]。最近,Huang等人提出了一种基于网络的监督主题模型,支持基于Siamese网络[24]从文档和标签信息中提取主题。

主题模型被广泛用于帮助用户进行文本分析。例如,Liu等人[25]引入了一种基于时间的可视化文本摘要方法,该方法能够传达LDA获得的复杂文本摘要结果。Chuang等人[26]提出了一种用于评估主题模型质量的可视化分析工具,其中设计了禁忌布局来比较潜在主题内部和跨主题的术语。在LDA主题建模的基础上,开发了iVisCluster- ing[27],对每个具有代表性关键字的聚类进行总结,并以平行坐标表示聚类。Dou等人[28]提出了一种交互式视觉分析系统LeadLine,支持对新闻和社交媒体数据中的有意义事件进行自动探索。Hong等人[29]提出了一种新的特征提取方法,命名为FLDA,它是利用流场中的特征与自然语言处理中的单词进行类比的LDA方法。提出了一种基于增强的跨领域情感分类学习框架,利用LDA模型提取源域和目标域[30]之间的领域特定主题和共享主题。此外,主题建模还可以用于在如此社会化的媒体应用中发现潜在的用户群体[31-33]。

本文利用LDA对社交媒体数据的主题特征进行提取,设计了一种可视化的抽象方法,在保留不同主题特征分布的同时,减少原始数据集的大小。

2.2 社交媒体数据可视化

基于社交媒体数据集实现人类行为的时空特征已经有很多研究被提出,如突发事件期间相关事件的提取[34,35],疾病控制[36],动态城市的理解[37 - 39]。在可视化社区中,已经提出了一套可视化分析技术,允许用户进一步深入了解人类在线社交行为[40]。在本节中,社交媒体数据集的视觉探索技术被分为两大类,如空间分析和时间分析。

话题演化对于社交媒体数据集[41]的时间分析非常重要。Havre等人设计了河流隐喻来可视化关键字强度[5]的时间变化。TextFlow[42]开发的目的是可视化地展示主题合并和拆分,允许用户进一步跟踪社交媒体随时间的动态演变特征。提出了一种交互式可视化文本分析系统,使用户能够逐步探索和分析层次结构主题[43]的复杂演化模式。EvoRiver[44]允许用户探索与合作竞争相关的互动,并检测主题的演变模式。设计了一种基于沉积的可视化方法,用于在大容量文本流[45]中显示分层主题演化。Hong等人提出了一种视觉分析系统来识别和利用关键信息来注释媒体时间线,并对[29]事件进行更详细的概述。

地理标记信息被集成到可视化技术中,用于社会媒体数据的空间探索。Marian el . al.提出了一个可视化分析系统,设计了一个混合地图vi- sualization视图,将社交媒体数据[46]的空间分布和主题结构相结合。曹等人提出Whisper来总结社区对特定主题的集体反应。转发的路径可以很容易地在[47]空间层次布局上追踪。Marcus等人提出了TwitInfo,允许用户基于各种元数据(如地理位置、情绪和流行的url[48])来探索事件。Chae等人[15]通过将异常和趋势检测技术整合到一个可视化框架中,提高了社交媒体数据的态势感知能力。Gao等人提出了一种新颖的自动化新闻可视化系统NewsViews,它可以在没有专业设计师[49]的帮助下生成交互式的、带注释的地图。

2.3 地理数据的可视化抽象

针对大规模地理数据可视化的视觉杂波问题,提出了多种可视化方法,主要包括滤波、聚合和采样三大类。在过滤方案中,属性值总是被考虑用于简化地理数据可视化,在这种方法中,具有位于兴趣范围之外的属性值的数据项将在结果的可视化中被过滤掉。例如,主题过滤器被设计用来显示那些与所选主题[14]重合的数据。还可以使用关键字过滤器[6]对数据进行粗略的主题过滤。当然,也可以根据时间属性对数据进行过滤,将感兴趣的主题呈现在地理地图上[5,15,50]。Cao等人提出了一种社交媒体数据可视化系统Whisper,用户可以根据主题、关键词、影响、情感[47]对重要数据项进行筛选。在Opinion- flow中,用户可以根据自己的大小来决定可见的主题。基于关键字的文件过滤和语义过滤被集成到Twitcident中,以识别那些与事件[52]高度相关的twitter。

聚合方案考虑数据项的空间分布,将相互接近的可视化映射元素聚合为超元素,是另一种简化方法。例如,Holten等人提出了一种自组织边缘捆绑方法,将边缘建模为可以相互吸引[53]的柔性弹簧。为了减少整体边缘交叉,Cui等人提出了一种新的基于几何的边缘聚类框架,将边缘分组成[54]束。允许用户根据文本频率[55]聚合本地地理区域的文本。Andrienko等人提出了一种运动数据的spa- tial泛化和聚合方案,该方案将轨迹转化为跨越局部区域[56]的聚合流。Dunne等人提出了一种基序化简方法,用超级信息符号[16]代替子图。

采样是简化地理空间可视化的另一种可选方案,它通过选择数据项子集来保留原始大尺度数据集的属性信息和空间分布。为了进行特征保持化简,Chen等提出了一种新的分层多类采样方法[13]。Liu提出了一种基于扭曲函数和蓝噪声采样的方法来提取点集合的一个代表性子集,并很好地保留了全集合的统计空间分布[57]。为了进一步方便快速查询数据,Godwin等人利用泊松盘采样方法在地理地图[58]上确定局部区域。Guo和Zhu设计了一个流采样方案来过滤平滑流[59]中的重复信息。在我们之前的工作中,设计了一种多目标蓝噪声采样方法,在词嵌入空间中选择OD流子集,并保留简化流图中的语义关系。

与以往注重空间分布的采样技术不同,本文提出了一种双目标采样模型来简化大尺度地理标签社交媒体数据的可视化,该模型能够很好地保留空间分布和主题特征。

3 任务分析和系统概述

在本节中,我们首先描述在本文中使用的真实世界的数据集。随后,我们总结了领域专家访谈中所确定的分析任务,并给出了所提出的可视化分析系统的工作流程。

3.1 数据描述

在本文中,我们使用了两个真实的社交媒体数据集,包括一个Twitter数据集和一个Yelp数据集来演示我们的系统的有效性。

Twitter数据集是通过Twitter流媒体API收集的,包括2016年6月10日至2016年6月20日期间发布的带有地理标签的tweet。每天有近100万条推文被记录,大小高达3GB。每条tweet都描述了一组重要属性,包括用户ID、时间、纵横坐标、文本信息等。在我们的工作中,我们只关注长度小于5的tweet,并且拥有精确的纬度和经度坐标。

另一个数据集来自网站和移动应用Yelp,该应用提供了当地企业的众包指南和评论。我们从公共在线网站[https://www.yelp.com/dataset]下载Yelp在2005年至2015年期间发布的数据集。它以单独的JSON对象的形式包含业务、审查、用户和签入数据。业务对象包括关于业务类型、位置、类别和业务名称的信息,以及唯一的id。审查对象包括时间信息、审查文本、特定的业务id和用户id。
由于这两个数据集的规模非常大,所以本文主要关注美国纽约发布的tweets数据集和美国匹兹堡发布的Yelp数据集。这些推文涵盖了工作、政府、政治和娱乐等一般性话题。Yelp数据集涵盖了诸如食物、饮料和娱乐节目等主题。统计信息如表1所示。
论文研读-社交媒体可视化-大规模地理社交媒体数据的可视化抽象与探索_第1张图片

3.2 任务分析

在与领域专家进行详细讨论后,以结构化访谈的形式,编制了一系列分析任务,用于可视化抽象和大规模地理标记社交媒体数据的探索。

T.1社交媒体数据的语义表示
如何将带有地理标签的社交媒体数据转换为可以很好地表示的特征空间的文本语义?如何量化社交媒体数据项的语义关系和特征分布?如何识别感兴趣的语义特征并可视化社交媒体数据的语义表示?

T.2社交媒体数据的可视化抽象
如何设计一个采样模型来减少大规模地理标签社交媒体数据可视化的视觉混乱?如何在采样过程中保持社会化媒体数据的语义特征和空间分布?如何可视化地呈现和交互式地实现地理标记的社交媒体数据的简化可视化?

T.3简单社会媒体数据的可视化评价
如何评价地理标记的社会媒体数据采样结果的有效性?有没有办法量化语义关系和空间分布的变化?如何直观地呈现语义主题在原始和简化的数据集之间的区别?如何在原始和简化的数据集中直观地检查语义关联的演变变化?

T.4人类在线行为的视觉探索
如何设计视觉界面,让用户捕捉到人的在线社交行为?在地理标记的社交媒体数据的简化可视化中,是否有可能突出感兴趣的语义关联?简化结果中保留的空间分布和语义相关性是否有助于感知大规模地理标记社交媒体数据?

3.3 系统概览

为了完成上述可视化分析任务,我们实现了一个可视化框架,其流程如图2所示。
(a)一系列的预处理操作,地理标记的社会媒体数据集载入系统。概率主题建模将社交媒体数据转化为一个向量化的空间,其中每个维代表数据项属于相应主题的概率。将数据项划分为不同的主题后,计算平均距离来评价每个主题特征的聚类程度。
(b)采用降维方法t-SNE,直观呈现不同主题特征的语义分布(T.1)。
©设计多目标采样模型,结合快速采样和自适应蓝噪声采样的优点,使用户生成的数据项子集,主题特征的排序和原始数据集的空间分布基本保持不变(T.2)。
(d)为了进一步证明我们所提出的视觉抽象方法的有效性,我们提供了几个视觉设计,包括文字云、文本流和热图,以评估不同视角的采样结果,如语义主题、时间变化和空间分布(T.3)。
(e)可视化框架中集成了一组丰富的交互,如主题轮(topic wheel),用户可以基于大规模地理标记的社交媒体数据,更深入地了解不同区域的社会行为(T.4)。
论文研读-社交媒体可视化-大规模地理社交媒体数据的可视化抽象与探索_第2张图片

4 可视化设计

为了保持采样结果中的主题特征和空间分布,采用了概率主题模型来表示主题特征;为了简化原始的大规模社交媒体数据集,提出了一种多目标采样策略。

4.1 语义特征提取

在本节中,我们将社交媒体数据转换为一个基于概率主题模型的特征空间,在该空间中,文本的语义可以很容易地被感知和提取。LDA是一种生成统计模型,它允许观测集由未观测的组来解释,被广泛应用于自然语言处理领域[4]的主题建模。我们利用LDA从大量社交媒体数据集组成的语料库中提取有意义的主题。获得了两个语义分布,包括文档-主题分布(表示主题在文档上的分布)和主题-术语分布(表示主题在词汇表上的分布)。

基于文档主题分布,用多维向量表示每个文档。每个维度描述文档属于相应主题的概率。为了提高社交媒体数据集中短文档的分类能力,对最大概率值小于用户设定阈值的模糊文档进行预处理。然后,我们将每个文档 i 赋值给主题j, j = argmax j∈T θij,以获得不同主题的文档的语义特征。当然,每个归入主题的文档在一定程度上也与其他主题相关,这就会导致一定的语义偏差。为了感知主题的分布,我们采用降维模型 t- SNE 来表示和量化社交媒体数据集[60]的语义关系。在t-SNE得到的合成二维空间中,局部结构密集聚集,而整体结构仍然保留[61]。因此,通过文档在低维空间中的几何距离来突出文档在高维空间中的相关性[62-64]。

文档分布密集的主题比文档分布在整个空间的主题在语义上更加显式。图3展示了感兴趣的主题以及LDA表示空间中相应的文档分布。为了进一步测量不同主题的文档分布,我们计算分布的方差,如式所示:
在这里插入图片描述其中pij表示题目i中点j的坐标,pi = 1k i ?kij = 1p ij表示主题i的加权坐标,ki是主题i中各点的ac-计数。它能够度量一个主题中数据项的聚类程度。方差越小,语义结构越紧凑。例如,黑色主题的语义结构展示在图3(a),在这一区域的具体语义由词云展示,如图3©所示。当一个局部选择如图3(b)所示,我们发现有关键字相同的簇,如关键字“幸福”、“生日”,而图3 (d)中也存在一些不熟悉的词汇,如“sbsbus”。因此,分布的方差在理解社交媒体文本中起着重要的作用。
论文研读-社交媒体可视化-大规模地理社交媒体数据的可视化抽象与探索_第3张图片

4.2 语义保持取样

随着地理标记的社交媒体数据集的规模不断扩大,地理地图上的视觉元素相互重叠,这使得难以感知当地感兴趣的主题。在传统的采样策略中,通常考虑数据项的空间分布来生成原始数据集的随机样本。据我们所知,在传统的抽样过程中很少考虑语义特征,这对于用户探索人类在线社交行为是足够重要的。

如4.1节所述,LDA能够以不同主题的概率混合来表示原始文档,主题分布在特征空间中的平均方差表示主题的聚类程度。因此,保留主题的分布特征,使用户能够从采样结果中获取大量的语义信息,是很有意义的。在数据库领域,Kim等人提出了一种快速采样模型,利用数据集子集生成近似的可视化,并保持属性的排序[65]。受快速取样算法的启发,我们定义了一种新的语义保持模型来保留采样结果中主题的特征分布。

首先,我们从每个主题 i 中抽取一组样本,并计算其估计值ˆσi。进一步用它来计算相应的置信区间[ˆσi−ε n,ˆσi + ε n],其中在这里插入图片描述其中k表示主题的数量,c是一个任意常数。由不等式[65]得到了置信区间,证明了σi的实值总是在置信区间内,且概率为δ。在获得所有主题的置信区间后,我们将置信区间与其他主题重叠的主题称为活动组。在接下来的步骤中,我们只对那些活跃的主题进行采样,相应的估计和置信区间将被进一步更新。当所有主题都处于非活动状态时,it将停止。在本例中,估计的平均值ˆσ1,…,ˆ σk为,符合有序性质,且概率大于(1−δ)。对估计过程的有效性证明如下:

引理1:如果|ˆσj,n−σj |对于每一个n∈1…n max和每一个j∈G n ={1,…k},该算法返回的估计值ˆσ1,…ˆσk将与σ1,…σk会有相同的顺序。这个算法满足正确的排序性质。

证明:设n为采样步数。假设我吗i ! = j,我们将证明ˆσi <ˆσj,只要σi < σj,反之亦然。
假设ni < nj且不丧失一般性(ni表示主题 i 的置信区间不再与其他的置信区间重叠,因此我们不对主题i额外取样本)。在第 i 轮采样ni 时,置信区间[ˆσi,ni−ε ni,ˆσi,ni + ε ni]和[ˆσj,nj−ε nj,ˆσj,n j + ε nj]不重叠。因此,我们有
论文研读-社交媒体可视化-大规模地理社交媒体数据的可视化抽象与探索_第4张图片
Eq.(3)和Eq.(4)成立,因为 μi 和 μj 在第n轮的置信区间内,且区间是不相交的。然后,在 ni 处我们有:
论文研读-社交媒体可视化-大规模地理社交媒体数据的可视化抽象与探索_第5张图片
当σi < σj时,证明过程是相同的。

因此,在采样过程中,只要每个主题的置信区间包含实际平均值,采样结果将服从正确的性质排序,且概率大于(1−δ)。在本文中,我们使用它来产生一个条形图的近似视觉化,其中任意两个条形图之间的关系在抽样后是正确的。为了进一步证明语义保持采样模型的有效性,图4 (a)、图4 (b)和图4 ©给出了基于随机采样、蓝噪声采样和我们的采样模型等不同取样方案的Yelp数据集的结果。
论文研读-社交媒体可视化-大规模地理社交媒体数据的可视化抽象与探索_第6张图片

4.3 多目标优化

在语义保留采样过程中,随机抽取点以保留主题的特征分布。然而,数据项的空间分布并不对应于它们的语义分布。语义空间的简化结果可能导致语义空间的不均匀分布。社交媒体数据集的空间分布对于理解语义和跨地方的人类在线活动非常重要[66]。

蓝噪声采样模型通常用于缩小地理数据集的大小。在采样过程中,每一对泊松盘中心之间的距离应大于采样半径。如果当前的磁盘与之前的任何采样磁盘发生冲突,它将被交换,直到所有点都被泊松磁盘覆盖为止。为了进一步保存原始数据集的空间分布,应用核密度估计(KDE)估计坐标的密度分布:
在这里插入图片描述其中P = {p1, p2,…, pm}为数据点,Kh为核函数,h为带宽,带宽决定了重构密度场的平滑程度。在我们的工作中使用了高斯核。然后,用ra/f§作为采样点的半径,ra为用户可以控制的采样率。

因此,我们整合蓝噪声采样对语义保持采样模型进行优化。在语义保留采样模型中,当我们选择主题 i 中的一个文档时,一个随机的样本将与一个与样本点不冲突的泊松盘的可选点交换。当没有活动主题保留或所有点都被泊松盘覆盖时,抽样过程将终止。为了提高采样效率,我们定义了一个阈值T,它控制了判断的数量。也就是说,当判断数达到一个给定参数时,我们只取一个随机的点,不考虑泊松盘的冲突。结合蓝噪声采样,我们的方法能够在很大程度上保持主题的特征分布和空间分布。

此外,我们可以将其他目标整合到语义保持采样模型中,以保留原始数据集的期望属性,例如数据项的时间分布。图4 (d)给出了多目标采样策略保持的排序结果。
论文研读-社交媒体可视化-大规模地理社交媒体数据的可视化抽象与探索_第7张图片

4.4 伪代码

在上述优化的基础上,减少了大型社交媒体数据可视化的视觉杂波,同时很好地保留了主题的语义特征、空间分布等属性。算法1给出了采样方法的伪代码。
论文研读-社交媒体可视化-大规模地理社交媒体数据的可视化抽象与探索_第8张图片

5 可视化界面

在本文中,我们开发了一个可视化系统,用于洞察大规模地理社交媒体数据集。图1展示了我们的系统的可视化界面,它由5个视图组成,包括:
1)地图视图(图1 (b))展示了社交媒体数据,提供了主题轮的交互式定义,以关注感兴趣的局部区域,
2)LDA视图(图1 (d))提供一个定量的比较,并展示了主题的语义结构,
3)主题河流图(图1 (e)),展示时间进化和抽样结果的主题的改变,
4)语义视图(图1 ©),使用户能够深入地探索感兴趣的主题,
5)控制视图(图1 (a))
论文研读-社交媒体可视化-大规模地理社交媒体数据的可视化抽象与探索_第9张图片

5.1 地图视图

在图1 (a)所示的地图视图中,将数据项可视化为黑点,根据地理标签确定数据项的位置,使用户直观感知原始数据集和采样数据集的分布情况。点击一个点,相应的文档信息会显示在文本信息的视图中(图1 ©)。提供了一组交互工具,如平移和缩放,使用户可以关注感兴趣的不同区域。此外,还设计了一张热图来展示不同主题的空间分布。此外,我们还提供了一个交互式主题轮,帮助用户关注感兴趣的局部区域。主题轮的设计基于时钟的隐喻,不同的角度代表相应的时间间隔。

受甘特图设计的启发,主题轮围绕着一组主题环来呈现不同主题的时间演进。活动主题和时间间隔是由用户根据需求指定的阈值定义的。当活动主题可视化在主题轮上时,用户可以很容易地感知到不同主题的时间特征。例如,在图1 (a)所示的地理地图上交互式定义主题轮时,我们可以发现蓝色和红色的主题在当天上午是活跃的。
论文研读-社交媒体可视化-大规模地理社交媒体数据的可视化抽象与探索_第10张图片

5.2 LDA视图

图1 (d)提供了一组视图,将LDA提取的语义特征可视化。为了实现高维向量降维结果的可视化,设计了投影视图。属于不同主题的点用相应的颜色着色。当指定感兴趣的主题时,投影视图中将突出显示相应的点。根据点的分布,对主题的聚类程度进行感知和量化。在本文中,通过计算平均方差来测量主题的点分布,进而指导语义保持采样。

为了评价我们的抽样模型的有效性,我们提出了主题差异视图和差异矩阵视图。在主题差异视图中,设计了一组柱状图来表示原始数据集和采样数据集之间的主题语义特征差异。左侧蓝色柱状条表示原始数据集语义特征的平均方差,右侧橙色柱状条表示采样数据集语义特征的平均方差。基于这组柱状图的可视化,可以很容易地实现采样结果中语义特征的变化。在差异矩阵视图中,行和列对应于主题分类,单元格的可视映射表示主题特征之间的差异。例如,如图1 (d)所示,一个单元格用橙色着色,这意味着该对主题的排序与原始数据集的排序不一致。相反,一个单元格被着色为蓝色,这意味着该对主题的顺序与原始数据集的顺序一致。基于差异矩阵的可视化,我们可以很容易地实现采样结果中产生的主题语义结构的差异。
论文研读-社交媒体可视化-大规模地理社交媒体数据的可视化抽象与探索_第11张图片

5.3 语义视图

为了显示主题或感兴趣的局部区域的底层语义信息,提供了两个语义视图,包括一个词云视图和一个文本信息视图。在词云视图中,关键字的大小取决于它们的出现。对于原始数据集,关键字的颜色以蓝色着色。对于采样后的数据集,根据关键词的变化,将其着色为不同的颜色,如图1 ©所示。蓝色着色的关键词表示它们是原始数据集中的高级特征。绿色着色的关键词意味着它们是抽样数据集中的初级特征。当一个关键字被涂成灰色时,它在原始数据集中是一个高级特征,但在抽样数据集中消失。我们希望所有的关键词都用蓝色表示,以证明我们抽样方法的有效性。事实上,抽样结果中总会有一些关键字产生或消失,这给抽样模型的可读性带来了一定的不确定性。我们还提供了如图1 ©所示的文本信息视图,以帮助用户访问社交媒体数据的底层文档,如ID、时间和文本信息。
论文研读-社交媒体可视化-大规模地理社交媒体数据的可视化抽象与探索_第12张图片

5.4 主题河流

如图1 (e)所示,主题河包括主题河流视图和时间差异视图两部分。在主题河流视图中,设计了一个流图来描述不同主题特征的演变,其中每个主题都用不同的颜色着色。如果点击感兴趣的话题,则会在主题河流、地理地图、LDA投影、词云、文字信息等视图中突出显示。我们可以通过主题的宽度变化来感知主题的演化特征。为了进一步评估主题随时间的变化,设计了另一个流图来表示原始数据集和采样数据集的流图之间的差异。我们可以根据时间差异视图中主题的变化来比较不同的取样策略的有效性。
论文研读-社交媒体可视化-大规模地理社交媒体数据的可视化抽象与探索_第13张图片

5.5 控制视图

在控制视图中,我们提供了数据概述,支持数据集的交互式选择和数据信息的描述,如数据名称、数据大小和采样大小。提供了一个控制面板视图,使用户可以指定不同的采样策略,包括随机采样方法、自适应蓝噪声采样方法和我们提出的多目标采样方法。当然,多个目标可以交互集成到抽样模型中,如语义特征的保存、空间分布和时间演化。两个滑块供用户交互指定泊松盘的采样率和半径。如图1 (a)所示,数据概述展示了Twitter数据集的详细信息。
论文研读-社交媒体可视化-大规模地理社交媒体数据的可视化抽象与探索_第14张图片

6 评估

6.1 案例研究

我们使用从Twitter和Yelp收集的数据集进行了两个案例研究,以证明我们的抽样策略在探索大规模社交媒体数据方面的有效性和有效性。

案例1:Yelp探索
在第一种情况下,我们邀请一个用户来评估所提出的视觉抽象和探索系统的有用性。当她将Yelp数据加载到系统中时,在地理地图上出现了大量的文档,视觉上的杂乱极大地干扰了探索过程。因此,她指定了一种热图可视化来展示文档的分布,如图5 (a)所示。然后,她指定了我们的采样策略来简化密集的可视化,并选择语义和空间分布,合成的热图如图5 (b)所示。她发现,尽管大量数据被过滤掉,但空间分布是相似的,特别是在那些城市地区,如匹兹堡市中心、南区公园和山区。她说:“大多数餐馆都在这些地区附近。采样结果的空间分布与原始数据集的空间分布一致,甚至在简化的可视化中突出显示这些区域。“为了评估我们的抽样策略在保留主题语义特征方面的有效性,她把目光转向了主题视图。在图5 ©所示的主题差异视图中,她发现与原始数据集相比,主题的语义分布在很大程度上得到了保留。在图5 (d)所示的主题矩阵视图中,主题分布的冲突较少,这进一步意味着主题的语义特征得到了很好的保留。然后,她声称:“在抽样结果中,主题的语义特征得到了很好的保留,这是很有帮助的。”由于语义特征和空间分布都得到了很好的体现,社交媒体数据集的地理化将提供很多有用的有趣信息。”
论文研读-社交媒体可视化-大规模地理社交媒体数据的可视化抽象与探索_第15张图片为了探索采样结果的语义差异,她专注于LDA投影视图和发现矢量点分布到不同的簇,如图6 (a)所示。然后,她在这个视图中选择了一个簇,在地图视图和词云视图中相关的主题特征得到了进一步突显。根据在词云中的关键字如“咖啡”、“巧克力”和“茶”,她发现感兴趣的话题是关于甜点和饮料如图6(b)所示。当然,橙色关键字是采样生成的结果,这也接近感兴趣的话题,如“芝士蛋糕”。在使用了我们的系统之后,她总结道:“所提出的可视化抽象系统能够简化大型地理数据集的密集可视化。此外,社交媒体数据集的语义特征也得到了保留,这进一步增强了系统的实用性,这将为专家探索大型地理标签社交媒体数据提供极大的帮助。”
论文研读-社交媒体可视化-大规模地理社交媒体数据的可视化抽象与探索_第16张图片
案例2:Twitter探索
在第二种情况下,我们邀请另一个用户使用我们的系统来探索社交媒体数据集。用户将一个Twitter数据集加载到系统中。基本信息在数据概述中及时地呈现出来。由于数据的规模过大,在地图视图中会产生大量的视觉杂波,如图7 (a)所示,很难感知人类的在线行为。然后,他利用我们的采样策略对原始数据集进行了简化,采样率定义为10%。所有优化都是为了更新采样结果,包括语义特征、空间分布和时间演化。采样后的推特如图7 (b)所示。他发现原始数据集的空间分布得到了很大程度的保留。为了量化在采样结果中保留的语义特征的保留程度,他查看了LDA视图,如LDA差异(图7 ©)和(LDA 矩阵(图7 (d))。可以发现,语义特征的分布顺序与原始数据集的分布顺序一致。
论文研读-社交媒体可视化-大规模地理社交媒体数据的可视化抽象与探索_第17张图片接着,他专注于主题河流视图来比较主题的时间变化。如图8 (a)所示,在一个Steam map中显示了不同主题的时间变化。他发现,几乎所有的主题都会随着时间的推移而缩小,其中一个蓝色的主题比其他主题要小。然而,在图8 (b)所示的下层Steam地图中呈现的主题的变化,他发现蓝色的主题变化比其他主题更大。他声称:“在保持语义的采样过程中,用其他颜色着色的主题可能不容易采样。”然而,蓝色的主题可能会活跃一段时间,而大多数相应的推特用户都没有被抽样。”
论文研读-社交媒体可视化-大规模地理社交媒体数据的可视化抽象与探索_第18张图片此外,该用户还尝试通过主题轮在地理地图上探索twitter。为了探索一个局部区域内的人类在线行为,他通过指定话题轮的中心和半径来确定该区域,并立即在地理地图上显示出来。这个词云在左上角显示局部的语义信息如图9©所示,根据语义,他改变了时间间隔长度到两个小时和调整最低频率的方法来实现所需的结果如图9(a)所示。他发现,在0:00点到上午8:00这一时间间隔的活跃主题中,绿色主题的推文数量多于其他主题。此外,对应的词云展示了一个特定的语义招聘,与图9 ©的结果相似。随后,我们邀请另一个用户进行探索。他选择一个主题轮在中央公园附近,调整一系列的参数后在该地区发现的关键词是“时代广场”和“中央公园”,如图9(b)和图9 (d)所示。以上两个事实与用户的视觉探索结果完全一致,进一步证明了主题轮设计的有效性。
论文研读-社交媒体可视化-大规模地理社交媒体数据的可视化抽象与探索_第19张图片

6.2 定量比较

为了进一步证明不同采样策略的有效性,社交媒体数据集的实验结果的统计测量如表1所示。列出了不同的采样策略,包括随机采样(RS)、自适应蓝噪声采样(BNS)和多目标采样。对语义特征或保留的概率值进行评估并记录在表中。从统计数据可以看出,在不同采样率下,该方法的性能优于其他采样策略。
论文研读-社交媒体可视化-大规模地理社交媒体数据的可视化抽象与探索_第20张图片

6.3 专家访谈

为了进一步证明我们的系统的有效性,我们邀请了两名领域专家使用我们的系统对社交媒体数据集进行了简化和分析。他们都熟悉社交媒体和图形可视化领域。为了对我们的系统进行评估,我们征求了他们对以下问题的反馈:

1)在大规模社交媒体数据集中,您能够轻松捕获感兴趣的语义特征吗?
2)多目标采样策略是否能够减少视觉杂波,帮助您快速感知大规模社交媒体数据集的空间分布?
3)通过我们的系统,你能很容易地识别出不同主题的时空特征吗?
4)采样结果中是否包含了不同主题的语义特征和空间分布?
5)你能评价不同采样策略之间的差异吗?你认为我们系统最有用的功能是什么?
7)主题轮是否能更好地捕捉局部的社会行为?
8)系统的哪一部分可以进一步改进?

通过一对一的访谈收集领域专家的反馈,总结如下:

**视觉设计与交互:**专家确认所提出的视觉抽象系统设计良好,界面友好。基于概率主题模型,将数据项转化为语义表示,并交互式定义多目标采样模型,简化大规模社交媒体数据的可视化探索。一个用户友好的主题轮被提供给揭示当地的主题以及它们的演变。他们都认为,该系统将极大地增强对大规模地理标记社交媒体数据的深入探索。例如,第一位专家表示,“由于视觉混乱,很难从原始地理可视化中获取有价值的信息,尤其是随着社交媒体数据的规模不断扩大。该系统能够通过LDA将数据项转换为特征空间,方便地实现和捕获文档的语义关系。各种各样的抽样策略、建模参数和交互为用户提供,以简化社交媒体数据的可视化根据他们的需求。”

**可用性和改进:**专家们还赞赏主题轮的设计,它允许用户交互式地关注感兴趣的局部区域,主题的语义由词云描述,允许用户轻松地探索不同地方的社会行为。他们一致认为,该系统将在大规模地理标记社交媒体数据集的可视化探索中发挥重要作用。在极大地减少了视觉杂波的同时,采样结果更好地保留了不同主题的语义特征和空间分布。此外,专家们还对我们系统的改进提出了一些有价值的意见。第一位专家提到“通过LDA获得的语义结构仍然很难理解”。在投影视图中,有一些属于同一个主题的点位于很远的地方。第二名专家指出:“提出的多目标采样方法能够减少大规模数据集密集可视化的视觉杂波,同时很大程度上保留了主题的语义特征和空间分布。”但是,由于取样策略的随机性,一些重要信息的丢失是不可避免的。如何将采样过程中可能产生的不确定性可视化地呈现出来,引导用户动态优化采样过程,仍然是一个值得深入研究的课题。

6.4 讨论

本文还存在一些没有很好解决的问题,将在今后的工作中加以解决。

首先,设计了一种多目标抽样策略,在保留主题语义特征和空间分布的情况下缩减大规模地理社交媒体数据的规模。事实上,即使以耗时的交换操作为代价,也很难实现全局优化,因为在线主题特征与其空间分布并没有高度相关。在未来的工作中,我们将建立一个全局优化模型,并尝试一种近似求解方法来实现多目标采样的权衡解。
其次,利用LDA模型提取主题集,将每个文档描述为不同主题的概率混合。因此,进行准确的主题分类有点困难,这将进一步影响多目标采样的有效性。本文通过计算语义分布的平均方差来量化主题间的差异,指导大规模社交媒体数据集的快速语义保持采样。然而,仅代表不同主题的丰富语义是不够的。在未来的工作中,其他有意义的主题语义特征将进一步整合到抽样模型中,使用户能够从简化的社会媒体数据集可视化中保留更多有价值的信息。
第三,从主题特征、空间分布和时间演化等多个角度,计算一套统计指标来评价采样方法的有效性。然而,统计指标没有嵌入到多目标抽样模型中,在没有人工干预的情况下,不能产生满意的简化效果。在未来的工作中,我们希望建立一个易于更新统计指标的合作抽样模型。多目标采样过程将在很大程度上自动化,并将从大规模的如此社会化的媒体数据集中产生有意义的简化结果。

7 结论

本文提出了一种面向大规模社交媒体数据集的可视化抽象系统。利用概率主题模型LDA提取主题的语义特征,设计多目标采样模型简化地理地图的密集可视化,同时保持主题的语义特征和空间分布。为了进一步从语义主题、空间分布和时间演化等不同角度对采样结果进行评价,将一套可视化设计集成到词云、热图和主题河流等可视化抽象框架中。基于真实世界数据集和领域专家访谈的案例研究表明,我们的系统在简化地理可视化和探索大规模地理标记社交媒体数据的社会行为方面是有效的。

在未来的研究方面,我们计划沿着以下思路继续研究。首先,我们计划建立一个合作取样模型,该模型易于更新,增加了统计指标,以满足各种用户需求。其次,考虑到主题特征与其空间分布的相关性不高,我们计划建立一个全局优化模型来实现多目标取样的权衡解。此外,一些社会媒体数据集的其他有价值的信息,如用户属性和社会网络将被整合到抽样模型中。

8 收获

  1. 集成算法模型、可视化设计与界面、评估设计的可视化系统应该相对完整一些。
  2. 系统评估案例分析可以邀请用户使用多个数据集来评估和探索方法系统的有用性,同时评估方式除了案例分析还可以有定量比较、专家访谈等方式。
  3. 这篇文章2019年6月接收,11月就发表了,是比较快的。

你可能感兴趣的:(社交媒体可视化,可视化)