文本数据可视化

文本数据可视化

我们把文档作为我们生活中的主要信息产物
由于网络基础设施的存在,近年来,我们对文档的访问量大幅增长

管道

文本可视化流程:
文本数据可视化_第1张图片

典型的文本挖掘技术

文本信息挖掘:
 文本数据预处理
  过滤无效数据、提取有效词等
 文本特征抽取
  关键词;词频分布;主题
 文本特征度量
  相似性计算;文本聚类等
  
典型的文本挖掘方法:
  词频 TF、TF IDF
  文本分类 文本聚类
  K均值 话题模型
  LDA、HDP、PLSA

标签/字云
  目前研究界非常热门
  已经证明在网络上非常流行
  想法是通过视觉手段显示单词/概念的重要性。
  标签:用户指定的关于某事物的元数据(描述符)
  有时泛化为只反映词频
  
标签云衍化:Wordle
提升标签云的美学欣赏价值:
  整体形状可定制
  字体样式、大小、颜色编码不同属性   
  紧凑排布,节省空间
  文本数据可视化_第2张图片

人们搜索网络时的需求:
  文本数据可视化_第3张图片

主要问题:
  总结文本语料库
  大量复杂信息
  时变的
  直观解释总结结果
  一致的可视化
  提供反馈或明确他们的需求
  不完善的总结结果或不同的用户需求

自动摘要:
 高性能
 高比较率
 一种芬芳模式
文本数据可视化_第4张图片

LDA数据转换:
文本数据可视化_第5张图片

按用户兴趣排序的主题:
  文本数据可视化_第6张图片

增强堆积图:
  关键步骤:
   计算层的几何图形
   分层着色
   分层排序:最小化失真 最大化可用空间
        确保语义一致
   分层标注

文本流:
  问题:
   理解大型文本集合中的主题演变非常重要
   随时了解热门、新话题和相互交织的话题
   深入了解潜在主题
   
主题数据和关系提取:
  增量分层Dirichlet进程  文本主题在线学习
  自动检测主题编号    提取合并/拆分关系
  基于文档主题更改    在线计算合并/拆分概率

关键事件提取:
  关键事件类型    生、死、合、裂
  合并/拆分事件评分  分支机构数量
  分支概率熵

关键字相关性发现:
  提取
   每个文档中的名词短语、动词短语和命名实体
  共同点
   他们之间的共同点
   用来说明“为什么”

关键点:
  人物的动态关系  场景的层次结构

主题竞争模式:
文本数据可视化_第7张图片

未来文本可视化主题

交互式增量文本分析
多层次可视文本总结(关键词+句子)
多方面的文本分析(例如,总结+情感分析)
多媒体文档摘要(文本+图像+视频)
互动、可视的社交媒体分析

你可能感兴趣的:(文本数据可视化)