中文NLP笔记:4. 文本数据可视化 的几个方法

文本数据可视化 有下面三种

1. 基于文本内容的可视化

  基于词频的可视化和基于词汇分布的可视化

  常用的有词云、分布图和 Document Cards

2. 基于文本关系的可视化

  研究文本内外关系,帮助人们理解文本内容和发现规律

  常用的可视化形式有树状图、节点连接的网络图、力导向图、叠式图和 Word Tree 等

3. 基于多层面信息的可视化

  研究如何结合信息的多个方面,帮助用户更深层次理解文本

  常用的有地理热力图、ThemeRiver、SparkClouds、TextFlow 和基于矩阵视图的情感分析可视化等



代码举例

  1. 词云

  wordcloud=WordCloud(font_path=simhei,background_color="white",max_font_size=80)

  2. 关系图

  用连线图来表示事物相互关系的一种方法。

  安装 Matplotlib、NetworkX

    DG = nx.DiGraph()

DG.add_nodes_from(nodes)

DG.add_edges_from(weights

nx.draw(DG,with_labels=True, node_size=1000, node_color = colors)

  3. 地理热力图

  通过分词得到城市名称后,将地理名词通过转换成经纬度

  使用 Folium 库进行热力图绘制地图

    map_osm = folium.Map(location=[35,110],zoom_start=5) 

HeatMap(data1).add_to(map_osm) 


学习资料:

《中文自然语言处理入门实战》

你可能感兴趣的:(中文NLP笔记:4. 文本数据可视化 的几个方法)