【nlp】1.3 文本数据分析(标签数量分布、句子长度分布、词频统计与关键词词云)

文本数据分析

  • 1 文本数据分析介绍
  • 2 数据集说明
  • 3 获取标签数量分布
  • 4 获取句子长度分布
  • 5 获取正负样本长度散点分布
  • 6 获取不同词汇总数统计
  • 7 获取训练集高频形容词词云
  • 8 获取验证集形容词词云

1 文本数据分析介绍

文本数据分析的作用:

文本数据分析能够有效帮助我们理解数据语料,快速检查出语料可能存在的问题, 并指导之后模型训练过程中一些超参数的选择。

常用的几种文本数据分析方法:

  • 标签数量分布
  • 句子长度分布
  • 词频统计与关键词词云

2 数据集说明

我们将基于真实的中文酒店评论语料来讲解常用的几种文本数据分析方法.

中文酒店评论语料:

属于二分类的中文情感分析语料。

其中train.tsv代表训练集,dev.tsv代表验证集,二者数据样式相同。

train.tsv数据样式:

sentence    label
早餐不好,服务不到位<

你可能感兴趣的:(NLP自然语言处理,自然语言处理,数据分析,人工智能)