0 NLP: 数据获取与EDA

0数据准备与分析

二分类任务,正负样本共计6W;

0 NLP: 数据获取与EDA_第1张图片

数据集下载

https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/online_shopping_10_cats/online_shopping_10_cats.zip

样本的分布

0 NLP: 数据获取与EDA_第2张图片

    正负样本中评论字段的长度 ,超过500的都很少,可以直接截断;

  1. 处理的时候长文本截断;
  2. 可以前面取一点,中间取,尾巴取;

0 NLP: 数据获取与EDA_第3张图片

 下载停用词:备用

import nltk
from nltk.corpus import stopwords

# 下载停用词资源
nltk.download('stopwords')
# 获取中文停用词列表
stopwords_cn_list = stopwords.words('chinese')

你可能感兴趣的:(#,6,自然语言处理,分类,数据挖掘,人工智能)