NLP_统计词频

import pandas as pd
import jieba
test=pd.DataFrame({
     'text':['我想用CNN做个情感分析,这个语句是我喜欢的',
                           '哈哈哈,万年刮痧王李白终于加强了',
                           '这个游戏好极了,个别英雄强度超标,游戏里面英雄种类丰富,我太菜,求大佬带飞',
                           '我觉得是个好游戏',
                           '这个模型准确度好垃圾,我不喜欢',
                           '王者必糊,小学生没防到,还把一群初中生,什么时候没人脸识别,什么时候回归',
                           '快去吧健康系统去掉,不然举报',
                           '垃圾mht,还要人脸识别微信',
                           '那些没脑子玩家就别下载了',
                          ],
                  'label':[1, 1, 1, 1, 0, 0, 0, 0, 0]})
test.head()
text label
0 我想用CNN做个情感分析,这个语句是我喜欢的 1
1 哈哈哈,万年刮痧王李白终于加强了 1
2 这个游戏好极了,个别英雄强度超标,游戏里面英雄种类丰富,我太菜,求大佬带飞 1
3 我觉得是个好游戏 1
4 这个模型准确度好垃圾,我不喜欢 0
def cal_clear_word(test):
    stoplist = [' ', '\n', ',']

    def function(a):
        word_list = [w for w in jieba.cut(a) if w not in list(stoplist)]
        return word_list

    test['text'] = test.apply(lambda x: function(x['text']), axis=1)
    return test
# 结巴分类以及去掉停用词
return_df = cal_clear_word(test)
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 1.240 seconds.
Prefix dict has been built succesfully.
a=[]
for i in return_df['text']:
    for j in i:
        a.append(j)
words_dict = {
     }  # 建立字典
for word in a:
    if word not in words_dict:  # 如果单词不在字典中
        words_dict[word] = 1  # 初始词频为1
    else:
        words_dict[word] += 1  # 每次单词出现,词频加1
words_dict
{'我': 4,
 '想': 1,
 '用': 1,
 'CNN': 1,
 '做个': 1,
 '情感': 1,
 '分析': 1,
 '这个': 3,
 '语句': 1,
 '是': 2,
 '喜欢': 2,
 '的': 1,
 '哈哈哈': 1,
 '万年': 1,
 '刮痧': 1,
 '王': 1,
 '李白': 1,
 '终于': 1,
 '加强': 1,
 '了': 2,
 '游戏': 3,
 '好极了': 1,
 '个别': 1,
 '英雄': 2,
 '强度': 1,
 '超标': 1,
 '里面': 1,
 '种类': 1,
 '丰富': 1,
 '我太菜': 1,
 '求': 1,
 '大佬': 1,
 '带飞': 1,
 '觉得': 1,
 '个': 1,
 '好': 2,
 '模型': 1,
 '准确度': 1,
 '垃圾': 2,
 '不': 1,
 '王者': 1,
 '必糊': 1,
 '小学生': 1,
 '没防到': 1,
 '还': 1,
 '把': 1,
 '一群': 1,
 '初中生': 1,
 '什么': 2,
 '时候': 2,
 '没': 1,
 '人脸识别': 2,
 '回归': 1,
 '快': 1,
 '去': 1,
 '吧': 1,
 '健康': 1,
 '系统': 1,
 '去掉': 1,
 '不然': 1,
 '举报': 1,
 'mht': 1,
 ',': 1,
 '还要': 1,
 '微信': 1,
 '那些': 1,
 '没脑子': 1,
 '玩家': 1,
 '就别': 1,
 '下载': 1}

你可能感兴趣的:(NLP,NLP,词频统计)