import pandas as pd
import jieba
test=pd.DataFrame({
'text':['我想用CNN做个情感分析,这个语句是我喜欢的',
'哈哈哈,万年刮痧王李白终于加强了',
'这个游戏好极了,个别英雄强度超标,游戏里面英雄种类丰富,我太菜,求大佬带飞',
'我觉得是个好游戏',
'这个模型准确度好垃圾,我不喜欢',
'王者必糊,小学生没防到,还把一群初中生,什么时候没人脸识别,什么时候回归',
'快去吧健康系统去掉,不然举报',
'垃圾mht,还要人脸识别微信',
'那些没脑子玩家就别下载了',
],
'label':[1, 1, 1, 1, 0, 0, 0, 0, 0]})
test.head()
|
text |
label |
0 |
我想用CNN做个情感分析,这个语句是我喜欢的 |
1 |
1 |
哈哈哈,万年刮痧王李白终于加强了 |
1 |
2 |
这个游戏好极了,个别英雄强度超标,游戏里面英雄种类丰富,我太菜,求大佬带飞 |
1 |
3 |
我觉得是个好游戏 |
1 |
4 |
这个模型准确度好垃圾,我不喜欢 |
0 |
def cal_clear_word(test):
stoplist = [' ', '\n', ',']
def function(a):
word_list = [w for w in jieba.cut(a) if w not in list(stoplist)]
return word_list
test['text'] = test.apply(lambda x: function(x['text']), axis=1)
return test
return_df = cal_clear_word(test)
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 1.240 seconds.
Prefix dict has been built succesfully.
a=[]
for i in return_df['text']:
for j in i:
a.append(j)
words_dict = {
}
for word in a:
if word not in words_dict:
words_dict[word] = 1
else:
words_dict[word] += 1
words_dict
{'我': 4,
'想': 1,
'用': 1,
'CNN': 1,
'做个': 1,
'情感': 1,
'分析': 1,
'这个': 3,
'语句': 1,
'是': 2,
'喜欢': 2,
'的': 1,
'哈哈哈': 1,
'万年': 1,
'刮痧': 1,
'王': 1,
'李白': 1,
'终于': 1,
'加强': 1,
'了': 2,
'游戏': 3,
'好极了': 1,
'个别': 1,
'英雄': 2,
'强度': 1,
'超标': 1,
'里面': 1,
'种类': 1,
'丰富': 1,
'我太菜': 1,
'求': 1,
'大佬': 1,
'带飞': 1,
'觉得': 1,
'个': 1,
'好': 2,
'模型': 1,
'准确度': 1,
'垃圾': 2,
'不': 1,
'王者': 1,
'必糊': 1,
'小学生': 1,
'没防到': 1,
'还': 1,
'把': 1,
'一群': 1,
'初中生': 1,
'什么': 2,
'时候': 2,
'没': 1,
'人脸识别': 2,
'回归': 1,
'快': 1,
'去': 1,
'吧': 1,
'健康': 1,
'系统': 1,
'去掉': 1,
'不然': 1,
'举报': 1,
'mht': 1,
',': 1,
'还要': 1,
'微信': 1,
'那些': 1,
'没脑子': 1,
'玩家': 1,
'就别': 1,
'下载': 1}