本节将讨论使用机器学习进行情感分析并给出代码实现。
情感分析又称为观点挖掘,是NLP领域一个非常流行的分支;它分析的是文档的情感倾向。本节将使用互联网电影数据库(IMDb)中大量的电影评论数据进行试验验证。该数据集包含5万条关于电影的评论。
数据集下载地址:http://ai.stanford.edu/~amaas/data/sentiment
本文使用的向量量化方法为词袋模型,分类使用逻辑斯谛回归模型,这里不做详细介绍。
*** 数据转换:将互联网电影数据集原始text评论文件转换为CSV
import pyprind
import pandas as pd
import numpy as np
import os
'''
说明: 将互联网电影数据集原始text评论文件转换为CSV
'''
# 1、重构数据集
pbar = pyprind.ProgBar(50000) # 使用pyprind模块进行处理过程的可视化
labels = {'pos': 1, 'neg': 0}
df = pd.DataFrame()
for s in ('test', 'train'):
for l in ('pos', 'neg'):
path = './aclImdb/%s/%s' % (s, l)
for file in os.listdir(path):
with open(os.path.join(path, file), 'r', encoding='utf-8') as infile:
txt = infile.read()
df = df.append([[txt, labels[l]]], ignore_index=True)
pbar.update()
df.columns = ['review', 'sentiment']
# 2、 打乱重排存储
np.random.seed(0)
df = df.reindex(np.random.permutation(df.index))
df.to_csv('./movie_data.csv', index=False, encoding="utf-8")
df = pd.read_csv('./movie_data.csv', encoding="utf-8")
print(df.head(3))
*** 文档量化及分类模型训练并评估
import re
import pandas as pd
import nltk
from nltk.stem.porter import PorterStemmer
from nltk.corpus import stopwords
'''
说明: 使用机器学习进行情感分析
数据集: IMDb 互联网电影数据集
来源: Python机器学习
'''
# 清洗文本数据, 去除HTML标签,保留表情符号:)
def preprocessor(text):
text = re.sub('<[^>]', '', text)
emoticons = re.findall('(?::|;|)(?:\)|\(|D|P)', text)
text = re.sub('[\W]+', ' ', text.lower()) + ' '.join(emoticons).replace('-', '')
return text
# 拆分评论文本为单个词语
def tokenizer(text):
return text.split()
# 拆分评论文本为单个词语,并提取词干
def tokenizer_porter(text):
porter = PorterStemmer()
return [porter.stem(word) for word in text.split()]
# 去停用词
def stopword(text):
# nltk.download('stopwords')
stop = stopwords.words('english')
filterText = [w for w in tokenizer_porter(text) if w not in stop]
return filterText
if __name__ == '__main__':
# 1、 加载数据
df = pd.DataFrame()
df = pd.read_csv('./movie_data.csv', encoding="utf-8")
# 2、清洗数据
df['review'] = df['review'].apply(preprocessor)
# 3、 数据集划分
X_train = df.loc[:25000, 'review'].values
y_train = df.loc[:25000, 'sentiment'].values
X_test = df.loc[25000:, 'review'].values
y_test = df.loc[25000:, 'sentiment'].values
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer(strip_accents=None,
lowercase=False,
preprocessor=None)
param_grid = [{'vect__ngram_range': [(1, 1)],
'vect__tokenizer': [tokenizer_porter],
'clf__penalty': ['l2'], # 'clf__penalty': ['l1', 'l2'],
'clf__C': [10.0]},
# {'vect__ngram_range': [(1, 1)],
# 'vect__tokenizer': [tokenizer, tokenizer_porter],
# 'vect__use_idf': [False],
# 'vect__norm': [None],
# 'clf__penalty': ['l2'],
# 'clf__C': [10.0]},
]
lr_tfidf = Pipeline([('vect', tfidf), ('clf', LogisticRegression(random_state=0))])
gs_lr_tfidf = GridSearchCV(lr_tfidf, param_grid, scoring='accuracy', cv=5, verbose=1, n_jobs=-1)
gs_lr_tfidf.fit(X_train, y_train)
# 最佳参数集
print('最佳参数集: ', gs_lr_tfidf.best_params_)
print('CV Accuracy %.3f' % gs_lr_tfidf.best_score_) # 5折交叉验证准确率得分
clf = gs_lr_tfidf.best_estimator_
print('测试集准确率 : %3f' % clf.score(X_test, y_test))
根据训练模型的实验结果显示,该分类模型在IMDb数据集上可以达到85%左右的准确率。
参考: Python机器学习第八章
原创整理,转载请注明引用地址!!