机器学习实战篇:使用机器学习算法逻辑回归进行情感分析

本节将讨论使用机器学习进行情感分析并给出代码实现。

1、简介

情感分析又称为观点挖掘,是NLP领域一个非常流行的分支;它分析的是文档的情感倾向。本节将使用互联网电影数据库(IMDb)中大量的电影评论数据进行试验验证。该数据集包含5万条关于电影的评论。

数据集下载地址:http://ai.stanford.edu/~amaas/data/sentiment

2、使用方法

本文使用的向量量化方法为词袋模型,分类使用逻辑斯谛回归模型,这里不做详细介绍。

3、代码实现

*** 数据转换:将互联网电影数据集原始text评论文件转换为CSV

import pyprind
import pandas as pd
import numpy as np
import os

'''
    说明: 将互联网电影数据集原始text评论文件转换为CSV
'''
# 1、重构数据集
pbar = pyprind.ProgBar(50000)   # 使用pyprind模块进行处理过程的可视化
labels = {'pos': 1, 'neg': 0}
df = pd.DataFrame()
for s in ('test', 'train'):
    for l in ('pos', 'neg'):
        path = './aclImdb/%s/%s' % (s, l)
        for file in os.listdir(path):
            with open(os.path.join(path, file), 'r', encoding='utf-8') as infile:
                txt = infile.read()
            df = df.append([[txt, labels[l]]], ignore_index=True)
            pbar.update()
df.columns = ['review', 'sentiment']

# 2、 打乱重排存储
np.random.seed(0)
df = df.reindex(np.random.permutation(df.index))
df.to_csv('./movie_data.csv', index=False, encoding="utf-8")

df = pd.read_csv('./movie_data.csv', encoding="utf-8")
print(df.head(3))

*** 文档量化及分类模型训练并评估

import re
import pandas as pd
import nltk
from nltk.stem.porter import PorterStemmer
from nltk.corpus import stopwords


'''
    说明: 使用机器学习进行情感分析
    数据集: IMDb 互联网电影数据集
    来源: Python机器学习
'''


# 清洗文本数据, 去除HTML标签,保留表情符号:)
def preprocessor(text):
    text = re.sub('<[^>]', '', text)
    emoticons = re.findall('(?::|;|)(?:\)|\(|D|P)', text)
    text = re.sub('[\W]+', ' ', text.lower()) + ' '.join(emoticons).replace('-', '')
    return text


# 拆分评论文本为单个词语
def tokenizer(text):
    return text.split()
# 拆分评论文本为单个词语,并提取词干
def tokenizer_porter(text):
    porter = PorterStemmer()
    return [porter.stem(word) for word in text.split()]

# 去停用词
def stopword(text):
    # nltk.download('stopwords')
    stop = stopwords.words('english')
    filterText = [w for w in tokenizer_porter(text) if w not in stop]
    return filterText


if __name__ == '__main__':
    # 1、 加载数据
    df = pd.DataFrame()
    df = pd.read_csv('./movie_data.csv', encoding="utf-8")
    # 2、清洗数据
    df['review'] = df['review'].apply(preprocessor)

    # 3、 数据集划分
    X_train = df.loc[:25000, 'review'].values
    y_train = df.loc[:25000, 'sentiment'].values
    X_test = df.loc[25000:, 'review'].values
    y_test = df.loc[25000:, 'sentiment'].values

    from sklearn.model_selection import GridSearchCV
    from sklearn.pipeline import Pipeline
    from sklearn.linear_model import LogisticRegression
    from sklearn.feature_extraction.text import TfidfVectorizer
    tfidf = TfidfVectorizer(strip_accents=None,
                            lowercase=False,
                            preprocessor=None)
    param_grid = [{'vect__ngram_range': [(1, 1)],
                   'vect__tokenizer': [tokenizer_porter],
                   'clf__penalty': ['l2'],   # 'clf__penalty': ['l1', 'l2'],
                   'clf__C': [10.0]},
                  # {'vect__ngram_range': [(1, 1)],
                  #  'vect__tokenizer': [tokenizer, tokenizer_porter],
                  #  'vect__use_idf': [False],
                  #  'vect__norm': [None],
                  #  'clf__penalty': ['l2'],
                  #  'clf__C': [10.0]},
                  ]
    lr_tfidf = Pipeline([('vect', tfidf), ('clf', LogisticRegression(random_state=0))])
    gs_lr_tfidf = GridSearchCV(lr_tfidf, param_grid, scoring='accuracy', cv=5, verbose=1, n_jobs=-1)
    gs_lr_tfidf.fit(X_train, y_train)

    # 最佳参数集
    print('最佳参数集: ', gs_lr_tfidf.best_params_)
    print('CV Accuracy %.3f' % gs_lr_tfidf.best_score_)  # 5折交叉验证准确率得分
    clf = gs_lr_tfidf.best_estimator_
    print('测试集准确率 : %3f' % clf.score(X_test, y_test))

4、结果分析

根据训练模型的实验结果显示,该分类模型在IMDb数据集上可以达到85%左右的准确率。

 

参考: Python机器学习第八章

原创整理,转载请注明引用地址!!

你可能感兴趣的:(机器学习实战系列)