基于TextCNN(pytorch实现)的文本情感分类

  TextCNN源于2014年一篇NLP领域的论文:《Convolutional Neural Networks for Sentence Classification》
论文链接:https://arxiv.org/abs/1408.5882

  TextCNN应该算是CNN应用于文本分类最经典的模型。
  下面这幅图源于论文,通过这幅图其实就能知道TextCNN的核心思想了。
基于TextCNN(pytorch实现)的文本情感分类_第1张图片
  这里采取不同大小卷积核进行卷积,这里卷积核的宽度不同,起到的作用就类似于N-gram,(N-gram本身也指一个由 N N N个单词组成的集合,各单词具有先后顺序,且不要求单词之间互不相同。常用的有 Bi-gram (即认为当前词只与其前面一个词有关) 和 Tri-gram ( 即认为当前词只与其前面2个词有关))。比如上图中卷积核宽度为2时,就同时考虑到了wait和for两个单词,起到了类似于Bi-gram的作用。
下面两幅图引自谋篇博客(忘记哪篇了):
基于TextCNN(pytorch实现)的文本情感分类_第2张图片
  可以看到输入时先要经过embedding,然后再采取不同大小卷积核进行卷积,最后将他们卷积的结果进行拼接。然后max-pooling,全连接。
基于TextCNN(pytorch实现)的文本情感分类_第3张图片

  在这之前我先讲一下后面需要用到的一个关键的东西,torch.nn.embedding(),也就是词嵌入得到词向量。
  nn.embedding:这是一个矩阵类,里面初始化了一个随机矩阵,矩阵的长是字典的大小,宽是用来表示字典中每个元素的属性向量,向量的维度根据你想要表示的元素的复杂度而定。类实例化之后可以根据字典中元素的下标来查找元素对应的向量。

这句话引用自:https://blog.csdn.net/tommorrow12/article/details/80896331

  你也可以使用nn.Embedding.from_pretrained()加载预训练好的模型,如word2vec,glove等,在训练的过程中也可以边训练,边更新词向量,加快模型的收敛。本文用的只是简单的nn.embedding()嘿嘿~

  因为输入的句子长度不一,有的长有的短。我的做法是,长了截断,不够长补齐(我文中用’'填充,然后在nn.embedding层将其补0,也就是用它来表示无意义的词,这样在后面的max-pooling层也就自然而然会把其过滤掉,这样就不用担心他会影响识别。)

  这里说一下它的用法:
  nn.embedding()的主要3个参数:
  第一个参数num_embeddings是指词表大小
  第二个参数embedding_dim是指你需要用多少维来表示一个符号
  第三个参数pading_idx即需要用0填充的符号在词表中的位置,如下,输出中后面两个’'都有被填充为了0.

import torch
import torch.utils.data as Data
import torch.nn as nn

import torch.nn.functional as F

#词表
word_to_id = {
     'hello':0, '':1,'world':2}
embeds = nn.Embedding(len(word_to_id), 4,padding_idx=word_to_id[''])

text = 'hello world  '
hello_idx = torch.LongTensor([word_to_id[i] for i in text.split()])
#词嵌入得到词向量
hello_embed = embeds(hello_idx)
print(hello_embed)

输出:
tensor([[-1.1436, 1.4588, -1.2755, 0.0077],
[-0.9600, -1.9986, -1.1087, -0.1520],
[ 0.0000, 0.0000, 0.0000, 0.0000],
[ 0.0000, 0.0000, 0.0000, 0.0000]], grad_fn=)

下面基于pytorch库实现:
  显卡:菜鸡1050
  torch版本:torch==1.6.0(cuda版本)
  数据集:英文电影评论(积极、消极)二分类
  准确率:85%,一开始没分词,只是用空格分开,只有70%多,后面分了下词去停用词,就达到85%。
分词表是我自己修改了nltk路径:
C:\用户\AppData\Roaming\nltk_data\corpora\stopwords里的english文件。
  然后你把我的my_english文件放进里面就可以,或者你直接用它的english
  数据集链接和my_english分词表都在以下网盘链接:
链接:https://pan.baidu.com/s/1J3MaSoCTF04w2gy2KMBBGA
提取码:c9xj
复制这段内容后打开百度网盘手机App,操作更方便哦

  引入相关库:

import torch
import numpy as np
import pandas as pd
import torch.nn as nn
import torch.optim as optim
import torch.utils.data as Data
import torch.nn.functional as F

dtype = torch.FloatTensor
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(device)

  读入数据集,数据集为电影评论数据(英文,一个24500条数据),分为积极和消极两类:

df = pd.read_csv('labeledTrainData.tsv',sep='\t',header=0)
print('一共有{}条数据'.format(len(df)))

  分词去停用词:

from nltk.corpus import stopwords
import nltk
def separate_sentence(text):
    disease_List = nltk.word_tokenize(text)
    #去除停用词
    filtered = [w for w in disease_List if(w not in stopwords.words('my_english'))]
    #进行词性分析,去掉动词、助词等
    Rfiltered =nltk.pos_tag(filtered)
    #以列表的形式进行返回,列表元素以(词,词性)元组的形式存在
    filter_word = [i[0] for i in Rfiltered]
    return " ".join(filter_word)
df['sep_review'] = df['review'].apply(lambda x:separate_sentence(x))

  根据需要筛选数据(这里我使用了全部数据):

#用xxx条玩玩
use_df = df[:]
use_df.head(10)

  取出评论数据和标签:

sentences = list(use_df['sep_review'])
labels = list(use_df['sentiment'])

  用PAD填充长度没有达到pad_size的文本:

PAD = ' '  # 未知字,padding符号用来填充长短不一的句子
pad_size =  64     # 每句话处理成的长度(短填长切)

for i in range(len(sentences)):
    sen2list = sentences[i].split()
    sentence_len = len(sen2list)
    if sentence_len<pad_size:
        sentences[i] += PAD*(pad_size-sentence_len)
    else:
        sentences[i] = " ".join(sen2list[:pad_size])

  设置一些参数和制作词表(后面用来给单词编号):

# TextCNN Parameter
num_classes = len(set(labels))  # num_classes=2
batch_size = 64
word_list = " ".join(sentences).split()
vocab = list(set(word_list))
word2idx = {
     w: i for i, w in enumerate(vocab)}
vocab_size = len(vocab)

  给单词编号(编完号后续还要embeding将其转成词向量):

def make_data(sentences, labels):
    inputs = []
    for sen in sentences:
        inputs.append([word2idx[n] for n in sen.split()])

    targets = []
    for out in labels:
        targets.append(out) # To using Torch Softmax Loss function
    return inputs, targets
input_batch, target_batch = make_data(sentences, labels)
input_batch, target_batch = torch.LongTensor(input_batch), torch.LongTensor(target_batch)

  用Data.TensorDataset(torch.utils.data)对给定的tensor数据(样本和标签),将它们包装成dataset:

from sklearn.model_selection import train_test_split
# 划分训练集,测试集
x_train,x_test,y_train,y_test = train_test_split(input_batch,target_batch,test_size=0.2,random_state = 0)

train_dataset = Data.TensorDataset(torch.tensor(x_train), torch.tensor(y_train))
test_dataset = Data.TensorDataset(torch.tensor(x_test), torch.tensor(y_test))
dataset = Data.TensorDataset(input_batch, target_batch)

  然后用Data.DataLoader(torch.utils.data)数据加载器,组合数据集和采样器,并在数据集上提供单进程或多进程迭代器。它可以对我们上面所说的数据集dataset作进一步的设置(比如可以设置打乱,对数据裁剪,设置batch_size等操作,很方便):

train_loader = Data.DataLoader(
    dataset=train_dataset,      # 数据,封装进Data.TensorDataset()类的数据
    batch_size=batch_size,      # 每块的大小
    shuffle=True,               # 要不要打乱数据 (打乱比较好)
    num_workers=2,              # 多进程(multiprocess)来读数据
)
test_loader = Data.DataLoader(
    dataset=test_dataset,      # 数据,封装进Data.TensorDataset()类的数据
    batch_size=batch_size,      # 每块的大小
    shuffle=True,               # 要不要打乱数据 (打乱比较好)
    num_workers=2,              # 多进程(multiprocess)来读数据
)

TextCNN结构:
  卷积层处采用了3种不同大小卷积核(2,300),(3,300),(4,300),其中300是每个单词的embeding后的维度。这样有利于提取多种语义信息。卷积完后利用torch.cat将3中卷积结果拼接。

class TextCNN(nn.Module):
    def __init__(self):
        super(TextCNN, self).__init__()
        self.filter_sizes = (2, 3, 4)
        self.embed = 300
        self.num_filters = 256
        self.dropout = 0.5
        self.num_classes = num_classes
        self.n_vocab = vocab_size
        #通过padding_idx将字符填充为0,因为他没意义哦,后面max-pooling自然而然会把他过滤掉哦
        self.embedding = nn.Embedding(self.n_vocab, self.embed, padding_idx=word2idx[''])
        self.convs = nn.ModuleList(
            [nn.Conv2d(1, self.num_filters, (k, self.embed)) for k in self.filter_sizes])
        
        self.dropout = nn.Dropout(self.dropout)
        self.fc = nn.Linear(self.num_filters * len(self.filter_sizes), self.num_classes)
        
    def conv_and_pool(self, x, conv):
        x = F.relu(conv(x)).squeeze(3)
        x = F.max_pool1d(x, x.size(2)).squeeze(2)
        return x
        
    def forward(self, x):
        out = self.embedding(x)
        out = out.unsqueeze(1)
        out = torch.cat([self.conv_and_pool(out, conv) for conv in self.convs], 1)
        out = self.dropout(out)
        out = self.fc(out)
        return out

模型训练过程:

model = TextCNN().to(device)
criterion = nn.CrossEntropyLoss().to(device)
optimizer = optim.Adam(model.parameters(), lr=1e-3)

# Training
for epoch in range(30):
    for batch_x, batch_y in train_loader:
        batch_x, batch_y = batch_x.to(device), batch_y.to(device)
        
        pred = model(batch_x)
        loss = criterion(pred, batch_y)
        if (epoch + 1) % 10 == 0:
            print('Epoch:', '%04d' % (epoch + 1), 'loss =', '{:.6f}'.format(loss))

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

模型测试过程:这里只测试准确率

test_acc_list = []
model.eval()
test_loss = 0
correct = 0
with torch.no_grad():
    for data, target in test_loader:
        data, target = data.to(device), target.to(device)
        output = model(data)
#         loss = criterion(output, target)
#         test_loss += F.nll_loss(output, target, reduction='sum').item() # 将一批的损失相加

        pred = output.max(1, keepdim=True)[1]                           # 找到概率最大的下标
        correct += pred.eq(target.view_as(pred)).sum().item()

# test_loss /= len(test_loader.dataset)
# test_loss_list.append(test_loss)
test_acc_list.append(100. * correct / len(test_loader.dataset))
print('Accuracy: {}/{} ({:.0f}%)\n'.format(correct, len(test_loader.dataset),100. * correct / len(test_loader.dataset)))

输出:
Accuracy: 4023/4900 (85%)

  之后用SVM去试了试,核函数是高斯核,词向量用的是word2vec,最后准确率只有60%左右哈哈哈哈哈哈哈哈~
CNN还是好用的~~~

  TextCNN还可以继续提高准确率的地方(准确率达到90多不是问题):
  1、文本预处理部分
  2、模型结构上
  3、embedding上
  4、调调参

你可能感兴趣的:(NLP,深度学习,自然语言处理)