u013250861

自然语言处理-应用场景-文本分类：基于LSTM模型的情感分析【IMDB电影评论数据集】--（重点技术：自定义分词、文本序列化、输入数据批次化、词向量迁移使用）

文本情感分类

1. 案例介绍

现在我们有一个经典的数据集IMDB数据集，地址：http://ai.stanford.edu/~amaas/data/sentiment/，这是一份包含了5万条流行电影的评论数据，其中训练集25000条，测试集25000条。数据格式如下：

下图左边为名称，其中名称包含两部分，分别是序号和情感评分，（1-4为neg，5-10为pos），右边为评论内容

根据上述的样本，需要使用pytorch完成模型，实现对评论情感进行预测

2. 思路分析

首先可以把上述问题定义为分类问题，情感评分分为1-10，10个类别（也可以理解为回归问题，这里当做分类问题考虑）。那么根据之前的经验，我们的大致流程如下：

准备数据集
构建模型
模型训练
模型评估

知道思路之后，那么我们一步步来完成上述步骤

3. 准备数据集

准备数据集和之前的方法一样，实例化dataset，准备dataloader，最终我们的数据可以处理成如下格式：

其中有两点需要注意：

如何完成基础Dataset的构建和Dataloader的准备
每个batch中文本的长度不一致的问题如何解决
每个batch中的文本如何转化为数字序列

3.1 基础Dataset、DataLoader的准备

import numpy as np
from torch.utils.data import DataLoader, Dataset
import torch
import os
import re

BATCH_SIZE_TRAIN = 2
BATCH_SIZE_TEST = 2
MAX_LEN = 500

# =======================================进行自定义文本分词【可以用第三方分词工具】：开始=======================================
def tokenlize(sentence):
    fileters = ['!', '"', '#', '$', '%', '&', '\(', '\)', '\*', '\+', ',', '-', '\.', '/', ':', ';', '<', '=', '>', '\?', '@', '\[', '\\', '\]', '^', '_', '`', '\{', '\|', '\}', '~', '\t', '\n', '\x97', '\x96', '”', '“', ]
    sentence = sentence.lower()  # 把大写转化为小写
    sentence = re.sub("
", " ", sentence)
    # sentence = re.sub("I'm","I am",sentence)  # 当语料量足够多时，可以学习到I'm的含义。
    # sentence = re.sub("isn't","is not",sentence)
    sentence = re.sub("|".join(fileters), " ", sentence)
    result = [i for i in sentence.split(" ") if len(i) > 0]

    return result
# =======================================进行自定义文本分词【可以用第三方分词工具】：结束=======================================

# =======================================Dataset数据准备：开始=======================================
class ImdbDataset(Dataset):
    def __init__(self, wordSequence=None, train=True):
        super(ImdbDataset,self).__init__()
        self.wordSequence = wordSequence
        data_path = r"./data/aclImdb"
        data_path += r"/train" if train else r"/test" # 文件名拼接【等价于os.path.join()】
        self.total_path = []  # 保存所有的文件路径
        for temp_path in [r"/pos", r"/neg"]:
            cur_path = data_path + temp_path
            self.total_path += [os.path.join(cur_path, i) for i in os.listdir(cur_path) if i.endswith(".txt")]  # 将所有文件路径加入到total_path列表中

    def __getitem__(self, idx):
        file = self.total_path[idx]
        review = tokenlize(open(file, encoding="utf-8").read())  # 读取文件内容（评论）
        label = int(file.split("_")[-1].split(".")[0])
        label = 0 if label < 5 else 1
        if self.wordSequence is not None:
            review = self.wordSequence.transform(review, max_len=MAX_LEN)  #  将字符串通过已经保存的“词语-数字”映射器转为数字
        return review, label

    def __len__(self):
        return len(self.total_path)
# =======================================Dataset数据准备：结束=======================================

# =======================================DataLoader数据数据批次化：开始=======================================
def get_dataloader(dataset, train=True):
    batch_size = BATCH_SIZE_TRAIN if train else BATCH_SIZE_TEST
    dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True)
    return dataloader
# =======================================DataLoader数据批次化：结束=======================================

if __name__ == '__main__':
    dataset = ImdbDataset()
    print("dataset[0] = {0}".format(dataset[0]))
    dataLoader = get_dataloader(dataset=dataset, train=True)
    for batch_index,(reviews,labels,lenghts) in enumerate(dataLoader):
        print("batch_index = {0}".format(batch_index))
        print("reviews in this batch = {0}".format(reviews))
        print("labels in this batch = {0}".format(labels))
        print("lenghts in this batch = {0}".format(lenghts))
        break

输出如下：

batch_index = 0
reviews in this batch =  [('I', 'Want'), ('thought', 'a'), ('this', 'great'), ('was', 'recipe'), ('a', 'for'), ('great', 'failure'), ('idea', 'Take'), ('but', 'a'), ('boy', 's'), ('was', 'y'), ('it', 'plot'), ('poorly', 'add'), ('executed', 'in'), ('We', 'some'), ('do', 'weak'), ('get', 'completely'), ('a', 'undeveloped'), ('broad', 'characters'), ('sense', 'and'), ('of', 'than'), ('how', 'throw'), ('complex', 'in'), ('and', 'the'), ('challenging', 'worst'), ('the', 'special'), ('backstage', 'effects'), ('operations', 'a'), ('of', 'horror'), ('a', 'movie'), ('show', 'has'), ('are', 'known'), ('but', 'Let'), ('virtually', 'stew'), ('no', 'for'), ...('show', 'somehow'), ('rather', 'destroy'), ('than', 'every'), ('anything', 'copy'), ('worth', 'of'), ('watching', 'this'), ('for', 'film'), ('its', 'so'), ('own', 'it'), ('merit', 'will')]
labels in this batch = tensor([3, 1])

明显，其中的text内容出现对应，和想象的不太相似，出现问题的原因在于Dataloader中的参数collate_fn

collate_fn的默认值为torch自定义的default_collate,collate_fn的作用就是对每个batch进行处理，而默认的default_collate处理出错。

解决问题的思路：

手段1：考虑先把数据转化为数字序列，观察其结果是否符合要求，之前使用DataLoader并未出现类似错误

手段2：考虑自定义一个collate_fn，观察结果

这里使用方式2，自定义一个collate_fn,然后观察结果：

import numpy as np
from torch.utils.data import DataLoader, Dataset
import torch
import os
import re

BATCH_SIZE_TRAIN = 2
BATCH_SIZE_TEST = 2
MAX_LEN = 500

# =======================================进行自定义文本分词【可以用第三方分词工具】：开始=======================================
def tokenlize(sentence):
    fileters = ['!', '"', '#', '$', '%', '&', '\(', '\)', '\*', '\+', ',', '-', '\.', '/', ':', ';', '<', '=', '>', '\?', '@', '\[', '\\', '\]', '^', '_', '`', '\{', '\|', '\}', '~', '\t', '\n', '\x97', '\x96', '”', '“', ]
    sentence = sentence.lower()  # 把大写转化为小写
    sentence = re.sub("
", " ", sentence)
    # sentence = re.sub("I'm","I am",sentence)  # 当语料量足够多时，可以学习到I'm的含义。
    # sentence = re.sub("isn't","is not",sentence)
    sentence = re.sub("|".join(fileters), " ", sentence)
    result = [i for i in sentence.split(" ") if len(i) > 0]

    return result
# =======================================进行自定义文本分词【可以用第三方分词工具】：结束=======================================

# =======================================Dataset数据准备：开始=======================================
class ImdbDataset(Dataset):
    def __init__(self, wordSequence=None, train=True):
        super(ImdbDataset,self).__init__()
        self.wordSequence = wordSequence
        data_path = r"./data/aclImdb"
        data_path += r"/train" if train else r"/test" # 文件名拼接【等价于os.path.join()】
        self.total_path = []  # 保存所有的文件路径
        for temp_path in [r"/pos", r"/neg"]:
            cur_path = data_path + temp_path
            self.total_path += [os.path.join(cur_path, i) for i in os.listdir(cur_path) if i.endswith(".txt")]  # 将所有文件路径加入到total_path列表中

    def __getitem__(self, idx):
        file = self.total_path[idx]
        review = tokenlize(open(file, encoding="utf-8").read())  # 读取文件内容（评论）
        label = int(file.split("_")[-1].split(".")[0])
        label = 0 if label < 5 else 1
        if self.wordSequence is not None:
            review = self.wordSequence.transform(review, max_len=MAX_LEN)  #  将字符串通过已经保存的“词语-数字”映射器转为数字
        return review, label

    def __len__(self):
        return len(self.total_path)
# =======================================Dataset数据准备：结束=======================================

# =======================================DataLoader数据数据批次化：开始=======================================
# 自定义collate_fn方式，对batch数据进行处理【batch是list，其中是一个一个元组，每个元组是dataset中__getitem__的结果】
def collate_fn(batch):
    reviews, labels = zip(*batch)
    lengths = [len(review) if len(review) < MAX_LEN else MAX_LEN for review in reviews]
    return reviews, labels, lengths


def get_dataloader(dataset, train=True):
    batch_size = BATCH_SIZE_TRAIN if train else BATCH_SIZE_TEST
    dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True, collate_fn=collate_fn)
    return dataloader
# =======================================DataLoader数据批次化：结束=======================================

if __name__ == '__main__':
    dataset = ImdbDataset()
    print("dataset[0] = {0}".format(dataset[0]))
    dataLoader = get_dataloader(dataset=dataset, train=True)
    for batch_index,(reviews,labels,lenghts) in enumerate(dataLoader):
        print("batch_index = {0}".format(batch_index))
        print("reviews in this batch = {0}".format(reviews))
        print("labels in this batch = {0}".format(labels))
        print("lenghts in this batch = {0}".format(lenghts))
        break

输出如下：

dataset[0] = (['bromwell', 'high', 'is', 'a', 'cartoon', 'comedy', 'it', 'ran', 'at', 'the', 'same', 'time', 'as', 'some', 'other', 'programs', 'about', 'school', 'life', 'such', 'as', 'teachers', 'my', '35', 'years', 'in', 'the', 'teaching', 'profession', 'lead', 'me', 'to', 'believe', 'that', 'bromwell', "high's", 'satire', 'is', 'much', 'closer', 'to', 'reality', 'than', 'is', 'teachers', 'the', 'scramble', 'to', 'survive', 'financially', 'the', 'insightful', 'students', 'who', 'can', 'see', 'right', 'through', 'their', 'pathetic', "teachers'", 'pomp', 'the', 'pettiness', 'of', 'the', 'whole', 'situation', 'all', 'remind', 'me', 'of', 'the', 'schools', 'i', 'knew', 'and', 'their', 'students', 'when', 'i', 'saw', 'the', 'episode', 'in', 'which', 'a', 'student', 'repeatedly', 'tried', 'to', 'burn', 'down', 'the', 'school', 'i', 'immediately', 'recalled', 'at', 'high', 'a', 'classic', 'line', 'inspector', "i'm", 'here', 'to', 'sack', 'one', 'of', 'your', 'teachers', 'student', 'welcome', 'to', 'bromwell', 'high', 'i', 'expect', 'that', 'many', 'adults', 'of', 'my', 'age', 'think', 'that', 'bromwell', 'high', 'is', 'far', 'fetched', 'what', 'a', 'pity', 'that', 'it', "isn't"], 1)

batch_index = 0

reviews in this batch = (
	['this', 'movie', 'starts', 'out', 'with', 'an', 'execution', 'of', 'a', 'practitioner', 'of', 'witchcraft', 'and', 'his', 'mistress', 'his', 'head', 'is', 'chopped', 'off', 'and', 'buried', 'separately', 'of', 'his', 'body', 'sounds', 'like', 'the', 'thing', 'that', "wouldn't", 'die', "doesn't", 'it', 'well', 'it', 'does', 'play', 'out', 'a', 'little', 'like', 'that', 'but', 'once', 'the', 'body', 'is', 'reunited', 'with', 'the', 'head', 'all', 'the', 'interesting', 'and', 'gruesome', 'deaths', 'are', 'done', 'and', 'the', 'movie', 'moves', 'very', 'slowly', 'i', 'mean', 'the', 'movie', 'is', 'only', '88', 'minutes', 'long', 'and', 'i', 'kept', 'thinking', 'when', 'is', 'it', 'going', 'to', 'end', 'the', 'characters', 'in', 'the', 'movie', 'are', 'idiots', 'for', 'the', 'most', 'part', 'and', 'they', 'pretty', 'much', 'deserve', 'to', 'die', 'for', 'being', 'really', 'stupid', 'the', 'villain', 'is', 'also', 'very', 'bad', 'as', 'he', 'is', 'slow', 'moving', 'and', 'really', 'you', 'wonder', 'how', 'he', 'manages', 'to', 'do', 'anything', 'considering', 'he', 'is', 'afraid', 'of', 'jewelery', 'the', 'only', 'thing', 'to', 'keep', 'you', 'watching', 'after', 'the', 'head', 'is', 'reattached', 'is', 'the', 'fact', 'that', 'there', 'are', 'so', 'many', 'boobs', 'being', 'flashed', 'that', 'you', 'really', 'begin', 'to', 'lose', 'track', 'still', 'i', 'want', 'to', 'see', 'a', 'horror', 'movie', 'not', 'a', 'soft', 'core', 'porn', 'flick', 'and', 'as', 'a', 'horror', 'movie', 'it', 'is', 'way', 'to', 'slow', 'moving', 'with', 'way', 'to', 'many', 'slow', 'stretches', 'to', 'be', 'even', 'somewhat', 'enjoyable', 'and', "don't", 'read', 'the', 'back', 'of', 'the', 'box', 'as', 'it', 'made', 'it', 'out', 'like', 'there', 'were', 'flesh', 'eating', 'zombies', 'attacking', 'the', 'town', 'there', "isn't", 'only', 'a', 'small', 'scene', 'where', 'three', 'or', 'four', 'zombies', 'attack', 'a', 'house', 'and', 'are', 'so', 'easily', 'repelled', 'they', 'are', 'not', 'a', 'factor', 'in', 'the', 'movie', 'at', 'all', 'and', 'their', 'scene', 'is', 'rather', 'pointless', 'so', 'for', 'the', 'most', 'part', 'i', 'say', 'you', 'should', 'avoid', 'this', 'movie', 'unless', 'you', 'come', 'across', 'it', 'for', 'really', 'cheap'], 
	['this', 'movie', 'is', 'a', 'great', 'attempt', 'towards', 'the', 'revival', 'of', 'traditional', 'indian', 'values', 'which', 'are', 'being', 'replaced', 'by', 'western', 'ones', 'its', 'a', 'joint', 'family', 'story', 'showing', 'all', 'the', 'ethics', 'every', 'person', 'should', 'follow', 'while', 'communicating', 'with', 'every', 'single', 'relative', 'around', 'shahid', 'kapoor', 'gives', 'a', 'gr88', 'performance', 'as', 'a', 'desi', 'about', 'to', 'tie', 'knot', 'with', 'amrita', 'rao', 'who', 'is', 'also', 'very', 'desi', 'and', 'she', 'also', 'acts', 'pretty', 'well', 'the', 'genre', 'of', 'the', 'movie', 'is', 'the', 'same', 'as', 'hahk', 'and', 'such', 'movies', 'deserve', 'to', 'be', 'made', 'in', 'india', 'for', 'the', 'revival', 'of', 'old', 'traditional', 'values', 'the', 'movies', "doesn't", 'get', '10', 'as', 'it', "isn't", 'very', 'good', 'at', 'music', 'which', 'counts', 'a', 'lot', 'in', 'every', 'movie', 'besides', 'this', 'it', 'is', 'flawless']
)
labels in this batch = (0, 1)
lenghts in this batch = [278, 117]

3.2 文本序列化

在介绍word embedding的时候，我们说过，不会直接把文本转化为向量，而是先转化为数字，再把数字转化为向量，那么这个过程该如何实现呢？

这里我们可以考虑把文本中的每个词语和其对应的数字，使用字典保存，同时实现方法把句子通过字典映射为包含数字的列表。

实现文本序列化之前，考虑以下几点:

如何使用字典把词语和数字进行对应
不同的词语出现的次数不尽相同，是否需要对高频或者低频词语进行过滤，以及总的词语数量是否需要进行限制
得到词典之后，如何把句子转化为数字序列，如何把数字序列转化为句子
不同句子长度不相同，每个batch的句子如何构造成相同的长度（可以对短句子进行填充，填充特殊字符）
对于新出现的词语在词典中没有出现怎么办（可以使用特殊字符代理）

思路分析：

对所有句子进行分词
词语存入字典，根据次数对词语进行过滤，并统计次数
实现文本转数字序列的方法
实现数字序列转文本方法

3.2.1 文本序列化功能类WordSequence的构建

import numpy as np

# =======================================文本序列化：开始=======================================
class WordSequence:
	UNK_TAG = ""  # 表示未在词典库里出现的未知词汇
    PAD_TAG = ""  # 句子长度不够时的填充符
    SOS_TAG = ""  # 表示一句文本的开始
    EOS_TAG = ""  # 表示一句文本的结束
    UNK = 0
    PAD = 1
    SOS = 2
    EOS = 3
    
    def __init__(self):
        self.word_index_dict = {
		            self.UNK_TAG: self.UNK,
		            self.PAD_TAG: self.PAD,
		            self.SOS_TAG: self.SOS,
		            self.EOS_TAG: self.EOS}  # 初始化词语-数字映射字典
        self.index_word_dict = {}  # 初始化数字-词语映射字典
        self.word_count_dict = {}  # 初始化词语-词频统计字典
        self.fited = False

    def __len__(self):
        return len(self.word_index_dict)


    # 接受句子，统计词频得到
    def fit(self,sentence,min_count=1,max_count=None,max_features=None):    # 【min_count:最小词频; max_count: 最大词频; max_features: 最大词语数(词典容量大小)】
        """
        :param sentence:[word1,word2,word3]
        :param min_count: 最小出现的次数
        :param max_count: 最大出现的次数
        :param max_feature: 总词语的最大数量
        :return:
        """
        for word in sentence:
            self.word_count_dict[word] = self.word_count_dict.get(word,0)  + 1  #所有的句子fit之后，self.word_count_dict就有了所有词语的词频
        if min_count is not None:   # 根据条件统计词频
            self.word_count_dict = {word:count for word,count in self.word_count_dict.items() if count >= min_count}
        if max_count is not None:#   根据条件统计词频
            self.word_count_dict = {word:count for word,count in self.word_count_dict.items() if count <= max_count}    # 根据条件构造词典
        if max_features is not None:    # 根据条件保留高词频词语
            self.word_count_dict = dict(sorted(self.word_count_dict.items(),key=lambda x:x[-1],reverse=True)[:max_features])    # 保留词频排名靠前的词汇【self.word_count_dict.items()为待排序的对象，key表示排序指标，reverse=True表示降序排列】
        for word in self.word_count_dict:   # 根据word_count_dict字典构造词语-数字映射字典
            if word not in self.word_index_dict.keys(): # 如果当前词语word还没有添加到word_index_dict字典，则添加
                self.word_index_dict[word]  = len(self.word_index_dict)  # 每次word对应一个数字【使用self.word_index_dict添加当前word前已有词汇的数量作为其value】
        self.fited = True
        self.index_word_dict = dict(zip(self.word_index_dict.values(),self.word_index_dict.keys()))  #把word_index_dict进行翻转【准备一个index->word的字典】

    # word -> index
    def to_index(self,word):
        assert self.fited == True,"必须先进行fit操作"
        return self.word_index_dict.get(word,self.UNK)

    # 把句子转化为数字数组(向量)【输入：[str,str,str]；输出：[int,int,int]】
    def transform(self,sentence,max_len=None,add_eos=False):
        if len(sentence) > max_len: # 句子过长，截取句子
        	if add_eos:	# 如果每句文本需要添加结束标记
        		sentence = sentence[:max_len-1] + [self.EOS]
        	else:
            	sentence = sentence[:max_len]
        else:   # 句子过短，填充句子
        	if add_eos:	# 如果每句文本需要添加结束标记
            	sentence = sentence + [self.EOS] + [self.PAD_TAG] *(max_len - len(sentence) - 1)
            else:
            	sentence = sentence +  [self.PAD_TAG] *(max_len - len(sentence))
        index_sequence = [self.to_index(word) for word in sentence]
        return index_sequence

    # index -> word
    def to_word(self,index):
        assert self.fited , "必须先进行fit操作"
        if index in self.inversed_dict:
            return self.inversed_dict[index]
        return self.UNK_TAG

    # 把数字数组(向量)转化为句子【输入：[int,int,int]；输出：[str,str,str]】
    def inverse_transform(self,indexes):
        sentence = [self.index_word_dict.get(index,"") for index in indexes]
        return sentence

# =======================================文本序列化：结束=======================================

if __name__ == '__main__':
    sentences = [["今天","天气","很","好"],["今天","去","吃","什么"]]
    ws = WordSequence()
    for sentence in sentences:
      ws.fit(sentence)
    print("ws.word_index_dict = {0}".format(ws.word_index_dict))
    print("ws.fited = {0}".format(ws.fited))
    index_sequence = ws.transform(["今天","很","热"],max_len=10)
    print("index_sequence = {0}".format(index_sequence))

输出结果：

ws.word_index_dict = {'': 1, '': 0, '今天': 2, '天气': 3, '很': 4, '好': 5, '去': 6, '吃': 7, '什么': 8}
ws.fited = True
index_sequence = [2, 4, 1, 0, 0, 0, 0, 0, 0, 0]

3.2.2 利用WordSequence实现对IMDB数据的序列化处理，并保存构建的文本序列化对象

完成了WordSequence功能之后，接下来就是利用WordSequence将原始字符串文本进行序列化【保存现有样本中的数据字典】，方便后续的使用。

实现对IMDB数据的处理和保存

import numpy as np
import pickle
from torch.utils.data import DataLoader, Dataset
import torch
import os
import re
import pickle
from tqdm import tqdm

BATCH_SIZE_TRAIN = 1000
BATCH_SIZE_TEST = 1000
MAX_LEN = 500

# =======================================进行自定义文本分词【可以用第三方分词工具】：开始=======================================
def tokenlize(sentence):
    fileters = ['!', '"', '#', '$', '%', '&', '\(', '\)', '\*', '\+', ',', '-', '\.', '/', ':', ';', '<', '=', '>', '\?', '@', '\[', '\\', '\]', '^', '_', '`', '\{', '\|', '\}', '~', '\t', '\n', '\x97', '\x96', '”', '“', ]
    sentence = sentence.lower()  # 把大写转化为小写
    sentence = re.sub("
", " ", sentence)
    sentence = re.sub("|".join(fileters), " ", sentence)
    result = [i for i in sentence.split(" ") if len(i) > 0]

    return result
# =======================================进行自定义文本分词【可以用第三方分词工具】：结束=======================================

# =======================================Dataset数据准备：开始=======================================
class ImdbDataset(Dataset):
    def __init__(self, wordSequence=None, train=True):
        super(ImdbDataset,self).__init__()
        self.wordSequence = wordSequence
        data_path = r"./data/aclImdb"
        data_path += r"/train" if train else r"/test" # 文件名拼接【等价于os.path.join()】
        self.total_path = []  # 保存所有的文件路径
        for temp_path in [r"/pos", r"/neg"]:
            cur_path = data_path + temp_path
            self.total_path += [os.path.join(cur_path, i) for i in os.listdir(cur_path) if i.endswith(".txt")]  # 将所有文件路径加入到total_path列表中

    def __getitem__(self, idx):
        file = self.total_path[idx]
        review = tokenlize(open(file, encoding="utf-8").read())  # 读取文件内容（评论）
        label = int(file.split("_")[-1].split(".")[0])
        label = 0 if label < 5 else 1
        if self.wordSequence is not None:
            review = self.wordSequence.transform(review, max_len=MAX_LEN)  #  将字符串通过已经保存的“词语-数字”映射器转为数字
        return review, label

    def __len__(self):
        return len(self.total_path)
# =======================================Dataset数据准备：结束=======================================

# =======================================DataLoader数据数据批次化：开始=======================================
# 自定义collate_fn方式，对batch数据进行处理【batch是list，其中是一个一个元组，每个元组是dataset中__getitem__的结果】
def collate_fn(batch):
    reviews, labels = zip(*batch)
    lengths = [len(review) if len(review) < MAX_LEN else MAX_LEN for review in reviews]
    return reviews, labels, lengths

def get_dataloader(dataset, train=True):
    batch_size = BATCH_SIZE_TRAIN if train else BATCH_SIZE_TEST
    dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True, collate_fn=collate_fn)
    return dataloader
# =======================================DataLoader数据批次化：结束=======================================

# =======================================文本序列化：开始=======================================
class WordSequence:
	UNK_TAG = ""  # 表示未在词典库里出现的未知词汇
    PAD_TAG = ""  # 句子长度不够时的填充符
    SOS_TAG = ""  # 表示一句文本的开始
    EOS_TAG = ""  # 表示一句文本的结束
    UNK = 0
    PAD = 1
    SOS = 2
    EOS = 3
    
    def __init__(self):
        self.word_index_dict = {
		            self.UNK_TAG: self.UNK,
		            self.PAD_TAG: self.PAD,
		            self.SOS_TAG: self.SOS,
		            self.EOS_TAG: self.EOS}  # 初始化词语-数字映射字典
        self.index_word_dict = {}  # 初始化数字-词语映射字典
        self.word_count_dict = {}  # 初始化词语-词频统计字典
        self.fited = False

    def __len__(self):
        return len(self.word_index_dict)


    # 接受句子，统计词频得到
    def fit(self,sentence,min_count=1,max_count=None,max_features=None):    # 【min_count:最小词频; max_count: 最大词频; max_features: 最大词语数(词典容量大小)】
        """
        :param sentence:[word1,word2,word3]
        :param min_count: 最小出现的次数
        :param max_count: 最大出现的次数
        :param max_feature: 总词语的最大数量
        :return:
        """
        for word in sentence:
            self.word_count_dict[word] = self.word_count_dict.get(word,0)  + 1  #所有的句子fit之后，self.word_count_dict就有了所有词语的词频
        if min_count is not None:   # 根据条件统计词频
            self.word_count_dict = {word:count for word,count in self.word_count_dict.items() if count >= min_count}
        if max_count is not None:#   根据条件统计词频
            self.word_count_dict = {word:count for word,count in self.word_count_dict.items() if count <= max_count}    # 根据条件构造词典
        if max_features is not None:    # 根据条件保留高词频词语
            self.word_count_dict = dict(sorted(self.word_count_dict.items(),key=lambda x:x[-1],reverse=True)[:max_features])    # 保留词频排名靠前的词汇【self.word_count_dict.items()为待排序的对象，key表示排序指标，reverse=True表示降序排列】
        for word in self.word_count_dict:   # 根据word_count_dict字典构造词语-数字映射字典
            if word not in self.word_index_dict.keys(): # 如果当前词语word还没有添加到word_index_dict字典，则添加
                self.word_index_dict[word]  = len(self.word_index_dict)  # 每次word对应一个数字【使用self.word_index_dict添加当前word前已有词汇的数量作为其value】
        self.fited = True
        self.index_word_dict = dict(zip(self.word_index_dict.values(),self.word_index_dict.keys()))  #把word_index_dict进行翻转【准备一个index->word的字典】

    # word -> index
    def to_index(self,word):
        assert self.fited == True,"必须先进行fit操作"
        return self.word_index_dict.get(word,self.UNK)

    # 把句子转化为数字数组(向量)【输入：[str,str,str]；输出：[int,int,int]】
    def transform(self,sentence,max_len=None,add_eos=False):
        if len(sentence) > max_len: # 句子过长，截取句子
        	if add_eos:	# 如果每句文本需要添加结束标记
        		sentence = sentence[:max_len-1] + [self.EOS]
        	else:
            	sentence = sentence[:max_len]
        else:   # 句子过短，填充句子
        	if add_eos:	# 如果每句文本需要添加结束标记
            	sentence = sentence + [self.EOS] + [self.PAD_TAG] *(max_len - len(sentence) - 1)
            else:
            	sentence = sentence +  [self.PAD_TAG] *(max_len - len(sentence))
        index_sequence = [self.to_index(word) for word in sentence]
        return index_sequence

    # index -> word
    def to_word(self,index):
        assert self.fited , "必须先进行fit操作"
        if index in self.inversed_dict:
            return self.inversed_dict[index]
        return self.UNK_TAG

    # 把数字数组(向量)转化为句子【输入：[int,int,int]；输出：[str,str,str]】
    def inverse_transform(self,indexes):
        sentence = [self.index_word_dict.get(index,"") for index in indexes]
        return sentence

# =======================================文本序列化：结束=======================================

# =======================================对IMDB的数据集进行fit操作【将字符串转为序号，并保存词语-数字映射】：开始=======================================
def fit_save_word_sequence():
    dataset_train = ImdbDataset(train=True)
    dataset_test = ImdbDataset(train=False)
    dataloader_train = get_dataloader(dataset=dataset_train,train=True) # 训练集批次化数据【文本类型】
    dataloader_test = get_dataloader(dataset=dataset_test,train=False) # 测试集批次化数据【文本类型】
    ws = WordSequence()  # 实例化文本序列化对象
    for reviews, labels, lengths in tqdm(dataloader_train, total=len(dataloader_train)):  # tqdm的作用是提供运行进度条提示
        for review in reviews:
            ws.fit(review)
    for reviews, labels, lengths in tqdm(dataloader_test, total=len(dataloader_test)):
        for review in reviews:
            ws.fit(review)
    print("构造的词典的容量大小：len(ws) = {0}".format(len(ws)))
    pickle.dump(ws, open("./models/ws.pkl", "wb"))  # 保存文本序列化对象
# =======================================对IMDB的数据集进行fit操作【将字符串转为序号，并保存词语-数字映射】：结束=======================================

if __name__ == '__main__':
    fit_save_word_sequence()  # 对IMDB数据的序列化处理，并保存构建的文本序列化对象【将字符串转为序号，并保存词语-数字映射】

输出结果：

在这里插入代码片

3.3 在dataset中使用已保存的“词语-数字”映射器

import numpy as np
import pickle
from torch.utils.data import DataLoader, Dataset
import torch
import os
import re
import pickle
from tqdm import tqdm

BATCH_SIZE_TRAIN = 2
BATCH_SIZE_TEST = 2
MAX_LEN = 100


# =======================================进行自定义文本分词【可以用第三方分词工具】：开始=======================================
def tokenlize(sentence):
    fileters = ['!', '"', '#', '$', '%', '&', '\(', '\)', '\*', '\+', ',', '-', '\.', '/', ':', ';', '<', '=', '>', '\?', '@', '\[', '\\', '\]', '^', '_', '`', '\{', '\|', '\}', '~', '\t', '\n', '\x97', '\x96', '”', '“', ]
    sentence = sentence.lower()  # 把大写转化为小写
    sentence = re.sub("
", " ", sentence)
    # sentence = re.sub("I'm","I am",sentence)  # 当语料量足够多时，可以学习到I'm的含义。
    # sentence = re.sub("isn't","is not",sentence)
    sentence = re.sub("|".join(fileters), " ", sentence)
    result = [i for i in sentence.split(" ") if len(i) > 0]

    return result
# =======================================进行自定义文本分词【可以用第三方分词工具】：结束=======================================

# =======================================Dataset数据准备：开始=======================================
class ImdbDataset(Dataset):
    def __init__(self, wordSequence=None, train=True):
        super(ImdbDataset,self).__init__()
        self.wordSequence = wordSequence
        data_path = r"./data/aclImdb"
        data_path += r"/train" if train else r"/test" # 文件名拼接【等价于os.path.join()】
        self.total_path = []  # 保存所有的文件路径
        for temp_path in [r"/pos", r"/neg"]:
            cur_path = data_path + temp_path
            self.total_path += [os.path.join(cur_path, i) for i in os.listdir(cur_path) if i.endswith(".txt")]  # 将所有文件路径加入到total_path列表中

    def __getitem__(self, idx):
        file = self.total_path[idx]
        review = tokenlize(open(file, encoding="utf-8").read())  # 读取文件内容（评论）
        label = int(file.split("_")[-1].split(".")[0])
        label = 0 if label < 5 else 1
        if self.wordSequence is not None:
            review = self.wordSequence.transform(review, max_len=MAX_LEN)  #  将字符串通过已经保存的“词语-数字”映射器转为数字
        return review, label

    def __len__(self):
        return len(self.total_path)
# =======================================Dataset数据准备：结束=======================================

# =======================================DataLoader数据数据批次化：开始=======================================
# 自定义collate_fn方式，对batch数据进行处理【batch是list，其中是一个一个元组，每个元组是dataset中__getitem__的结果】
def collate_fn(batch):
    reviews, labels = zip(*batch)
    lengths = [len(review) if len(review) < MAX_LEN else MAX_LEN for review in reviews]
    reviews, labels = torch.LongTensor(np.array(list(reviews))), torch.LongTensor(np.array(list(labels)))  # 将tuple类型转为Tensor类型
    return reviews, labels, lengths


def get_dataloader(dataset, train=True):
    batch_size = BATCH_SIZE_TRAIN if train else BATCH_SIZE_TEST
    dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True, collate_fn=collate_fn)
    return dataloader
# =======================================DataLoader数据批次化：结束=======================================

# =======================================文本序列化：开始=======================================
class WordSequence:
	UNK_TAG = ""  # 表示未在词典库里出现的未知词汇
    PAD_TAG = ""  # 句子长度不够时的填充符
    SOS_TAG = ""  # 表示一句文本的开始
    EOS_TAG = ""  # 表示一句文本的结束
    UNK = 0
    PAD = 1
    SOS = 2
    EOS = 3
    
    def __init__(self):
        self.word_index_dict = {
		            self.UNK_TAG: self.UNK,
		            self.PAD_TAG: self.PAD,
		            self.SOS_TAG: self.SOS,
		            self.EOS_TAG: self.EOS}  # 初始化词语-数字映射字典
        self.index_word_dict = {}  # 初始化数字-词语映射字典
        self.word_count_dict = {}  # 初始化词语-词频统计字典
        self.fited = False

    def __len__(self):
        return len(self.word_index_dict)


    # 接受句子，统计词频得到
    def fit(self,sentence,min_count=1,max_count=None,max_features=None):    # 【min_count:最小词频; max_count: 最大词频; max_features: 最大词语数(词典容量大小)】
        """
        :param sentence:[word1,word2,word3]
        :param min_count: 最小出现的次数
        :param max_count: 最大出现的次数
        :param max_feature: 总词语的最大数量
        :return:
        """
        for word in sentence:
            self.word_count_dict[word] = self.word_count_dict.get(word,0)  + 1  #所有的句子fit之后，self.word_count_dict就有了所有词语的词频
        if min_count is not None:   # 根据条件统计词频
            self.word_count_dict = {word:count for word,count in self.word_count_dict.items() if count >= min_count}
        if max_count is not None:#   根据条件统计词频
            self.word_count_dict = {word:count for word,count in self.word_count_dict.items() if count <= max_count}    # 根据条件构造词典
        if max_features is not None:    # 根据条件保留高词频词语
            self.word_count_dict = dict(sorted(self.word_count_dict.items(),key=lambda x:x[-1],reverse=True)[:max_features])    # 保留词频排名靠前的词汇【self.word_count_dict.items()为待排序的对象，key表示排序指标，reverse=True表示降序排列】
        for word in self.word_count_dict:   # 根据word_count_dict字典构造词语-数字映射字典
            if word not in self.word_index_dict.keys(): # 如果当前词语word还没有添加到word_index_dict字典，则添加
                self.word_index_dict[word]  = len(self.word_index_dict)  # 每次word对应一个数字【使用self.word_index_dict添加当前word前已有词汇的数量作为其value】
        self.fited = True
        self.index_word_dict = dict(zip(self.word_index_dict.values(),self.word_index_dict.keys()))  #把word_index_dict进行翻转【准备一个index->word的字典】

    # word -> index
    def to_index(self,word):
        assert self.fited == True,"必须先进行fit操作"
        return self.word_index_dict.get(word,self.UNK)

    # 把句子转化为数字数组(向量)【输入：[str,str,str]；输出：[int,int,int]】
    def transform(self,sentence,max_len=None,add_eos=False):
        if len(sentence) > max_len: # 句子过长，截取句子
        	if add_eos:	# 如果每句文本需要添加结束标记
        		sentence = sentence[:max_len-1] + [self.EOS]
        	else:
            	sentence = sentence[:max_len]
        else:   # 句子过短，填充句子
        	if add_eos:	# 如果每句文本需要添加结束标记
            	sentence = sentence + [self.EOS] + [self.PAD_TAG] *(max_len - len(sentence) - 1)
            else:
            	sentence = sentence +  [self.PAD_TAG] *(max_len - len(sentence))
        index_sequence = [self.to_index(word) for word in sentence]
        return index_sequence

    # index -> word
    def to_word(self,index):
        assert self.fited , "必须先进行fit操作"
        if index in self.inversed_dict:
            return self.inversed_dict[index]
        return self.UNK_TAG

    # 把数字数组(向量)转化为句子【输入：[int,int,int]；输出：[str,str,str]】
    def inverse_transform(self,indexes):
        sentence = [self.index_word_dict.get(index,"") for index in indexes]
        return sentence

# =======================================文本序列化：结束=======================================

# =======================================对IMDB的数据集进行fit操作【将字符串转为序号，并保存词语-数字映射】：开始=======================================
def fit_save_word_sequence():
    dataloader_train = get_dataloader(True) # 训练集批次化数据【文本类型】
    dataloader_test = get_dataloader(False) # 测试集批次化数据【文本类型】
    ws = WordSequence()  # 实例化文本序列化对象
    for reviews, label in tqdm(dataloader_train, total=len(dataloader_train)):  # tqdm的作用是提供运行进度条提示
        for review in reviews:
            ws.fit(review)
    for reviews, label in tqdm(dataloader_test, total=len(dataloader_test)):
        for review in reviews:
            ws.fit(review)
    print("构造的词典的容量大小：len(ws) = {0}".format(len(ws)))
    pickle.dump(ws, open("./models/ws.pkl", "wb"))  # 保存文本序列化对象
# =======================================对IMDB的数据集进行fit操作【将字符串转为序号，并保存词语-数字映射】：结束=======================================

if __name__ == '__main__':
    # 一、对IMDB的数据集进行fit操作【将字符串转为序号，并保存词语-数字映射】
    # fit_save_word_sequence()

    # 二、在dataset中使用已保存的“词语-数字”映射器
    wordSequence = pickle.load(open("./models/ws.pkl", "rb"))
    dataset = ImdbDataset(wordSequence=wordSequence)
    dataLoader = get_dataloader(dataset=dataset, train=True)
    for batch_index,(reviews,labels,lengths) in enumerate(dataLoader):
        print("batch_index = {0}".format(batch_index))
        print("reviews in this batch = {0}".format(reviews))
        print("labels in this batch = {0}".format(labels))
        print("lengths in this batch = {0}".format(lengths))
        break

输出如下

batch_index = 0
reviews in this batch = (
	tensor([   58,   103,    98,   739,   607,     4,   456,     6,     2,     8,
         2667,    58,   278,   259,  5242,   464,     2,   763,   290,   382,
          459,    98,   215,  5808,    21,  7498,   100,    58,   175,   224,
            2,   167,    15,  3353,   152,  2394,  9842,    58,   215,  7449,
           14,  1456,    22,    27,  4335,   280,   182, 10739,    98,    16,
         7419,   100,    21,     4,   804,  2772,     6,    82,  1609,    73,
         2649,   208,     2,  2667,    21,  1643, 10740,   108,   896,    21,
         3177,  3746,  8328,    13,  3845,  1238,   140,     2,    54,    55,
         1862,    13,   791,    51,   202,  8995,    53,    13,    58,  2682,
         3326,  3387,   248,   165,     2,  2305,    58,   909,    26,    64]), 
	tensor([    2,  5991,   671,    27,     4,   209,   106,   152,  6751,     4,
         3762,  1626,   168,   208,    24,    19,   262, 12221,  6467,    21,
          540,    53,  1026,     6,     4,   671,   230,     9,   445,  5991,
          465,  3612,    87,     4,  1169,   572,     2,   168,    61,   338,
          459,  4215,    15,    98,     9,   109,   165,  6751,    98,     9,
            2,   133,  1312,    54,    55,   106,   959, 10310,  5693, 10606,
           54,    55,  2347,   182,  7884,   651,  7838,    64,   176,  9010,
          726,   491,    54,    55,   244,   316,    64,  1776,   214,   316,
           64,   176,   896,  1108,     2,    54,    55,   165,   399,   671,
            2,  2745,     6,     2, 11479, 11480,   290,    64,   229,    47]))

labels in this batch = (tensor(1, dtype=torch.int32), tensor(0, dtype=torch.int32))

lengths in this batch = [100, 100]

思考：前面我们自定义了MAX_LEN作为句子的最大长度，如果我们需要把每个batch中的最长的句子长度作为当前batch的最大长度，该如何实现？

4. 构建模型

4.1 简单模型

这里我们只练习使用word embedding，所以模型只有一层，即：

数据经过word embedding
数据通过全连接层返回结果，计算log_softmax

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch import optim
from build_dataset import get_dataloader,ws,MAX_LEN

class IMDBModel(nn.Module):
    def __init__(self,wordSequence, max_len=MAX_LEN):
        super(IMDBModel,self).__init__()
        self.embedding = nn.Embedding(num_embeddings=len(wordSequence), embedding_dim=300, padding_idx=wordSequence.PAD) # num_embeddings为词典总词汇数量; embedding_dim为词向量维度
        self.fc = nn.Linear(max_len*300, 10)  #[max_len*300,10]

    def forward(self, x):
        embeded = self.embedding(x)  # 输入维度: [batch_size,max_len]; 输出维度: [batch_size,max_len,300]
        embeded = embeded.view(x.size(0), -1)   # 扁平化数据之后作为全连接层的输入
        out = self.fc(embeded)
        return F.log_softmax(out,dim=-1)

4.2 LSTM模型

class IMDBLstmmodel(nn.Module):
    def __init__(self):
        super(IMDBLstmmodel,self).__init__()
        self.hidden_size = 64
        self.embedding_dim = 200
        self.num_layer = 2
        self.bidriectional = True
        self.bi_num = 2 if self.bidriectional else 1
        self.dropout = 0.5
        #以上部分为超参数，可以自行修改

        self.embedding = nn.Embedding(len(ws),self.embedding_dim,padding_idx=ws.PAD) #[N,300]
        self.lstm = nn.LSTM(self.embedding_dim,self.hidden_size,self.num_layer,bidirectional=True,dropout=self.dropout)
        #使用两个全连接层，中间使用relu激活函数
        self.fc = nn.Linear(self.hidden_size*self.bi_num,20)
        self.fc2 = nn.Linear(20,2)


    def forward(self, x):
        x = self.embedding(x)
        x = x.permute(1,0,2) #进行轴交换
        h_0,c_0 = self.init_hidden_state(x.size(1))
        _,(h_n,c_n) = self.lstm(x,(h_0,c_0))

        #只要最后一个lstm单元处理的结果，这里多去的hidden state
        out = torch.cat([h_n[-2, :, :], h_n[-1, :, :]], dim=-1)
        out = self.fc(out)
        out = F.relu(out)
        out = self.fc2(out)
        return F.log_softmax(out,dim=-1)

    def init_hidden_state(self,batch_size):
        h_0 = torch.rand(self.num_layer * self.bi_num, batch_size, self.hidden_size).to(device)
        c_0 = torch.rand(self.num_layer * self.bi_num, batch_size, self.hidden_size).to(device)
        return h_0,c_0

5. 模型的训练和评估

训练流程和之前相同

实例化模型，损失函数，优化器
遍历dataset_loader，梯度置为0，进行向前计算
计算损失，反向传播优化损失，更新参数

train_batch_size = 128
test_batch_size = 1000
imdb_model = IMDBModel(MAX_LEN)
optimizer = optim.Adam(imdb_model.parameters())
criterion = nn.CrossEntropyLoss()

def train(epoch, wordSequence):
    imdb_model.train()
    dataset_train = ImdbDataset(wordSequence=wordSequence, train=True)
    dataloader_train = get_dataloader(dataset=dataset_train, train=True)  # 训练集批次化数据【文本类型】
    for batch_index, (reviews, labels, lengths) in enumerate(dataloader_train):
        optimizer.zero_grad()
        output = imdb_model(reviews)
        loss = criterion(output, labels)  # traget需要是[0,9]，不能是[1-10]
        loss.backward()
        optimizer.step()
        if batch_index % 10 == 0:
            print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(epoch, batch_index * len(reviews), len(dataloader_train.dataset),100. * batch_index / len(dataloader_train), loss.item()))
            torch.save(imdb_model.state_dict(), "./models/mnist_net{0}.pkl".format(epoch))
            torch.save(optimizer.state_dict(), './models/mnist_optimizer{0}.pkl'.format(epoch))


def test(wordSequence):
    test_loss = 0
    correct = 0
    imdb_model.eval()
    dataset_test = ImdbDataset(wordSequence=wordSequence, train=False)
    dataloader_test = get_dataloader(dataset=dataset_test, train=False)  # 测试集批次化数据【文本类型】
    with torch.no_grad():
        for batch_index, (reviews, labels, lengths) in enumerate(dataloader_test):
            output = imdb_model(reviews)
            test_loss += F.nll_loss(output, labels, reduction="sum")
            pred = torch.max(output, dim=-1, keepdim=False)[-1]
            correct = pred.eq(labels.data).sum()
        test_loss = test_loss / len(dataloader_test.dataset)
        print('\nTest set: Avg. loss: {:.4f}, Accuracy: {}/{} ({:.2f}%)\n'.format(test_loss, correct, len(dataloader_test.dataset), 100. * correct / len(dataloader_test.dataset)))

if __name__ == '__main__':
    test()
    for i in range(3):
        train(i)
        test()

这里我们仅仅使用了一层全连接层，其分类效果不会很好，这里重点是理解常见的模型流程和word embedding的使用方法

6、完整代码

6.1 简单模型

import numpy as np
import pickle
from torch.utils.data import DataLoader, Dataset
import os
import re
from tqdm import tqdm
import torch
from torch import optim
import torch.nn as nn
import torch.nn.functional as F
from torchsummary import summary

BATCH_SIZE_TRAIN = 64
BATCH_SIZE_TEST = 64
MAX_LEN = 500
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# =======================================进行自定义文本分词【可以用第三方分词工具】：开始=======================================
def tokenlize(sentence):
    fileters = ['!', '"', '#', '$', '%', '&', '\(', '\)', '\*', '\+', ',', '-', '\.', '/', ':', ';', '<', '=', '>', '\?', '@', '\[', '\\', '\]', '^', '_', '`', '\{', '\|', '\}', '~', '\t', '\n', '\x97', '\x96', '”', '“', ]
    sentence = sentence.lower()  # 把大写转化为小写
    sentence = re.sub("
", " ", sentence)
    # sentence = re.sub("I'm","I am",sentence)  # 当语料量足够多时，可以学习到I'm的含义。
    # sentence = re.sub("isn't","is not",sentence)
    sentence = re.sub("|".join(fileters), " ", sentence)
    result = [i for i in sentence.split(" ") if len(i) > 0]

    return result
# =======================================进行自定义文本分词【可以用第三方分词工具】：结束=======================================

# =======================================Dataset数据准备：开始=======================================
class ImdbDataset(Dataset):
    def __init__(self, wordSequence=None, train=True):
        super(ImdbDataset,self).__init__()
        self.wordSequence = wordSequence
        data_path = r"./data/aclImdb"
        data_path += r"/train" if train else r"/test" # 文件名拼接【等价于os.path.join()】
        self.total_path = []  # 保存所有的文件路径
        for temp_path in [r"/pos", r"/neg"]:
            cur_path = data_path + temp_path
            self.total_path += [os.path.join(cur_path, i) for i in os.listdir(cur_path) if i.endswith(".txt")]  # 将所有文件路径加入到total_path列表中

    def __getitem__(self, idx):
        file = self.total_path[idx]
        review = tokenlize(open(file, encoding="utf-8").read())  # 读取文件内容（评论）
        label = int(file.split("_")[-1].split(".")[0])
        label = 0 if label < 5 else 1
        if self.wordSequence is not None:
            review = self.wordSequence.transform(review, max_len=MAX_LEN)  #  将字符串通过已经保存的“词语-数字”映射器转为数字
        return review, label

    def __len__(self):
        return len(self.total_path)
# =======================================Dataset数据准备：结束=======================================

# =======================================DataLoader数据数据批次化：开始=======================================
# 自定义collate_fn方式，对batch数据进行处理【batch是list，其中是一个一个元组，每个元组是dataset中__getitem__的结果】
def collate_fn(batch):
    reviews, labels = zip(*batch)
    lengths = [len(review) if len(review) < MAX_LEN else MAX_LEN for review in reviews]
    reviews, labels = torch.LongTensor(np.array(list(reviews))),torch.LongTensor(np.array(list(labels)))  # 将tuple类型转为Tensor类型
    return reviews, labels, lengths


def get_dataloader(dataset, train=True):
    batch_size = BATCH_SIZE_TRAIN if train else BATCH_SIZE_TEST
    dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True, collate_fn=collate_fn)
    return dataloader
# =======================================DataLoader数据批次化：结束=======================================

# =======================================文本序列化：开始=======================================
class WordSequence:
    PAD_TAG = ""  # 句子长度不够时的填充符
    UNK_TAG = ""  # 表示未在词典库里出现的未知词汇
    PAD = 0
    UNK = 1

    def __init__(self):
        self.word_index_dict = {self.UNK_TAG:self.UNK, self.PAD_TAG:self.PAD}  # 初始化词语-数字映射字典
        self.index_word_dict = {}  # 初始化数字-词语映射字典
        self.word_count_dict = {}  # 初始化词语-词频统计字典
        self.fited = False

    def __len__(self):
        return len(self.word_index_dict)


    # 接受句子，统计词频得到
    def fit(self,sentence,min_count=5,max_count=None,max_features=None):    # 【min_count:最小词频; max_count: 最大词频; max_features: 最大词语数(词典容量大小)】
        for word in sentence:
            self.word_count_dict[word] = self.word_count_dict.get(word,0)  + 1  #所有的句子fit之后，self.word_count_dict就有了所有词语的词频
        if min_count is not None:   # 根据条件统计词频
            self.word_count_dict = {word:count for word,count in self.word_count_dict.items() if count >= min_count}
        if max_count is not None:#   根据条件统计词频
            self.word_count_dict = {word:count for word,count in self.word_count_dict.items() if count <= max_count}    # 根据条件构造词典
        if max_features is not None:    # 根据条件保留高词频词语
            self.word_count_dict = dict(sorted(self.word_count_dict.items(),key=lambda x:x[-1],reverse=True)[:max_features])    # 保留词频排名靠前的词汇【self.word_count_dict.items()为待排序的对象，key表示排序指标，reverse=True表示降序排列】
        for word in self.word_count_dict:   # 根据word_count_dict字典构造词语-数字映射字典
            if word not in self.word_index_dict.keys(): # 如果当前词语word还没有添加到word_index_dict字典，则添加
                self.word_index_dict[word]  = len(self.word_index_dict)  # 每次word对应一个数字【使用self.word_index_dict添加当前word前已有词汇的数量作为其value】
        self.fited = True
        self.index_word_dict = dict(zip(self.word_index_dict.values(),self.word_index_dict.keys()))  #把word_index_dict进行翻转【准备一个index->word的字典】

    # word -> index
    def to_index(self,word):
        assert self.fited == True,"必须先进行fit操作"
        return self.word_index_dict.get(word,self.UNK)

    # 把句子转化为数字数组(向量)【输入：[str,str,str]；输出：[int,int,int]】
    def transform(self,sentence,max_len=None):
        if len(sentence) > max_len: # 句子过长，截取句子
            sentence = sentence[:max_len]
        else:   # 句子过短，填充句子
            sentence = sentence + [self.PAD_TAG] *(max_len- len(sentence))
        index_sequence = [self.to_index(word) for word in sentence]
        return index_sequence

    # index -> word
    def to_word(self,index):
        assert self.fited , "必须先进行fit操作"
        if index in self.inversed_dict:
            return self.inversed_dict[index]
        return self.UNK_TAG

    # 把数字数组(向量)转化为句子【输入：[int,int,int]；输出：[str,str,str]】
    def inverse_transform(self,indexes):
        sentence = [self.index_word_dict.get(index,"") for index in indexes]
        return sentence

# =======================================文本序列化：结束=======================================

# =======================================对IMDB的数据集进行fit操作【将字符串转为序号，并保存词语-数字映射】：开始=======================================
def fit_save_word_sequence():
    dataloader_train = get_dataloader(True) # 训练集批次化数据【文本类型】
    dataloader_test = get_dataloader(False) # 测试集批次化数据【文本类型】
    ws = WordSequence()  # 实例化文本序列化对象
    for reviews, label in tqdm(dataloader_train, total=len(dataloader_train)):  # tqdm的作用是提供运行进度条提示
        for review in reviews:
            ws.fit(review)
    for reviews, label in tqdm(dataloader_test, total=len(dataloader_test)):
        for review in reviews:
            ws.fit(review)
    print("构造的词典的容量大小：len(ws) = {0}".format(len(ws)))
    pickle.dump(ws, open("./models/ws.pkl", "wb"))  # 保存文本序列化对象
# =======================================对IMDB的数据集进行fit操作【将字符串转为序号，并保存词语-数字映射】：结束=======================================

# =======================================构建神经网络模型：开始=======================================
class SimpleModel(nn.Module):
    def __init__(self,wordSequence, max_len=MAX_LEN):
        super(SimpleModel,self).__init__()
        self.embedding = nn.Embedding(num_embeddings=len(wordSequence), embedding_dim=300, padding_idx=wordSequence.PAD) # num_embeddings为词典总词汇数量; embedding_dim为词向量维度
        self.fc = nn.Linear(max_len*300, 10)  #[max_len*300,10]

    def forward(self, x):
        embeded = self.embedding(x)  # 输入维度: [batch_size,max_len]; 输出维度: [batch_size,max_len,300]
        embeded = embeded.view(x.size(0), -1)   # 扁平化数据之后作为全连接层的输入
        out = self.fc(embeded)
        return F.log_softmax(out,dim=-1)
# =======================================构建神经网络模型：结束=======================================


def train(epoch, wordSequence):
    imdb_model.train()
    dataset_train = ImdbDataset(wordSequence=wordSequence, train=True)
    dataloader_train = get_dataloader(dataset=dataset_train, train=True)  # 训练集批次化数据【文本类型】
    for batch_index, (reviews, labels, lengths) in enumerate(dataloader_train):
        reviews = reviews.to(device)
        labels = labels.to(device)
        optimizer.zero_grad()
        output = imdb_model(reviews)
        loss = criterion(output, labels)  # traget需要是[0,9]，不能是[1-10]
        loss.backward()
        optimizer.step()
        if batch_index % 130 == 0:
            print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(epoch, batch_index * len(reviews), len(dataloader_train.dataset),100. * batch_index / len(dataloader_train), loss.item()))
            torch.save(imdb_model.state_dict(), "./models/mnist_net{0}.pkl".format(epoch))
            torch.save(optimizer.state_dict(), './models/mnist_optimizer{0}.pkl'.format(epoch))


def test(wordSequence):
    test_loss = 0
    correct = 0
    imdb_model.eval()
    dataset_test = ImdbDataset(wordSequence=wordSequence, train=False)
    dataloader_test = get_dataloader(dataset=dataset_test, train=False)  # 测试集批次化数据【文本类型】
    with torch.no_grad():
        for batch_index, (reviews, labels, lengths) in enumerate(dataloader_test):
            reviews = reviews.to(device)
            labels = labels.to(device)
            output = imdb_model(reviews)
            test_loss += F.nll_loss(output, labels, reduction="sum")
            pred = torch.max(output, dim=-1, keepdim=False)[-1]
            correct += pred.eq(labels.data).sum()
        test_loss = test_loss / len(dataloader_test.dataset)
        print('\nTest set: Avg. loss: {:.4f}, Accuracy: {}/{} ({:.2f}%)\n'.format(test_loss, correct, len(dataloader_test.dataset), 100. * correct / len(dataloader_test.dataset)))

if __name__ == '__main__':
    ws = WordSequence()
    ws = pickle.load(open("./models/ws.pkl", "rb"))
    # =======================================实例化神经网络各个组件：开始=======================================
    imdb_model = SimpleModel(wordSequence=ws, max_len=MAX_LEN).to(device)
    print(imdb_model)
    optimizer = optim.Adam(imdb_model.parameters())
    criterion = nn.NLLLoss()
    # =======================================实例化神经网络各个组件：结束=======================================
    # test()
    for epoch in range(5):
        train(wordSequence=ws, epoch=epoch)
        test(wordSequence=ws)

输出结果：

SimpleModel(
  (embedding): Embedding(6457, 300, padding_idx=0)
  (fc): Linear(in_features=150000, out_features=10, bias=True)
)
Train Epoch: 0 [0/25000 (0%)]	Loss: 2.318600
Train Epoch: 0 [8320/25000 (33%)]	Loss: 2.879479
Train Epoch: 0 [16640/25000 (66%)]	Loss: 4.185676
Train Epoch: 0 [15600/25000 (100%)]	Loss: 3.459218

Test set: Avg. loss: 3.0266, Accuracy: 15857/25000 (63.43%)

Train Epoch: 1 [0/25000 (0%)]	Loss: 1.198754
Train Epoch: 1 [8320/25000 (33%)]	Loss: 0.714398
Train Epoch: 1 [16640/25000 (66%)]	Loss: 0.794013
Train Epoch: 1 [15600/25000 (100%)]	Loss: 0.927658

Test set: Avg. loss: 2.9786, Accuracy: 16858/25000 (67.43%)

Train Epoch: 2 [0/25000 (0%)]	Loss: 0.224821
Train Epoch: 2 [8320/25000 (33%)]	Loss: 0.505306
Train Epoch: 2 [16640/25000 (66%)]	Loss: 0.542476
Train Epoch: 2 [15600/25000 (100%)]	Loss: 0.253546

Test set: Avg. loss: 3.0380, Accuracy: 17274/25000 (69.10%)

Train Epoch: 3 [0/25000 (0%)]	Loss: 0.008276
Train Epoch: 3 [8320/25000 (33%)]	Loss: 0.061753
Train Epoch: 3 [16640/25000 (66%)]	Loss: 0.253349
Train Epoch: 3 [15600/25000 (100%)]	Loss: 0.421935

Test set: Avg. loss: 3.2476, Accuracy: 17406/25000 (69.62%)

Train Epoch: 4 [0/25000 (0%)]	Loss: 0.001352
Train Epoch: 4 [8320/25000 (33%)]	Loss: 0.013228
Train Epoch: 4 [16640/25000 (66%)]	Loss: 0.126471
Train Epoch: 4 [15600/25000 (100%)]	Loss: 0.013214

Test set: Avg. loss: 3.3700, Accuracy: 17570/25000 (70.28%)


Process finished with exit code 0

6.2 LSTM模型

import numpy as np
import pickle
from torch.utils.data import DataLoader, Dataset
import os
import re
from tqdm import tqdm
import torch
from torch import optim
import torch.nn as nn
import torch.nn.functional as F

BATCH_SIZE_TRAIN = 64
BATCH_SIZE_TEST = 64
MAX_LEN = 500
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# =======================================进行自定义文本分词【可以用第三方分词工具】：开始=======================================
def tokenlize(sentence):
    fileters = ['!', '"', '#', '$', '%', '&', '\(', '\)', '\*', '\+', ',', '-', '\.', '/', ':', ';', '<', '=', '>', '\?', '@', '\[', '\\', '\]', '^', '_', '`', '\{', '\|', '\}', '~', '\t', '\n', '\x97', '\x96', '”', '“', ]
    sentence = sentence.lower()  # 把大写转化为小写
    sentence = re.sub("
", " ", sentence)
    # sentence = re.sub("I'm","I am",sentence)  # 当语料量足够多时，可以学习到I'm的含义。
    # sentence = re.sub("isn't","is not",sentence)
    sentence = re.sub("|".join(fileters), " ", sentence)
    result = [i for i in sentence.split(" ") if len(i) > 0]

    return result
# =======================================进行自定义文本分词【可以用第三方分词工具】：结束=======================================

# =======================================Dataset数据准备：开始=======================================
class ImdbDataset(Dataset):
    def __init__(self, wordSequence=None, train=True):
        super(ImdbDataset,self).__init__()
        self.wordSequence = wordSequence
        data_path = r"./data/aclImdb"
        data_path += r"/train" if train else r"/test" # 文件名拼接【等价于os.path.join()】
        self.total_path = []  # 保存所有的文件路径
        for temp_path in [r"/pos", r"/neg"]:
            cur_path = data_path + temp_path
            self.total_path += [os.path.join(cur_path, i) for i in os.listdir(cur_path) if i.endswith(".txt")]  # 将所有文件路径加入到total_path列表中

    def __getitem__(self, idx):
        file = self.total_path[idx]
        review = tokenlize(open(file, encoding="utf-8").read())  # 读取文件内容（评论）
        label = int(file.split("_")[-1].split(".")[0])
        label = 0 if label < 5 else 1
        if self.wordSequence is not None:
            review = self.wordSequence.transform(review, max_len=MAX_LEN)  #  将字符串通过已经保存的“词语-数字”映射器转为数字
        return review, label

    def __len__(self):
        return len(self.total_path)
# =======================================Dataset数据准备：结束=======================================

# =======================================DataLoader数据数据批次化：开始=======================================
# 自定义collate_fn方式，对batch数据进行处理【batch是list，其中是一个一个元组，每个元组是dataset中__getitem__的结果】
def collate_fn(batch):
    reviews, labels = zip(*batch)
    lengths = [len(review) if len(review) < MAX_LEN else MAX_LEN for review in reviews]
    reviews, labels = torch.LongTensor(np.array(list(reviews))),torch.LongTensor(np.array(list(labels)))  # 将tuple类型转为Tensor类型
    return reviews, labels, lengths


def get_dataloader(dataset, train=True):
    batch_size = BATCH_SIZE_TRAIN if train else BATCH_SIZE_TEST
    dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True, collate_fn=collate_fn)
    return dataloader
# =======================================DataLoader数据批次化：结束=======================================

# =======================================文本序列化：开始=======================================
class WordSequence:
    PAD_TAG = ""  # 句子长度不够时的填充符
    UNK_TAG = ""  # 表示未在词典库里出现的未知词汇
    PAD = 0
    UNK = 1

    def __init__(self):
        self.word_index_dict = {self.UNK_TAG:self.UNK, self.PAD_TAG:self.PAD}  # 初始化词语-数字映射字典
        self.index_word_dict = {}  # 初始化数字-词语映射字典
        self.word_count_dict = {}  # 初始化词语-词频统计字典
        self.fited = False

    def __len__(self):
        return len(self.word_index_dict)


    # 接受句子，统计词频得到
    def fit(self,sentence,min_count=5,max_count=None,max_features=None):    # 【min_count:最小词频; max_count: 最大词频; max_features: 最大词语数(词典容量大小)】
        for word in sentence:
            self.word_count_dict[word] = self.word_count_dict.get(word,0)  + 1  #所有的句子fit之后，self.word_count_dict就有了所有词语的词频
        if min_count is not None:   # 根据条件统计词频
            self.word_count_dict = {word:count for word,count in self.word_count_dict.items() if count >= min_count}
        if max_count is not None:#   根据条件统计词频
            self.word_count_dict = {word:count for word,count in self.word_count_dict.items() if count <= max_count}    # 根据条件构造词典
        if max_features is not None:    # 根据条件保留高词频词语
            self.word_count_dict = dict(sorted(self.word_count_dict.items(),key=lambda x:x[-1],reverse=True)[:max_features])    # 保留词频排名靠前的词汇【self.word_count_dict.items()为待排序的对象，key表示排序指标，reverse=True表示降序排列】
        for word in self.word_count_dict:   # 根据word_count_dict字典构造词语-数字映射字典
            if word not in self.word_index_dict.keys(): # 如果当前词语word还没有添加到word_index_dict字典，则添加
                self.word_index_dict[word]  = len(self.word_index_dict)  # 每次word对应一个数字【使用self.word_index_dict添加当前word前已有词汇的数量作为其value】
        self.fited = True
        self.index_word_dict = dict(zip(self.word_index_dict.values(),self.word_index_dict.keys()))  #把word_index_dict进行翻转【准备一个index->word的字典】

    # word -> index
    def to_index(self,word):
        assert self.fited == True,"必须先进行fit操作"
        return self.word_index_dict.get(word,self.UNK)

    # 把句子转化为数字数组(向量)【输入：[str,str,str]；输出：[int,int,int]】
    def transform(self,sentence,max_len=None):
        if len(sentence) > max_len: # 句子过长，截取句子
            sentence = sentence[:max_len]
        else:   # 句子过短，填充句子
            sentence = sentence + [self.PAD_TAG] *(max_len- len(sentence))
        index_sequence = [self.to_index(word) for word in sentence]
        return index_sequence

    # index -> word
    def to_word(self,index):
        assert self.fited , "必须先进行fit操作"
        if index in self.inversed_dict:
            return self.inversed_dict[index]
        return self.UNK_TAG

    # 把数字数组(向量)转化为句子【输入：[int,int,int]；输出：[str,str,str]】
    def inverse_transform(self,indexes):
        sentence = [self.index_word_dict.get(index,"") for index in indexes]
        return sentence

# =======================================文本序列化：结束=======================================

# =======================================对IMDB的数据集进行fit操作【将字符串转为序号，并保存词语-数字映射】：开始=======================================
def fit_save_word_sequence():
    dataloader_train = get_dataloader(True) # 训练集批次化数据【文本类型】
    dataloader_test = get_dataloader(False) # 测试集批次化数据【文本类型】
    ws = WordSequence()  # 实例化文本序列化对象
    for reviews, label in tqdm(dataloader_train, total=len(dataloader_train)):  # tqdm的作用是提供运行进度条提示
        for review in reviews:
            ws.fit(review)
    for reviews, label in tqdm(dataloader_test, total=len(dataloader_test)):
        for review in reviews:
            ws.fit(review)
    print("构造的词典的容量大小：len(ws) = {0}".format(len(ws)))
    pickle.dump(ws, open("./models/ws.pkl", "wb"))  # 保存文本序列化对象
# =======================================对IMDB的数据集进行fit操作【将字符串转为序号，并保存词语-数字映射】：结束=======================================

# =======================================构建神经网络模型：开始=======================================
class LSTMModel(nn.Module):
    def __init__(self, wordSequence, max_len=MAX_LEN):
        super(LSTMModel,self).__init__()
        self.hidden_size = 64
        self.embedding_dim = 200
        self.num_layer = 2
        self.bidriectional = True
        self.bi_num = 2 if self.bidriectional else 1
        self.dropout = 0.5
        #以上部分为超参数，可以自行修改

        self.embedding = nn.Embedding(len(wordSequence),self.embedding_dim,padding_idx=wordSequence.PAD) #[N,300]
        self.lstm = nn.LSTM(self.embedding_dim,self.hidden_size,self.num_layer,bidirectional=True,dropout=self.dropout)
        #使用两个全连接层，中间使用relu激活函数
        self.fc = nn.Linear(self.hidden_size*self.bi_num,20)
        self.fc2 = nn.Linear(20,2)


    def forward(self, x):
        x = self.embedding(x)
        x = x.permute(1,0,2) #进行轴交换
        h_0,c_0 = self.init_hidden_state(x.size(1))
        _,(h_n,c_n) = self.lstm(x,(h_0,c_0))

        #只要最后一个lstm单元处理的结果，这里多去的hidden state
        out = torch.cat([h_n[-2, :, :], h_n[-1, :, :]], dim=-1)
        out = self.fc(out)
        out = F.relu(out)
        out = self.fc2(out)
        return F.log_softmax(out,dim=-1)

    def init_hidden_state(self,batch_size):
        h_0 = torch.rand(self.num_layer * self.bi_num, batch_size, self.hidden_size).to(device)
        c_0 = torch.rand(self.num_layer * self.bi_num, batch_size, self.hidden_size).to(device)
        return h_0,c_0

# =======================================构建神经网络模型：结束=======================================


def train(epoch, wordSequence):
    lstm_model.train()
    dataset_train = ImdbDataset(wordSequence=wordSequence, train=True)
    dataloader_train = get_dataloader(dataset=dataset_train, train=True)  # 训练集批次化数据【文本类型】
    for batch_index, (reviews, labels, lengths) in enumerate(dataloader_train):
        reviews = reviews.to(device)
        labels = labels.to(device)
        optimizer.zero_grad()
        output = lstm_model(reviews)
        loss = criterion(output, labels)  # traget需要是[0,9]，不能是[1-10]
        loss.backward()
        optimizer.step()
        if batch_index % 130 == 0:
            print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(epoch, batch_index * len(reviews), len(dataloader_train.dataset),100. * batch_index / len(dataloader_train), loss.item()))
            torch.save(lstm_model.state_dict(), "./models/mnist_net{0}.pkl".format(epoch))
            torch.save(optimizer.state_dict(), './models/mnist_optimizer{0}.pkl'.format(epoch))


def test(wordSequence):
    test_loss = 0
    correct = 0
    lstm_model.eval()
    dataset_test = ImdbDataset(wordSequence=wordSequence, train=False)
    dataloader_test = get_dataloader(dataset=dataset_test, train=False)  # 测试集批次化数据【文本类型】
    with torch.no_grad():
        for batch_index, (reviews, labels, lengths) in enumerate(dataloader_test):
            reviews = reviews.to(device)
            labels = labels.to(device)
            output = lstm_model(reviews)
            test_loss += F.nll_loss(output, labels, reduction="sum")
            pred = torch.max(output, dim=-1, keepdim=False)[-1]
            correct += pred.eq(labels.data).sum()
        test_loss = test_loss / len(dataloader_test.dataset)
        print('\nTest set: Avg. loss: {:.4f}, Accuracy: {}/{} ({:.2f}%)\n'.format(test_loss, correct, len(dataloader_test.dataset), 100. * correct / len(dataloader_test.dataset)))

if __name__ == '__main__':
    ws = WordSequence()
    ws = pickle.load(open("./models/ws.pkl", "rb"))
    # =======================================实例化神经网络各个组件：开始=======================================
    lstm_model = LSTMModel(wordSequence=ws, max_len=MAX_LEN).to(device) #在gpu上运行，提高运行速度
    print(lstm_model)
    optimizer = optim.Adam(lstm_model.parameters())
    criterion = nn.NLLLoss()
    # =======================================实例化神经网络各个组件：结束=======================================
    # test()
    for epoch in range(5):
        train(wordSequence=ws, epoch=epoch)
        test(wordSequence=ws)

输出结果：

LSTMModel(
  (embedding): Embedding(6457, 200, padding_idx=0)
  (lstm): LSTM(200, 64, num_layers=2, dropout=0.5, bidirectional=True)
  (fc): Linear(in_features=128, out_features=20, bias=True)
  (fc2): Linear(in_features=20, out_features=2, bias=True)
)

Train Epoch: 0 [0/25000 (0%)]	Loss: 0.715346
Train Epoch: 0 [8320/25000 (33%)]	Loss: 0.649131
Train Epoch: 0 [16640/25000 (66%)]	Loss: 0.663399
Train Epoch: 0 [15600/25000 (100%)]	Loss: 0.625576
Test set: Avg. loss: 0.5931, Accuracy: 17624/25000 (70.50%)
Train Epoch: 1 [0/25000 (0%)]	Loss: 0.650195
Train Epoch: 1 [8320/25000 (33%)]	Loss: 0.663408
Train Epoch: 1 [16640/25000 (66%)]	Loss: 0.583336
Train Epoch: 1 [15600/25000 (100%)]	Loss: 0.760975
Test set: Avg. loss: 0.5335, Accuracy: 18486/25000 (73.94%)
Train Epoch: 2 [0/25000 (0%)]	Loss: 0.624065
Train Epoch: 2 [8320/25000 (33%)]	Loss: 0.553468
Train Epoch: 2 [16640/25000 (66%)]	Loss: 0.452606
Train Epoch: 2 [15600/25000 (100%)]	Loss: 0.457217
Test set: Avg. loss: 0.5416, Accuracy: 17789/25000 (71.16%)
Train Epoch: 3 [0/25000 (0%)]	Loss: 0.585943
Train Epoch: 3 [8320/25000 (33%)]	Loss: 0.449566
Train Epoch: 3 [16640/25000 (66%)]	Loss: 0.447479
Train Epoch: 3 [15600/25000 (100%)]	Loss: 0.490319
Test set: Avg. loss: 0.5000, Accuracy: 19007/25000 (76.03%)
Train Epoch: 4 [0/25000 (0%)]	Loss: 0.437283
Train Epoch: 4 [8320/25000 (33%)]	Loss: 0.411202
Train Epoch: 4 [16640/25000 (66%)]	Loss: 0.394551
Train Epoch: 4 [15600/25000 (100%)]	Loss: 0.437027
Test set: Avg. loss: 0.4552, Accuracy: 20160/25000 (80.64%)

一、Pytorch-LSTM案例-imdb数据集【电影评论情感二分类】

# -*- coding: utf-8 -*-
# pip install torch
# pip install torchtext
# python -m spacy download en_core_web_sm
# python -m spacy download en_core_web_md
# https://github.com/explosion/spacy-models
# 安装spacy：pip --default-timeout=10000 install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-2.3.1/en_core_web_sm-2.3.1.tar.gz
# 在torchtext中使用spacy时，由于field的默认属性是tokenizer_language=‘en’,所以需要安装en_core_web_md：pip --default-timeout=10000 install https://github.com/explosion/spacy-models/releases/download/en_core_web_md-2.3.1/en_core_web_md-2.3.0.tar.gz
import numpy as np
import torch
from torch import nn, optim
from torchtext import data, datasets

print('GPU:', torch.cuda.is_available())
torch.manual_seed(123)

# 一、获取情感分类数据集
TEXT = data.Field(tokenize='spacy')
LABEL = data.LabelField(dtype=torch.float)
train_data, val_data = datasets.IMDB.splits(TEXT, LABEL)
print('len(train_data) = {0}'.format(len(train_data)))
print('len(val_data) = {0}'.format(len(val_data)))
print('train_data.examples[15].text = {0}'.format(train_data.examples[15].text))
print('train_data.examples[15].label = {0}'.format(train_data.examples[15].label))

# word2vec, glove
TEXT.build_vocab(train_data, max_size=10000, vectors='glove.6B.100d')
LABEL.build_vocab(train_data)

batchsz = 30
device = torch.device('cuda')
train_iterator, val_iterator = data.BucketIterator.splits(
    (train_data, val_data),
    batch_size=batchsz,
    device=device
)


# 二、构建LSTM神经网络结构
class MyLSTM(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_dim):
        super(MyLSTM, self).__init__()
        self.embedding = nn.Embedding(num_embeddings=vocab_size, embedding_dim=embedding_dim)  # [b, 1] => [b, 100]  需要编码的单词数量为vocab_size，每个单词编码为一个维度为embedding_dim的vector
        self.lstm = nn.LSTM(input_size=embedding_dim, hidden_size=hidden_dim, num_layers=2, bidirectional=True, dropout=0.5)  # [b, 100] => [b, 256]  embedding_dim为输入的vector维度，hidden_dim为latent层的维度，num_layers表示神经网络的层数
        self.fc = nn.Linear(in_features=hidden_dim * 2, out_features=1)  # [b, 256*2] => [b, 1]
        self.dropout = nn.Dropout(0.5)

    def forward(self, X):
        X = self.embedding(X)  # [seq, b, 1] => [seq, b, 100]
        embedding = self.dropout(X)
        output, (hidden, cell) = self.lstm(embedding)  # output: [seq, b, hid_dim*2]；   hidden/h&cell/c: [num_layers*2, b, hid_dim]
        hidden = torch.cat([hidden[-2], hidden[-1]], dim=1)  # [num_layers*2, b, hid_dim] => 2 of [b, hid_dim] => [b, hid_dim*2]
        hidden = self.dropout(hidden)
        out = self.fc(hidden)  # [b, hid_dim*2] => [b, 1]
        return out


# 三、实例化LSTM
lstm = MyLSTM(len(TEXT.vocab), 100, 256)

# 四、初始化WordEmbedding
pretrained_embedding = TEXT.vocab.vectors
print('pretrained_embedding:', pretrained_embedding.shape)
lstm.embedding.weight.data.copy_(pretrained_embedding)  # 利用已经训练好的GloVede的embedding替代原来的embedding
print('embedding layer inited.')

optimizer = optim.Adam(lstm.parameters(), lr=1e-3)
criteon = nn.BCEWithLogitsLoss().to(device)
lstm.to(device)


# 准确率
def binary_acc(preds, y):
    preds = torch.round(torch.sigmoid(preds))
    correct = torch.eq(preds, y).float()
    acc = correct.sum() / len(correct)
    return acc


# 八、训练
def train(lstm, iterator, optimizer, criteon):
    avg_acc = []
    lstm.train()
    # 对data进行循环遍历，使用每个batch的数据进行参数更新
    for batch_index, batch in enumerate(iterator):
        pred = lstm(batch.text).squeeze(1)  # [seq, b] => [b, 1] => [b]
        loss = criteon(pred, batch.label)
        optimizer.zero_grad()	# 设置各个批次优化器初始梯度为0
        loss.backward()	# 误差反向传播
        optimizer.step()	# 参数进行更新
        acc = binary_acc(pred, batch.label).item()  # Training过程中的准确度
        avg_acc.append(acc)
        if batch_index % 10 == 0:
            print('batch_index = {0}, acc = {1}'.format(batch_index, acc))
    avg_acc = np.array(avg_acc).mean()
    print('avg acc:', avg_acc)


def eval(lstm, iterator, criteon):
    avg_acc = []
    lstm.eval()
    with torch.no_grad():   # 不需要计算梯度
        for batch in iterator:
            # [b, 1] => [b]
            pred = lstm(batch.text).squeeze(1)
            loss = criteon(pred, batch.label)
            acc = binary_acc(pred, batch.label).item()
            avg_acc.append(acc)
    avg_acc = np.array(avg_acc).mean()
    print('>>test--avg_acc = {0}'.format(avg_acc))


for epoch in range(10):
    eval(lstm, val_iterator, criteon)
    train(lstm, train_iterator, optimizer, criteon)

你可能感兴趣的:(人工智能,自然语言处理,NLP,情感分析)

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
Humanize 项目教程尤嫒冰
Humanize项目教程humanizeAJSlibraryforaddinga“humantouch”todata.项目地址:https://gitcode.com/gh_mirrors/humani/humanize项目介绍Humanize是一个开源项目，旨在将机器生成的文本转换为更加自然、人性化的文本。该项目通过先进的算法和自然语言处理技术，使得AI生成的内容更加贴近人类的表达方式，从而提高
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多