colourmind

基于机器学习算法和pytorch实现的深度学习模型的中文长文本多分类任务实战

一、贝叶斯算法长文本分类

二、TextCNN模型长文本分类

1、word2vec词向量的训练

2、padding操作

3、文本向量化

4、TexTCNN模型构造

三、TextRNN模型长文本分类

四、TextRNN+ATT模型长文本分类

五、Bert模型长文本分类(不更新bert权重和更新bert权重)

模型训练

1、Bert模型不参与训练

2、Bert模型参数训练

总结和展望

最近实现了中文长文本的多分类任务，主要是使用了机器学习的算法和基于pytorch实现的深度学习的相关模型。采用的模型分别是：机器学习算法贝叶斯和LightGBM、TextCNN、TextRNN、TextRNN+Att、Bert(分为权重是否更新2个版本)。之所以采用这几种模型，是因为这几种模型比较主流典型和常用的，弄懂这些模型的一些应用细节，对于实战的提升还是很有意义的。当然做文本分类任务还有其他许多好的模型，这里就不一一列出来了，可以自己去拓展，如金字塔模型等等。

本文重在整个任务全流程的实现，对于分类的准确率和模型的性能没有做很多考虑。由于这里数据集是专利数据的摘要，文本长度都是很长的，文本长度区间（字为单位）如下图：

文本长度的跨度很大，为了能够把大部分的数据集都考虑到，选取seq_length==400也就是400个字，这个可能分类准确率效果就有点低了，感觉长文本分类目前并没有一个很好的解决办法。主要是因为模型所有的算法和模型并不能生成一个很好的文档向量，目前这块儿的论文也有一些在研究中；同时自己也想过把400个字的文本，每个字的字向量或者对应的多个词向量直接cat起来形成一个大维度的向量来代表一个文本，会不会有一定的效果——还待实验——已知的缺陷就是向量维度比较大，对现存和内存要求比较高，很吃机器，同时训练速度估计也很慢的。

OK，下面就一个一个模型的来详细实现长文本分类任务。先把整体的一个效果公布一下：

算法	准确率	备注
机器学习算法	44.14%（GaussianNB） 66.96%（LGBMClassifier）	文本向量使用的是bert提取的；文本长度400字；算法没有调参;训练集19.6W，验证集4.9W
textCNN	65%	词向量使用的是word2vec；文本长度200个单词；训练集19.6W，验证集4.9W
TextRNN	72.88%	Bilstm+Linear；词向量使用的是word2vec；文本长度50个单词；训练集19.6W，验证集4.9W
TextRNN+Att	70.41%	Bilstm+ATT+Linear；词向量使用的是word2vec；文本长度50个单词；训练集19.6W，验证集4.9W
Bert	72.94%	Bert(权重不更新)+Linear；文本长度400字；训练集19.6W，验证集4.9W
Bert	83.59%	Bert(权重更新)+Linear；文本长度400字；训练集19.6W，验证集4.9W

一、贝叶斯算法长文本分类

首先采用贝叶斯算法主要是因为这个算法很轻量，比较简答，当然也被证实过在文本分类上是有一定的效果的；于是这里就从这个模型开始，关于贝叶斯原理和调参之类的这里不做介绍。

贝叶斯算法做长文本分类的时候，按照一般的步骤就是，数据读取、数据清洗、词袋模型、获取文本对应的向量表示、训练贝叶斯模型。

本文的数据集情况：训练集19W，验证集5W。得出的词袋模型中的词语的总量是24W个(没有去掉高频词)，把对应的19W条训练集和5W条验证集数据转化为对应向量，每一条数据都是对应24W维度的向量，用我身边所有的机器都实现不了，内存要爆炸。

然后试着减少数据量，训练集4W条验证集1W条，发现词袋模型的规模还是有10W个词，就算去掉高频词应该也是很大的，而且这个高频的程度也不好把控。身边的机器32G内存仍然扛不住，词袋模型的方案放弃。

其实这里做长文本的分类，采用词袋模型会有一个天然的缺陷性，那就是由词袋模型生成的文本向量维度很大，而且还是稀疏的，这个就对后续的模型训练和使用造成消极的影响。

那就试试Bert模型提取文本向量，然后喂入贝叶斯模型中进行分类。这个方案也是和后面的有些类似，但是又有点不同。首先需要把文本转换为Bert的输入向量，然后输入bert模型，得到下一个模型的输入向量。就需要一个dataLoader，会使用到cuda加速。代码如下：

from torch.utils.data import Dataset
from transformers import BertTokenizer
import torch
from tqdm import tqdm
import os
import logging
logger = logging.getLogger(__name__)

class ReadDataSet(Dataset):
    def __init__(self,data_file_name,args,repeat=1):
        self.max_sentence_length = args.max_sentence_length
        self.repeat = repeat
        self.tokenizer = BertTokenizer.from_pretrained(args.model_path)
        self.process_data_list = self.read_file(args.data_file_path,data_file_name)


    def read_file(self,file_path,file_name):
        file_name_sub = file_name.split('.')[0]
        file_cach_path = os.path.join(file_path,"cached_{}".format(file_name_sub))
        if os.path.exists(file_cach_path):#直接从cach中加载
            logger.info('Load tokenizering from cached file %s', file_cach_path)
            process_data_list = torch.load(file_cach_path)
            return process_data_list
        else:
            file_path = os.path.join(file_path,file_name)
            data_list = []
            with open(file_path, 'r') as f:
                lines = f.readlines()
            for line in tqdm(lines, desc='read data'):
                line = line.strip().split('\t')
                data_list.append((line[0], line[1]))
            process_data_list = []
            for ele in tqdm(data_list, desc="Tokenizering"):
                res = self.do_process_data(ele)
                process_data_list.append(res)
            logger.info('Saving tokenizering into cached file %s',file_cach_path)
            torch.save(process_data_list,file_cach_path)#保存在cach中
            return process_data_list


    def do_process_data(self, params):

        res = []
        sentence = params[0]
        label = params[1]

        input_ids, input_mask = self.convert_into_indextokens_and_segment_id(sentence)
        input_ids = torch.tensor(input_ids, dtype=torch.long)
        input_mask = torch.tensor(input_mask, dtype=torch.long)

        label = torch.tensor(int(label))

        res.append(input_ids)
        res.append(input_mask)
        res.append(label)

        return res

    def convert_into_indextokens_and_segment_id(self, text):
        tokeniz_text = self.tokenizer.tokenize(text[0:self.max_sentence_length])
        input_ids = self.tokenizer.convert_tokens_to_ids(tokeniz_text)
        input_mask = [1] * len(input_ids)

        pad_indextokens = [0] * (self.max_sentence_length - len(input_ids))
        input_ids.extend(pad_indextokens)
        input_mask_pad = [0] * (self.max_sentence_length - len(input_mask))
        input_mask.extend(input_mask_pad)
        return input_ids, input_mask

    def __getitem__(self, item):
        input_ids = self.process_data_list[item][0]
        input_mask = self.process_data_list[item][1]
        label = self.process_data_list[item][2]
        return input_ids, input_mask,label

    def __len__(self):
        if self.repeat == None:
            data_len = 10000000
        else:
            data_len = len(self.process_data_list)
        return data_len

接下来就是把得出的bert向量输入到NB和LightGBM模型中，整个流程的代码如下：

from Code.ReadDataSet import ReadDataSet
from torch.utils.data import DataLoader
import torch
from tqdm import tqdm
from transformers import BertModel
import argparse
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import f1_score,accuracy_score,precision_score,recall_score
from lightgbm import LGBMClassifier

def get_bert_vector(model,train_iter,dev_iter,args):
    model.to('cuda')
    model.eval()

    train_vec = []
    train_label = []
    dev_vec = []
    dev_label = []
    with torch.no_grad():
        for step, batch in enumerate(tqdm(dev_iter, desc='dev iteration:')):
            batch = tuple(t.to('cuda') for t in batch)
            input_ids = batch[0]
            input_mask = batch[1]
            label = batch[2]
            output = model(input_ids, input_mask)[1]#[1]pooler_output,就是cls对应的那个向量,[0]last_hidden_state，这个需要自己取处理才行
            label = label.to('cpu').numpy().tolist()
            output = output.to('cpu').numpy().tolist()
            dev_vec.extend(output)
            dev_label.extend(label)



        for step, batch in enumerate(tqdm(train_iter, desc='train iteration:')):
            batch = tuple(t.to('cuda') for t in batch)
            input_ids = batch[0]
            input_mask = batch[1]
            label = batch[2]
            output = model(input_ids, input_mask)[1]
            label = label.to('cpu').numpy().tolist()
            output = output.to('cpu').numpy().tolist()
            train_vec.extend(output)
            train_label.extend(label)
    return train_vec,train_label,dev_vec,dev_label




if __name__ == '__main__':
    parser = argparse.ArgumentParser(description='init params configuration')
    parser.add_argument('--batch_size',type=int,default=100)
    parser.add_argument('--model_path',type=str,default='./pretrain_model/Chinese-BERT-wwm')
    parser.add_argument('--requires_grad', type= bool,default=True)
    parser.add_argument('--data_file_path',type=str,default='Data/patent')
    parser.add_argument('--max_sentence_length',type=int,default=400)
    args = parser.parse_args()
    print(args)

    train_data = ReadDataSet('train.tsv',args)

    train_loader = DataLoader(dataset=train_data, batch_size=args.batch_size, shuffle=True)

    dev_data = ReadDataSet('dev.tsv',args)
    dev_loader = DataLoader(dataset=dev_data, batch_size=args.batch_size, shuffle=True)

    bert_model = BertModel.from_pretrained(args.model_path)
    train_vec, train_label, dev_vec, dev_label = get_bert_vector(bert_model,train_loader,dev_loader,args)


    clf = LGBMClassifier()
    clf.fit(train_vec, train_label)
    dev_pred = clf.predict(dev_vec)
    f1 = f1_score(dev_label, dev_pred, average='macro')
    pre = precision_score(dev_label, dev_pred, average='micro')
    acc = accuracy_score(dev_label, dev_pred)
    recall = recall_score(dev_label, dev_pred, average='micro')
    print('LGBMClassifier f1:', f1)
    print('LGBMClassifier pre:', pre)
    print('LGBMClassifier recall:', recall)
    print('LGBMClassifier acc:', acc)




    clf = GaussianNB()
    clf.fit(train_vec, train_label)
    dev_pred = clf.predict(dev_vec)
    f1 = f1_score(dev_label, dev_pred, average='macro')
    pre = precision_score(dev_label, dev_pred, average='micro')
    acc = accuracy_score(dev_label, dev_pred)
    recall = recall_score(dev_label, dev_pred, average='micro')
    print('GaussianNB f1:', f1)
    print('GaussianNB pre:', pre)
    print('GaussianNB recall:', recall)
    print('GaussianNB acc:', acc)

注意的是bert输出的向量应该是采用[1]pooler_output,就是cls对应的那个向量;否则用[0]就会要自己做一些处理。还有一个值得注意的地方就是这里的最后分类结果中运用到了一定的评价指标，这里由于不是二分类而是多分类，所以就采用了宏观或者微观的召回率之类的。结果如下：

这个效果看起来还是比较差的，只有44.14%的准确率。可以试试其他机器学习里的分类器，比如SVM、xgboost或者LightGBM等，应该会有上升的。LIGHTGBM的准确率就大幅度提高了66.96%——这个是机器学习算法比赛中LIGHTGBM算法广泛被使用的一个原因，效果好速度快。

二、TextCNN模型长文本分类

TextCNN模型的原理不做介绍，这里直接上方案流程。

这里使用jieba分词、去停用词、然后使用word2vec提取词向量，直接cat起来形成文档向量，然后训练TextCNN。这里选取这样的方案，一个是想熟练一下jieba分词处理这一套技术，同时熟悉word2vec，最后也可以横向比较一下和其他向量的一个区别，当然这里没有严格的做对比实验就是简单粗略的感受式比较。（我太懒了。。。。。。）

首先可以看看，分词后的结果，文章词数量的一个分布，然后决策选取多少个词。由下图很直观的可以得出，200个词是不错的选择。

这个时候需要注意的是我们采用的word2vec是使用其他语料训练的，包含了55W个词，但是我们的数据集是特定领域的仍然出现了很多词不在word2vec中，因此我们就需要进行word2vec的增量训练：

1、word2vec词向量的训练

代码如下：

import pandas as pd
from gensim.models import Word2Vec

#文本向量化的时候回出现voo的问题，提前把word2vec做增量训练，得到新的模型

if __name__ == '__main__':
    train_text = list(pd.read_csv('data/train_word_cut.csv')['text_word_cut'])
    dev_text = list(pd.read_csv('data/dev_word_cut.csv')['text_word_cut'])
    train_text.extend(dev_text)
    model = Word2Vec.load('pretrain_model/word2vec/word2vec_newtrain.model')
    #增量训练Word2Vec，只训练新词，不训练旧词
    model.build_vocab(train_text,update=True)
    model.train(train_text, total_examples=model.corpus_count, epochs=5)
    model.save('pretrain_model/word2vec/word2vec_newtrain.model')

2、padding操作

当然由于word2vec训练的时候会把低频词忽略掉，所以得不到低频词的词向量，这里仍然会出现oov的错误。那么就需要过滤掉文本中的那些不在Word2vec模型中的词语。这个过程，耗时比较多，200个词，25W条数据集，然后每个词好需要在word2vec中做65W（增量训练后，模型词典变大）次遍历。当然也可以直接处理为出现oov的错误直接把这个词的向量随意用个固定的向量来代替，这样可以省略很多预处理的时间，也不会对性能产生很大的影响。

上代码：主要是做了padding和除去不在word2vec模型中的词语，保存下来。

import pandas as pd
from gensim.models import Word2Vec
from tqdm import tqdm
from multiprocessing import Pool
"""
分词后的文本做padding操作！方便后续直接形成word2vec向量操作，顺便也
把word2vec外面的词语给去除掉————发现时间还是要40个小时，得用多进程了。
"""


def function(params):
    text = params[0]
    wv_words = params[1]
    keep_words = []
    words = text.split(' ')
    for word in words:
        if word in wv_words:
            keep_words.append(word)
        if len(keep_words) >= 200:
            break
    if len(keep_words) < 200:
        padding = ['0'] * (200 - len(keep_words))
        keep_words.extend(padding)
    content = ' '.join(keep_words)
    return content



def text_padding():
    wv_model  = Word2Vec.load('pretrain_model/word2vec/word2vec_newtrain.model')
    wv_words = wv_model.wv.index2word
    train = pd.read_csv('data/train_word_cut.csv')
    train_text = list(train['text_word_cut'])

    train_params = []
    for text in train_text:
        train_params.append((text,wv_words))

    with Pool(12) as pool:
        new_train_text = list(tqdm(pool.imap(function,train_params),total=len(train_params), desc='train set padding:'))
    pool.close()
    pool.join()

    train['text_padding'] = new_train_text
    train = train[['text_padding', 'label']]
    train.to_csv('data/train_padding.csv', index=False)

    dev = pd.read_csv('data/dev_word_cut.csv')
    dev_text = list(dev['text_word_cut'])

    dev_params = []
    for text in dev_text:
        dev_params.append((text, wv_words))

    with Pool(12) as pool:
        new_dev_text = list(tqdm(pool.imap(function, dev_params), total=len(dev_params), desc='dev set padding:'))
    pool.close()
    pool.join()

    dev['text_padding'] = new_dev_text
    dev = dev[['text_padding', 'label']]
    dev.to_csv('data/dev_padding.csv', index=False)



if __name__ == '__main__':
    text_padding()

3、文本向量化

这里已经把文本进行了padding，因此就文本长度就是固定的了。把一篇篇的文档进行向量化，那么操作应该怎样进行呢？直接简单粗暴的使用cat式的操作，就是把文档的每个词的词向量cat起来，形成文档向量(这里是粗糙的做法，有论文提出一些新的方法，怎么构造出一个好的文档向量，进行文本分类和相似性计算)。代码如下：

    def word2vec_paddings_tensor(self,data_list):
        output = []
        for data,label in tqdm(data_list,desc='text to vord2vec:'):
            vec = []
            for word in data:
                v = self.wv_model[word].tolist()
                vec.append(v)#这里的vec.append()有点类似cat的操作。
            vec = torch.tensor(vec)#这里转化为tensors，后续可以用到GPU上训练，vec就是我们需要的文档向量
            label = torch.tensor(int(label))
            res = (vec,label)
            output.append(res)
        return output

为了方便的读取文本形成tensor和用于后续的训练，就需要创建一个DataReader之类的。这个比较固定了，直接上代码：

from torch.utils.data import Dataset
import torch
from gensim.models import Word2Vec
import pandas as pd
from tqdm import tqdm
import numpy as np

class ReadDataSet(Dataset):
    def __init__(self,file_path,repeat=1):
        self.max_sentence_length = 200
        self.repeat = repeat
        self.wv_model = Word2Vec.load('pretrain_model/word2vec/word2vec_newtrain.model')
        self.wv_words = self.wv_model.wv.index2word
        self.wv_dim = 100
        self.data_list = self.read_file(file_path)
        self.output = self.word2vec_paddings_tensor(self.data_list)

    def read_file(self,file_path):
        data_list = []
        df = pd.read_csv(file_path)# tsv文件
        texts, labels = df['text_padding'], df['label']
        for text, label in tqdm(zip(texts, labels),desc='read data from csv files:'):
            text = text.split(' ')[0:self.max_sentence_length]
            data_list.append((text,label))
        return data_list

    def word2vec_paddings_tensor(self,data_list):
        output = []
        for data,label in tqdm(data_list,desc='text to vord2vec:'):
            vec = []
            for word in data:
                v = self.wv_model[word].tolist()
                vec.append(v)#这里的vec.append()有点类似cat的操作。
            vec = torch.tensor(vec)#这里转化为tensors，后续可以用到GPU上训练，vec就是我们需要的文档向量
            label = torch.tensor(int(label))
            res = (vec,label)
            output.append(res)
        return output

    def __getitem__(self, item):
        text = self.output[item][0]
        label = self.output[item][1]
        return text,label

    def __len__(self):
        if self.repeat == None:
            data_len = 10000000
        else:
            data_len = len(self.output)
        return data_len

注意上述中的函数：def __getitem__(self, item)和def __len__(self)这两个函数比较重要。

4、TexTCNN模型构造

简单的描叙一下TextCNN，就是把二维的CNN卷积神经网络应用到文本特征提取中。构造模型的时候注意，卷积核和通道数，以及输出数目，直接上代码：

import torch
import torch.nn as nn
import torch.nn.functional as F


class TextCNN(nn.Module):
    def __init__(self):
        super(TextCNN,self).__init__()

        class_num = 8
        embedding_dim = 100
        ci = 1
        kernel_num = 25
        # kernel_sizes = [3,4,5]
        # self.convs = nn.ModuleList([nn.Conv2d(ci,kernel_num,(k,embedding_dim/2))for k in kernel_sizes])
        # #含义说明：nn.Conv2d(ci,kernel_num,(k,embedding_dim))
        # #ci就是输入的通道数目，是要和数据对的上的；kernel_num这里的意思就是输出通道数目；(k,embedding_dim)卷积核的形状，也就是2维度的k*embedding_dim
        # #nn.Conv2d(ci,cj,k)这里的K就是表示卷积核的形状是正方形的，k*k

        self.conv1 = nn.Conv2d(ci, kernel_num, (3, int(embedding_dim))) #这里一定要输入4维向量[B,C,L,D]
        self.conv2 = nn.Conv2d(ci, kernel_num, (5, int(embedding_dim)))
        self.conv3 = nn.Conv2d(ci, kernel_num, (7, int(embedding_dim)))
        self.conv4 = nn.Conv2d(ci, kernel_num, (9, int(embedding_dim)))

        self.dropout = nn.Dropout(0.5)#丢掉10%
        self.classificer = nn.Linear(kernel_num*4,class_num)

    def conv_and_pool(self, x, conv):
        #(B, Ci, L, D)
        x = F.relu(conv(x))#(B,kernel_num,L-3+1,D-D+1)
        x = x.squeeze(3)# (B, kernel_num, L-3+1)
        x = F.max_pool1d(x, x.size(2))#(B, kernel_num,1)
        x = x.squeeze(2)# (B,kernel_num) squeeze压缩维度
        return x

    def forward(self,x):
        #size(B,L,D)
        x = x.unsqueeze(1)  #(B, Ci, L, D)#unsqueeze增加维度

        x1 = self.conv_and_pool(x, self.conv1)  # (B,kernel_num)
        x2 = self.conv_and_pool(x, self.conv2)  # (B,kernel_num)
        x3 = self.conv_and_pool(x, self.conv3)  # (B,kernel_num)
        x4 = self.conv_and_pool(x, self.conv4)  # (B,kernel_num)

        x = torch.cat((x1, x2, x3,x4), 1)  # (B,len(Ks)*kernel_num)
        x = self.dropout(x)  # (B, len(Ks)*kernel_num)
        logit = self.classificer(x)  # (B, C)
        return logit

注意每个输入输出向量shape的对应，不熟悉的就需要慢慢调试。代码注释中已经对卷积核的一些情况作了一些说明。

模型训练没有特别注意的事项，只需要把batch_size、学习率，优化器以及学习率调整策略设置好。当然模型可视化监控，可以使用tensorboardx来监控loss、准确率变化以及模型的结构等。具体的代码也不放在这里了，文末放上自己的github，上面有全部的项目代码。这里有必要把tensorboardx监控loss和准确率及模型之类的代码说一说。

from tensorboardX import SummaryWriter 
writer = SummaryWriter('runs/exp')



 writer.add_scalar('train_loss', loss.item(), global_step=global_step)
 writer.add_scalar('dev_loss', dev_loss.item(), global_step=global_step)
 writer.add_scalar('train acc', train_acc, global_step=global_step)
 writer.add_scalar('dev acc', dev_acc, global_step=global_step)

writer.close()

在训练代码中添加上以上代码，其中SummaryWriter('runs/exp')就是确定把你的运行日志保存到'runs/exp‘路径下。然后把各种指标添加到add_scalar中。最后在项目目录下终端执行以下命令：

tensorboard  --logdir=runs

结果就会出来一个浏览器地址，打开就可以看到我们训练的过程了。上图：

训练过程中的训练集和验证集的准确率已经loss变化情况都能很直观的观测！最终观测到的准确率是65%。

三、TextRNN模型长文本分类

TextRNN其实就是一个Bilstm+Linear的网络，整个流程和方案其实和上面的TextCNN是一样的。主要是模型的结构不一样的，直接上TextRNN结构代码：

import torch
import torch.nn as nn

"""
TextRNN,其实就是利用了Bilstm把句子的最后时刻或者说是最后那个字（这里可能不好理解）的hidden state，拿出来喂入分类器中，进行分类的。
这里仍然没有使用随机的embedding，我们仍然使用word2vec的词向量，经过操作来生成文本向量。
开始hidden_size设置为200，发现效果太差了，loss都不下降的
50词语的时候验证集准确率能到73%

训练过程中还是要监控验证集准确率
"""

class TextRNN(nn.Module):
    def __init__(self):
        super(TextRNN,self).__init__()
        self.embedding_dim = 100 #文本词或者字的向量维度
        self.hidden_size = 50 #lstm的长度，可以和seq_legth一样，也可以比它长
        self.layer_num = 2
        self.class_num = 8


        self.lstm = nn.LSTM(self.embedding_dim, # x的特征维度,即embedding_dim
                            self.hidden_size, # stm的长度，可以和seq_legth一样，也可以比它长
                            self.layer_num, # 把lstm作为一个整体，然后堆叠的个数的含义
                            batch_first=True,
                            bidirectional=True
                            )
        self.classificer = nn.Linear(self.hidden_size*2,self.class_num)#bidirectional双向就是2，单向就是1

    def forward(self,x):
        #x的维度为(batch_size, time_step, input_size=embedding_dim)

        # 隐层初始化
        # h0维度为(num_layers*direction_num, batch_size, hidden_size)
        # c0维度为(num_layers*direction_num, batch_size, hidden_size)
        h0 = torch.zeros(self.layer_num*2,x.size(0),self.hidden_size).to('cuda')
        c0 = torch.zeros(self.layer_num*2,x.size(0),self.hidden_size).to('cuda')

        #out维度为(batch_size, seq_length, hidden_size * direction_num)
        out,(hn,cn)  =self.lstm(x,(h0,c0))
        #最后一步的输出, 即(batch_size, -1, output_size)
        logit = self.classificer(out[:,-1,:])  # (B, C)
        return logit

这个模型中，需要注意的就是Lstm模型构建的参数，就是embedding_dim、hidden_size和layer_num的设置，还有输入向量和(h0,c0)等。说明一下：这里lstm的time_step也就是代码中的hidden_size应该就是等同于句子的长度，或者要比它长，短了应该不行的。这个方案使用的词向量采用的是word2vec，文档向量仍然是用每个词的词向量进行cat来表示的。另外一方面，关于模型效果和loss变化与输入向量的长度的关系。

TextRNN,其实就是利用了Bilstm把句子的最后时刻或者说是最后那个字（这里可能不好理解）的hidden state，拿出来喂入分类器中，进行分类的。
这里仍然没有使用随机的embedding，我们仍然使用word2vec的词向量，经过操作来生成文本向量。
开始hidden_size设置为200，发现效果太差了，loss都不下降的
50词语的时候验证集准确率能到73%

个人经验，lstm对文本的长度300个字以内，训练的时候还算比较容易。直接贴上训练过程的最终结果和训练指标变化。

最终的显示结果是验证集准确率72.88%，但是这里用的是50个词语的长度，和上面的TextCNN结果那个不能进行严格的比较。

四、TextRNN+ATT模型长文本分类

顾名思义，这个模型就是在上述的模型中添加一个attention机制。attention机制有很多类型，这里就是用了普通的软注意力机制。直接上代码：

import torch
import torch.nn as nn
import torch.nn.functional as F

"""
这里需要实现一个attention模块，这里就是用一般的attention，而不是特殊的self-attention机制等
attention的一种公式:
M = tanh(H)
a = softmax(WM)
att_score = H*a
上面的是矩阵形式
"""

class TextRNN_Att(nn.Module):
    def __init__(self):
        super(TextRNN_Att,self).__init__()
        self.embedding_dim = 100
        self.hidden_size = 50 #lstm的长度，可以和seq_legth一样，也可以比它长
        self.layer_num = 2
        self.class_num = 8
        self.attention_size = 256

        self.lstm = nn.LSTM(self.embedding_dim, # x的特征维度,即embedding_dim
                            self.hidden_size, #lstm的时间长度，这里可以表示为文本长度
                            self.layer_num, #把lstm作为一个整体，然后堆叠的个数的含义
                            batch_first=True,
                            bidirectional=True
                            )

        self.classificer = nn.Linear(self.hidden_size*2,self.class_num)#bidirectional双向就是2，单向就是1

    def attention(self,lstm_output):#lstm_output[batch_size, seq_length, hidden_size * direction_num]
        """
        :param lstm_output:
        :return: output
        这个是普通注意力机制attention的一种公式:
        M = tanh(H)
        a = softmax(WM)
        att_score = H*a
        上面的是矩阵形式
        """
        #初始化一个权重参数w_omega[hidden_size*layer_num,attention_size]
        #u_omega[attention_size,1]
        w_omega = nn.Parameter(torch.zeros(self.hidden_size*self.layer_num,self.attention_size)).to('cuda')
        u_omega = nn.Parameter(torch.zeros(self.attention_size,1)).to('cuda')

        #att_u[b,seq_length,attention_size]
        att_u = torch.tanh(torch.matmul(lstm_output,w_omega))

        # print('att_u',att_u)
        # print('att_u', att_u.size())

        #att_a[b, seq_length, 1]
        att_a = torch.matmul(att_u,u_omega)
        # print('att_a', att_a)
        # print('att_a', att_a.size())

        # att_score[b, seq_length, 1]
        att_score = F.softmax(att_a,dim=1)
        # print('att_score', att_score)
        # print('att_score', att_score.size())

        # att_output[b, seq_length, hidden_size * direction_num]
        att_output = lstm_output*att_score
        # print('att_output', att_output)
        # print('att_output', att_output.size())

        # output[b, hidden_size * direction_num]
        output = torch.sum(att_output,dim=1)
        # print('output', output)
        # print('output', output.size())

        return output

    def forward(self,x):
        #x的维度为(batch_size, time_step, input_size=embedding_dim)

        # 隐层初始化
        # h0维度为(num_layers*direction_num, batch_size, hidden_size)
        # c0维度为(num_layers*direction_num, batch_size, hidden_size)
        h0 = torch.zeros(self.layer_num*2,x.size(0),self.hidden_size).to('cuda') #定义一定要用torch.zeros(),torch.Tensor()只是定义了一个类型，并没有赋值
        c0 = torch.zeros(self.layer_num*2,x.size(0),self.hidden_size).to('cuda')

        #out维度为(batch_size, seq_length, hidden_size * direction_num)
        lstm_out,(hn,cn)  =self.lstm(x,(h0,c0))

        # attn_output[b, hidden_size * direction_num]
        attn_output = self.attention(lstm_out)#注意力机制

        logit = self.classificer(attn_output)

        return logit

具体的attention模块儿，看对应的公式就可以得到具体的实现。具体的模型中各个向量输入的维度和意义都在注释代码中予以注释，可以详细阅读。后续模型训练和数据文本读取都是同TextCNN那个方案中的是一样的，不做说明了。贴上结果和训练过程：

可以看到这里的验证集的准确率在BiLstm添加上了Attention模型了，效果还有些降低。这里可能的原因是attention捕捉的特征用于分类，反而在这里并没有直接使用lstm的效果要好，所以还是不能太迷信模型，一定要去做实验！

五、Bert模型长文本分类(不更新bert权重和更新bert权重)

首先说一下使用bert模型来做分类的方案，其实差不多。第一种就是把Bert模型仅仅是看着一个提取向量的工具，本身不参与任务的训练过程中，bert模型的权重参数就不更新；另外一种还是把bert模型看作一个提取向量的工具，本身也是参与任务的训练过程的，bert模型的权重参数会更新——这种方案其实就是fine-tune。其实这两种方法的代码实现可以说是几乎一模一样的，唯一的一个就是在模型的构建的时候是不是把梯度锁住，这样就能进行权重更新和权重不更新的切换。

TextBert模型的构建，其实逻辑很简单，就是输入文本，经过bert，得到输出向量，然后把输出向量喂入分类器中(nn.Linear())等，就可以得到分类结果。上代码：

import torch
import torch.nn as nn
import torch.nn.functional as F
from transformers import BertModel

"""
这里的模型设置的是bert模型在训练的过程中不会改变权重，这个可以和bert权重参与训练做对比
"""

class TextBert(nn.Module):
    def __init__(self,args):
        super(TextBert,self).__init__()
        self.bert = BertModel.from_pretrained(args.model_path)
        #param.requires_grad = False 训练的时候不改变初始预训练bert的权重值
        for param in self.bert.parameters():
            param.requires_grad = args.requires_grad

        self.cl1 = nn.Linear(768,768)
        self.dropout = nn.Dropout(0.5)
        self.cl2 = nn.Linear(768,8)

    def forward(self,input_ids,input_mask):
        embedding = self.bert(input_ids,input_mask)[0]
        mean_embedding = torch.mean(embedding,dim=1)
        x = self.dropout(mean_embedding)
        x = self.cl1(x)
        x = self.dropout(x)
        logit = self.cl2(x)
        return logit

param.requires_grad = False 训练的时候不改变初始预训练bert的权重值

这个参数就能控制Bert模型本身是否参与训练从而更新参数的。这个方案麻烦的地方在于把文本数据转化为向量，然后能够根据batch_size大小来喂入模型中，所以这里就需要一个dataLoader类似的模块。我们自己写一个代码如下：

from torch.utils.data import Dataset
from transformers import BertTokenizer
import torch
from tqdm import tqdm
import os
import logging
logger = logging.getLogger(__name__)

class ReadDataSet(Dataset):
    def __init__(self,data_file_name,args,repeat=1):
        self.max_sentence_length = args.max_sentence_length
        self.repeat = repeat
        self.tokenizer = BertTokenizer.from_pretrained(args.model_path)
        self.process_data_list = self.read_file(args.data_file_path,data_file_name)


    def read_file(self,file_path,file_name):
        file_name_sub = file_name.split('.')[0]
        file_cach_path = os.path.join(file_path,"cached_{}".format(file_name_sub))
        if os.path.exists(file_cach_path):#直接从cach中加载
            logger.info('Load tokenizering from cached file %s', file_cach_path)
            process_data_list = torch.load(file_cach_path)
            return process_data_list
        else:
            file_path = os.path.join(file_path,file_name)
            data_list = []
            with open(file_path, 'r') as f:
                lines = f.readlines()
            for line in tqdm(lines, desc='read data'):
                line = line.strip().split('\t')
                data_list.append((line[0], line[1]))

            process_data_list = []
            for ele in tqdm(data_list, desc="Tokenizering"):
                res = self.do_process_data(ele)
                process_data_list.append(res)
            logger.info('Saving tokenizering into cached file %s',file_cach_path)
            torch.save(process_data_list,file_cach_path)#保存在cach中
            return process_data_list


    def do_process_data(self, params):

        res = []
        sentence = params[0]
        label = params[1]

        input_ids, input_mask = self.convert_into_indextokens_and_segment_id(sentence)
        input_ids = torch.tensor(input_ids, dtype=torch.long)
        input_mask = torch.tensor(input_mask, dtype=torch.long)

        label = torch.tensor(int(label))

        res.append(input_ids)
        res.append(input_mask)
        res.append(label)

        return res

    def convert_into_indextokens_and_segment_id(self, text):
        tokeniz_text = self.tokenizer.tokenize(text[0:self.max_sentence_length])
        input_ids = self.tokenizer.convert_tokens_to_ids(tokeniz_text)
        input_mask = [1] * len(input_ids)

        pad_indextokens = [0] * (self.max_sentence_length - len(input_ids))
        input_ids.extend(pad_indextokens)
        input_mask_pad = [0] * (self.max_sentence_length - len(input_mask))
        input_mask.extend(input_mask_pad)
        return input_ids, input_mask

    def __getitem__(self, item):
        input_ids = self.process_data_list[item][0]
        input_mask = self.process_data_list[item][1]
        label = self.process_data_list[item][2]
        return input_ids, input_mask,label

    def __len__(self):
        if self.repeat == None:
            data_len = 10000000
        else:
            data_len = len(self.process_data_list)
        return data_len

注意到bert模型输入需要3个向量，它们分别是input_ids、segment_ids和pos_ids等。所以需要把文本对应的这3个向量得到，然后转化为tensor类型。由于数据量比较巨大，所以在第一次得到这些tensor后，可以做一个序列化操作，保存在本地，下次训练的时候，可以直接读取加快速度，这里序列化采用的是torch.save()方法。同时为了提高模型的准确率，我们文本的长度没有选择Bert—base的极限510，而是选择了400，期待能得到好的结果。

模型训练

当bert模型权重更新的时候，这个时候初始的LR一定要设置为比较常见的1e-5、2e-5之类的，另外优化器也使用比较常见的AdamW。其他的也就没有什么可说的了，早停止呀，epoch设置等都是比较基础的。

当bert模型权重不更新的时候，初始的LR可以设置的稍微大一些，0.001之类的比较常见的，其他的同上。

直接上结果：

1、Bert模型不参与训练

准确率72.94%，都要比上述的模型效果要好，果然还是bert厉害！

2、Bert模型参数训练

准确率83.59%，比之前的所有模型的性能都要好，而且还是采用了400字的长度。模型可以说这个效果是完全吊打其他的模型。

总结和展望

本文针对中文长文本的多分类问题，做了不同模型的全流程实现方案的展示，意在熟悉每个流程的coding和模型的一些细节。同时也可以对不同模型在长文本分类的效果上有一个基线，以后做类似的任务，就能很快的选择技术方案和排错。同时也对模型训练过程监控的可视化显示有了一个尝试，说明越来越有炼丹师的气质了呀！哈哈哈哈哈哈

展望，其实目前业界对广泛的长文本分类并没有效果很好的方法，不同的论文中也提出了一些尝试和方法。在我的另一篇博客中——bert模型简介、transformers中bert模型源码阅读、分类任务实战和难点总结——是有提到的，比如说暴力截断呀、特定选取、滑窗法之类的。最近在看一篇论文，文章的创新思路也比较奇特，实验部分提到的文本分类的效果很好，得到了state-of-art。有空了可以把它的算法做做实验看看，如果效果挺好，那么长文本分类任务就有了一种好的解决办法。后续应该会有一个博客分享的。

关于这个多模型的长文本分类项目我全部的代码，在我的github上。另外有关数据集的问题，这个是公开的一个专利数据集，可以自行去搜索一下，我记得数据集好像是在国家什么专利机构的网站上，貌似要注册一下，然后才能下载的。

该项目全部代码地址：https://github.com/HUSTHY/classificationTask

参考文章：

Pytorch CNN搭建(NLP)

pytorch实现textCNN

中文文本分类 pytorch实现

你可能感兴趣的:(#,文本匹配和文本分类)

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
绘本讲师训练营【24期】8/21阅读原创《独生小孩》 1784e22615e0
24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
水平垂直居中的几种方法（总结） LJ小番茄 CSS_玄学语言 html javascript 前端 css css3
1.使用flexbox的justify-content和align-items.parent{display:flex;justify-content:center;/*水平居中*/align-items:center;/*垂直居中*/height:100vh;/*需要指定高度*/}2.使用grid的place-items:center.parent{display:grid;place-item
本周第二次约练 2cfbdfe28a51
中原焦点团队中24初26刘霞2021.12.3约练161次，分享第368天当事人虽然是带着问题来的，但是咨询过程中发现，她是经过自己不断地调整和努力才走到现在的，看到当事人的不容易，找到例外，发现资源，力量感也就随之而来。增强画面感，或者说重温，会给当事人带来更深刻的感受。
放下是一段成长的修行小莳玥
人来到这个世界上，只有两件事：生和死。一件事已经做完了，另一件你还急什么呢?是人，都有七情六欲。是心，都有喜怒哀乐，这些再正常不过了。别总抱怨自己活得累，过得辛苦。永远记住：舒坦是留给死人的。苦，才是生活；累，才是工作；变，才是命运；忍，才是历练；容，才是智慧；静，才是修养；舍，才会得到；做，才会拥有。人生，活得太清楚，才是最大的不明白。有些事，看得很清，却说不清；有些人，了解很深，却猜不透；有些
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
每日一题——第八十四题互联网打工人no1 C语言程序设计每日一练 c语言
题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st