良夜星光

基于MLP的文本分类详解笔记（新手入门向：模型细节+数据集+PyTorch代码一文同时入门文本分类和MLP方法）

written by 魏福煊谢天宝 from Harbin Institute of Technology

（BERT可给咱羡慕坏了，所以咱也为MLP找个icon叭，我觉得"My Little Pony"是个好主意）

Intro

前馈神经网络是一种文本表示的最简单的深度学习模型。然而其却在很多的文本分类的任务上取得了很高的准确度。这些使用前馈神经网络的模型的一大特点就是将文本视为词袋（a bag of words）。对于每一个单词，他都会通过一个嵌入层（例如word2vec、Glove）学到一个向量化的表示，之后将这个句子的每一个单词得到的向量化表示加和或者取平均数作为这个句子的表示，将其传递通过一个或者多个的前馈神经网络层（这多个神经网络层也被称作多层感知机），之后在最后一层使用一个分类器如logistic回归、朴素贝叶斯（Naive Bayes）、支持向量机（SVM）进行分类判断出文本的类型。

深度平均网络-DAN

一个基于该网络的很有名的例子就是深度平均网络–DAN（Deep Average Network）了。其结构如图所示，将句子中的词汇的嵌入层取出，取平均值，然后送到多层感知机中，最后在softmax层进行分类预测。

尽管DAN看着十分简单，“旦”他却可以超过很多更加复杂的号称能够获取文字位置信息的模型。

Joulin等人受到DAN的影响，在2016年提出了一个很简洁却有效的模型，也就是大名鼎鼎的fastText，和DAN一样，fastText也把一句话看作了一个词袋，但是不同的是，fastText使用的是n-grams的词袋作为附加的特征去获取到了一些局部的词与词之间的顺序，而这在实际中非常的有效，甚至比有些显式地使用词词之间顺序的模型还更加有效。

我们下面摘录知乎上了一些人对于DAN效果的评价：

“因为句子长度不固定，所以一般是用Bag-of-Word-Vectors 简单将词向量相加，然后使用MLP，这个方法比较简单，然后训练速度比较快，得到的结果也不是很差。只是没有利用到上下文信息。”

“DNN做文本任务一般是先对于输入句子进行分词，然后做成BoW特征（对句子里面出现的词的embedding直接相）。之上再堆叠上几层隐层，对这些embedding做非线性变化和融合大体上类似于关键词的提取和分类。在做证据的分类（例如证据的情感识别，泛黄识别等等）时候，句子里面的几个词基本可以决定证据的类别，因此在有样本的标注数足够的情况下是可以得到很不错的效果的。我做过的几个项目里面，根据业务需求不同，词典大小一般是10w~100w的级别，embedding取128或256维，整个神经网络的参数量基本在千万到过亿的级别，而且训练速度和预测速度都非常快，适合对响应时间要求非常严苛的线上任务”

“但DNN在效果上也有一些短板。首先，由于其输入时对于embedding求和，所以单个比较有判另能力的关键词(例如情感分析任务中的差评)有可能在这个和式里被大量其他 embedding 所淹没即使其他词可能与任务关联不大、 embedding 的 scale 也比较小。从直观意义上说,一段文本如异词太多,那么对其整体分类自然会比较困难,而且噪声也相应增多。但更严重的问题是,在一些了本任务里,词的顺序非常重要。例如在判断语义相关性中,“北京到上海的机票"与"上海到北京的机票”,其 BoW 特征完全一样,用 DNN 模型肯定会被判为完全相关,但事实上这是两个截然相反的东西。另外, DNN 的输入特征是分词后的词的 embedding 求和,因此其最终效果非常依赖分类器的效果。在实际应用中，有的人物事件衰减特性十分显著，分词器更新不够快的话非常容易拉低DNN的效果。”

言而总之，MLP无法捕捉单词之间的序列关系，进而效果不如基于CNN,RNN的模型。但是其模型简单，参数需求量不大，更适用于快速上线且容忍牺牲一定准确度的项目。

抛砖引玉-Doc2vec

Le和Mikolov在2014年提出了doc2vec，它使用无监督算法来学习可变长度文本片段（如句子、段落和文档）的固定长度特征表示。如图2所示，doc2vec的架构类似于连续单词包（CBOW）模型。唯一的区别是附加的段落标记通过矩阵映射到段落向量D。在doc2vec的例子中，这个向量与三个单词的上下文的连接或平均值被用来预测第四个单词。段落向量表示当前上下文中缺失的信息，可以作为段落主题的记忆。经过训练后，将段落向量作为段落的特征（例如，代替或补充BoW），并输入分类器进行预测。Doc2vec在发表时在多个文本分类和情感分析任务上取得了良好的效果。感兴趣的同学可以在GitHub上找到相关的代码。

Practice

下面我们使用pytorch架构实战一下DAN模型。

这个网址是我们实现的代码，也是本文所依托的代码，希望能有所帮助（70% by&&forked from Eric，wfx, yyds！）：

https://github.com/Timothyxxx/Text-classification

也欢迎随时与我们联系：

[email protected]

从数据集说起，有关SST-2

SST数据集：斯坦福大学发布的一个情感分析数据集，主要针对电影评论来做情感分类，因此SST属于单个句子的文本分类任务（其中SST-2是二分类，SST-5是五分类，SST-5的情感极性区分的更细致）。这里提供一个nlp所有数据集的介绍：关于文本分类（情感分析）的英文数据集汇总。官方下载地址：https://nlp.stanford.edu/sentiment/index.html

SST-2:我们要在练习中使用的数据集是SST-2。SST-2包含着电影评价的句子，每一个都被标记成要么积极正面（数字为1），要么消极负面（数字为0）。

模型-白话深度平均网络DAN

下面的图是制作的一个模型总览：每一个词汇通过我们维护的“序号-词列表”得到序号，进入嵌入层（embedding layer）；之后通过嵌入层得到每一个词的“词向量”（embedding vector）；再将这些词向量取平均值；再通过多层感知机（Multilayer Perceptron,缩写MLP）得到分类的结果。

这个模型看起来很简单，但是由于这是我们第一次采用PyTorch框架实现论文的网络结构，我们在实现的过程中也是踩了很多的坑，包括一些模块之间的“度”的把握和一些容易被新手忽视的细节，悟已往之不鉴，知来者之可追，下面我们就一一记录一下，希望对您有所帮助。

先放一下代码的整体目录结构（初代）：

完整版目录结构：

架构—四步走之间的制衡

DAN的论文里面描述的很简单，就是说我们把句子里面的embedding拿出来，然后取一个平均值，再输入到一个MLP（也就是前馈神经网络）中，最后得到结果。听起来很简单，但实际上简单的是网络结构，针对于文本分类的io，嵌入层数据的读入等等配套操作却丝毫不少，操作过程中，我们是从零开始，所以还要考虑更多的细节。

我们先来明确四步走的分工（通过阅读大量代码吸取了一定经验，将原有的四步走略作调整，增强了一定的未来扩展能力）

**loader(io)部分：**仅仅负责从文件中读取、管理原始数据。用于在训练时获取x、y经过打包分批次加载进来的数据。

**layer&&model（module）部分：**仅仅负责实现神经网络的结构。

indexer（process）部分：仅仅负责编码，包括将建立词与下标的对应关系，建立下标与embedding向量的对应关系等等。

**train部分：**仅仅负责建立网络，并且联系输入参数进行循环训练，展示训练进程等。

如何清晰而快速的hold住模型、搭建模型？

（下文所涉及到的所有的batch_num其实用batch_size更好理解，意思是一个batch里面的数据数量）

根据我们半个月搭建模型的经验：最快最好的办法是先想好模型中的数据流。这里说的数据流动的意思，其实就是在说数据的维数变化，每一步的维数是什么，经过一个层，维数是怎么变的。这里大家可以看看这篇文章，参考它维度变化的思路：中文文本分类实战

按照这个思路，我们来捋一下数据流维度变化（如果有任何地方您觉得有遗忘请参考上一小节的模型，如果有任何涉及一些细节知识地方我都会指出在本文的哪个位置您可以看到）：

加载与输入----[batch_size,seq_len]

输入的维度：[batch_num,seq_len]

具体实现我们要联系好DataLoader，add_padding。dataloader带来的第一个维度batch_num好理解，也就是我们每次加载进来一批句子，第二个维度的seq_len代表着这一批句子里面的最长长度，而我们为了训练，将所有的句子都pad成了这个长度（一会会讲）。举例说明，我们在batch_size为4这一批次里面读入4个句子，分别为"i was admitted by HIT"、“I was so happy”、“I worked really hard”、“I joined SCIR”。那么我们读入加分词，初步就可以得到数据：

[[‘i’,‘was’,‘admitted’,‘by’,‘HIT’],

[‘i’,‘was’,‘so’,‘happy’],

[‘I’,‘worked’,‘really’,‘hard’],

[‘I’,‘joined’,‘SCIR’]]

注意维数，实际上现在第二个维度是参差不齐的，还不能投入训练。

所以我们要经过一个pad的过程，按照最大长度进行padding，进而得到：

[[‘i’,‘was’,‘admitted’,‘by’,‘HIT’],

[‘i’,‘was’,‘so’,‘happy’,’’],

[‘I’,‘worked’,‘really’,‘hard’,’’],

[‘I’,‘joined’,‘SCIR’,’’,’’]]

经过padding之后，我们就得到了一个[batch_size,seq_len]对齐的“list of list”了。

序号化----[batch_size,seq_len]

我们在这一步将单词和序号一一对应，利用下一节要介绍的indexer。

接着上面的例子继续说，比如说我们初始化indexer建立了一个词表如下：(代表pad用的占位符,代表未知的字符)

index	word
0
1
2	i
3	was
4	admitted
5	by
6	HIT
7	so
8	happy
9	worked
…	…

然后我们就可以将整个list of list转化为

[[2,3,4,5,6],

…](多的我就没写了，总之就是都变成数字了)

进而变成了一个维数为[batch_size,seq_len]的矩阵

通过嵌入层，获得词向量----[batch_size,seq_len,embedding_dim]

[‘I’,‘worked’,‘really’,‘hard’,’’],

[‘I’,‘joined’,‘SCIR’,’’,’’]]

接下来，我们就要通过一个embedding层，将每一个词转化成对应的词向量，这个词向量的维度取决于如果你是载入的化，就是载入的维度，如果你是训练的话，就是设置的维度。我们将词向量的维度记作embedding_dim。

经过这一层，数据的维数变为了，[batch_size,seq_len,embedding_dim]（每个词额外生成了一个维度）

例子我们在后面的embedding章节会专门举例。有一些关于PyTorch和embedding的细节也会在后面讲到。其实学习过的同学都知道，实际上embedding就是根据标号索引的一个矩阵的一行，embedding说白了就是一个二维矩阵而已，维数为[total_word_num,embedding_dim]，即行数为词典中总共的词数，列数为嵌入层的维数。使得每一个词（代表所有剩下的词）都有对应的向量即可。那么实际上经过embedding，也就是乘上一个[total_word_num,embedding_dim]。即[batch_size,seq_len]×[total_word_num,embedding_dim]–>[batch_size,seq_len,embedding_dim]。

词向量求平均，获得词向量均值----[batch_size,embedding_dim]

我们注意到通过embedding之后，每一个词都有embedding，（包括）,我们下一步需要取平均值，但是不能直接将维数压缩，因为我们压缩之后是将一个batch中的非最长序列长度的句子也算上了，会使得整体值偏少，所以为了保证精确，我们要传入每一个具体句子的length，length的维数是[batch_num,1]，之后我们也是将所有句子加和然后除以长度的数据，具体请参看代码。

将求得的平均的词向量投入到MLP中，进行分类----[batch_size,feat_num]

这一步进行一次线性变换，因为我们使用的是PyTorch的交叉熵的criterion，所以经过一次线性之后就可以直接输出了。

至此，模型数据维数流各个阶段的变化介绍完毕，相信代码能力强的同学以后可以仅仅通过看论文就把这一步内化于心，快速复现论文。接下来我们把一些很有意义的细节处理单拎出来作为专题讲一下。

建立indexer，读入看见的词，并维护词典（UNK怎么处理？）

nlp任务不可避免地要和词，句子打交道。代码处理后，词即标号，句子即标号的列表。怎么实现呢？我们需要建立一个indexer，完成对于词汇的打标号工作，这个工作其实就包含了加载入已知词汇和获取已知或者未知词汇的编号等过程。重点就是要实现indexer的add_instance和get_index这两个函数，进而实现“句子”到“标签列表”的转化。当然，作为抽象的indexer，它不仅仅可以为输入数据打标签，也可以为输出数据打标签（比如文本标注中不同的labels）

其实我们就是在维护一个双向词典的结构（具体实现为了省空间会使用dict加list）每次读入一句话就把新的词加入到词典中，并且给予编号，便于随时转化。

对于add_instance函数，

如果是输入是元组或者列表则递归调用，这样可以很简洁地同时加入多个词汇。
注意代码的最后两行添加新词汇和标号有一个小小技巧，非常简洁。

    def add_instance(self, instance):
        """ Add instances to alphabet.

        1, We support any iterative data structure which
        contains elements of str type.

        2, We will count added instances that will influence
        the serialization of unknown instance.

        :param instance: is given instance or a list of it.
        """

        if isinstance(instance, (list, tuple)):
            for element in instance:
                self.add_instance(element)
            return

        # We only support elements of str type.
        assert isinstance(instance, str)

        # count the frequency of instances.
        self.__counter[instance] += 1

        if instance not in self.__index2instance:
            self.__instance2index[instance] = len(self.__index2instance)
            self.__index2instance.append(instance)

对于get_index函数，

我们同样可以利用递归的技巧使得函数即支持单个元素，也支持列表构成的结构，
而且注意代码中对于要获取到的未知单词的标号的处理，试用了字典索引引发的异常进而进行下一步的选择。

def get_index(self, instance):
    """ Serialize given instance and return.

    For unknown words, the return index of alphabet
    depends on variable self.__use_unk:

        1, If True, then return the index of "";
        2, If False, then return the index of the
        element that hold max frequency in training data.

    :param instance: is given instance or a list of it.
    :return: is the serialization of query instance.
    """

    if isinstance(instance, (list, tuple)):
        return [self.get_index(elem) for elem in instance]

    assert isinstance(instance, str)

    try:
        return self.__instance2index[instance]
    except KeyError:
        if self.__if_use_unk:
            return self.__instance2index[self.__sign_unk]
        else:
            max_freq_item = self.__counter.most_common(1)[0][0]
            return self.__instance2index[max_freq_item]

如何加载embedding_vector

我们往往不会从头训练一个emedding层，而是选择直接从文件中获取一个embedding，而这就要求我们对于导入embedding与PyTorch中embedding层的使用有熟练的掌握。首先我们先从下图理解一下，实则加载就是从文本中读取词和词向量，将词和对应的下标加入到dict中，将词向量存放到list中，（注意一比一的关系和预先存入的和及其对应的全零emb和随机数emb），形成一个word—index—embedding_vector的整体。

接下来，对于PyTorch的embedding层，我们要知道的是，首先其实内部核心就是一个（vocabulary_size,embedding_dim）的矩阵，输入一个indexer生成的维数为（batch_size,max_seq_len）的“标号列表”（注意，embedding就是靠标号读出的，所以一定不要错位），就可以返回来一个（batch_size,max_seq_len, embedding_dim）的拓展出词向量的数据了。

由于词，标号，词向量具有高度一致性，所以我们创建了一个seq_indexer_embedding_base类（刚刚的indexer的子类），负责从文件中加载词，加入词典，并且将其对应的词向量加载到维护的list中，因为使用了一个dict（词和索引）和emd_list，我们要时刻保证他们的长度相同一致，否则会出现错位的“训练个寂寞”的效果。embedding代码如下。

from seq_indexers.seq_indexer_base import SeqIndexerBase
import numpy as np
import torch


class SeqIndexerBaseEmbeddings(SeqIndexerBase):
    def __init__(self, name, embedding_path, emb_dim, emb_delimiter):
        super(SeqIndexerBaseEmbeddings, self).__init__(name=name, if_use_pad=True, if_use_unk=True)
        self.path = embedding_path
        self.embedding_vectors_list = list()
        self.emb_dim = emb_dim
        self.emb_delimiter = emb_delimiter

        ## Notice here that due to we set the if_use_pad and if_use_unk to true which means we added their
        ## signal to the instances ,so we have to also add their embeddings to the embedding vectors'list to
        # maintain the equality of the total-number between them
        #
        self.add_emb_vector(self.generate_zero_emb_vector())
        self.add_emb_vector(self.generate_random_emb_vector())

    def load_embeddings_from_file(self):
        """
        load embedding vectors from the file.

        :return:
        """
        for k, line in enumerate(open(self.path,encoding='utf-8')):
            values = line.split(self.emb_delimiter)
            self.add_instance(values[0])
            emb_vector = list(map(lambda t: float(t), filter(lambda n: n and not n.isspace(), values[1:])))
            self.add_emb_vector(emb_vector)
            if(k%250000==0):
                print("read " + str(k) + " words")

    def generate_zero_emb_vector(self):
        if self.emb_dim == 0:
            raise ValueError('embeddings_dim is not known.')
        return [0 for _ in range(self.emb_dim)]

    def generate_random_emb_vector(self):
        if self.emb_dim == 0:
            raise ValueError('embeddings_dim is not known.')
        return np.random.uniform(-np.sqrt(3.0 / self.emb_dim), np.sqrt(3.0 / self.emb_dim),
                                 self.emb_dim).tolist()

    def add_emb_vector(self, emb_vector):
        self.embedding_vectors_list.append(emb_vector)

    def get_loaded_embeddings_tensor(self):
        return torch.FloatTensor(np.asarray(self.embedding_vectors_list))

结合embedding_indexer构造embedding层

我们结合embedding的indexer，构造mebedding层，注意我们可以使用torch的torch.nn.Embedding.from_pretrained(embeddings=…, freeze=…)，直接加载indexer的embedding矩阵，进而我们需要扔进去indexer作为参数。

import torch
from seq_indexers.seq_indexer_embedding_base import SeqIndexerBaseEmbeddings
from layers.layer_base import LayerBase


class LayerWordEmbeddings(LayerBase):
    def __init__(self, embedding_indexer:SeqIndexerBaseEmbeddings, gpu, freeze_word_embeddings=False):
        super(LayerWordEmbeddings, self).__init__(gpu)
        self.word_seq_indexer = embedding_indexer
        embedding_tensor = embedding_indexer.get_loaded_embeddings_tensor()
        if(gpu >= 0):
            embedding_tensor = embedding_tensor.cuda(device=self.gpu)
        self.embeddings = torch.nn.Embedding.from_pretrained(embeddings=embedding_tensor, freeze=freeze_word_embeddings)

    def forward(self, word_sequences):
        input_tensor = self.tensor_ensure_gpu(word_sequences) # shape: batch_size x max_seq_len
        word_embeddings_feature = self.embeddings(input_tensor) # shape: batch_size x max_seq_len x output_dim
        return word_embeddings_feature

传入lengths-DAN模型的核心代码

前面铺垫的已经差不多了，DAN其实模型本身没什么啦。

唯独需要注意的地方是我们每一次的前向传播，都需要给予这一次输入序列的长度以便取平均值（因为由于我们会把一个batch里面的不对齐元素padding掉，所以我们需要序列原有长度作为参数）

import torch
import torch.nn.functional as F
from seq_indexers.seq_indexer_embedding_base import SeqIndexerBaseEmbeddings
from layers.layer_word_embeddings import LayerWordEmbeddings


class MLP(torch.nn.Module):
    def __init__(self, embedding_indexer: SeqIndexerBaseEmbeddings, gpu, feat_num):
        super(MLP, self).__init__()
        self.embeding = LayerWordEmbeddings(embedding_indexer, gpu)
        self.linear1 = torch.nn.Linear(embedding_indexer.emb_dim, 50)
        self.linear2 = torch.nn.Linear(50, feat_num)
        self.act_func = torch.nn.LeakyReLU()

        if(gpu >=0):
            self.cuda(device=gpu)

    def forward(self, words, lens : torch.Tensor):
        words = self.embeding(words)
        words = torch.sum(words, dim=1, keepdim=False) / lens.unsqueeze(-1)
        words = self.linear1(words)
        words = self.act_func(words)
        words = self.linear2(words)
        words = self.act_func(words)
        return words

如果上述代码有任何含义不清楚，可以查看相关的文档；如果是对于过程的不清楚，可以再次查看我们上面的图解部分：

PyTorch中文文档

训练-有关不对齐与padding

训练的核心代码如下所示：

我们讨论一个很重要的处理问题：add_padding。因为在训练过程中，我们取出来的一个batch里面的各个句子的长度实际上是不尽相同的，所以我们需要将所有的句子的长度都padding到这些句子里面的最大值。出于为了以后packed_pad_sequence的复用，我们先排序，再padding。我们在train中调用了完成这一工作的add_padding函数，我们接下来讲讲。

        for x, y in tqdm(train_loader):
            padded_text, [sorted_label], seq_lens = dataset.add_padding(
                x, [(y, False)]
            )
            ## Transfer the texts and the labels --->index---->tensor
            padded_text = seq_indexer.get_index(padded_text)
            sorted_label = label_indexer.get_index(sorted_label)
            padded_text = torch.LongTensor(padded_text)
            sorted_label = torch.LongTensor(sorted_label)
            seq_lens = torch.LongTensor(seq_lens)

            if (args.gpu >= 0):
                padded_text = padded_text.cuda()
                sorted_label = sorted_label.cuda()
                seq_lens = seq_lens.cuda()
            if args.model == 'DAN':
                y = model(padded_text, seq_lens)
            if args.model == 'TextCNN':
                y = model(padded_text)
            loss = criterion(y, sorted_label)
            loss.backward()
            optimizer.step()
            train_loss += loss.item()
            optimizer.zero_grad()

其实add_padding函数还是很直接的，不过它带着的参数带着方括号大家一看可能会觉得有些奇怪，但其实在仔细读源码之后细品会发现，这是一种增强扩展性和灵活度的使用技巧。同时值得注意的是，因为我们重新索引排列了输入的text的，所以labels也必须要跟着一起重新索引排列作为返回值（labels也可以拓展到很多其他的函数，方括号内的元素都会随着texts的顺序改变而追随）。

@staticmethod
    def add_padding(texts, items=None, digital=False):
        """
        Sorting by the length and add padding to the texts and the items(items could be the y values or else)

        :param texts: a list of different lists which need to pad
        :param items: require the 'list of tuple' type input(like '[(y, false),...]', y means the item with texts which need to
        change order together with the text ,and the false which is in the position of 'require' means )
        :param digital: the padding element'type (True means '0', False means '')
        :return:
        """
        len_list = [len(text) for text in texts]
        max_len = max(len_list)

        # Get sorted index of len_list.
        sorted_index = np.argsort(len_list)[::-1]

        trans_texts, seq_lens, trans_items = [], [], None
        if items is not None:
            trans_items = [[] for _ in range(0, len(items))]

        for index in sorted_index:
            seq_lens.append(deepcopy(len_list[index]))
            trans_texts.append(deepcopy(texts[index]))
            if digital:
                trans_texts[-1].extend([0] * (max_len - len_list[index]))
            else:
                trans_texts[-1].extend([''] * (max_len - len_list[index]))

            # This required specific if padding after sorting.
            if items is not None:
                for item, (o_item, required) in zip(trans_items, items):
                    item.append(deepcopy(o_item[index]))
                    if required:
                        if digital:
                            item[-1].extend([0] * (max_len - len_list[index]))
                        else:
                            item[-1].extend([''] * (max_len - len_list[index]))

        if items is not None:
            return trans_texts, trans_items, seq_lens
        else:
            return trans_texts, seq_lens

至此，难搞的部分就完事了，剩余的细节希望大家查看我们的代码。

不可忽视的debug，看看是不是按照预想的跑

重点检查每一步都数据流的维数和具体内容是不是和预想的一样。如下图所示：（注意是设置断点之后，程序会运行到断断点停止，这时候你可以在下面观察数据是不是按照你所想的一样。检查无误之后你再在下面继续断点，按F9继续程序运行，再下一个断点处停止，继续检查）

评价函数的构建，收尾的最后一步

没有进行评价的模型都是耍流氓。评价模型的函数的所需要有的功能包括查看查准率（准确度）、查全率（召回率），f1 score，f1 macro等等。建议看看这篇文章对于相关测试指标的解释和优缺点分析。

精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么？

读懂之后创建一个eval类写相关的函数即可

为了实现上述这些指标的检测，配套的，我们要在以后的模型里面不仅仅实现forward，还要实现predict，即返回一个[batch_num,1]的数据代表着每一句话的预测。之后我们用这些预测的数据和真实的数据进行比较，然后得到各个评价指标。

我们代码只实现了一个基础的f1，不过支持随时补充，问题不大：

class sst2F1Eval(object):
    @staticmethod
    def get_score(predict, label):
        TP = 0
        FP = 0
        FN = 0
        for p, l in zip(predict, label):
            if p == l and p == '1':
                TP += 1
            elif p == '1':
                FP += 1
            elif l == '1':
                FN += 1
        return 2 * TP / (2*TP + FP + FN)

调参侠的自我修养

调参的话，假设我们不使用相关的自动调参工具而是使用手工尝试。建议大家首先使用论文的最优配置进行尝试，一般结果都会不错，看看到底和人家最后的结果差距有多大，再看看能不能给这个差距一个合理的理由。之后也可以和亲朋好友复现的结果进行对照，判断是否离谱。不断迭代，指导压榨发挥出模型的所有性能。

当然，这一步为了加速，我们一定要白嫖colab的gpu（十倍训练速度差距，十倍网速差距）。而这时候可能会出现很多cuda的bug，大家仔细去了解一下，一般来讲绝大多数错误都是由于数据没有被加载到cuda上，这种情况分为三类：

输入数据忘记挂载到cuda上
模型忘记挂载到cuda上
中间新定义的中间数据没有挂在cuda上

简要来说，请一定注意要把要参与张量运算更新的数据都要挂载到cuda上。

有关colab的白嫖

首先进入google的云端硬盘：

将代码文件夹上传，注意要把预训练模型拿走，colab自带包括bert在内的各种预训练模型。（当然上传也未尝不可，就是慢点）

然后在当前目录下（代码文件夹所在目录），点击新建、更多，创建colab文件

colab类似于jupyter notebook，可以直接执行python代码。在语句最前面加上“！”就可执行linux命令，其余运行等操作和jupyter notebook完全一致。

比如 " !python ‘main.py’ -bs=64 --model==‘MLP’ "

在创建的ipynb文件中，首先要切换到GPU，在修改、笔记本设置里：（一定要搞这个！！！！否则colab没意义！！！！！！）

先执行如下代码，将此页面挂载到云端硬盘上，

期间会弹出两次链接，点击去能够得到验证码，输入即可：

（再次强调，这个两次验证码挺麻烦的，在这一步之前一定要确保已经将设置里面的GPU选中）

——

!apt-get install -y -qq software-properties-common python-software-properties module-init-tools

!add-apt-repository -y ppa:alessandro-strada/ppa 2>&1 > /dev/null

!apt-get update -qq 2>&1 > /dev/null

!apt-get -y install -qq google-drive-ocamlfuse fuse

from google.colab import auth

auth.authenticate_user()

from oauth2client.client import GoogleCredentials

creds = GoogleCredentials.get_application_default()

import getpass

!google-drive-ocamlfuse -headless -id={creds.client_id} -secret={creds.client_secret} < /dev/null 2>&1 | grep URL

vcode = getpass.getpass()

!echo {vcode} | google-drive-ocamlfuse -headless -id={creds.client_id} -secret={creds.client_secret}

——

再执行如下代码，将工作目录切换到：

——

!mkdir -p drive

!google-drive-ocamlfuse drive

import os

import sys

os.chdir(‘drive/此处是你drive下项目文件夹的目录’)

——

接下来安装必要的包、使用！python执行代码即可：

!pip install pytorch_pretrained_bert

!pip install ordered_set

!python ‘main.py’

小结

一般的流程就是：

熟悉维数的变化，写模型函数与辅助注释
初步实现模型函数的forward（当然大概率有bug）
用断点+debugger逐步检查每一步是否按照自己所想
如果可以的话说明模型没啥问题，我们把它上传到colab跑初步看看效果
先初步和网络上的数据对照一下，看看是不是特别离谱
和亲朋好友的结果进行比赛，疯狂调参

结语

在我们的实验中，DAN大概能跑到81.5%的准确度（几乎没调参）。作为一个简单却远远比想象中有效的模型，DAN在如今动不动就上亿的参数中，像一位有实力却淡薄世间的隐士，默默地为nlp初学者们提供做搭建的练习，并给他们留下一份“居然work”的惊喜。

你可能感兴趣的:(自然语言处理,PyTorch,神经网络)

PointNet++改进策略：模块改进 | OA-CNNs | ，全自适应3D稀疏卷积神经网络（OA-CNNs），超越基于Transformer的模型，同时显著降低计算和内存成本我是瓦力 PointNet++改进策略 3d transformer 深度学习计算机视觉人工智能神经网络
目录介绍核心思想及其实现引入空间自适应感受野自适应关系卷积（ARConv）网络整体架构设计训练和验证实验与评估如何改进PointNet++引入空间自适应感受野引入自适应关系学习利用自适应聚合器论文题目：OA-CNNs:Omni-AdaptiveSparseCNNsfor3DSemanticSegmentation发布期刊：CVPR2024作者地址：1香港中文大学2香港大学3香港中文大学，深圳4HI
PyTorch 实战教程：从模型搭建到训练的每一步 AI_小站 pytorch 人工智能 python transformer 深度学习大模型 LLM
用深度学习搞事情，模型搭建和训练是绕不开的两步。而PyTorch，作为一个“又灵活又好用”的深度学习框架，简直就是写代码的快乐源泉。今天我们就从0到1，实战PyTorch的模型搭建和训练流程。说白了，看完你就能自己搭个神经网络，喂点数据进去，再让它干点活。安装PyTorch要用PyTorch，得先装上它。PyTorch的安装稍微有点讲究，主要是要根据你的硬件选择CPU版本还是GPU版本。基本安装命
计算机视觉：卷积核每天五分钟玩转人工智能计算机视觉计算机视觉深度学习人工智能机器学习卷积神经网络
本文重点卷积神经网络（ConvolutionalNeuralNetwork，CNN）是一种深度学习模型，广泛应用于图像识别、自然语言处理、语音识别等领域。在卷积神经网络中，卷积核是网络的核心组件之一。通过不断堆叠卷积层和池化层，可以逐渐提取出更高级别的特征，从而实现更复杂的任务。卷积神经网络中的卷积核可以通过反向传播算法进行训练和优化，使其能够自适应地学习输入数据中的特征。因此，卷积神经网络在图像
4-2 计算机视觉-卷积神经网络-基本网络组件沉睡的小卡比兽 AI基础知识 cnn 卷积核端到端训练计算机视觉卷积神经网络
1、为什么卷积核一般都是奇数？2、由哪些层组成了基本的卷积神经网络，作用分别是什么？3、卷积层和池化层有什么区别？4、什么是端到端学习end-to-end？1、为什么卷积核一般都是奇数？（1）保护位置信息：保证锚点刚好在中间，方便以模块中心为标准进行滑动卷积，避免了位置信息发生偏移（2）padding时的对称性：保证padding时图像的两边依然对齐（3）一些历史尝试的经验，如边缘检测等，还有pa
【深度学习】常见模型-卷积神经网络（Convolutional Neural Networks, CNN） IT古董人工智能深度学习机器学习深度学习 cnn 人工智能
卷积神经网络（CNN）概念简介卷积神经网络（ConvolutionalNeuralNetworks,CNN）是一种专门用于处理数据具有网格状拓扑结构（如图像、语音）的深度学习模型。它通过卷积操作从输入数据中提取局部特征，并逐层构建更复杂的特征表示，广泛应用于图像分类、目标检测、语音识别等领域。关键组成部分卷积层（ConvolutionalLayer）使用卷积核（滤波器）在输入上滑动，提取局部特征。
国内的AI大模型有可能超过ChatGPT吗？ AIWritePaper官方账号 Prompt ChatGPT AIWritePaper chatgpt 人工智能深度学习 AI写作 AIGC
这是一个非常有前瞻性和现实意义的问题。要回答国内AI是否有可能超过ChatGPT，我们需要从多个方面来分析，包括技术基础、数据资源、应用场景、政策支持以及人才储备等。以下是对这一问题的详细探讨：1.技术基础（1）现状国内AI技术：国内的AI技术发展迅速，尤其在深度学习、自然语言处理（NLP）和计算机视觉等领域已经取得了显著进展。例如，百度的文心一言、阿里的通义千问等大语言模型（LLM）已经在技术上
Jetson Orin Nano Super之pytorch + torchvision安装 lida2003 Linux 人工智能 jetson orin
JetsonOrinNanoSuper之pytorch+torchvision安装1源由2.安装pytorch2.1NVIDIA手动版本下载2.2开源自己编译版本3.安装torchvision4.参考资料1源由YoloincompatiblewithJetpack6.2(JetsonOrinNanoSuper)YoloincompatiblewithJetpack6.2(JetsonOrinNan
【Lora微调】提高模型效率的创新方法 @fishv 人工智能大模型微调 Lora
前言在自然语言处理（NLP）和机器学习的研究和应用中，随着模型规模的不断扩大，模型训练的计算成本和存储需求也不断攀升。大型预训练模型，如GPT、BERT等，虽然在许多任务上表现出色，但它们的训练和微调通常需要巨大的计算资源，这使得许多研究者和开发者无法充分利用这些模型进行个性化或领域特定的调整。为了在保持模型性能的同时减少计算开销，**Lora（Low-RankAdaptation）**应运而生。
Pytorch实现论文：对GAN的交替优化 LJ1147517021 GAN系列生成对抗网络计算机视觉人工智能 pytorch 机器学习深度学习
简介这次带来的是ClosingtheGapBetweenTheoryandPracticeDuringAlternatingOptimizationforGANs，Gans交替优化中缩小理论与实践的差距这篇论文的一个核心代码在ACGAN模型上的效果测试，核心是修改了损失函数部分的计算。作者的实验是在StyleGAN上进行的。论文简介论文题目：ClosingtheGapBetweenTheoryan
再分享API形式调用Dify项目应用福安德信息科技大模型 python 人工智能大模型 llm dify
大模型相关目录大模型，包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容从0起步，扬帆起航。RAGOnMedicalKG：大模型结合知识图谱的RAG实现DSPy：变革式大模型应用开发最简明的Few-shotPrompt指南SemanticKernel：微软大模型开发框架——LangChain替代对话大模型Prompt是否需要
pytorch-分类-检测-分割的dataset和dataloader创建呆呆珝基础 pytorch 分类人工智能
1.前言在PyTorch中，Dataset和DataLoader是两个重要的工具，用于构建输入数据的管道。（1）Dataset是一个抽象类，表示数据集，需要实现__len__和__getitem__方法。（2）DataLoader是一个可迭代的数据加载器，它封装了数据集的加载、批处理、打乱和并行加载等功能。2.分类任务创建Dataset和DataLoader（1）对于分类任务，Dataset需要返
NCNN推理呆呆珝推理框架 c++人工智能
1.前言ncnn是一个高性能的神经网络前向计算框架，专门针对移动设备和嵌入式设备设计。它由腾讯优图实验室开发，旨在提供高效的神经网络推理能力，特别是在资源受限的环境中，如智能手机和嵌入式系统。ncnn被广泛应用于移动端和嵌入式设备上的各种深度学习应用，包括但不限于：图像分类/目标检测/语义分割/人脸识别/图像生成与处理2.NCNN的CMakeLists.txt编写ncnn的头文件，链接文件，静态链
目标检测实践过程中，遇到“No module named ‘torch._six’”报错的一个快速解决方案（无需重装PyTorch） Cold_Rain02 深度学习 Python 目标检测人工智能计算机视觉
很多人在按照网络、书籍教程中的流程尝试自己实现一个基于Faster-RCNN的目标检测模型时，如果调用了PyTorch官方github上的文件时，coco_eval.py文件中会触发报错。1.报错原因PyTorch在2.0之后的版本中移除了_six，导致在coco_eval.py中调用torch._six失败2.解决方案（1）直接根据代码内容修改代码我们仔细观察coco_eval.py的代码，发现
python3+TensorFlow 2.x 基础学习（一）刀客123 python学习 tensorflow 学习人工智能
目录TensorFlow2.x基础1、安装TensorFlow2.x2、TensorFlow2.x基础概念2、1EagerExecution2、2TensorFlow张量（Tensor）3、使用Keras构建神经网络模型3、1构建Sequential模型3、2编译模型1、Optimizer（优化器）2、Loss（损失函数）3、Metrics（评估指标）3、3训练模型3、4评估模型3、5预测4、使用
2025数学建模美赛——神经网络预测模型详解前程算法屋数学建模教程数学建模神经网络人工智能
2025数学建模美赛——神经网络预测模型详解一、神经网络预测模型基础1.1、神经网络概述神经网络是一种模拟人脑神经元工作方式的计算模型，它由大量的节点（或称为神经元）组成，这些节点通过连接权重相互连接。这种模型能够进行复杂的非线性数据处理，通过调整连接权重，可以从数据中学习到复杂的模式和关系。神经网络的基本结构包括输入层、隐藏层和输出层。输入层接收外部数据，隐藏层对数据进行处理，输出层则给出模型的
你知道吗？其实这些都是AI——智能聊天机器人贫苦游商人工智能机器人机器学习 AIGC 制造
智能聊天机器人AI：优化用户体验的智能助手在现代的数字化生活中，智能聊天机器人已经成为许多中国社交平台上不可或缺的一部分。这些机器人通过人工智能技术的支持，为用户提供各种互动服务，从回答常见问题到提供个性化建议，极大地提升了用户体验和平台的服务质量。智能聊天机器人AI的核心在于其强大的自然语言处理能力。通过分析用户的输入文本，这些系统能够理解用户的意图，并生成相应的回复。例如，当用户在购物平台上询
Transformer大模型实战 BART模型的架构 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Transformer大模型实战BART模型的架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming/TextGenWebUILLMTransformer大模型实战BART模型的架构1.背景介绍1.1问题的由来随着大规模预训练模型的兴起，如BERT、GPT系列等，研究人员发现基于Transformer架构的模型在自然语言处理任务上表现出了显著的优势。为
从文字到思维：呆马GPT在人工智能领域的创新之旅呆码科技 gpt 人工智能
引言生成式预训练变换器（GenerativePre-trainedTransformer，简称GPT）领域是人工智能技术中的一大革新。自OpenAI推出第一代GPT以来，该技术经历了多代发展，不断提升模型的规模、复杂度和智能化程度。GPT模型通过在大规模数据集上进行预训练，学习语言的统计规律和世界知识，然后在特定任务上进行微调，以适应不同的应用需求。GPT领域的发展推动了自然语言处理（NLP）技术
BERT模型在情感分析中的应用：探寻文本情感的智能之路 Echo_Wish 前沿技术人工智能 bert 人工智能深度学习
随着互联网的普及和社交媒体的兴起，情感分析（SentimentAnalysis）已成为自然语言处理（NLP）领域的重要研究方向。情感分析通过对文本数据的分析，识别其中所表达的情感倾向（如正面、负面或中性）。近年来，BERT（BidirectionalEncoderRepresentationsfromTransformers）模型凭借其强大的上下文理解能力，在情感分析中展现出了卓越的性能。本文将深
想转行到人工智能领域，我该学什么，怎么学？张登杰踩人工智能 python
转行到人工智能（AI）领域需要系统的学习和实践，以下是详细的路径建议，涵盖基础知识、技能学习、项目实践和求职准备：一、明确目标和领域方向人工智能领域广泛，建议先了解细分方向（如机器学习、深度学习、计算机视觉、自然语言处理、强化学习等），结合兴趣和职业规划选择切入点。二、构建基础知识1.数学基础线性代数：矩阵运算、特征值、向量空间。微积分：导数、梯度、优化理论。概率与统计：贝叶斯定理、分布、假设检验
基于RBF神经网络的在线学习算法 fanxbl957 人工智能理论与实践神经网络学习算法
基于RBF神经网络的在线学习算法一、引言随着信息技术的飞速发展，数据的产生速度日益加快，传统的批量学习算法在处理大规模、实时更新的数据时面临着诸多挑战。在线学习算法作为一种可以实时更新模型的学习方式，逐渐受到广泛关注。RBF（径向基函数）神经网络作为一种强大的神经网络模型，以其良好的函数逼近能力和非线性处理能力，为在线学习提供了一种有效的工具。本文将深入探讨基于RBF神经网络的在线学习算法，包括其
# AI计算模式神经网络模型深度神经网络多层感知机卷积神经网络循环神经网络长短期记忆网络图像识别、语音识别、自然语言轻量化模型和模型压缩大模型分布式并行 EwenWanW AGI 人工智能神经网络 dnn
AI计算模式AI技术发展至今，主流的模型是深度神经网络模型。近20年来，神经网络模型经过多样化的发展，模型总体变得越来越复杂和庞大，对硬件设备的计算速度、存储能力、通信速度的要求越来越高。尽管学者已经提出了许多方法优化模型结构，降低模型的参数量，但是伴随着人们对AI能力的要求越来越高，模型变得更大是不可避免的。原先单CPU可进行模型的训练与推理，如今需要使用GPU、TPU等设备，并通过分布式并行的
多层感知机和神经网络的区别_情感分析之多层全连接神经网络 weixin_39653766 多层感知机和神经网络的区别
全连接神经网络全连接神经网络是一种最基本的神经网络结构，英文为FullConnection，所以一般简称FC。FC的准则很简单：神经网络中除输入层之外的每个节点都和上一层的所有节点有连接。上图是一个双隐层的前馈全连接神经网络，或者叫多层感知机(MLP)。它的每个隐层都是全连接层。它的每一个单元叫神经元。多层感知机在单层神经网络的基础上引入了一到多个隐藏层(hiddenlayer)。隐藏层位于输入层
AAAI2024论文解读|Memory-Efficient Reversible Spiking Neural Networks-water-merged paixiaoxin 文献阅读论文合集脉冲神经网络可逆架构内存效率深度学习训练优化 AAAI
论文标题Memory-EfficientReversibleSpikingNeuralNetworks内存高效可逆脉冲神经网络论文链接Memory-EfficientReversibleSpikingNeuralNetworks论文下载论文作者HongZhang,YuZhang内容简介本文提出了一种可逆脉冲神经网络（RevSNN），旨在降低脉冲神经网络（SNNs）在训练过程中对中间激活和膜电位的内
深入详解神经网络的基础知识、工作原理以及应用【一】猿享天开人工智能基础知识学习深度学习神经网络人工智能
目录引言1.神经网络基础1.1感知器模型1.2多层感知器（MLP）示例：2.前馈神经网络（FeedforwardNeuralNetworks,FFNN）2.1结构与特点2.2训练过程2.3优化方法3.卷积神经网络（CNN）3.1基本概念3.2层类型3.3网络架构3.4应用领域3.5示例代码示例描述：4.循环神经网络（RNN）4.1基本概念4.2RNN结构4.3应用领域4.4示例代码示例描述：5.深
自然语言处理的发展历程数亦有术自然语言处理人工智能
1.自然语言处理发展的7个阶段序号阶段时间贡献代表人物1起源期1913-1956思考使用图灵算法计量模型来描述自然语言，描述词语及词语之间的关系。这一阶段停留在理论层面做探索图灵、马尔可夫、香农2基于规则的形式语言理论期1957-1970形式语言理论的提出，开启了学术界对自然语言结构的研究、建模和解析，从而为基于结构与规则的文本识别、生成和翻译开辟了一条康庄大道诺姆·乔姆斯基、冯志伟3基于规则、概
【自然语言处理（NLP）】NLTK的使用（分句、分词、词频提取）道友老李自然语言处理(NLP)自然语言处理人工智能
文章目录介绍NLTK主要功能模块安装使用分句分词去除标点符号去除停用词stopword噪音单词,词频提取个人主页：道友老李欢迎加入社区：道友老李的学习社区介绍自然语言处理（NaturalLanguageProcessing，NLP）是计算机科学领域与人工智能领域中的一个重要方向。它研究的是人类（自然）语言与计算机之间的交互。NLP的目标是让计算机能够理解、解析、生成人类语言，并且能够以有意义的方式
【自然语言处理（NLP）】序列数据研究（创建序列数据、简单的MLP模型、预测结果分析）道友老李自然语言处理(NLP)自然语言处理人工智能
文章目录介绍序列数据研究导包安装d2l创建序列数据创建模型开始训练预测多步预测结论个人主页：道友老李欢迎加入社区：道友老李的学习社区介绍自然语言处理（NaturalLanguageProcessing，NLP）是计算机科学领域与人工智能领域中的一个重要方向。它研究的是人类（自然）语言与计算机之间的交互。NLP的目标是让计算机能够理解、解析、生成人类语言，并且能够以有意义的方式回应和操作这些信息。N
Swin-Unet：图像分割领域的强大工具陈凯韵
Swin-Unet：图像分割领域的强大工具【下载地址】Swin-UnetPyTorch代码仓库本仓库提供了一个基于PyTorch实现的Swin-Unet模型的代码资源。Swin-Unet是一种结合了SwinTransformer和U-Net结构的深度学习模型，适用于图像分割任务。该代码可以帮助研究人员和开发者快速上手并应用Swin-Unet模型进行图像分割实验项目地址:https://gitcod
李开复：苹果发布AI应用的未来 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
苹果,AI,应用,未来,深度学习,自然语言处理,计算机视觉1.背景介绍近年来，人工智能（AI）技术取得了飞速发展，并开始渗透到人们生活的方方面面。从智能手机的语音助手到自动驾驶汽车，AI正在改变着我们的世界。作为科技巨头，苹果也积极布局AI领域，并将其融入到其产品和服务中。2017年，苹果发布了其首款AI芯片A11Bionic，并将其应用于iPhoneX等产品。该芯片拥有强大的神经网络处理能力，为
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod