汀、人工智能

大语言模型的预训练[1]:基本概念原理、神经网络的语言模型、Transformer模型原理详解、Bert模型原理介绍

1.大语言模型的预训练

1.LLM预训练的基本概念

预训练属于迁移学习的范畴。现有的神经网络在进行训练时，一般基于反向传播（Back Propagation，BP）算法，先对网络中的参数进行随机初始化，再利用随机梯度下降（Stochastic Gradient Descent，SGD）等优化算法不断优化模型参数。而预训练的思想是，模型参数不再是随机初始化的，而是通过一些任务进行预先训练，得到一套模型参数，然后用这套参数对模型进行初始化，再进行训练。

预训练将大量低成本收集的训练数据放在一起，经过某种预训练的方法去学习其中的共性，然后将其中的共性 “移植” 到特定任务的模型中，再使用相关特定领域的少量标注数据进行 “微调”。因此，模型只需要从“共性” 出发，去 “学习” 该特定任务的 “特殊” 部分。

例如：让一个完全不懂英文的人去做英文法律文书的关键词提取的工作会完全无法进行，或者说他需要非常多的时间去学习，因为他现在根本看不懂英文。但是，如果让一个英语为母语但没接触过此类工作的人去做这项任务，他可能只需要相对比较短的时间学习如何去提取法律文书的关键词就可以上手这项任务。在这里，英文知识就属于 “共性” 的知识，这类知识不必要只通过英文法律文书的相关语料进行学习，而是可以通过大量英文语料，不管是小说、书籍，还是自媒体，都可以是学习资料的来源。在该例中，让完全不懂英文的人去完成这样的任务，这就对应了传统的直接训练方法，而完全不懂英文的人如果在早期系统学习了英文，再让他去做同样的任务，就对应了 “预训练 + 微调” 的思路，系统的学习英文即为 “预训练” 的过程。

大语言模型的预训练是指搭建一个大的神经网络模型并喂入海量的数据以某种方法去训练语言模型。大语言模型预训练的主要特点是训练语言模型所用的数据量够多、模型够大。

1.2 LLM预训练需求

预训练技术被广泛应用于各种机器学习任务，主要是为了解决以下问题：

**数据稀缺性：**在许多任务中，标记数据是很昂贵的，并且难以获取。例如，在自然语言处理领域，需要大量的标注数据才能训练模型。通过使用预训练技术，可以利用未标记的数据来训练模型，从而提高模型的性能和泛化能力；
**先验知识问题：**许多机器学习任务需要模型具备一定的先验知识和常识，例如自然语言处理中的语言结构和规则。通过使用预训练技术，可以让模型在未标记数据上学习这些知识，从而使其在各种任务上表现更好；
**迁移学习问题：**许多机器学习任务之间存在共性，例如自然语言处理中的语义理解和文本分类等。通过使用预训练技术，可以将模型从一个任务迁移到另一个任务，从而提高模型在新任务上的性能；
**模型可解释性问题：**预训练技术可以帮助模型学习抽象的特征，从而提高模型的可解释性。例如，在自然语言处理中，预训练技术可以使模型学习单词和短语的表示，从而提高模型的可解释性。

综上所述，预训练技术可以帮助机器学习模型解决数据稀缺性、先验知识和迁移学习等问题，从而提高模型的性能和可解释性，同时降低训练成本。

1.3 LLM预训练的基本原理

大语言模型预训练采用了 Transformer 模型的解码器部分，由于没有编码器部分，大语言模型去掉了中间的与编码器交互的多头注意力层。如下图所示，左边是 Transformer 模型的解码器，右边是大语言模型的预训练架构

1.3.1 方法

大语言模型预训练是通过上文的词来预测下一个词，属于无监督的预训练。比如，给定一个无监督的语料U={u1,...,un}，而预训练语言模型是要使得下面式子最大化：

$L 1 (U) = Σ i P (u i ∣ u i - k , ..., u i - 1; Θ)$

即如下图所示，通过上文，来预测下一个单词，属于自回归模型，也叫做 AR 模型。

AR 模型，即指从左往右学习的模型。AR 模型从上文学习，并将上一步的结果作为回归模型的输入，以预测下一个词。在预测时，AR 模型只能看到上文的词，而无法知晓下文的词。AR 模型通常用于生成式任务，尤其是长文本的生成能力很强。

在大语言模型的预训练中，还采用了 in-context learning 技术。为了让模型能够理解人类的意图，与人类的思想对齐，会构造类似这样数据：在句子前加上一个任务（task），同时会给出完成该任务的几个示例。例如，向模型输入 “请将中文翻译成英文。你好，Hello，再见，goodbye，销售，”，然后让模型学习下一个输出 “sell”。通过示例的个数又可以分为：

few-show learning: 允许输入数条示例和一则任务说明；
one-shot learning: 只允许输入一条示例和一则任务说明；
zero-shot learning: 不允许输入任何范例，只允许输入一则任务说明。

zero-shot learning 可以表示为：

p(output∣input,task)

通过引入 in-context learning 技术，使得预训练的大语言模型直接拥有完成特定任务的能力。

1.3.2 训练

下面对大语言模型预训练过程中的批量训练、学习率、优化器和训练稳定性等方面进行讲解。

**批量训练：**对于语言模型的预训练，通常将批量训练的大小（batch_size）设置为较大的数字来维持训练的稳定性。在最新的大语言模型训练中，采用了动态调整批量训练大小的方法，最终在训练期间批量训练大小达到百万规模。结果表明，动态调度批量训练的大小可以有效地稳定训练过程；
**学习率：**大语言模型训练的学习率通常采用预热和衰减的策略。学习率的预热是指模型在最初训练过程的 0.1% 到 0.5% 之间逐渐将学习率提高到最大值。学习率衰减策略在后续训练过程中逐步降低学习率使其达到最大值的 10% 左右或者模型收敛；
**优化器：**Adam 优化器和 AdamW 优化器是常用的训练大语言模型的优化方法，它们都是基于低阶自适应估计矩的一阶梯度优化。优化器的超参数通常设置为：β1=0.9、β2=0.95以及ϵ=10−8 ；
**训练稳定性：**在大语言模型的预训练期间，经常会遇到训练不稳定的问题，可能导致模型无法继续训练下去。目前，解决这个问题通常采用的方法有正则化和梯度裁。梯度裁剪的阈值通常设为 1.0，正则化系数为 0.1。然而，随着大语言模型规模的扩大，模型的损失函数值更可能会发生突变，导致模型训练的不稳定性。为了解决大语言模型训练稳定性的问题，训练时在发生损失函数的突变后，回溯到上一个保存的模型（checkpoint），并跳过这一部分的训练数据继续进行模型的训练。

1.4LLM预训练的主要优势

大语言模型预训练是一种先通过海量数据进行预训练，然后再进行微调的技术，其目的是提高机器学习算法的性能和效率。大模型预训练的优势主要有以下几点:

**提高模型的泛化能力：**通过大规模预训练，模型可以学习到更多的数据和知识，从而提高其对未知数据的泛化能力；
**减少训练时间和数据量：**预训练可以大幅减少训练时间和数据量，因为预训练的结果可以直接应用到其它任务上，避免了重复训练；
**提高算法的效率：**预训练可以使得算法更加高效，因为预训练的结果可以作为其它任务的初始值，避免从头开始训练的时间和计算资源浪费；
**支持多种自然语言处理任务：**预训练可以应用于各种自然语言处理任务，如文本分类、情感分析、机器翻译等，提高了自然语言处理技术的通用性和可拓展性；
**提高模型的精度：**大模型预训练可以提高模型的精度和性能，从而使得机器学习算法在各种任务上得到更好的表现。

1.5 预训练后续阶段

大语言模型预训练是指采用大量数据喂入大规模模型去训练语言模型，得到初始化的模型参数。随着 ChatGPT 的出现，在完成大语言模型的预训练后，还会采用监督学习、奖励模型以及强化学习进行进一步的微调，叫做 RLHF。预训练后续阶段主要分为三个步骤（如下图所示）：

步骤 1：SFT 监督微调，训练监督策略模型。在大语言模型的训练过程中，需要标记者参与监督过程；
步骤 2：奖励模型训练。借助标记者的人工标注，训练出合意的奖励模型，为监督策略建立评价标准；
步骤 3：PPO 强化学习模型训练，采用近端策略优化进行强化学习。通过监督学习策略生成 PPO 模型，将最优结果用于优化和迭代原有的 PPO 模型参数。

2.神经网络的语言模型知识

2.1 基于神经网络的语言模型

鉴于 n-gram 存在的问题，人们开始尝试用神经网络来建立语言模型，提出了如下图所示的前馈神经网络模型（FFNN Language Model，FFNNLM）：

它通过学习词的分布式表示来解决维度灾难，使得一个词能够使用一个低维向量（称之为 embedding）表示。从整体上看，上述模型属于比较简单而传统的神经网络模型，主要由输入层 - 隐藏层 - 输出层组成，经过前向传播和反向传播来进行训练。

2.1.1 词向量处理

基于神经网络的语言模型的输入层为词向量，词语转化为数字的最简单的形式就是 One-hot（独热编码），简单来说就是假设有一个大小为 V 的固定排序的词表，里边包含 V 个词，假设第二个词是 “电视”，那么用一个维度为 V 的特征向量表达就是 $[0, 1, 0, 0, \dots, 0]$ ，即该词语在词表中的位置对应在特征向量中的位置的值为 1，其他位置都为 0。
但 One-hot 编码有一个最大的问题就是数据稀疏问题，当词表很大（比如现在有一个含 80000 个词的词表）时，数据稀疏会让整个计算量都变得很大，且词语之间的关联关系得不到表达。

词向量（Word Embedding）因此应运而生，它不用 One-hot 的稀疏向量来表征这个词，而是用一个低维度的向量来表征这个词，给定一个词表征的矩阵 C，矩阵 C 的维度是 V∗m，即 V 行，m 列。V 是词表的大小，即每一行代表了词表里的一个词；m 是自己定的词向量的维度，比如说对于一个 80000 个词的词表，One-hot 向量要用 80000 维来表征 “电视” 这个词，而词向量用一个 100 维的向量来表征，m 就是 100。
用 “电视” 的 One-hot 向量 $[0, 1, 0, 0, \dots, 0]$ 乘上面说的矩阵 C，将得到一个 m 维的向量，即词向量，下图为这个计算过程：

得到上面单个词向量之后，将 n − 1 个词向量做一个全连接，即把这 n − 1 个词向量首尾相接地拼起来得到最终的输入 x：

2.1.2 正向传播

从输入层到隐藏层：词向量 x 作为输入，权重 H 乘以输入加上偏置 d，再加 tanh 函数作激活函数，就得到了隐藏层：tanh(d+Hx)。
从隐藏层到输出层：先计算由隐藏层到输出层未归一化的输出值 y1，这里是一个简单的线性变化： $y 1 = U t anh (d + H x) + b 1$ 。这里的 U 是隐藏层到输出层的参数，b1 代表这一部分的偏置项。
从输入层到输出层：从输入层到输出层的直连，也是一个线性变换。这一部分的输出值 y2 可以表示为: $y 2 = W x + b 2$ 。W 和 b2 分别是这一部分的权重和偏置项。
输出层：由上面的两部分输出值可以得到最终的 y： $y = y 1 + y 2 = b + W x + U t anh (d + H x)$
再将 y 经过一个 $so f t ma x$ 函数做概率归一化，便能得到一个维度为 V 的概率向量。
模型训练的目标是最大化以下似然函数：

其中 $θ = (b, d, W, U, H, C)$ ，是模型的所有参数，R 是正则化项。
反向传播是根据 loss 值更新参数的过程，这里不再赘述。

2.1.3 模型评价

神经网络语言模型 (NNLM) 通过构建神经网络的方式来探索和建模自然语言内在的依赖关系。优缺点如下：

优点：
1. 词向量是可以自定义维度的，维度并不会因为新扩展词而发生改变，词向量能够很好的根据特征距离度量词与词之间的相似性；
2. 好的词向量能够提高模型泛化能力；
3. 相比于 n-gram，通过词向量的降维，减小了参数空间，减少了计算量。
缺点：
1. 参数较多，模型训练时间长；
2. 可解释性较差。

2.2 循环神经网络概述

对于我们已经学过的传统神经网络，它们能够实现分类以及标注任务，但传统神经网络处理具有前后遗存关系的数据时，效果就不是十分理想了。这时不仅需要依赖当前的输入，还需要结合前一时刻或后一时刻的输入作为参考。
循环神经网络的主要用途是处理和预测序列数据。循环神经网络最初就是为了刻画一个序列当前的输出与之前信息的关系。从网络结构上来看，循环神经网络会记忆之前的信息，并利用之前的信息影响后面节点的输出。也就是说，循环神经网络的隐藏层之间的节点是有连接的，隐藏层的输入不仅包含输入层的输出，还包括上一时刻隐藏层的输出。

2.2.1 一般循环神经网络

传统的神经网络结构一般分为三层：输入层、隐藏层、输出层。输入层的输入经过加权计算输出到隐藏层，作为隐藏层的输入。隐藏层再对从输入层得到的输入进行加权计算输入到输出层，最后通过激活函数，由输出层输出最终的结果。
循环神经网络的结构与其十分的相似，都是由输入层、隐藏层和输出层构成，最大的区别在于循环神经网络的隐藏层多了一个自身到自身的环形连接，其结构如下图所示：

其中，x 表示输入层，s 表示隐藏层的输出，o 表示输出层的值。U 是输入 x 特征与隐藏层神经元全连接的权重矩阵，V 则是隐藏层与输出层全连接的权值矩阵。o 的输出由权值矩阵 V 和隐藏层输出 s 决定。s 的输出不仅仅由权值矩阵 U 以及输入 x 来决定，还要依赖于新的权值矩阵 W 以及上一次 s 的输出。其中，W 表示上一次隐藏层的输出到这一次隐藏层输入的权值矩阵，该层被称为循环层。

2.2.2 单向循环神经网络

将一般循环神经如下图所示展开便是单向循环神经网络：

对于单向循环神经网络的结构，你可以理解为网络的输入通过时间进行向后传播。当前隐藏层的输出 st 除了取决于当前的输入层的输入向量 xt 外，还受到上一时刻隐藏层的输出向量 st+1 的影响，因此，当前时刻隐藏层的输出信息包含了之前时刻的信息，表现出对之前信息记忆的能力。可以采用如下公式对单向循环神经网络进行表示：

其中 $o t$ 表示输出层的结果，g 为输出层的激活函数，V 为输出层的权值矩阵。 $s t$ 表示隐藏层的结果，它由当前时刻的输入层输入 $x t$ 以及上一时刻隐藏层输出 $s t - 1$ 共同决定，U 表示输入层到隐藏层的权值矩阵，W 为上一时刻的值 $s t - 1$ 到这一次输入的权值矩阵，f 为隐藏层的激活函数。循环神经网络的递归数学式如下所示：

2.2.3 基于循环神经网络的字符级语言模型

接下来，我们看一下如何使用循环神经网络来构建语言模型。设小批量大小为 1，批量中的文本序列为 “machine”。为了简化后续部分的训练，我们考虑使用字符级语言模型（character-level language model），将文本词元化为字符而不是单词。下图演示了如何通过基于字符级语言建模的循环神经网络，使用当前的和先前的字符预测下一个字符。

在训练过程中，对每个时间步的输出层的输出进行 softmax 操作，然后利用交叉熵损失计算模型输出和标签之间的误差。由于隐藏层中隐状态的循环计算上图中的第 3 个时间步的输出 O3 由文本序列 “m”，“a” 和“c”确定。由于训练数据中这个文本序列的下一个字符是 “h”，因此第 3 个时间步的损失将取决于下一个字符的概率分布，而下一个字符是基于特征序列“m”，“a”，“c” 和这个时间步的标签 “h” 生成的。

2.2.4 模型评价

RNN 的优点：

能够记忆上一时间的输入信息。
处理任意长度的输入。
模型形状不随输入长度增加改变形状。
权重随时间共享

RNN 的缺点：

计算速度慢。
难以获取很久以前的信息。
无法考虑当前状态的任何未来输入。
在 RNN 中经常遇到梯度消失和爆炸现象。

3.Transformer 语言模型实现过程

3.1 Transformer 语言模型简介

Transformer 模型使用 Self-Attention 结构取代在 NLP 任务中常用的 RNN 网络结构。相比 RNN 网络结构，其最大的优点是可以并行计算。Transformer 的整体模型架构如下图所示：

Transformer 本质上是一个 Encoder-Decoder 架构。Transformer 的中间部分可以分为两个部分：编码组件和解码组件。如下图所示：

词向量的输入

Transformer 输入是一个序列数据，以我爱你为例：Encoder 的 inputs 就是 “I LOVE YOU” 分词后的词向量。
输入 inputs embedding 后需要给每个 word 的词向量添加位置编码 positional encoding。

3.1.1 位置编码 positional encoding

一句话中同一个词，如果词语出现位置不同，意思可能发生翻天覆地的变化，例如：我欠他 100 和他欠我 100。这两句话的意思一个地狱一个天堂。可见获取词语出现在句子中的位置信息是一件很重要的事情。但是 Transformer 的是完全基于 self-Attention，而 self-attention 无法获取词语位置信息，就算打乱一句话中词语的位置，每个词还是能与其他词之间计算 attention 值，就相当于是一个功能强大的词袋模型，对结果没有任何影响。因此在输入的时候需要给每一个词向量添加位置编码。
positional encoding 获取过程：

Transformer 使用的是正余弦位置编码。位置编码通过使用不同频率的正弦、余弦函数生成，然后和对应的位置的词向量相加，位置向量维度必须和词向量的维度一致。过程如上图，PE（positional encoding）计算公式如下：

pos 表示单词在句子中的绝对位置，pos=0，1，2…，例如：YOU 在 “I LOVE YOU” 中的 pos=2；dmodel 表示词向量的维度，在这里 dmodel=512；2i 和 2i+1 表示奇偶性，i 表示词向量中的第几维，例如这里 dmodel=512，故 i=0，1，2…255。

编码组件由多层编码器（Encoder）组成（在此处使用了 6 层编码器）。解码组件也是由相同层数的解码器（Decoder）组成（在此处使用了 6 层）。如下图所示：

3.1.2 Encoder

编码器层的作用：作为编码器的组成单元，每个编码器层完成一次对输入的特征提取过程，即编码过程。
编码器的作用：编码器用于对输入进行指定的特征提取过程也称为编码，由 N 个编码器层堆叠而成。

每个编码器层由两个子层组成：Self-Attention 层（自注意力层）和 Position-wise Feed Forward Network（前馈网络，缩写为 FFN）如下图所示。每个编码器的结构都是相同的，但是它们使用不同的权重参数。

编码器的输入会先流入 Self-Attention 层，它可以让编码器在对特定词进行编码时使用输入句子中的其他词的信息（当翻译一个词时，不仅只关注当前的词，而且还会关注其他词的信息）。然后 Self-Attention 层的输出会流入前馈网络。
解码器也有编码器中这两层，但是它们之间还有一个注意力层（即 Encoder-Decoder Attention），用来帮解码器关注输入句子的相关部分（类似于 seq2seq 模型中的注意力）。如下图所示：

3.1.3 多头注意力机制（Multi-head Attention）

通过添加一种多头注意力机制，进一步完善自注意力层。首先，通过 h 个不同的线性变换对 Query、Key 和 Value 进行映射；然后，将不同的 Attention 拼接起来；最后，再进行一次线性变换。基本结构如下图所示：

每一组注意力用于将输入映射到不同的子表示空间，这使得模型可以在不同子表示空间中关注不同的位置。整个计算过程可表示为：

在多头注意力下，将输入的 X 乘以 WQ、WK 和 WV 矩阵，从而为每组注意力单独生成不同的 Query、Key 和 Value 矩阵。如下图所示：

按照上面的方法，使用不同的权重矩阵进行 8 次自注意力计算，得到 8 个不同的 Z 矩阵。接下来将这 8 个矩阵整合为一个矩阵。具体流程如下：

把 8 个矩阵｛Z0，Z1，⋯，Z7｝拼接。
把拼接后的矩阵和一个权重矩阵 WO 相乘。
得到最终的矩阵 Z，这个矩阵包含了所有注意力头的信息。这个矩阵会输入到 FFN 层。

3.1.4 Feed-Forward Networks

全连接层是一个两层的神经网络，先线性变换，然后 ReLU 非线性，再线性变换。公式如下：

这里的 x 就是 Multi-Head Attention 的输出 Z，引用上面的例子，那么 Z 是 (2,64) 维的矩阵，假设 W1 是(64,1024)，其中 W2 与 W1 维度相反(1024,64)，那么按照上面的公式：
FFN(Z)=(2,64)x(64,1024)x(1024,64)=(2,64)，发现维度没有发生变化，这两层网络就是为了将输入的 Z 映射到更加高维的空间中 (2,64)x(64,1024)=(2,1024)，然后通过非线性函数 ReLU 进行筛选，筛选完后再变回原来的维度。然后经过 Add＆Normalize，输入下一个 encoder 中，经过 6 个 encoder 后输入到 decoder。

3.1.5 Decoder

Decoder 的输入分为两类：
一种是训练时的输入，一种是预测时的输入。
训练时的输入：已经对准备好对应的 target 数据。例如翻译任务，Encoder 输入 “I LOVE YOU”，Decoder 输入 “我爱你”。
预测时的输入：一开始输入的是起始符，然后每次输入是上一时刻 Transformer 的输出。例如，输入 “”，输出"I"，输入"I"，输出"I LOVE"，输入" 我爱 “，输出"I LOVE YOU”，输入" 我爱你 “，输出” 我爱你 " 结束。

解码器层的作用：作为解码器的组成单元，每个解码器层根据给定的输入，向目标方向进行特征提取操作，即解码过程。
解码器的作用：根据编码器的结果以及. 上 - 次预测的结果，对下一次可能出现的 “值” 进行特征表示。

3.1.6 Mask（掩码）

Mask 表示掩码，它对某些值进行掩盖，使其在参数更新时不产生效果。Transformer 模型里面涉及两种 mask，分别是 Padding Mask 和 Sequence Mask。其中，Padding Mask 在所有的 scaled dot-product attention 里面都需要用到，而 Sequence Mask 只有在 Decoder 的 Self-Attention 里面用到。

Padding Mask: 由于每个批次输入序列长度不一样，所以要对输入序列进行对齐。具体来说，就是给在较短的序列后面填充 0。但由于填充的位置，对于语句无实际意义，attention 机制不应该把注意力放在这些位置上，所以需要进行一些处理。具体做法是，把这些位置的值加上一个非常大的负数 (负无穷)，再经过 softmax，这些位置的概率就会接近 0。

Sequence Mask:Sequence Mask 是为了使得 Decoder 不能看见未来的信息。对于一个序列，在 t 时刻，解码输出只能依赖于 t 时刻之前的输出，而不能依赖 t 之后的输出。因此需要隐藏 t 之后的信息。实现过程为：产生一个上三角矩阵，上三角的值全为 0，将这个矩阵作用在每一个序列上。

3.2 模型评价

Transformer 优点：
1. 长期依赖性建模：Transformer 模型通过使用自注意力机制（self-attention）可以更好地捕捉长期依赖关系，这对于处理长文本或具有远距离依赖性的任务非常重要。
2. 并行计算：Transformer 模型中的自注意力机制和位置编码可以使输入序列的所有位置同时进行处理，这导致模型可以高效地并行计算，加快训练和推理速度。
3. 可解释性：相对于传统的循环神经网络（RNN），Transformer 模型在处理序列数据时更具可解释性。由于自注意力机制可以指定每个位置与其他位置的相关性，因此可以更清晰地理解模型对输入的处理过程。
4. 模块化架构：Transformer 模型以块（block）为基本单元构建，每个块包含多层自注意力机制和前馈神经网络层。这种模块化的架构使得 Transformer 模型易于修改、扩展和调整，研究人员和开发者可以根据需要自由组合和堆叠块。
5. 多语言支持：Transformer 模型的设计使其能够轻松地适应不同的语言，无论是训练还是生成文本。这使得 Transformer 模型在机器翻译和跨语言任务中表现出色。
Transformer 缺点：
1. 学习成本高：相对于传统的循环神经网络，Transformer 模型通常需要更大的计算资源和更长的训练时间。这限制了它在资源受限的环境中的应用。
2. 过拟合风险：Transformer 模型通常具有大量的参数，当训练数据不足时容易发生过拟合。这需要使用正则化技术、更多的数据或其他方法来控制模型的泛化性能。
3. 序列位置信息建模：尽管 Transformer 模型引入了位置编码来处理序列中的位置信息，但对于极长的序列，位置编码可能不足以准确地捕捉远距离的依赖关系，这可能影响模型的性能。
4. 对输入序列长度的敏感性：Transformer 模型的自注意力机制对输入序列的长度非常敏感。较长的序列需要更多的计算资源，而较短的序列可能无法充分利用自注意力机制。因此，在设计模型时需要权衡输入序列的长度和计算效率之间的平衡。

4.Bert模型

BERT（Bidirectional Encoder Representations from Transformers）是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的掩蔽语言模型（masked language model），以致能生成深度双向语言表征。

BERT 的特征抽取结构为双向的 Transformer，直接使用了 Transformer Encoder Block 结构，如上图所示。

4.1 Bert 词嵌入（Embedding）

Bert 的 Embedding 由三种 Embedding 求和而成，如下图所示：

Token embedding 层是要将各个词转换成固定维度的向量。在 BERT 中，每个词会被转换成 768 维的向量表示。输入文本在送入 token embeddings 层之前要先进行 tokenization 处理。假设输入文本是：“my dog is cute he likes playing”，会将两个特殊的 token 会插入到 tokenization 的结果的开头 ([CLS]) 和结尾 ([SEP]) 。这两个 token 为后面的分类任务和划分句子对服务。
tokenization 使用的方法是 WordPiece tokenization。这是一个数据驱动式的 tokenization 方法，旨在权衡词典大小和 oov 词（超出词表外的词）的个数。这种方法把例子中的 “playing” 切分成了 “play” 和“##ing”（此处不详细展开）。使用 WordPiece tokenization 让 BERT 在处理英文文本的时候仅需要存储 30,522 个词，而且很少遇到 oov 的词。
经过处理，上述句子被转换成 “[CLS] my dog is cute [SEP] he likes play ##ing [SEP]”，也就是 11 个 token。这样，例子中的 7 个词的句子就转换成了 11 个 token，然后接着得到了一个(11, 768) 的矩阵或者是(1, 11, 768) 的张量。

Segment Embeddings 层用来区别两种句子，预训练除了 LM，还需要做判断两个句子先后顺序的分类任务。

前一个句子的每个 token 都用 0 表示，后一个句子的每个 token 都用 1 表示。如 “[CLS] my dog is cute [SEP] he likes play ##ing [SEP]” 表示成 “0 0 0 0 0 0 1 1 1 1 1”。如果输入仅仅只有一个句子，那么它的 segment embedding 就是全 0。这也是一个(11, 768) 维的向量。
Position Embeddings 层和 Transformer 的 Position Embeddings 不一样，在 Transformer 中使用的是公式法，在 Bert 中是通过训练得到的。加入 position embeddings 会让 BERT 理解 “I think, therefore I am” 中的第一个 “I”和第二个 “I” 应该有着不同的向量表示。
BERT 能够处理最长 512 个 token 的输入序列。通过让 BERT 在各个位置上学习一个向量表示来讲序列顺序的信息编码进来。这意味着 Position Embeddings layer 实际上就是一个大小为 (512, 768) 的 lookup 表，表的第一行是代表第一个序列的第一个位置，第二行代表序列的第二个位置，以此类推。因此，如果有这样两个句子 “Hello world” 和“Hi there”,“Hello”和 “Hi” 会由完全相同的 position embeddings，因为他们都是句子的第一个词。同理，“world”和 “there” 也会有相同的 position embedding。

4.2 预训练任务（Pre-training Task）

第一个任务是采用 MaskLM（掩蔽语言模型）的方式来训练语言模型，通俗地说就是在输入一句话的时候，随机地选一些要预测的词，然后用一个特殊的符号 [MASK] 来代替它们，之后让模型根据所给的标签去学习这些地方该填的词。
第二个任务在双向语言模型的基础上额外增加了一个句子级别的连续性预测任务，即预测输入 BERT 的两段文本是否为连续的文本，引入这个任务可以更好地让模型学到连续的文本片段之间的关系。
BERT 使用了 Transformer 的 Encoder 模块，分别用 12 层和 24 层 Transformer Encoder 组装了两套 BERT 模型，分别是：

其中层的数量 (即，Transformer Encoder 块的数量) 为 L，隐藏层的维度为 H，自注意头的个数为 A。将前馈 / 过滤器 (Transformer Encoder 端的 feed-forward 层) 的维度设置为 4H，即当 H=768 时是 3072；当 H=1024 是 4096 。

4.3 优缺点

优点：效果好，能够解决 11 项 NLP 任务。Bert 微调下游任务的时候，即使数据集非常小（比如小于 5000 个标注样本），模型性能也有不错的提升。
缺点：1.BERT 的预训练任务 MLM 使得能够借助上下文对序列进行编码，但同时也使得其预训练过程与中的数据与微调的数据不匹配，难以适应生成式任务。 2.BERT 没有考虑预测 [MASK] 之间的相关性，是对语言模型联合概率的有偏估计。由于最大输入长度的限制，适合句子和段落级别的任务，不适用于文档级别的任务（如长文本分类）。

5.关键知识点

大语言模型预训练：1.大语言模型预训练是迁移学习的一种 2.模型预训练的最主要特点是模型参数不是随机初始化的，而是通过一些任务预训练过的 3.模型预训练可以提高模型的泛化能力 4.模型预训练后只需小量数据才能获得很好的效果
大语言模型预训练技术能帮助解决：1.在许多机器学习任务中缺乏先验知识 2.许多NLP任务泛化能力较差 3.标注数据太少等问题
ChatGPT模型的微调包括哪个阶段：训练监督策略模型、训练奖励模型、采用近端策略优化进行强化学习
基于神经网络的语言模型主要解决自然语言生成问题
在前馈神经网络中，为了减小梯度消失的影响，常常采用梯度裁剪的方法是
基于循环神经网络的语言模型通常具有特点:能够预测下一个词汇、能够生成连续的文本、能够理解自然语言
在基于循环神经网络的语言模型中，输入的词嵌入可以通过预训练的词向量、随机初始化的矩阵方式得到
Transformer 是一种基于递归神经网络（Recursive Neural Network）网络结构的模型
transformer 中的 Self-Attention 机制能够实现学习到输入序列中每个位置的重要程度
在 Transformer 中，Encoder 和 Decoder 的区别在于:Encoder 包含多层 Self-Attention 和 Feed-Forward 层，而 Decoder 包含多层 Self-Attention、Encoder-Decoder Attention 和 Feed-Forward 层

更多优质内容请关注公号：汀丶人工智能；会提供一些相关的资源和优质文章，免费获取阅读。

经网络的语言模型中，输入的词嵌入可以通过预训练的词向量、随机初始化的矩阵方式得到

Transformer 是一种基于递归神经网络（Recursive Neural Network）网络结构的模型
transformer 中的 Self-Attention 机制能够实现学习到输入序列中每个位置的重要程度
在 Transformer 中，Encoder 和 Decoder 的区别在于:Encoder 包含多层 Self-Attention 和 Feed-Forward 层，而 Decoder 包含多层 Self-Attention、Encoder-Decoder Attention 和 Feed-Forward 层

更多优质内容请关注公号：汀丶人工智能；会提供一些相关的资源和优质文章，免费获取阅读。

你可能感兴趣的:(AI前沿技术汇总,语言模型,神经网络,transformer,人工智能,NLP,自然语言处理,bert)

GitHub每日最火火火项目（1.17） FutureUniant github日推 github 人工智能计算机视觉音视频 ai
OpenBMB/MiniCPM-o项目名称：OpenBMB/MiniCPM-o用途：MiniCPM-o2.6是一个适用于手机的视觉、语音和多模态直播的GPT-4o级别大语言模型（LLM）。它能够在手机上处理多种模态的数据，如视频、语音等，可用于直播场景中的实时字幕生成、语音交互问答等，为用户提供更智能的直播体验。使用场景：主要应用于手机直播领域，包括游戏直播、电商直播、娱乐直播等。主播可借助该模型
Goland项目内引入字符串标红的解决办法 liynet java 前端服务器
当我在go项目内引入某个模块比如：import("log""xxx.com/bird/models")时，Goland会提示错误并标红这个引用，实际这个引用就走go.mod中配置着，但Goland就是不认，问了AI才知道解决办法如此简单，如下图：打开GoLand的设置（Settings/Preferences）导航到Go->GoModules，确保"EnableGomodulesintegrati
[Linux性能调优] 磁盘I/O队列调度策略 Linux小凯 linux 运维服务器
傻瓜化说明简单地说，对于磁盘I/O，Linux提供了cfq,deadline和noop三种调度策略cfq:这个名字是CompleteFairnessQueueing的缩写，它是一个复杂的调度策略，按进程创建多个队列，试图保持对多个进程的公平（这就没考虑读操作和写操作的不同耗时）deadline:这个策略比较简单，只分了读和写两个队列（这显然会加速读取量比较大的系统），叫这个名字是内核为每个I/O操
AI-blog 开源项目教程尤琦珺Bess
AI-blog开源项目教程AI-blog项目地址:https://gitcode.com/gh_mirrors/aib/AI-blog1.项目的目录结构及介绍AI-blog项目的目录结构如下：AI-blog/├──README.md├──app/│├──__init__.py│├──main.py│├──config.py│├──models/││├──__init__.py││├──articl
案例3-1.3：求链表的倒数第m个元素（附加代码模式） Mn_、链表数据结构
题目描述给你一个链表，链表长度为n，链表内各元素为a1，a2....an，给你一个数m，求链表倒数第m个数是多少。本题是附加代码模式，主函数main的代码会自动附加在同学们提交的代码后面，请同学们在提交的时候注释掉自己的main函数。main函数代码如下：intmain(){//freopen("/config/workspace/answer/in.txt","r",stdin);intn;ci
【Cursor】揭秘Cursor：如何免费无限使用这款AI编程神器？ ChatGPT-千鑫人工智能 AI编程
在当今科技飞速发展的时代，人工智能编程工具层出不穷，其中Cursor凭借其卓越的功能和用户友好的体验，迅速在国际市场上引发了广泛关注。最近，该公司成功获得了OpenAI的6000万美元投资，进一步验证了其潜力和市场价值。那么，Cursor究竟具备怎样的强大能力？又该如何实现免费无限制使用呢？本文将为您揭开Cursor的神秘面纱，并提供详细的使用指南，助您轻松上手！Cursor的强大功能Cursor
【Cursor】如何在Cursor试用期结束后继续使用？全方位指南！ ChatGPT-千鑫 AI领域人工智能 chatgpt codemoss
Cursor的强大功能Cursor不仅是一款简单的编程工具，它还集成了当前最先进的AI模型——Claude3.5和GPT-4。这意味着用户不仅可以利用它编写代码，还能够与AI模型进行互动，实时获取编程建议和解决方案。无论你是刚入门的编程新手，还是经验丰富的开发者，Cursor都能为你提供极大的支持与帮助。如何免费无限使用Cursor1.利用14天免费试用Cursor为新用户提供14天的免费试用期。
【人工智能】人工智能的10大算法详解（优缺点+实际案例） ChatGPT-千鑫人工智能人工智能算法 gpt-3 AI编程 gpt codemoss能用AI
人工智能（AI）是现代科技的重要领域，其中的算法是实现智能的核心。本文将介绍10种常见的人工智能算法，包括它们的原理、训练方法、优缺点及适用场景。1.线性回归（LinearRegression）模型原理线性回归用于建立自变量（特征）与因变量（目标）之间的线性关系。其目标是寻找最佳拟合直线，使得预测值与实际值之间的误差最小化。模型训练通过最小二乘法来最小化预测值与真实值之间的误差，得到线性回归方程的
vscode 极简Linux下 cmake c++开发环境丘狸尾 vscode linux c++
安装这三插件vscode安装插件clangd后报错无法自动下载服务端Failedtoinstallclangdlanguageserver:FetchError:requesttohttps://api.github.com/repos/clangd/clangd/releases/latestfailed,reason:Failedtoestablishasocketconnectiontopr
一门科学的诞生：哈佛大学计算机研究发展的“酵母”时代斐夷所非 computer science 计算机科学
注：机翻，未校。AScienceIsBorn:The“yeastytimes”whencomputerresearchgrewatHarvardbyHarryR.LewisSeptember-October2020IllustrationbyMarkSteeleDramatisPersonaeThirtyveteransofHarvard’sAikenComputationLabreunitedo
【YOLOv8改进- Backbone主干】YOLOv8更换主干网络之ConvNexts，纯卷积神经网络，更快更准，，降低参数量！ YOLO大师 YOLO 网络 cnn 目标检测论文阅读 yolov8
YOLOv8目标检测创新改进与实战案例专栏专栏目录：YOLOv8有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLOv8基础解析+创新改进+实战案例介绍摘要视觉识别的“咆哮20年代”开始于视觉Transformer（ViTs）的引入，ViTs迅速取代了卷积神经网络（ConvNets）成为最先进的图像分类模型。然而，普通的ViT在应用于诸
mermaid Bananices markdown markdown javascript 流程图
使用Mermaid在博客中添加流程图什么是Mermaid？Mermaid是一个基于Javascript的图表绘制工具，通过解析类Markdown的文本语法来实现图表的创建和动态修改。Mermaid诞生的主要目的是让文档的更新能够及时跟上开发进度。流程图在mermaid中可以使用graph和flowchart来绘制流程图,但使用flowchart绘制流程图时候性能更高,详情FlowchartsSyn
python 代码实现了一个条件生成对抗网络（Conditional Generative Adversarial Network，CGAN），用于生成与给定的理化值相关的光谱数据 max500600 算法开发语言 python 生成对抗网络开发语言
importtensorflowastfimportnumpyasnpimportpandasaspdimportosimportmatplotlib.pyplotaspltfromsklearn.model_selectionimporttrain_test_splitfromtensorflow.keras.layersimportAdd,BatchNormalizationos.enviro
Cursor 一只爱笑的小燕子 ChatGPT html5 java 开发语言
一、什么是Cursor官网：Cursor|BuildFastCursor是一个开源的AI编程编辑器。开源地址https://github.com/pricing目前在国内是可以不需要其他东西，可以直接访问的。而且目「下面是官方的介绍：」Cursor是一个为AI编程而做的编辑器。它还处于早期阶段，但现在Cursor可以帮助你做一些事情。编写：使用Copilot更聪明的人工智能生成10-100行代码比
基于深度学习的人脸表情识别系统：YOLOv5 + YOLOv8 + YOLOv10 + UI界面 + 数据集 2025年数学建模美赛深度学习 YOLO ui 分类人工智能
引言随着人工智能的飞速发展，深度学习技术已广泛应用于各个领域，尤其是在计算机视觉领域。人脸识别和表情识别是其中的一个重要应用，能够在多种场景下提供重要的信息，例如安全监控、情感分析、智能客服、健康监测等。在人脸表情识别任务中，准确识别人脸的情感状态（如高兴、愤怒、悲伤等）是一个极具挑战性的任务。随着YOLO系列算法的不断进步，YOLOv5、YOLOv8和YOLOv10的推出大大提高了目标检测的精度
基于YOLOv8深度学习的人脸年龄检测识别系统 2025年数学建模美赛 YOLO 深度学习人工智能 ui 数据挖掘分类
引言随着人工智能和计算机视觉的飞速发展，人脸分析技术在年龄检测领域取得了显著进展。人脸年龄检测系统在安全监控、广告推荐、健康监测等领域有广泛应用。本文将基于YOLOv8目标检测模型和UI界面，开发一个完整的人脸年龄检测识别系统。我们将详细介绍项目的技术实现、数据集构建、模型训练以及UI设计，并附上完整代码。目录引言系统架构设计数据准备公开人脸年龄数据集数据标注格式数据目录结构模型训练YOLOv8环
基于深度学习的人脸表情识别系统：YOLOv8 + UI界面 + 数据集完整实现 2025年数学建模美赛深度学习 YOLO ui 人工智能代码
1.引言近年来，人脸表情识别在情感计算、智能人机交互、心理学研究等领域有着广泛的应用。深度学习的快速发展，使得高效、准确的人脸表情识别成为可能。通过利用卷积神经网络（CNN）和目标检测技术，可以实现实时、精准的人脸表情识别。本文将基于YOLOv8构建一个完整的人脸表情识别系统。系统集成了数据集准备、YOLOv8模型训练、实时推理以及基于PyQt5的图形用户界面（UI）。通过本文，你将学习如何实现一
VSLAM技术实现机器人在不同场景下的精准导航、避障向阳而生|X 自主导航 python 计算机视觉
链接：https://developer.orbbec.com.cn/forum_plate_module_details.html?id=998
【Markdown】【mermaid】Mermaid时序图基础语法Sequence Diagrams - Basic Syntax hmywillstronger microsoft mermaid
时序图-SequenceDiagrams简介-Introduction时序图是一种交互图，显示了流程如何相互操作以及它们的执行顺序。它可以用来描述用例场景或设计一个良好的面向对象系统。Sequencediagramsareatypeofinteractiondiagramthatillustratehowflowsoperatewithoneanotherandinwhatorder.Theyca
linux（arm）安装mysql步骤余额很不足 mysql linux linux mysql 运维数据库 arm开发
1、添加mysql用户组和mysql用户]#groupadd-rmysql&&useradd-r-gmysql-s/sbin/nologin-Mmysql2、安装依赖libaioyuminstall-ylibaio*3、下载mysql对应版本wgethttps://obs.cn-north-4.myhuaweicloud.com/obs-mirror-ftp4/database/mysql-5.7
python+playwright自动化测试(三)：事件等待机制觅远自动化测试 python python 开发语言自动化
目录goto设置等待强制等待wait_for_timeoutwait_forwait_for_selectorwait_for_load_statewait_for_urlwait_for_eventwait_for_functionplaywright中的timeout默认为30s，timeout=30000，有时需要根据具体情况进行自定义调整。goto设置等待page.goto('https:
agentUniverse X 浙大太乙平台，开源共建招募令来啦，3万奖金等你拿！人工智能机器学习chatgpt
agentUniverse正式上线浙大太乙开源平台（https://www.taiyi.top），现发起有奖招募令，邀请大家一起参与到开源共建中来，见证AI应用落地的每一步。MaytheOpenSourceforcebewithyou！活动介绍本次活动设置15个任务，包括10个适合初学者的简单型问题（issue）和5个更具挑战性的复杂型问题，参与者可根据个人兴趣和技术水平自由选择认领，完成相应任务
通义灵码 2.0 全新升级，阿里云正式推出繁星计划云原生
通义灵码AI程序员的出现，正在颠覆软件工程师的工作方式，从AI辅助编程走向人与AI协同编程。不仅能让工程师专注于更具创新的研发任务，更将实现以前无法想象的创新落地。在今天上午通义灵码2.0发布会上，阿里云云原生应用平台负责人丁宇宣布，通义灵码2.0全新升级，AI程序员重磅发布。通义灵码AI程序员引入了多文件代码修改能力，能对工程内多个代码文件同时进行修改，开发者可以清楚地看到多个文件的生成过程及状
《鸿蒙Next旅游应用：人工智能赋能个性化与智能导览新体验》人工智能深度学习
随着鸿蒙Next的推出，旅游应用迎来了全新的发展机遇，借助人工智能技术能为用户带来更出色的个性化推荐和智能导览服务。鸿蒙Next与人工智能融合优势鸿蒙Next拥有强大的分布式能力和原生智能体验。其能打破设备界限，实现多设备协同，让用户在手机、平板、智能手表等设备上无缝使用旅游应用。同时，依托华为强大的AI技术和自研的“盘古”大模型，为旅游应用提供了强大的智能支持。个性化推荐实现方式用户数据收集与分
PTA L1-039 古风排版今天真的好饿算法数据结构
中国的古人写文字，是从右向左竖向排版的。本题就请你编写程序，把一段文字按古风排版。输入格式：输入在第一行给出一个正整数N（usingnamespacestd;intmain(){intn;cin>>n;getchar();strings;getline(cin,s);intk;if(s.size()%n==0)k=s.size()/n;elsek=s.size()/n+1;//设定好二维字符数组的
《解锁鸿蒙系统AI与第三方应用集成的无限可能》人工智能深度学习
在当今科技飞速发展的时代，鸿蒙系统与人工智能技术的深度融合为应用开发带来了前所未有的机遇和挑战。如何让鸿蒙系统中的人工智能服务与第三方应用实现更好的集成，成为了开发者们关注的焦点。利用鸿蒙系统内置的人工智能服务鸿蒙系统提供了丰富的人工智能服务，如语音助手、视觉识别、自然语言处理等。开发者可以直接调用这些服务，无需从头开始研发。例如，在开发一款阅读类应用时，可以调用自然语言处理服务实现智能朗读功能，
《软硬协同优化，解锁鸿蒙系统AI应用性能新高度》深度学习人工智能
在当今数字化时代，鸿蒙系统与人工智能的融合正逐渐成为科技领域的热门话题。如何通过软件和硬件协同优化，进一步提升鸿蒙系统中AI应用的整体性能，成为了开发者和技术爱好者们关注的焦点。鸿蒙系统与AI应用的融合现状鸿蒙系统以其独特的微内核架构和分布式特性，为AI应用提供了良好的运行环境。目前，鸿蒙系统中的AI应用已经涵盖了语音助手、图像识别、智能推荐等多个领域，为用户带来了更加智能、便捷的体验。然而，随着
《解锁鸿蒙系统AI能力，开启智能应用开发新时代》人工智能深度学习
在当今科技飞速发展的时代，鸿蒙系统以其独特的分布式架构和强大的AI能力，为开发者们带来了前所未有的机遇。本文将深入探讨开发者如何利用鸿蒙系统的AI能力开发更智能的应用，开启智能应用开发的新时代。鸿蒙系统构筑了15+系统级的AI能力，并开放了14+AI控件，覆盖图像、语音、智能推荐等领域。这意味着开发者无需从头搭建复杂的AI模型和算法，只需通过低至“一行代码”调用系统级原生AI能力，如文本识别、视觉
mermaid大全（语法、流程图、时序图、甘特图、饼图、用户旅行图、类图） Le0v1n 奇奇怪怪的知识软件推荐面试题（Interview Questions）流程图甘特图
⚠️有些网站的mermaid可能不完整，因此下面教程中可能有些语法是无效的。亲测Typora软件均可以显示。1.介绍Mermaid是一个基于JavaScript的图表绘制工具，它使用类似Markdown的语法来创建和修改各种类型的图表。以下是关于Mermaid的详细介绍：1.核心功能文本驱动的图表生成：Mermaid允许用户通过简单的文本语法来创建流程图、序列图、甘特图、类图、状态图、实体关系图等
《解锁数据新动能：数据标注工具与AI模型训练平台的无缝对接热潮》人工智能深度学习
在当今人工智能飞速发展的时代，数据已然成为驱动其进步的核心燃料。而数据标注工具与人工智能模型训练平台的集成，实现数据的无缝流转，正逐渐成为行业内的关键热点，犹如为人工智能的发展装上了强劲的双引擎。为何集成如此关键数据标注是为数据赋予标签，使其能被人工智能模型理解和学习的过程。训练平台则是利用这些标注好的数据来构建和优化模型。两者若相互独立运作，数据在不同系统间的传输会面临格式不兼容、接口不匹配等难
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一