ctrlcvKing

自然语言处理中的文本表示

文章目录

词的离散表示
- One-Hot
词的分布式表示
- N-gram模型
- NNLM
- - 具体实现：
- Word2Vec
- CBOW：根据中心词的上下文来预测输出中心词
- - CBOW模型流程举例
- Skip-gram Model：通过中心词，预测周围的词
- Glove
- - 如何实现？
  - - 1.构建共现矩阵
    - 2-3.构建词向量和共现矩阵之间的公式关系，以及损失函数
    - 4.迭代训练，得到词向量
- fastText
- - 模型架构
  - 核心思想
  - 与word2vec比较
- ELMO
- - ELMO结构
  - - 第一阶段：预训练
    - 第二阶段：使用预训练好的特征做下游任务
- GPT
- - 模型结构![在这里插入图片描述](https://img-blog.csdnimg.cn/58eea78f00be40f8b81860d1d7e2fdd7.png)
  - - 无监督的预训练任务：基于 $k$ 个历史词 $x_{i-k}...x_{i-1}$ ，预测当前时刻的词 $x_{i}$
  - 有监督的微调
- BERT
- - 预训练过程
  - - - 训练任务：
      - 输入
  - 微调Bert
参考文章

自然语言处理相关任务中要将自然语言交给机器学习中的算法来处理，通常需要将语言数学化，因为机器不是人，机器只认数学符号。向量是人把自然界的东西抽象出来交给机器处理的东西，基本上可以说向量是人对机器输入的主要方式了。

词向量就是用来将语言中的词进行数学化的一种方式，顾名思义，词向量就是把一个词表示成一个向量。

词的离散表示

One-Hot

一种最简单的词向量方式是One-Hot编码。首先根据现有文本资源，建立字典或词典(分词去重)。假设词典的大小为n（词典中有n个词），假如某个词在词典中的位置为k，则设立一个n维向量，第k维置1，其余维全都置0。

假设语料库中的一句话为：北京大学在北京

分词后为：['北', '京', '大', '学', '在']

one-hot编码：
  # [1,0,0,0,0] 北
  # [0,1,0,0,0] 京
  # [0,0,1,0,0] 大
  # [0,0,0,1,0] 学
  # [0,0,0,0,1] 在

一个样本的特征向量即该样本中的每个单词的one-hot向量直接相加。
那么 “北京大学”用特征向量表示为[1,1,1,1,0]

假如这里有三句话，即三个样本：

“我喜欢你”； “你喜欢你的狗狗”； “你是狗狗”

假设已经分词完成，这个词典依次包含[我，喜欢，你，的，是，狗狗]这六个词。
根据one-hot编码，“我”就会被编码为[1,0,0,0,0,0]，而“喜欢”就被编码为[0,1,0,0,0,0]，以此类推。

一个样本的特征向量即该样本中的每个单词的one-hot向量直接相加。这三个样本的特征向量便会表示为：

我喜欢你：[1,1,1,0,0,0]

你喜欢你的狗狗：[0,1,2,1,0,1]

你是狗狗:[0,0,1,0,1,1]

其中，第二个句子中“你”出现了两次，因此第三维的值为2。

这样，基于one-hot的文本表示便处理完成。

该方法虽然简单，并且适用于任意文本数据，但存在很多严重问题：

维度爆炸。由于每一个单词的词向量的维度都等于词汇表的长度，对于大规模语料训练的情况，词汇表将异常庞大，使模型的计算量剧增造成维数灾难。
矩阵稀疏。有用的信息零散地分布在大量数据中。这会导致结果异常稀疏，使其难以进行优化，对于神经网络来说尤其如此。
向量正交。由于两两向量正交，无法表达两词向量之间的其他信息，造成了“语义鸿沟”的现象，此特点对于NLP任务是相当致命的。
文本中词之间的顺序性、相对重要性等等，都没法区分和体现。

因此我们需要一种更好的表示方法：分布式表示

词的分布式表示

词的分布式表示这个名字（distributed representation）就是相对于one-hot 表示而来的，可以理解为，one-hot表示把所有的词都集中在了一个维度上，而分布式表示，就是一个词在各个维度上都分布有，分散了某种风险，增加了某些信息量。

基本想法是：通过训练将某种语言中的每一个词映射成一个固定长度的短向量（当然这里的“短”是相对于One-Hot Representation的“长”而言的），所有这些向量构成一个词向量空间，而每一个向量则可视为该空间中的一个点，在这个空间上引入“距离”，就可以根据词之间的距离来判断它们之间的语法、语义上的相似性了。

为什么叫Distributed Representation？一个简单的解释是这样的：对于One-Hot Representation，向量中只有一个非零分量，非常集中（有点孤注一掷的感觉）；而对于Distributed Representation，向量中有大量非零分量，相对分散（有点风险平摊的感觉），把词的信息分布到各个分量中去了。这一点，跟并行计算里的分布式并行很像。

对于分布式表示来说，每个词的向量大大缩短（相比one hot编码），可以通过计算两个词之间的空间距离，这个距离可能能表征词义，语法上的相似性。

N-gram模型

自然语言处理过程中，一个值得我们注意的是，如果我们仅仅是将文本字符串分割成单独的文本，此时我们只是简单的去分析文本中每个字符所代表的潜在意义与我们需要分析的结果的关系性，然而我们忽略一个非常重要的信息，文本的顺序是含有非常重要的信息的。

该模型基于这样一种假设，第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

如果我们有一个由 m 个词组成的序列（或者说一个句子），我们希望算得概率 $P(w_{1},w_{2},...w_{m},)=P(w_{1})*P(w_{2},|w_{1})*P(w_{3},|w_{1},w_{2})...*P(w_{m},|w_{1},w_{},...,w_{m-1})$
显然这个概率显然并不好算，不妨利用马尔科夫链的假设，即当前这个词仅仅跟前面 $n$ 个有限的词相关，因此也就不必追溯到最开始的那个词，这样便可以大幅缩减上述算式的长度。
$P(w_{1},w_{2},...w_{m},)=P(w_{i-n+1},w_{i-n+2},...,w_{i-n})$

NNLM

和N-gram类似，NNLM也假设当前词仅依赖于前n-1个词（nnlm是n-gram的进化版）

NNLM的主要任务是要学习一个解决语言模型任务的网络结构，语言模型就是要看到上文预测下文，而word embedding只是这个模型的副产物

它的训练方法是：给定一个句子中某个单词的前t-1个单词，要求模型能够正确预测出这个单词。

比如输入某句话中的单词 $W t = B er t$ 前面的 $t - 1$ 个单词，要求网络正确预测单词Bert，即最大化： $W1,W2,...W(t-1);\Theta )$

前面任意单词 $Wi$ 用one-hot编码（比如：[0 0 1 0 0 0 0]）作为原始单词输入，之后乘以矩阵Q后获得向量 $C (Wi)$ ，每个单词的 $C (Wi)$ 拼接，上接隐层，然后接softmax去预测后面应该后续接哪个单词。这个 $C (Wi)$ 是什么？这其实就是单词对应的Word Embedding值，那个矩阵Q包含V行，V代表词典大小，每一行内容代表对应单词的Word embedding值。只不过Q的内容也是网络参数，需要学习获得，训练刚开始用随机值初始化矩阵Q，当这个网络训练好之后，矩阵Q的内容被正确赋值，每一行代表一个单词对应的Word embedding值。所以你看，通过这个网络学习语言模型任务，这个网络不仅自己能够根据上文预测后接单词是什么，同时获得一个副产品，就是那个矩阵Q，这就是单词的Word Embedding是被如何学会的。

具体实现：

根据上图可以看出，该模型结构分为三层，分别是输入层，一层隐藏层，输出层。

输出层：从one-hot到distribution representation

输入前 $t - 1$ 个单词的one-hot编码，假设词表大小为 $V$ ，则每个单词 $Wi$ 的one-hot编码向量为 $1 * V$
经过一个参数矩阵 $C$ ，（ $C$ 为一个 $V * m$ 的自由参数矩阵，其中V为词表大小，m表示每个词的维度），得到 $C (Wi)$ 为 $1 * m$ 的分布式向量。
将 $C(W_{t-1}),C(W_{t-2}),...,C(W_{t-n+1})$ 首尾拼接得到 $x = [C(W_{t-1}),C(W_{t-2}),...,C(W_{t-n+1})]$ ，即一个x是一个 $1 * (t - 1) m$ 维的向量

隐藏层：

$x$ 通过函数 $g$ 作用，输出概率分布。函数 $g$ 的实现可以是前向神经网络或者循环神经网络或者其它参数化的函数，论文的实现如下：
$y = b + W x + U t anh (d + H x)$
$t anh (d + H x)$ 是隐藏层， $W ， H ， U ， b$ 都是要训练的参数矩阵

输出层：
为了使得得到的概率分布之和为1，需要用到softmax函数

……

Word2Vec

Word2Vec的网络结构其实和NNLM是基本类似的。不过这里需要指出：尽管网络结构相近，而且也是做语言模型任务，但是其训练方法不太一样。Word2Vec有两种训练方法，一种叫CBOW，核心思想是从一个句子里面把一个词抠掉，用这个词的上文和下文去预测被抠掉的这个词；第二种叫做Skip-gram，和CBOW正好反过来，输入某个单词，要求网络预测它的上下文单词。而你回头看看，NNLM是怎么训练的？是输入一个单词的上文，去预测这个单词。这是有显著差异的。为什么Word2Vec这么处理？原因很简单，因为Word2Vec和NNLM不一样，NNLM的主要任务是要学习一个解决语言模型任务的网络结构，语言模型就是要看到上文预测下文，而word embedding只是无心插柳的一个副产品。但是Word2Vec目标不一样，它单纯就是要word embedding的，这是主产品，所以它完全可以随性地这么去训练网络。

Word2vec是如何得到词向量的？

首先有了语料库，对于语料库进行预处理，比如英文语料库可能需要大小写转换及拼写错误的检测等操作，如果是中文日语等语料库需要先进行分词处理，这些与语料库的种类和任务目标有关。得到预处理后的语料库以后，将其每个词的one-hot向量作为word2vec的输入，通过word2vec训练得到低维词向量。

Word2vec通过语言模型学习到词的向量表示。语言模型即是简单的神经网络模型，如y=f(x)，x为输入文本，y为输出文本，f即为神经网络。通过设置网络损失函数，使得输出y最大化接近目标target，实现训练神经网络模型的目的。而训练好的神经网络模型的参数矩阵，即是词向量。

（上述一段话通俗的讲：在 NLP 中，把 x 看做一个句子里的一个词语，y 是这个词语的上下文词语，那么这里的 f，便是 NLP 中经常出现的『语言模型』（language model），这个模型的目的，就是判断 (x,y) 这个样本，是否符合自然语言的法则，更通俗点说就是：词语x和词语y放在一起，是不是人话。
Word2vec 正是来源于这个思想，但它的最终目的，不是要把 f 训练得多么完美，而是只关心模型训练完后的副产物——模型参数（这里特指神经网络的权重），并将这些参数，作为输入 x 的某种向量化的表示，这个向量便叫做——词向量）

Word2vec包含CBOW(Continuous Bag-of-Words Model)和Skip-gram (Continuous Skip-gram Model)两种训练模式。两个模型的区别是前者通过周边的词对中心词进行预测，更具体的说是将周边的词向量进行加和，得到了中间的词；而skip gram是通过中心词，预测周围的词。

CBOW：根据中心词的上下文来预测输出中心词

注意上图输入有C个，然后分别与W相乘：CBOW是根据上下文预测本词，所以上下文的个数为C，这C个词的one-hot分别与W相乘，相加取平均再与输出矩阵W’相乘获得输出进行loss计算。这里的矩阵W、即是生成的word的vector，也即我们需要的词向量。

训练过程：
1、输入：上下文单词的one-hot向量，假设单词向量空间为V，上下文单词个数为C；

2、所有one-hot分别乘以共享的输入权重矩阵W，维度V*N，N为个人指定维度，W为初始化权重矩阵；

3、所得所有向量相加求和取平均作为隐层向量，维度为1*N；

4、乘以输出权重矩阵W’ (N*V维度)

5、得到输出向量1*V，经softmax函数输出概率分布，概率最大的index即为预测的中间词；

6、损失函数，交叉熵损失，与true label 越相近越好。

为了更好的了解模型深处的原理，我们先从一个最简单的CBOW model（仅输入一个词，输出一个词）框架说起。

如上图所示：

input layer输入的X是单词的one-hot representation（考虑一个词表V，里面的每一个词都有一个编号i∈{1,…,|V|}，那么词的one-hot表示就是一个维度为|V|的向量，其中第i个元素值非零，其余元素全为0，例如：w2=[0,1,0,0,…,0]T）；
输入层到隐藏层之间有一个权重矩阵W，隐藏层得到的值是由输入X乘上权重矩阵得到的（会发现，0-1向量乘上一个矩阵，就相当于选择了权重矩阵的某一行，如图：输入的向量X是[0，0，1，0，0，0]，W的转置乘上X就相当于从矩阵中选择第3行[2,1,3]作为隐藏层的值）;
隐藏层到输出层也有一个权重矩阵W’，因此，输出层向量y的每一个值，其实就是隐藏层的向量点乘权重向量W’的每一列，比如输出层的第一个数7，就是向量[2,1,3]和列向量[1，2，1]点乘之后的结果；
最终的输出需要经过softmax函数，将输出向量中的每一个元素归一化到0-1之间的概率，概率最大的，就是预测的词。

了解了Simple CBOW model之后，扩展到CBOW就很容易了，只是把单个输入换成多个输入罢了

输入由1个词变成了C个词，每个输入Xik到达隐藏层都会经过相同的权重矩阵W，隐藏层h的值变成了多个词乘上权重矩阵之后加和求平均值。

CBOW模型流程举例

假设我们现在的语料是这一个简单的只有四个单词的句子：

{I drink coffee everyday}

我们选coffee作为中心词，window size设为2，也就是说，我们要根据单词 “I”, “drink” 和 “everyday” 来预测一个单词，并且我们希望这个单词是coffee。

假设我们此时得到的概率分布已经达到了设定的迭代次数，那么现在我们训练出来的look up table应该为矩阵W。即，任何一个单词的one-hot表示乘以这个矩阵都将得到自己的word embedding。

Skip-gram Model：通过中心词，预测周围的词

Skip-gram model是通过输入一个词去预测多个词的概率。输入层到隐藏层的原理和simple CBOW一样，不同的是隐藏层到输出层，损失函数变成了C个词损失函数的总和，权重矩阵W’还是共享的。

一般神经网络语言模型在预测的时候，输出的是预测目标词的概率，也就是说我每一次预测都要基于全部的数据集进行计算，这无疑会带来很大的时间开销。不同于其他神经网络，Word2Vec提出两种加快训练速度的方式，一种是Hierarchical softmax，另一种是Negative Sampling…（未完）

Glove

word2vector在学习词与词间的关系上有了大进步，但是它有很明显的缺点：只能利用一定窗长的上下文环境，即利用局部信息，没法利用整个语料库的全局信息。鉴于此，GloVe诞生了，它的全称是global vector，很明显它是要改进word2vector，成功利用语料库的全局信息。

GloVe的全称叫Global Vectors for Word Representation，它是根据统计全局语料的词频来得到词向量。

如何实现？

首先根据语料库构建一个共现矩阵X，矩阵中的每个元素Xij代表整个语料库中，单词i和单词j共同出现在一个窗口中的次数。
构建词向量和矩阵之间的关系，论文的作者提出以下的公式可以近似地表达两者之间的关系：

具体公式怎么实现见下文
有了公式就可以构造损失函数
不断迭代训练得到词向量

1.构建共现矩阵

首先构建一个空矩阵，大小为V × V ，即词汇表×词汇表，值全为0。矩阵中的元素坐标记为( i , j )
确定一个滑动窗口的大小（滑动窗口内中心词 i 两边的单词就是上下文环境）
从语料库的第一个单词开始，以1的步长滑动该窗口。中心词 i 从第一个单词开始
在窗口内，统计上下文环境中单词 j 出现的次数，并将该值累计到( i , j )位置上
不断滑动窗口进行统计即可得到共现矩阵

举例说明：
假设有语料库：i love you but you love him i am sad

这语料库只有1个句子，涉及到7个单词：i、love、you、but、him、am、sad。
如果我们采用一个窗口半径为2（窗口大小为5）的统计窗口，那么就有以下窗口内容：
窗口0、1长度小于5是因为中心词左侧内容少于2个，同理窗口8、9长度也小于5。

以窗口5为例说明如何构造共现矩阵：
中心词为love，语境词为but、you、him、i；则执行：

	 X love,but += 1
	 X love,you += 1
	 X love,him += 1
	 X love,i   += 1

2-3.构建词向量和共现矩阵之间的公式关系，以及损失函数

首先了解一下什么是叫共现概率：我们定义 X 为共现矩阵，共现矩阵的元素 Xij 为词 j 出现在词 i 环境的次数，

那么为词 j 出现在词 i 环境中的概率(这里以频率表概率)，这一概率被称为词i和词 j 的共现概率。共现概率是指在给定的环境下出现(共现)某一个词的概率。

接下来阐述为啥要提共现概率和共现概率比这一概念。下面是论文中给的一组数据：

第一行，ice出现时，water出现的概率是0.003，大于ice出现时solid、gas、fashion词出现的概率。显然这是符合逻辑常理的。
第二行也是如此。

第三行：
当ice的语境下出现solid的概率应该很大，当steam的语境下共现solid的概率应当很小，那么比值就>>1。
当ice的语境下出现gas的概率应该很小，当steam的语境下出现gas的概率应该很大，那么比值<<1
当ice的语境下出现water的概率应该很大，当steam的语境下出现water的概率应该也很大，那么比值约等于1.
当ice的语境下出现fashion的概率应该很小，当steam的语境下出现fashion的概率应该也很小，那么比值约等于1.

P(i,k)与P(j,k)的比值	单词j,k相关	单词j,k不相关
单词i,k相关	趋近1	很大
单词i,k不相关	很小	趋近1

所以说，P(i,k)与P(j,k)的比值能够反映词之间的相关性

明确一下，glove模型的目标是获取每个词的向量表示v。
不妨设我们现在已经得到了词i ，j，k的词向量Wi，Wj，Wk。通过上述推断，我们认为这三个向量通过函数的作用后，呈现出的规律与具有一致性。

假设这个函数是F，则

公式右边 Pik 和 Pjk 可以通过统计求得，公式左边Wi，Wj，Wk是我们模型要求的量，同时函数F是未知的

如果能够把函数F的形式确定下来，就可以通过优化算法求得词向量了。

论文的作者是怎么把F确定下来的呢：

另一篇作者的说明：

于是，glove模型的学习策略就是通过将两个词的词向量经过内积操作和平移变换去趋于两个词共现次数的对数值，这是一个回归问题。于是作者这样设计损失函数：

这里用的是误差平方和作为损失值，其中N表示语料库词典单词数。这里在误差平方前给了一个权重函数 f(Xij) ，这个权重是用来控制不同大小的共现次数 Xij 对结果的影响的。

为什么要添加这个函数呢？我们知道在一个语料库中，肯定存在很多单词他们在一起出现的次数是很多的（frequent co-occurrences），那么我们希望：

这些单词的权重要大于那些很少在一起出现的单词（rare co-occurrences），所以这个函数要是非递减函数（non-decreasing）
但也不希望这个权重过大（overweighted），当到达一定程度之后应该不再增加
如果两个单词没有在一起出现，也就是Xij = 0，那么他们应该不参与到loss function的计算当中去，也就是f(x) 要满足 f(0) = 0

作者是这么设计这个权重函数的：

也就是说两个词共现次数越多，它占有更大的权重，损失值被放大，将被惩罚得更厉害些。两个词共现次数少的，占有更小的权重，损失值被缩小，将被惩罚得轻一些。这样就可以使得不常共现的一对词对结果的贡献不会太小，而不会过分偏向于常共现的一对词。

4.迭代训练，得到词向量

关于glove模型训练，大致是这样的：从共现矩阵中随机采集一批非零词对作为一个mini-batch的训练数据；随机初始化这些训练数据的词向量以及随机初始化两个偏置；然后进行内积和平移操作并与 logXik 计算损失值，计算梯度值；然后反向传播更新词向量和两个偏置；循环以上过程直到结束条件。

公式中的Wi 和 Wj 是我们要得到的向量，也是训练中要不断更新的参数。具体地，这篇论文里的实验是这么做的：采用了AdaGrad的梯度下降算法，对共现矩阵X中的所有非零元素进行随机采样，学习曲率（learning rate）设为0.05，在向量维度（vector size）小于300的情况下迭代了50次，其他大小的vectors上迭代了100次，直至收敛。最终学习得到的是两个vector是Wi 和 Wj。因为共现矩阵X是对称的，所以从原理上讲，Wi 和 Wj 也是相等的，他们唯一的区别是初始化时的值不一样，导致最终的值不一样。所以这两者其实是等价的，都可以当成最终的结果来使用。但是为了提高鲁棒性，我们最终会选择两者之和Wi + Wj 作为最终的vector（两者的初始化不同相当于加了不同的随机噪声，所以能提高鲁棒性）。

fastText

详细讲解请看fastText原理及实践

fastText 设计之初是为了解决文本分类问题的，只不过在解决分类问题的同时 fastText 也能产生词向量，因此后来也被用来生成词向量。

word2vec把语料库中的每个单词当成原子的，它会为每个单词生成一个向量。这忽略了单词内部的形态特征，比如：“apple” 和“apples”，两个单词有较多公共字符，即它们的内部形态类似，但是在传统的word2vec中，这种单词内部形态信息因为它们被转换成不同的id丢失了。

为了克服这个问题，fastText使用了字符级别的n-grams来表示一个单词。对于单词“apple”，假设n的取值为3，则它的trigram有

“<ap”, “app”, “ppl”, “ple”, “le>”

其中，<表示前缀，>表示后缀。于是，我们可以用这些trigram来表示“apple”这个单词，进一步，我们可以用这5个trigram的向量叠加来表示“apple”的词向量。

这带来两点好处：

对于低频词生成的词向量效果会更好。因为它们的n-gram可以和其它词共享。
对于训练词库之外的单词，仍然可以构建它们的词向量。我们可以叠加它们的字符级n-gram向量。

模型架构

fastText模型架构和word2vec的CBOW模型架构非常相似。下面是fastText模型架构图：

注意：此架构图没有展示词向量的训练过程。

可以看到，和CBOW一样，fastText模型也只有三层：输入层、隐含层、输出层（Hierarchical Softmax），输入都是多个经过向量表示的单词，输出都是一个特定的target，隐含层都是对多个词向量的叠加平均。

不同的是，CBOW的输入是目标单词的上下文，fastText的输入是多个单词及其n-gram特征，这些特征用来表示单个文档；CBOW的输入单词被onehot编码过，fastText的输入特征是被embedding过；CBOW的输出是目标词汇，fastText的输出是文档对应的类标。

值得注意的是，fastText在输入时，将单词的字符级别的n-gram向量作为额外的特征。在输出时，fastText采用了分层Softmax，大大降低了模型训练时间。

核心思想

观察模型的后半部分，即从隐含层输出到输出层输出，它是一个softmax线性多类别分类器，分类器的输入是一个用来表征当前文档的向量；
模型的前半部分，即从输入层输入到隐含层输出部分，主要在做一件事情：生成用来表征文档的向量。那么它是如何做的呢？叠加构成这篇文档的所有词及n-gram的词向量，然后取平均。叠加词向量背后的思想就是传统的词袋法，即将文档看成一个由词构成的集合。

（输入是每个词的one-hot吗，还是一个文本的n-gram？n-gram怎么加进去？？如果从得到词向量的角度看，输入层到隐藏层中间的权重矩阵就是要得到的词向量，那么输入应该是每个词的one-hot，那么n-gram怎么加进去的？？）

词、字、字符级n-gram？
一个单词如果从字符级n-gram工作，例如对单个单词matter来说，假设采用3-gram特征，那么matter可以表示成【】五个3-gram特征，这五个特征都有各自的词向量，五个特征的词向量和即为matter这个词的n-gram词向量？，这样说，一个单词的n-gram词向量与单词本身的词向量区分开来

于是fastText的核心思想就是：将整篇文档的词及n-gram向量叠加平均得到文档向量，然后使用文档向量做softmax多分类。这中间涉及到两个技巧：字符级n-gram特征的引入以及分层Softmax分类。

浅谈fastText中的N-gram特征

与word2vec比较

fastText 和 word2vec 类似，也是通过训练一个神经网络，然后提取神经网络中的参数作为词语的词向量，只不过 fastText 训练网络的方法是对文本进行分类。
此外 word2vec 的输入是多个词语的 noe-hot 编码，fastText的输入是多个单词及其n-gram特征；同时fastText为了解决类别过多导致的softmax函数计算量过大的问题，使用了层次softmax代替标准的softmax

fastText 和 word2vec 最主要的区别如下：

输入增加了n-gram特征
使用层次softmax做多分类
通过文本分类的方式来训练模型

ELMO

2013年的word2vec及2014年的GloVe的工作中，每个词对应一个vector，对于多义词无能为力。ELMo的工作对于此，提出了一个较好的解决方案。不同于以往的一个词对应一个向量，是固定的。在ELMo世界里，预训练好的模型不再只是向量对应关系，而是一个训练好的模型。使用时，将一句话或一段话输入模型，模型会根据上下文来推断每个词对应的词向量。这样做之后明显的好处之一就是对于多义词，可以结合前后语境对多义词进行理解。比如apple，可以根据前后文语境理解为公司或水果。

ELMO的本质思想是：事先用语言模型训练好每一个单词的Word Embedding，此时多义词无法区分。在实际使用Word Embedding的时候，单词已经具备了特定的上下文了，这个时候我可以根据上下文单词的语义去调整单词的Word Embedding表示，这样经过调整后的Word Embedding更能表达在这个上下文中的具体含义。

ELMO结构

通过上述ELMO的本质思想，它可以分为两个阶段

第一个阶段是：利用语言模型进行预训练。
第二个阶段是：在做下游任务时，从预训练网络中提取对应单词的网络各层的Word Embedding作为新特征补充到下游任务中。

第一阶段：预训练

上图展示的是其预训练过程，它的网络结构采用了双层双向LSTM，目前语言模型训练的任务目标是：根据单词 $W_{i}$ 的上下文去正确预测单词 $W_{i}$ 。

关于LSTM、ELMO原理等的知识参考[13~16]

图中左端的前向双层LSTM代表正方向编码器，输入的是从左到右顺序的除了预测单词 $W_{i}$ 外的上文（Context-before）；右端的逆向双层LSTM代表反方向编码器，输入的是从右到左的逆序的句子下文（Context-after）；每个编码器的深度都是两层LSTM叠加。

使用这个网络结构利用大量语料做语言模型任务就能预先训练好这个网络，如果训练好这个网络后，输入一个新句子 Snew ，句子中每个单词都能得到对应的三个Embedding：

最底层是单词的Word Embedding
往上走是第一层双向LSTM中对应单词位置的Embedding，这层编码单词的句法信息更多一些
再往上走是第二层LSTM中对应单词位置的Embedding，这层编码单词的语义信息更多一些

所以说，ELMO的预训练过程不仅得到了单词的Word Embedding，还得到了一个双层双向的LSTM网络结构，而这两者后面都有用。

第二阶段：使用预训练好的特征做下游任务

上图展示了下游任务的使用过程，比如我们的下游任务仍然是QA问题，此时对于问句X：

先将句子X作为预训练好的ELMO网络的输入，这样句子X中每个单词在ELMO网络中都能获得对应的三个Embedding。
之后给这三个Embedding中的每一个Embedding一个权重a，这个权重可以学习得来，根据各自权重累加求和，将三个Embedding整合成一个。
然后将整合后的这个Embedding作为X句在自己任务的那个网络结构中对应单词的输入，以此作为补充的新特征给下游任务使用。

对于上图所示下游任务QA中的回答句子Y来说也是如此处理。因为ELMO给下游提供的是每个单词的特征形式，所以这一类预训练的方法被称为“Feature-based Pre-Training”。

GPT

现实世界中，无标签的文本语料库非常巨大，而带有标签的数据则显得十分匮乏，如何有效利用无标签的原始文本，对缓解自然语言处理相关任务对有监督学习方式的依赖显得至关重要。

论文中提出了半监督的方式来做语言理解，也就是无监督的pre-train，和有监督的fine-tune。该方法首先利用无监督的pre−train模型，学习到更加普遍、更适用的表征，然后模型以很小的微调迁移到众多特定的有监督学习任务上。

GPT 训练过程分为两个阶段：第一个阶段是 Pre-training 阶段，主要利用大型语料库完成非监督学习；第二阶段是 Fine-tuning，针对特定任务在相应数据集中进行监督学习，通过 Fine-tuning 技术来适配具体任务。

模型结构

从上图我们可以看出，GPT 采用 Transformer 作为特征提取器，并基于语言模型进行训练。这里只使用了 Transformer 的 Decoder 部分，并且每个子层只有一个 Masked Multi Self-Attention（768 维向量和 12 个 Attention Head）和一个 Feed Forward，共叠加使用了 12 层的 Decoder。

这里简单解释下为什么没有用decoder中的encoder-decoder attention：语言模型是利用上文预测下一个单词的，因为 Decoder 使用了 Masked Multi Self-Attention 屏蔽了单词的后面内容，所以 Decoder 是现成的语言模型。又因为没有使用 Encoder，所以也就不需要 encoder-decoder attention 了。

第一阶段，在大型文本语料库上学习高能力的语言模型
第二阶段，用带有标签数据的判别任务对模型进行微调

无监督的预训练任务：基于 $k$ 个历史词 $x_{i-k}...x_{i-1}$ ，预测当前时刻的词 $x_{i}$

实验中使用多层transformers decoder层训练语言模型

$U=(x_{i-k}...x_{i-1})$ 是前k个词token后的one-hot向量 --> $k$ X |V|
$W_{e}$ 是token Embedding矩阵( $∣ V ∣$ X $d$ ，d为词向量维度)， $W_{p}$ 是position embedding矩阵
$n$ 是transformers的层数

有监督的微调

假设我们有一个数据集 $C$ ，每个实例由 $x_{1},x_{2},...,x_{m}$ token序列和一个标签 $y$ 组成。

token序列通过我们预训练的模型，得到最后的transformers块 $h_{l}^{m}$ ，然后用 $W_{y}$ 将它加到线性层进行输出，并预测标签 $y$ 。

也就是要最大化目标：

另外发现，把预训练好的语言模型作为微调的辅助目标，不仅可以使模型更具有泛化性，而且可以加速收敛。具体而言，优化下面目标：

BERT

在GPT中，语言模型是单向的，每个token只能注意到前面的token。这样对于句子级任务不是最优的，对于~~微调的token级任务~~ （比如问答任务）是不利的，因为来自两个方向的上下文信息很重要。？？

作者提出了改进方案：使用双向transformers编码层（在解码器中的self attention 层与编码器中的稍有不同，在解码器中，self-attention 层仅仅允许关注早于当前输出的位置。在softmax之前，通过遮挡未来位置（将它们设置为-inf）来实现）

预训练过程

训练任务：

masked language model：随机mask输入中的一些tokens，然后在预训练中对它们进行预测。这样做的好处是学习到的表征能够融合两个方向上的context。

作者在他的实现中随机选择了句子中15%的 token 作为要mask的词。这样的缺点是缺点是如果总是把一些词mask起来，未来的fine tuning过程中模型有可能没见过这些词。为了解决这个问题，作者在做mask的时候，
80%的时间真的用[MASK]取代被选中的词。比如 my dog is hairy -> my dog is [MASK]
10%的时间用一个随机词取代它：my dog is hairy -> my dog is apple
10%的时间保持不变: my dog is hairy -> my dog is hairy

为什么要以一定的概率保持不变呢？这是因为刚才说了，如果100%的时间都用[MASK]来取代被选中的词，那么在fine tuning的时候模型会有一些没见过的词。那么为啥要以一定的概率使用随机词呢？这是因为Transformer要保持对每个输入token分布式的表征，否则Transformer很可能会记住这个[MASK]就是"hairy"。至于使用随机词带来的负面影响，文章中说了,所有其他的token(即非"hairy"的token)共享15%*10% = 1.5%的概率，其影响是可以忽略不计的

next sentence prediction：选择一些句子对A与B，判断B是否是A的下一条句子。添加这样的预训练的目的是目前很多NLP的任务比如QA和NLI都需要理解两个句子之间的关系，从而能让预训练的模型更好的适应这样的任务。

输入

bert的输入可以是单一的一个句子或者是句子对，实际的输入值是三个词向量的相加

Token Embedding：WordPiece tokenization subword词向量。
Segment Embedding：表明这个词属于哪个句子（NSP需要两个句子）。
Position Embedding：学习出来的embedding向量。这与Transformer不同，Transformer中是预先设定好的值。

bert的三个嵌入层是如何实现的

微调Bert

微调很简单，因为transformers的self-attention机制可以建模很多下游任务，无论是单文本还是文本对…

参考文章

Word2Vec如何得到词向量
Bert系列一：词表示，从one-hot到transformer
深入浅出Word2Vec原理解析
词向量经典模型：从word2vec、glove、ELMo到BERT
[NLP] 秒懂词向量Word2vec的本质
fastText论文
GloVe详解
详解GloVe词向量模型
理解GloVe模型（+总结）
Glove论文
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
每天学点NLP知识
一文搞懂RNN（循环神经网络）基础篇
详解LSTM
ELMo论文
ELMo原理解析及简单上手使用
浅谈fastText中的N-gram特征
GPT论文
GPT详解
Bert论文
…

你可能感兴趣的:(nlp,自然语言处理,深度学习,机器学习,1024程序员节)

深度学习算法，该如何深入，举例说明 liyy614 深度学习
深度学习算法的深入学习可以从理论和实践两个方面进行。理论上，深入理解深度学习需要掌握数学基础（如线性代数、概率论、微积分）、机器学习基础和深度学习框架原理。实践上，可以通过实现和优化深度学习模型来提升技能。理论深入数学基础线性代数：理解向量、矩阵、特征值和特征向量等，对于理解神经网络的权重和偏置矩阵至关重要。概率论：用于理解模型的不确定性，如Dropout等正则化技术。微积分：理解梯度下降等优化算
人工智能聊天机器人未来趋势：AI聊天机器人演变中会期待什么 AI甲子光年人工智能机器人
AI聊天机器人正在改变公司与客户沟通的方式，提供24/7的支持和个性化体验。随着技术的不断发展，AI聊天机器人也在变得越来越复杂和高效。本文将探讨AI聊天机器人的未来趋势，并指出预期将在未来几年塑造其发展的主要创新和发展。了解这些趋势对于希望在AI驱动的客户服务动态领域中保持领先地位的企业和开发者来说至关重要。当前的AI聊天机器人趋势1.自然语言处理的改进在最近过去的一段时间里，自然语言处理（NL
7+纯生信，单细胞识别细胞marker+100种机器学习组合建模，机器学习组合建模取代单独lasso回归势在必行！生信小课堂
影响因子：7.3研究概述：皮肤黑色素瘤（SKCM）是所有皮肤恶性肿瘤中最具侵袭性的类型。本研究从GEO数据库下载单细胞RNA测序（scRNA-seq）数据集，根据原始研究中定义的细胞标记重新注释各种免疫细胞，以确定其特异性标志。接着通过计算免疫细胞通信网络，结合对通信网络的大量分析和通信模式的识别，对所有网络进行了定量表征和比较。最后基于bulkRNA测序数据，使用机器学习训练了枢纽通讯细胞的特定
python基础学习 agente python python 学习开发语言
第一章标识符1、python被称为胶水语言，可以跟各个代码能一块儿使用爬虫、数据分析web全栈开发、数据科学方向、人工智能的机械学习和深度学习、自动化运维、爬虫、办公自动化python是跨平台的，python是解释型语言，不需要编译，python是面向对象的语言1、print()#print()可以输出数字、字符串、含有运算符的表达式#print()可以将内容输出到显示器、文件#print()输出
机器学习和深度学习区别 hong161688 机器学习深度学习人工智能
机器学习和深度学习作为人工智能领域的两大重要分支，虽然有着紧密的联系，但在多个方面存在显著的差异。以下将从定义与起源、技术基础、模型复杂度、数据需求、计算资源需求、应用领域以及学习方式与特点等角度，详细阐述机器学习和深度学习的区别。一、定义与起源机器学习：是人工智能的一个分支，它让计算机能够在没有明确编程的情况下，通过观察和分析大量数据来学习并做出预测或决策。机器学习起源于20世纪50年代，随着算
深度学习算法在图算法中的应用（图卷积网络GCN和图自编码器GAE）大嘤三喵军团深度学习算法网络
深度学习算法在图算法中的应用1.图卷积网络（GraphConvolutionalNetworks,GCN）图卷积网络（GCN）是一种将卷积神经网络（ConvolutionalNeuralNetworks,CNN）推广到图结构数据的方法。GCN被广泛用于节点分类、图分类、链接预测等任务。优势和好处灵活性：GCN可以处理不规则和不均匀的数据结构，比如社交网络、分子结构、交通网络等。高效性：GCN使用局
深度学习速通系列:LoRA微调是什么 Ven% 深度学习速通系列人工智能深度学习 python 机器学习 nlp
LoRA微调（Low-RankAdaptation）是一种用于大型预训练语言模型（LLM）的高效微调技术。它的核心思想是在不改变预训练模型权重的前提下，通过在模型的Transformer层中引入可训练的低秩矩阵来实现模型的微调。这种方法可以显著减少训练参数的数量，从而降低对计算资源的需求。LoRA微调的原理：LoRA微调方法建议冻结预训练模型的权重，并在每个Transformer块中注入可训练的低
书单用户5521
提高思维（13本）：影响力逻辑思维（理查德·尼斯贝特）离经叛道:不按常理出牌的人如何改变世界（只看最后一章总结即可）改变:问题形成和解决的原则语言的魔力:谈笑间转变信念之NLP技巧（意识到语言顺序的重要性）改变心理学的40项研究对伪心理学说不你的误区:如何摆脱负面思维掌控你的生活战胜拖拉你的灯亮着吗?别做正常的傻瓜学会提问:批判性思维指南不确定世界的理性选择小说（5本）：霍乱时期的爱情那些回不去的
基于深度学习的基因组数据分析 SEU-WYL 深度学习dnn 深度学习数据分析人工智能
基于深度学习的基因组数据分析利用深度学习技术来处理和分析基因组数据，帮助解决基因组学领域中一些复杂且具有挑战性的问题。这种方法已经在疾病预测、基因功能预测、变异检测、基因表达调控分析、个性化医疗等方面取得了显著进展。1.基因组数据分析的核心挑战基因组数据分析涉及以下主要挑战：高维数据与稀疏性：基因组数据通常包括数百万到数十亿个碱基对，数据维度非常高。同时，许多基因变异事件是稀有的，这种稀疏性使得数
【机器学习】4 ——熵 qq_43507078 我的机器学习机器学习人工智能
机器学习4——熵文章目录机器学习4——熵前言前言熵衡量随机变量不确定性，由克劳德·香农（ClaudeShannon）在1948年提出，称为香农熵。反映了一个系统中信息的混乱程度或信息量。其定义为：H(P)=−∑xP(x)logP(x)H(P)=-\sum_{x}^{}P(x)logP(x)H(P)=−x∑P(x)logP(x)其中：X是一个随机变量，它有种可能的取值P(x)是X取值为x的概率。熵H
基于深度学习的信号滤波：创新技术与应用挑战逼子歌深度学习神经网络信号滤波图像去噪卷积神经网络长短期记忆网络
一、引言1.1研究背景随着科技的不断发展，信号处理领域面临着越来越复杂的挑战。在众多信号处理技术中，基于深度学习的信号滤波技术逐渐崭露头角，成为研究的热点。基于深度学习的信号滤波在信号处理领域具有至关重要的地位。如今，我们生活在一个数据爆炸的时代，各种信号源不断产生大量的复杂数据。例如，在通信领域，信号常常受到噪声干扰，传统的滤波方法在处理复杂、非线性信号时可能效果不佳。而深度学习技术具有自动特征
数据分析-18-时间序列分析的季节性检验皮皮冰燃数据分析数据分析
1什么是时间序列时间序列是一组按时间顺序排列的数据点的集合，通常以固定的时间间隔进行观测。这些数据点可以是按小时、天、月甚至年进行采样的。时间序列在许多领域中都有广泛应用，例如金融、经济学、气象学和工程等。时间序列的分析可以帮助我们理解和预测未来的趋势和模式，以及了解数据的周期性、趋势、季节性等特征。常用的时间序列分析方法包括平滑法、回归分析、ARIMA模型、指数平滑法和机器学习方法等。1.1时间
【Python】解决AttributeError: ‘NoneType‘ object has no attribute ‘xxxx‘ 云天徽上 Pandas python 开发语言 pandas 机器学习 numpy
【Python】解决AttributeError:'NoneType'objecthasnoattribute'xxxx'报错欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是云天徽上，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其
Sora文本生成影像模型背后的创新原理与挑战 noVonN c语言深度学习算法区块链人工智能
引言随着人工智能技术的飞速发展，OpenAI作为行业领导者，在文本生成领域取得重大突破之后，近日又推出了其在影像生成领域的最新力作——Sora。这款模型将自然语言处理与计算机视觉技术相结合，旨在通过输入文本描述来快速创作出逼真的电影场景，为内容创作者提供了前所未有的艺术表达工具。然而，正如OpenAI所指出的那样，尽管Sora展现出了令人惊叹的创造力，但它在仿真复杂物理现象和理解具体事例因果关系方
程式语言区分白总Server html python java c++开发语言
程序语言有很多种，每种都有其特定的用途和特点。以下是一些广泛使用的编程语言：1.Python：易于学习，广泛用于数据科学、机器学习、网络开发、自动化等领域。2.Java：广泛应用于企业级应用、安卓开发、大型系统开发等。3.C：一种基础语言，广泛用于系统编程、嵌入式开发、操作系统等领域。4.C++：C语言的扩展，支持面向对象编程，用于游戏开发、高性能应用等。5.JavaScript：主要用于网页前端
SpringMVC的架构有什么优势？——视图与模型（二）不会编程的小孩子架构
#SpringMVC的架构有什么优势？——视图与模型（二）前言关键字：机器学习人工智能AIchatGPT学习实现使用搭建深度python事件远程dockermysql安全技术部署技术自动化代码视图(View)视图是展示结果的组件，它们负责渲染模型数据并生成HTML输出。SpringMVC支持多种视图技术，包括JSP、Thymeleaf等。视图(View)是SpringMVC中渲染并呈现结果的组件，
使用 MongoDB 构建 AI：Patronus 如何自动进行大语言模型评估来增强对生成式 AI 的信心 MongoDB 数据平台 AI应用客户案例人工智能 mongodb
大语言模型可能不可靠，这几乎算不上头条新闻。对于某些用例，这可能会带来不便。而对于其他行业，尤其是受监管行业，后果则要严重得多。于是，业内首个大语言模型自动评估平台PatronusAI应运而生。PatronusAI由MetaAI和MetaRealityLabs的机器学习专家创立，旨在增强企业对生成式AI应用程序的信心，在塑造值得信赖的AI生态方面处于领先地位。Patronus联合创始人兼首席技术官
pytorh基础知识和函数的学习：torchvision.transforms() 深蓝海拓机器视觉和人工智能学习学习 pytorch
transforms是PyTorch的torchvision库中用于图像处理的一个模块。它提供了一组工具，用于在图像数据集上进行常见的预处理和数据增强操作，以便更好地训练深度学习模型。以下是一些常用的torchvision.transforms转换：基础图像转换：transforms.ToTensor():将PIL图像或NumPy数组转换为PyTorch的张量，并将像素值范围从[0,255]缩放到
深度学习驱动下的字符识别：挑战与创新逼子歌神经网络深度学习字符识别卷积神经网络图像处理特征提取
一、引言1.1研究背景深度学习在字符识别领域具有至关重要的地位。随着信息技术的飞速发展，对字符识别的准确性和效率要求越来越高。字符识别作为计算机视觉领域的一个重要研究方向，其主要目的是将各种形式的字符转换成计算机可识别的文本信息。近年来，深度学习技术在字符识别领域取得了显著的进展。国内研究者主要使用基于模板匹配的方法、基于统计模型的方法、基于神经网络的方法等各种方法进行字符识别研究。目前，国内各大
Adam优化器：深度学习中的自适应方法 2401_85743969 深度学习人工智能
引言在深度学习领域，优化算法是训练神经网络的核心组件之一。Adam（AdaptiveMomentEstimation）优化器因其自适应学习率调整能力而受到广泛关注。本文将详细介绍Adam优化器的工作原理、实现机制以及与其他优化器相比的优势。深度学习优化器概述优化器在深度学习中负责调整模型的参数，以最小化损失函数。常见的优化器包括SGD（随机梯度下降）、RMSprop、AdaGrad、AdaDelt
【深度学习实战】行人检测追踪与双向流量计数系统【python源码+Pyqt5界面+数据集+训练代码】YOLOv8、ByteTrack、目标追踪、双向计数、行人检测追踪、过线计数阿_旭 AI应用软件开发实战深度学习实战深度学习 python 行人检测行人追踪过线计数
《博主简介》小伙伴们好，我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。✌更多学习资源，可关注公-仲-hao:【阿旭算法与机器学习】，共同学习交流~感谢小伙伴们点赞、关注！《------往期经典推荐------》一、AI应用软件开发实战专栏【链接】项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体
【PyTorch】使用容器(Containers)进行网络层管理(Module) 遥感小萌新深度学习 python pytorch 人工智能 python 深度学习
文章目录前言一、Sequential二、ModuleList三、ModuleDict四、ParameterList&ParameterDict总结前言当深度学习模型逐渐变得复杂，在编写代码时便会遇到诸多麻烦，此时便需要Containers的帮助。Containers的作用是将一部分网络层模块化，从而更方便地管理和调用。本文介绍PyTorch库常用的nn.Sequential，nn.ModuleLi
深度学习之sigmoid函数介绍 yueguang8 人工智能深度学习人工智能
1.基本概念Sigmoid函数，也称为Logistic函数，是一种常用的数学函数，其数学表达式为：其中，e是自然对数的底数，Zj是输入变量。Sigmoid函数曲线如下所示：计算示例：原始输出结果Zj：[-0.6,1.4,2.5]使用Sigmoid函数后输出为：[0.35,0.8,0.92]2.Sigmoid函数特点Sigmoid函数具有以下特点：值域限定在(0,1)之间：Sigmoid函数的输出范
Deep learning for Computer Vision with Python（1）从零开始入门计算机视觉 Hazelyu27 计算机视觉大数据计算机视觉深度学习
本书的内容分成三个部分：1.初始阶段初始阶段学习：机器学习、神经网络、卷积神经网络、建立数据集。2.实践阶段实践阶段：深入学习深度学习，理解先进技术，发现最佳实践方式。3.图像网络阶段完成计算机视觉领域的经验积累。使用大规模数据集和真实图片案例作为数据集，包括年龄和性别预测，交通工具模型识别。本书提供了对应网站：http://pyimg.co/fnkxk本文介绍前两章内容：基本介绍和深度学习简介。
人工智能与机器学习原理精解【18】叶绿先锋基础数学与应用数学人工智能机器学习
文章目录决策树基础决策树的定义决策树的计算决策树的例子决策树的例题决策树算法一、决策树的算法过程二、决策树的性质Julia中实现框架使用`DecisionTree.jl`使用`MLJ.jl`Julia包的教程一、了解Julia包生态系统二、安装Julia包1.打开JuliaREPL2.使用Pkg包管理器三、使用Julia包四、查找和了解Julia包1.Julia官方文档2.JuliaHub3.Gi
使用matlab的热门问题七十二五值得关注 matlab 开发语言青少年编程算法经验分享
MATLAB广泛应用于科学计算、数据分析、信号处理、图像处理、机器学习等多个领域，因此热门问题也涵盖了这些方面。以下是一些可能被认为当前最热门的MATLAB问题：深度学习与神经网络：如何使用MATLAB的深度学习工具箱（DeepLearningToolbox）来构建和训练神经网络？如何利用MATLAB进行图像识别、语音识别或自然语言处理等深度学习应用？数据分析与可视化：如何使用MATLAB进行大数
如何在Python中处理不平衡数据葡萄_ac1c
Index1、到底什么是不平衡数据2、处理不平衡数据的理论方法3、Python里有什么包可以处理不平衡样本4、Python中具体如何处理失衡样本印象中很久之前有位朋友说要我写一篇如何处理不平衡数据的文章，整理相关的理论与实践知识（可惜本人太懒了，现在才开始写），于是乎有了今天的文章。失衡样本在我们真实世界中是十分常见的，那么我们在机器学习（ML）中使用这些失衡样本数据会出现什么问题呢？如何处理这些
【机器学习】机器学习的基本概念、算法的工作原理、实际应用案例 @我们的天空人工智能技术机器学习算法人工智能自然语言处理金融 python sklearn
一、机器学习的基本概念定义：机器学习是人工智能的一个分支，它使计算机能够在没有明确编程的情况下从数据中学习并改进其性能。机器学习的目标是让计算机自动学习模式和规律，从而能够对未知数据做出预测或决策。主要类型：监督学习：在这种类型的学习中，算法通过已知输入输出数据对进行训练，学习映射函数，以便对新的输入数据进行预测。常见的监督学习任务包括分类和回归。无监督学习：无监督学习的任务是发现数据中的结构或模
大模型日报2024-06-07 赛博 AI 大模型日报人工智能 AIGC GPT4o OpenAI Gemini
大模型日报2024-06-07大模型资讯大规模单细胞转录组学基础模型研究摘要:大型预训练模型已成为基础模型，在自然语言处理及相关领域取得突破。本文介绍了在单细胞转录组学领域应用大规模基础模型的研究进展。MMLU-Pro：评估语言理解模型的新基准摘要:MMLU-Pro是一个增强型基准，旨在评估语言理解模型在更广泛和更具挑战性的任务中的表现。最近，大型语言模型在自然语言处理领域取得了显著进展，推动了这
深度学习目标检测入门COCO数据集日暮途远z 深度学习目标检测人工智能
常见数据集类型：COCO数据集：Pytorch加载COCO数据集：COCO数据集的读取COCO_dataset=torchvision.datasets.CocoDetection(root="./dataset/val2017",annFile="./instances_val2017/instances_val2017.json")root(strorpathlib.Path)–Rootdir
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文