word2vec原理及其Hierarchical Softmax优化

文章目录

- 一、什么是word2vec？
- - 1.1 词嵌入（word embedding）介绍
  - 1.2 word2vec概述
- 二、CBOW模型
- - 2.1 Context滑动窗口
  - 2.2 模型结构
- 三、Hierarchical Softmax优化
- - 3.1 从输入输出的降维到哈夫曼编码
  - 3.2 哈夫曼编码（Huffman Coding）
  - 3.3 从哈夫曼编码到Hierarchical Softmax
  - 3.3 模型的训练
  - - 3.3.1 损失函数（Loss Function）
    - 3.3.2 模型的初始化
    - 3.3.3 模型的迭代
- 四、准确率评估
- 【附】
- - 参考资料
  - gensim

前言：
本文在介绍word2vec原理的基础上，着重介绍了其所采用的一种非常有启发性的优化技巧，即基于哈夫曼树的hierarchical softmax。这也是这里从数种word embedding算法中选择word2vec进行介绍的原因。因此，本文重心会放在对这部分的介绍上，不会对word2vec在NLP领域的应用以及其他优化方法做过多展开。如果你想了解的更深入，可以跳过本文直接看一下参考资料中的文章。

一、什么是word2vec？

word2vec是一种词嵌入（word embedding）算法，由Google提出并于2013年发表（见Paper）。要介绍word2vec就不得不先介绍一下什么是word embedding。

1.1 词嵌入（word embedding）介绍

在NLP建模中，常常面临的一个难题是如何表示单词以便对文本进行建模。对于神经网络等基于数学模型的机器学习模型而言，直接用ASCII码（或GBK编码）表示词作为模型输入显然是不可行的，因为ASCII码和其词语义之间是没什么关联的，两个词的ASCII码之间是非语义连续的、不可比的（或者其差值是没有意义的），而对于需要训练得到一个平滑的数学函数的数学模型而言，这一点是致命的（直接用ASCII码去训练一个数学模型，比如神经网络，有点类似于用神经网络建模一个跳跃函数，比如目标函数对有理数取值是1，无理数取值是0，显然是几乎不可能得到一个令人满意的训练结果的）。
word embedding即词嵌入正是为了解决这一难题而生，其意在为每个词生成一个连续的、包含语义的、可比较的n维数学向量：
$v_{word} = (x_1,x_2,{\cdots},x_n)$
所谓的可比较是指，可以用两个词向量的距离度量两个词的语义相似度（距离可以用欧式距离或向量夹角表示，通常选择向量夹角巨多，此时向量的方向即代表了词的含义）。例如dog、cat、today、tomorrow等4个词的词向量分别为 $v_{dog}$ 、 $v_{cat}$ 、 $v_{today}$ 、 $v_{tomorrow}$ 。对于这4个词显然有，dog和cat相比其他词含义更接近，因此 $v_{dog}$ 和 $KaTeX parse error: Expected '}', got 'EOF' at end of input: {v_{cat}$ 之间的距离应该比其他向量更小，同样地对于 $v_{today}$ 和 $v_{tomorrow}$ 亦是如此。假设选择二维向量表示词向量，则一种可能的词向量表示如下图：

word2vec原理及其Hierarchical Softmax优化_第1张图片

图1. 词向量的二维表示

当然，维度n的选择通常不会这么小，因为如果维度太小通常不足以表征词之间立体的相似性关系。例如，假设有3个词：白猫、黑猫、黄猫，其含义两两相似，这意味着其词向量两两间的距离也应该是相近的，但是二维向量显然无法表征出这种多个向量两两相似的关系，所以维度一般会选择一个较大的值（需要和性能做好平衡，因为维度越大通常意味着计算过程的时空复杂度也越大）。

对于任意两个词，可以通过计算其词向量之间的距离来衡量其语义相似性，而且这些向量之间可以做各类包含语义的运算（Google的word2vec团队研究发现，其训练的词向量，vector(”King”) - vector(”Man") + vector(“Woman”) ≈ vector(“Queen”)^[2]），而这正是我们在NLP建模中所需要的。生成词向量的算法有很多种，除了最简单的one-hot之外，还有word2vec、GloVe、以及较新的ELMo和BERT等等（其中ELMo和BERT之后会有专题介绍）。有了这些词向量后，就可以基于它们进行复杂模型的建模，比如计算两个文档间的相似度，或者用于训练各类高阶语言模型等等。

1.2 word2vec概述

word2vec采用无监督学习的方式，利用词之间的上下文共现关系来学习词之间的语义关系，并采用神经网络建模训练得到每个词的词向量。什么是上下文共现？看下边的例子（随便想的，轻拍-_-!!）：

美人鱼是 周星驰 拍的
星爷 拍过美人鱼
功夫的主演是 周星驰
星爷 主演过功夫
…

假设我们有很多这样的语料，统计发现周星驰和星爷经常出现在相似的上下文（Context）语境里，这会不会就意味着这两个词大概率就表示一个意思或者至少意思是相近的？从语言学角度来讲，答案是肯定的。各类词向量训练算法也大多是基于这一现象来设计的，包括word2vec。因此，word2vec实际上就是利用了统计语言模型的思想（感兴趣的可以看一下吴军的《数学之美》第三章，对此有一些通俗易懂的介绍），基于统计信息对词和上下文之间的预测关系进行建模，并借助对这个模型的训练得到词向量。也就是说，word2vec建模的实际上是上下文词和中心词之间的预测关系，而词向量可以说是这个预测过程的副产物（当然，这个副产物正是word2vec要求解的东西）。

根据word2vec建模的预测方向的不同，word2vec可以分为两种：

CBOW：即Continuous Bag-of-Word Model的简写，根据上下文的词预测中心词（表示为C → W）
- 例如：【今天__不错，适合出游】，根据上下文预测空白处的词
Skip-gram：根据中心词预测上下文的词（表示为W → C）
- 例如：【__ 天气 __，适合出游】，根据中心词天气预测上下文的词

word2vec原理及其Hierarchical Softmax优化_第2张图片

图2. CBOW与Skip-gram模型示意图 ^[2]
本文仅介绍CBOW模型，skip-gram本质上是类似的，本文不再赘述，想深入了解的可以看一下参考资料中的文章。

二、CBOW模型

如前所述，CBOW（Continuous Bag-of-Word）实际上是对由上下文词（Context）预测中心词进行建模。

2.1 Context滑动窗口

为了便于计算，对于句子中心词的上下文，无论是CBOW还是skip-gram都是设置一个固定大小的滑动窗口，预测过程仅观察窗口内出现的词，而非所有的词。假设滑动窗口大小设定为C=4，则对于句子中每个词，将只观察前后的各2个词共4个词。例如对于句子【小度/智能/音箱/给你/最好/陪伴】，其滑动观察过程为：

【小度/智能/音箱】/给/你/最佳/陪伴
【小度/智能/音箱/给】/你/最佳/陪伴
【小度/智能/音箱/给/你】/最佳/陪伴
小度/【智能/音箱/给/你/最佳】/陪伴
小度/智能/【音箱/给/你/最佳/陪伴】
小度/智能/音箱/【给/你/最佳/陪伴】
小度/智能/音箱/给/【你/最佳/陪伴】

其中【】表示Context的滑动窗口，飘红词表示中心词，飘蓝词表示Context词。此外，由首尾词的窗口位置可以看到，滑动窗口同时还限定了最大观察距离。

了解了这些，接下来我们就可以利用神经网络对其进行建模了。

2.2 模型结构

CBOW的神经网络结构如下：

word2vec原理及其Hierarchical Softmax优化_第3张图片

图3. CBOW模型

这是一个具有一个隐藏层的全连接神经网络，输入层是上下文窗口内各个词的M维one-hot向量（给每个词编个号，向量中对应维度取值为1，其他维度维0）的线性叠加，输出层是一个m维向量Y。其中m为词的数量，n为设定的欲训练的词向量的维度。隐藏层和输出层的计算公式如下（矩阵表示）：

$H=\frac{1}{C}W \times V_i = W \times \frac{1}{C}V_i$ $\times H)$
其中：

H表示隐藏层的输出列向量，Y表示输出层的输出列向量。
C表示滑动窗口大小，即Context中的词个数（不含中心词）。表示C个上下文词中第i个词的one-hot向量。
W为隐藏层的n x m维参数矩阵，W’为输出层的m x n维参数矩阵。
Softmax()表示对计算结果做softmax归一化；

由以上可以看到，word2vec的神经网络隐藏层的计算是线性的（激活函数是线性的f(x)=x），因此网络的隐藏层也就只需要1层（多了没用，因为线性意味着由矩阵乘的结合律可以将多个隐藏层化简为1层）。另外，从上边的计算公式也可以看出为什么叫Continuous Bag-of-Word了，因为计算过程没有考虑上下文各个词之间的相对顺序，对它们是平等对待的。

关于word2vec为什么选择线性建模，我个人的理解是（不一定对，欢迎探讨指正）词向量要支持带语义的加减线性运算，而线性建模才能比较好的训练得到这样的词向量（因为训练过程都是线性运算，得到的词向量自然也就支持线性运算了）。
为做说明，我们可以把上述计算H向量的式子变换一下：
$\frac{1}{C}\sum_{i=1}^CW \times V_i = \frac{1}{C}\sum_{i=1}^C(W \times V_i)$ 令：
$V'_i=W \times V_i$ 则有（由于是个one-hot向量，上式实际上相当于提取出了W矩阵中的一列，从而得到）： $H=\frac{1}{C}\sum_{i=1}^CV'_i$ 由此可见，由上下文词预测中心词实际上就是对上下文的各个词向量求和取均值（输出层可以看作由 $V'_i$ 到one-hot的变换）。

这是个非常简单的FNN（全连接神经网络），其训练方法不再赘述（缺少神经网络知识背景的读者可以参考深度学习零基础入门（一）：一文读懂神经网络）。上述模型训练完成后，参数矩阵W的每一列向量即可作为词向量。

三、Hierarchical Softmax优化

由于待训练的词汇量往往是个非常大的数字（百万量级），这意味着对于前文所述的基础FNN网络，其输入向量、参数矩阵和输出向量的尺度都是巨大的，因而训练过程的计算量显然也是巨大的。因此训练速度必然会是非常慢的，这显然难以让人接受。要优化模型的计算量，直观的思考可以有两种方向：要么从模型结构的角度着手，要么从样本的角度着手。Google团队正是这样做的。Mikolov在论文中提出了两种优化方法，即 Hierarchical Softmax 和 negative sampling，分别对应于这两个优化方向。

这里介绍Hierarchical Softmax。

3.1 从输入输出的降维到哈夫曼编码

为了对模型结构进行优化，我们先回到问题的本质。前文提到，word2vec建模利用的是上下文中各个词因共现而产生的隐含关联性。为利用这一关联性，CBOW模型的对由上下文词预测中心词做了建模。也就是说，只要我们能做到这一点，模型就能work。而前文所述的FNN之所以计算量大，是因为模型的输入输出向量规模太大了，那是否可以从模型中消去这个东西呢？

我们知道，在计算机程序中，对于单字（字母或汉字）我们是用ASCII码或UTF-8等编码表示的，这实际上就是用一个整数表示。对于词，我们显然也可以做类似的表示，只需要给每个词一个编号，用这个编号作为编码值来表示这个词。那是否可以直接拿这个编码值作为模型的输入输出呢？输入肯定不行，因为它的值是语义不连续不可比的。输入不行，那输出呢？答案是肯定的，这正是Google团队开的脑洞之一，由预测one-hot向量变为预测词编码的每个二进制位！

输出的降维问题解决了，那输入呢？我们可以先做这样一个假设，如果我已经有词的向量了，我要做的就是根据上下文词预测中心词，那这个模型结构我可以怎样做计算量最小的设计？由此，Google团队的另一个脑洞是，直接用训练中词向量作为模型的输入。也就是说，训练中的词向量既作为模型的待训练参数，又同时做为模型的输入。

至此，我们其实已经可以尝试更新一下我们的网络结构了：

word2vec原理及其Hierarchical Softmax优化_第4张图片

图4. 对中心词编码各个比特位进行预测的模型结构

这里，模型的输入变成了我们要训练的词向量（在训练过程中和参数一起迭代更新），模型的输出变成了对中心词编码的各个比特位的0-1二分类预测。

到这里是不是就万事大吉了呢？Google团队并没有满足于此。既然涉及到了编码这个在信息论领域发展非常成熟的问题，那这里是不是可以找到一些可以借鉴的东西来进一步优化呢？答案是肯定的，这就引出了哈夫曼编码了。

3.2 哈夫曼编码（Huffman Coding）

学过哈夫曼编码的读者应该都了解，它被证明是一种对信息的最优编码方法，即平均编码长度最短（加权均值）。也就是说，如果我们根据每个词的出现频次作为权值用哈夫曼编码的方式对每个词进行编码，那么就可以保证频次越高的词的编码比特长度越短，且整体的平均编码比特长度是最小的！（按频次的加权均值）。由此，我们可以得到形如下图的编码树，其中叶子节点代表每个词，根节点到叶子结点的路径即代表了每个词的编码值。

word2vec原理及其Hierarchical Softmax优化_第5张图片

图5. 哈夫曼编码树

其中，m是unique的单词个数，Wi表示第i个词。

我们以一个实际的例子来看一下哈夫曼编码树的构造。假设语料库包含6个词，其词频分别为：

词	词频
小度	2
智能	3
音箱	3
创造	4
美好	4
生活	5

则，按照哈夫曼编码规则，可以构造出如下哈夫曼编码树：

word2vec原理及其Hierarchical Softmax优化_第6张图片

图6.哈夫曼编码示例

可以看到，词频较高的『生活』和『美好』两个词的编码比特位宽度是2，小于其他低频次的词。

3.3 从哈夫曼编码到Hierarchical Softmax

有了哈夫曼编码，我们就可以对模型结构做再一次调整了：

word2vec原理及其Hierarchical Softmax优化_第7张图片

图7. 基于哈夫曼编码树的模型结构
此时，模型连接的是哈夫曼编码树上的各个非叶子节点。其自根节点自上而下地对每个节点都做一个0-1的二分类预测，并根据预测结果决定出path，进而得到预测的中心词。对于上下文C，预测得到词W（C→W）的概率计算公式为（我们规定哈夫曼编码树走左边是0，走右边是1）：

$w_o|V_1,V_2, \dots ,V_C) = \prod_{i=1}^{L(w_o)}(\sigma([[b(w_o, i) = 0]](W_i * H)))$
其中：

$L(w_o)$ 表示词 $w_o$ 在哈夫曼树上的路径长度；
$b(w_o,i)=0]]$ 是个特殊函数， $b(w_o,i)=0$ 表示 $w_o$ 的二进制编码第i个比特为0；函数 $[[x]]$ 的定义为： $[[x]]=\begin{cases} \ \ \ 1, \ \ \ \ \ if\ x = true\\ -1, \ \ \ \ \ otherwise\\ \end{cases}$
- 当 $b(w_o,i)$ 为1时，函数 $[[x]]$ 取值为-1，因此有： $\sigma([[b(w_o, i) = 0]](W_i * H)) = \sigma(-W_i * H) = 1-\sigma(W_i * H)$
$w_i$ 表示路径上第i个非叶子节点的参数向量。H表示对C个上下文词的词向量的均值： $\frac{1}{C}(V_1 + V_2 + \dots + V_C)$

比如，对于词 $w_2$ ，其在上下文 $V_1,V_2, \dots , V_C$ 下的预测概率为：
$w_2|V_1,V_2, \dots ,V_C) = \prod_{i=1}^{L(w_2)}(\sigma([[b(w_2, i) = 0]](W_i * H))) = \sigma(W1*H) * \sigma(W2*H) * \sigma(-W3*H)$

3.3 模型的训练

要使得模型可训练，最重要的一步首先就是要找到一个合适的目标函数。确定了目标函数，之后只要利用反向传播算法+梯度下降法进行迭代即可，就是标准套路了。

3.3.1 损失函数（Loss Function）

在这个模型下，显然我们需要使得对所有语料数据求得的中心词的预测概率值整体最大化，即最大化： $\prod_{i=1}^TP(w=w_o|C)$

其中：T表示对所有的样本做计算；C表示 $w_o$ 的上下文词向量；

为了便于计算，我们给它加个对数，把乘法变成加法（log(x)是单调递增函数，因此其极值点与原函数是一致的）： $log(\prod_{i=1}^TP(w=w_o|C)) = \sum_{i=1}^Tlog(P(w=w_o|C))$

对上述式子再加个负号，就可以得到损失函数（为什么？因为损失函数找的是最小值，而它越小，上边式子的值就越大嘛~）： $\sum_{i=1}^T-log(P(w=w_o|C)) = \sum_{i=1}^T-log(\sigma([[b(w_2, i) = 0]](W_i * H)))$

有了上述函数，我们就可以利用它结合反向传播算法来推导出各个参数的梯度计算公式了，这里不再赘述。缺少相关知识背景的读者可以参考：深度学习零基础入门（一）：一文读懂神经网络

3.3.2 模型的初始化

STEP1：统计词频，为每个词生成哈夫曼编码，从而构成哈夫曼编码树；
STEP2：为每个词生成一个随机初始词向量；
STEP3：为每个非叶子节点生成一个随机初始参数向量；
STEP4：设定超参数C的值，即滑动窗口的大小；

3.3.3 模型的迭代

遍历语料数据中所有的句子，并对每个句子以滑动窗口方式遍历所有中心词，对每个中心词：
- 计算中心词在当前上下文下的预测概率；
- 运用SGD（或其他梯度下降算法），计算每个参数的梯度值（包括词向量），并根据梯度值更新参数得值
  梯度下降法的具体推到与迭代过程不再赘述。

四、准确率评估

摘自Mikolov’s Paper ^[2]：

【附】

参考资料

Mikolov：Distributed Representations of Sentences and Documents
Mikolov：Efficient Estimation of Word Representations in Vector Space
word2vec Parameter Learning Explained

gensim

介绍：
- 一个实现了word2vec的Python库，可以直接用来训练word2vec词向量，详见：https://radimrehurek.com/gensim/models/word2vec.html

安装：

# 命令行执行：
pip3 install gensim -i https://pypi.tuna.tsinghua.edu.cn/simple/

用法：
- 参考：gensim使用方法以及例子
- help doc:

ES-LTR粗排模块 poins jenkins 运维
ES-LTR粗排模块官方资源：https://github.com/HeiBoWang/elasticsearch-learning-to-rankElasticsearch学习排名插件使用机器学习提高搜索相关性排名。它为维基媒体基金会和Snagajob等地方的搜索提供了动力！这个插件有什么功能此插件：允许您在Elasticsearch中存储特征（Elasticsearch查询模板）记录特征得分（
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
UNDERSTANDING HTML WITH LARGE LANGUAGE MODELS liferecords LLM 语言模型人工智能自然语言处理
UNDERSTANDINGHTMLWITHLARGELANGUAGEMODELS相关链接：arXiv关键字：大型语言模型、HTML理解、Web自动化、自然语言处理、机器学习摘要大型语言模型（LLMs）在各种自然语言任务上表现出色。然而，它们在HTML理解方面的能力——即解析网页的原始HTML，对于自动化基于Web的任务、爬取和浏览器辅助检索等应用——尚未被充分探索。我们为HTML理解模型（经过微调
ChatGPT技巧大揭秘：AI写代码新境界 2401_83550420 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT技巧大揭秘：AI写代码新境界随着人工智能技术的不断进步，开发人员现在有了更多有趣的工具来提高他们的工作效率。其中，ChatGPT作为一种基于深度学习的自然语言处理模型，已经成为许多开发者的新宠。在本文中，我们将揭秘使用ChatGPT来帮助编写代码的技巧，探索AI在编程领域的新境界。ChatGPT简介ChatGPT是一种基于大型神经网络的对话生成模型，它
AI大模型学习：开启智能时代的新篇章游向大厂的咸鱼人工智能学习
随着人工智能技术的不断发展，AI大模型已经成为当今领先的技术之一，引领着智能时代的发展。这些大型神经网络模型，如OpenAI的GPT系列、Google的BERT等，在自然语言处理、图像识别、智能推荐等领域展现出了令人瞩目的能力。然而，这些模型的背后是一系列复杂的学习过程，深度学习技术的不断演进推动了AI大模型学习的发展。首先，AI大模型学习的基础是深度学习技术。深度学习是一种模仿人类大脑结构的机器
OpenCV（一个C++人工智能领域重要开源基础库）简介愚梦者 OpenCV 人工智能人工智能 opencv c++图像处理计算机视觉开源
返回：OpenCV系列文章目录（持续更新中......）上一篇：OpenCV4.9.0配置选项参考下一篇：OpenCV4.9.0开源计算机视觉库安装概述引言：OpenCV（全称OpenSourceComputerVisionLibrary）是一个基于开放源代码发行的跨平台计算机视觉库，可以用来进行图像处理、计算机视觉和机器学习等领域的开发。该库由英特尔公司于1999年开始开发，最初是为了加速处理器
【循环神经网络rnn】一篇文章讲透 CX330的烟花 rnn 人工智能深度学习算法 python 机器学习数据结构
目录引言二、RNN的基本原理代码事例三、RNN的优化方法1长短期记忆网络（LSTM）2门控循环单元（GRU）四、更多优化方法1选择合适的RNN结构2使用并行化技术3优化超参数4使用梯度裁剪5使用混合精度训练6利用分布式训练7使用预训练模型五、RNN的应用场景1自然语言处理2语音识别3时间序列预测六、RNN的未来发展七、结论引言众所周知，CNN与循环神经网络（RNN）或生成对抗网络（GAN）等算法结
零基础机器学习(5)之线性回归模型的性能评估一只特立独行猪机器学习机器学习线性回归人工智能
文章目录线性回归模型的性能评估1.举例1-单一特征2.举例2-多特征线性回归模型的性能评估评估线性回归模型时，首先要建立评估的测试数据集（测试集不能与训练集相同），然后选择合适的评估方法，实现对线性回归模型的评估。回归任务中最常用的评估方法有均方误差、均方根误差和预测准确率（确定系数）。1.举例1-单一特征分别对两个模型进行评估，输入的测试集如表所示。面积/（m2）售价/（万元）面积/（m2）售价
ChatGPT神技：AI成为你的编程良友 2401_83481083 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT神技：AI成为你的编程良友近年来，人工智能技术的发展迅猛，ChatGPT作为其中一项创新技术，正逐渐走进我们的生活。在编程领域，AI不仅可以助力我们提高效率，还能成为我们的良友，帮助解决各种编程难题。一、ChatGPT简介ChatGPT是一种基于自然语言处理技术的人工智能模型，它能够生成类人对话。ChatGPT通过深度学习模型，能够理解输入的文本并生成
智合同如何助力建筑行业合同智能化管理智合同（小智）合同智能应用 AI技术降本增效提质人工智能自然语言处理知识图谱深度学习大数据
#建筑行业#人工智能#AI#合同智能应用#深度学习#自然语言处理技术#知识图谱智合同-采用深度学习、自然语言处理技术、知识图谱等人工智能技术，为企业提供专业的合同相关的智能服务。其主要服务包含：合同智能审查、合同要素智能提取、合同版本对比、合同智能起草、ICR智能识别、合同履约追踪、文本一致性对比、广告审查、合同范本库等服务。智合同在助力建筑行业合同智能化管理方面具有显著的优势。首先，智合同利用A
2021-02-07 NLP心理实操作线上课 day7（16讲、17讲）海洋7606
#前提假设（上）（下）【学习内容】：第十六讲：前提假设（上）1、前提假设A.对人的前提假设【看人】：（1）没有两个人是一样的（2）沟通的效果取决于对方的回应【每当做出一个沟通需要向对方做出一个核对】（3）一个人不能改变另外一个人（4）每一个人都选择给自己最佳利益的行为(5）每人都已经具备使自己成功快乐的资源和能力（6）动机和情绪总不会错，只是行为没有效果而已第十七讲：前提假设（下）B.对事的前提假
2022-05-14 败者食尘_40a0
本文结构速览：一、SQL题二、机器学习&概率论三、开放性问题01SQL题面试真题：现有一张用户签到表（user_sign_d）,标记用户每日是否签到，表结构如下sign_date:日期user_id:用户IDif_sign:当日是否签到,1表示签到，0表示未签到问题①：请计算截止到当前每个用户已经连续签到的天数（输出表仅包含当天签到的所有用户，计算其连续签到的天数）输出表结构如下：user_id:
Android 实现照片抠出人像。 No Promises﹉ android
谢谢阅览、关注！！一、各平台的实现方式：1.Android实现方式：使用图像处理库（如OpenCV）：集成OpenCV库，利用其图像处理功能进行边缘检测和图像分割；使用机器学习模型（如TensorFlowLite）：集成TensorFlowLite和预训练的人像分割模型；使用第三方API服务：利用如百度AI、腾讯AI等提供的在线API进行图像处理。步骤：集成必要的库或API、加载和处理图像、应用抠
Python机器学习笔记：CART算法实战战争热诚
完整代码及其数据，请移步小编的GitHub传送门：请点击我如果点击有误：https://github.com/LeBron-Jian/MachineLearningNote前言在python机器学习笔记：深入学习决策树算法原理一文中我们提到了决策树里的ID3算法，C4.5算法，并且大概的了
GEE在灾害预警中的遥感云大数据应用及GPT模型辅助分析 AIzmjl GPT 生态遥感大数据 gpt gee 灾害预警水体湿地遥感
随着遥感技术的快速发展，云大数据在灾害、水体与湿地领域的应用日益广泛。通过遥感云大数据，我们能够实时获取灾害发生地的影像信息，为灾害预警、应急响应提供有力支持。同时，在水体与湿地监测方面，遥感云大数据也发挥着重要作用，帮助我们了解水体的分布、变化以及湿地的生态状况。近年来，GPT模型在自然语言处理领域取得了显著成果，其强大的文本生成和理解能力为遥感云大数据的应用提供了新的可能。通过将GPT模型与遥
机器学习是什么三花学编程机器学习
机器学习是什么？机器学习，这一词汇在当今的科技领域中可谓炙手可热，其影响深远，不仅改变了科学研究的方式，也推动了社会的快速发展。那么，机器学习到底是什么呢？机器学习，顾名思义，是机器（通常指计算机）进行学习的过程。这个过程模仿了人类的学习方式，通过经验积累，不断优化自身性能，最终能够在没有人类直接干预的情况下，进行决策或预测。简单来说，机器学习就是让计算机具备从数据中学习并自动改进的能力。机器学习
最新ChatGPT支持下的PyTorch机器学习与深度学习 zkzhzy ChatGPT 机器学习 python 机器学习深度学习 pytorch chatgpt 数据分析人工智能
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。郁磊（副教授）主要从事AI人工智能、大语言模型及软件开发、生理系统建模与仿真、生物医学信号处理，具有丰富的科研经验，主编《MATLAB智能算
神奇的微积分科学的N次方人工智能人工智能 ai
微积分在人工智能（AI）领域扮演着至关重要的角色，以下是其主要作用：优化算法：•梯度下降法：微积分中的导数被用来计算损失函数相对于模型参数的梯度，这是许多机器学习和深度学习优化算法的核心。梯度指出了函数值增加最快的方向，通过沿着负梯度方向更新权重，可以最小化损失函数并优化模型。•反向传播：在神经网络训练中，微积分的链式法则用于计算整个网络中每个参数对于最终损失函数的影响（偏导数），这一过程就是反向
自然语言处理概念以及发展黑夜照亮前行的路自然语言处理
自然语言概念总结自然语言处理（NaturalLanguageProcessing，简称NLP）是计算机科学领域与人工智能领域的一个重要方向，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理旨在帮助计算机理解和处理自然语言，使计算机能够像人类一样处理和生成语言。从概念上讲，自然语言处理融合了语言学、计算机科学和数学等多学科的知识。它并不仅仅是一般地研究自然语言，而是侧重
什么是分布式搜索引擎罗彬桦分布式搜索引擎搜索引擎分布式
什么是分布式搜索引擎搜索引擎所谓搜索引擎，就是根据用户需求与一定算法，运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术，如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等，为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等，同时可添加其他一系列辅助模块，以为用户创造更好的网络使用环境。分布
读《重塑心灵》，悟个人与企业系统关系猫咪06
系统动力派NLP的创始人李中莹先生在他的《重塑心灵》中写到：一个人生于宇宙之间，不可能脱离其它人事物的影响，也不可能完全不影响其他人，因此只有充分尊重这种系统性才能摆正自己的位置，达到天人合一，内外和谐的境界，理解事物，如果越能从系统的整体平衡的角度出发，站在系统的高度理解事物，他就越能照顾全局，越能更好地解决问题，NLP12条前提假设中的“凡事照顾了三赢，不会有后遗症”也是系统的观念。在任何一个
机器学习简介 Dayueban
@我的博客：有味写在前面在年前将要进行靶向代谢组学测定的样品送去公司，随之想想，还有一个半月的时间数据才会回来，那么这段时间是不是可以先学习下分类数据如何分析呢（PS:因为数据是属于分类性质的），所以不久前买的一本书——《机器学习与R语言》稍微系统学一遍，该书为美国的BrettLantz所著，翻译工作由我国学者李洪成、许金炜、李舰完成。学习本书的主要目的是了解机器学习的思想，以及所应用的领域，当然
regression机器学习回归预测模型参考学习后自我总结饮啦冰美式机器学习回归学习
简单来说，就是将样本的特征矩阵映射到样本标签空间。回归分析帮助我们理解在改变一个或多个自变量时，因变量的数值会如何变化。线性模型线性回归用于建立因变量和一个或多个自变量之间的线性关系模型。在线性回归中，假设因变量（被预测变量）与自变量（预测变量）之间存在着线性关系，也就是说，因变量的数值可以通过自变量的线性组合来预测。普通最小二乘线性回归。通过最小化实际观测值与模型预测值之间的误差平方和，可以找到
自然语言处理（NLP）技术的概念及优势刘小董学习心得自然语言处理
自然语言处理（NLP）是人工智能领域的一个重要分支，其目标是使计算机能够理解、处理和生成人类自然语言的形式和含义。NLP技术的优势包括：实现人机交互：NLP技术可以使计算机与人类之间实现自然的语言交互，使人们可以通过语音识别、语义理解等方式与计算机进行交流。大规模文本处理：NLP技术可以对大规模文本进行自动化处理和分析，提取关键信息和知识，从而实现文本分类、情感分析、信息检索等任务。自动化翻译：N
今日无更新我的昵称违规了
学校的一个会忙得昏天黑地。明天有自己的一个发表，还要准备PPT，根据原来的改改就好……这周真的是有点繁杂了，搞定之后连着四五月份要写两篇论文，再加上五月底的课程论文还有紧接着的文献综述，看样子要疯……现在梳理一下自己手里的锤子：转到Pytorch，使用AllenNLP了解Transformer、了解LSTM了解jieba等分词工具了解Gensim等NLP处理工具接下来要做的：基于AllenNLP搞
大型语言模型RAG（检索增强生成）：检索技术的应用与挑战 in_tsz 语言模型人工智能自然语言处理
摘要检索增强生成（RAG）系统通过结合传统的语言模型生成能力和结构化数据检索，为复杂的问题提供精确的答案。本文深入探讨了RAG系统中检索技术的工作原理、实现方式以及面临的挑战，并对未来的发展方向提出了展望。随着大型预训练语言模型（LLMs）如GPT-3和BERT的出现，自然语言处理（NLP）领域取得了显著进展。然而，这些模型在处理知识密集型任务时仍存在局限性，特别是在需要最新或特定领域知识的情况下
(done) NLP “bag-of-words“ 方法（带有二元分类和多元分类两个例子）词袋模型、BoW shimly123456 NLP 相关杂谈自然语言处理 c#人工智能
一个视频：https://www.bilibili.com/video/BV1mb4y1y7EB/?spm_id_from=333.337.search-card.all.click&vd_source=7a1a0bc74158c6993c7355c5490fc600这里有个视频，讲解得更加生动形象一些总得来说，词袋模型(Bow,bag-of-words)是最简单的“文本—>矢量”(把文本转为矢量
线性回归和逻辑回归对比学习-含代码和数据 M.D 线性回归逻辑回归学习
线性回归和逻辑回归是两种常见的机器学习算法，它们在一些方面相似，但在其他方面则有明显的不同。以下是它们的对比以及您提供的代码示例：线性回归(LinearRegression)线性回归用于预测连续的数值。这种模型假设自变量和因变量之间存在线性关系。fromsklearn.linear_modelimportLinearRegressionimportmatplotlib.pyplotaspltimp
【Conda】详细讲解程序员不想敲代码啊 conda
Conda1.前言2.关键特点3.Conda命令1.前言Conda是一个流行的包管理器和环境管理器，主要用于Python编程语言，但也可以用来安装、运行和更新包和环境中的任何语言，如R、Ruby、Lua、Scala、Java等。Conda主要是为了方便数据科学、机器学习和类似应用的需要而设计的，但它对任何类型的软件都是适用的。下面，我将概述Conda的几个关键特点和常用命令：2.关键特点环境管理：
机器学习常用框架碧落&凡尘机器学习人工智能
机器学习是人工智能的一个重要分支，它通过让计算机系统利用数据自我学习来改进任务执行的能力。在机器学习领域，有许多成熟的框架被广泛使用，这些框架提供了构建和训练机器学习模型的工具。以下是一些常用的机器学习框架：TensorFlow：由Google开发，是一个开源的软件库，用于数据流编程，广泛应用于各类机器学习任务。它支持分布式计算，能够在大规模数据集上训练复杂的模型。PyTorch：由Faceboo
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。