falao_beiliu

深度学习word2vec笔记之基础篇

声明：

1）该博文是多位博主以及多位文档资料的主人所无私奉献的论文资料整理的。具体引用的资料请看参考文献。具体的版本声明也参考原文献

2）本文仅供学术交流，非商用。所以每一部分具体的参考资料并没有详细对应，更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心侵犯了大家的利益，还望海涵，并联系老衲删除或修改，直到相关人士满意为止。

3）本人才疏学浅，整理总结的时候难免出错，还望各位前辈不吝指正，谢谢。

4）阅读本文需要机器学习、语言模型等等基础（如果没有也没关系了，没有就看看，当做跟同学们吹牛的本钱）。

5）本人对语言模型也是新人，中间有些结论未必是正确的，各位如有发现，请指出，本人会尽量改正，避免误导读者。
6）此属于第一版本，若有错误，还需继续修正与增删。还望大家多多指点。请直接回帖，本人来想办法处理。
7）本人手上有word版的和pdf版的，已上传到csdn，下载url：http://download.csdn.net/detail/mytestmy/8565955，或者http://download.csdn.net/detail/mytestmy/8565959，资源分1分，评论后据说可以返还的，就有劳各位帮忙攒点分吧。如果有必要可以回复或者发邮件到邮箱[email protected]，将按各位需求回复。

一．前言

伴随着深度学习的大红大紫，只要是在自己的成果里打上deep learning字样，总会有人去看。深度学习可以称为当今机器学习领域的当之无愧的巨星，也特别得到工业界的青睐。

在各种大举深度学习大旗的公司中，Google公司无疑是旗举得最高的，口号喊得最响亮的那一个。2013年末，Google发布的word2vec工具引起了一帮人的热捧，大家几乎都认为它是深度学习在自然语言领域的一项了不起的应用，各种欢呼“深度学习在自然语言领域开始发力了”。

互联网界很多公司也开始跟进，使用word2vec产出了不少成果。身为一个互联网民工，有必要对这种炙手可热的技术进行一定程度的理解。

好在word2vec也算是比较简单的，只是一个简单三层神经网络。在浏览了多位大牛的博客，随笔和笔记后，整理成自己的博文，或者说抄出来自己的博文。

二．背景知识

2.1词向量

自然语言处理（NLP）相关任务中，要将自然语言交给机器学习中的算法来处理，通常需要首先将语言数学化，因为机器不是人，机器只认数学符号。向量是人把自然界的东西抽象出来交给机器处理的东西，基本上可以说向量是人对机器输入的主要方式了。

词向量就是用来将语言中的词进行数学化的一种方式，顾名思义，词向量就是把一个词表示成一个向量。

主要有两种表示方式，下面分别介绍，主要参考了@皮果提在知乎上的问答，也就是参考文献【2】。

2.1.1 One-Hot Representation

一种最简单的词向量方式是 one-hotrepresentation，就是用一个很长的向量来表示一个词，向量的长度为词典的大小，向量的分量只有一个 1，其他全为 0， 1 的位置对应该词在词典中的位置。举个例子，

　　“话筒”表示为 [0 0 0 1 00 0 0 0 0 0 0 0 0 0 0 ...]

　　“麦克”表示为 [0 0 0 0 00 0 0 1 0 0 0 0 0 0 0 ...]

每个词都是茫茫 0 海中的一个 1。

这种 One-hotRepresentation 如果采用稀疏方式存储，会是非常的简洁：也就是给每个词分配一个数字 ID。比如刚才的例子中，话筒记为 3，麦克记为 8（假设从 0 开始记）。如果要编程实现的话，用 Hash 表给每个词分配一个编号就可以了。这么简洁的表示方法配合上最大熵、SVM、CRF 等等算法已经很好地完成了 NLP 领域的各种主流任务。

但这种词表示有两个缺点：（1）容易受维数灾难的困扰，尤其是将其用于 Deep Learning 的一些算法时；（2）不能很好地刻画词与词之间的相似性（术语好像叫做“词汇鸿沟”）：任意两个词之间都是孤立的。光从这两个向量中看不出两个词是否有关系，哪怕是话筒和麦克这样的同义词也不能幸免于难。

所以会寻求发展，用另外的方式表示，就是下面这种。

2.1.2 Distributed Representation

另一种就是DistributedRepresentation 这种表示，它最早是 Hinton 于 1986 年提出的，可以克服 one-hot representation 的缺点。其基本想法是直接用一个普通的向量表示一个词，这种向量一般长成这个样子：[0.792, −0.177, −0.107, 0.109, −0.542, ...]，也就是普通的向量表示形式。维度以 50 维和 100 维比较常见。

当然一个词怎么表示成这么样的一个向量是要经过一番训练的，训练方法较多，word2vec是其中一种，在后面会提到，这里先说它的意义。还要注意的是每个词在不同的语料库和不同的训练方法下，得到的词向量可能是不一样的。

词向量一般维数不高，很少有人闲着没事训练的时候定义一个10000维以上的维数，所以用起来维数灾难的机会现对于one-hot representation表示就大大减少了。

由于是用向量表示，而且用较好的训练算法得到的词向量的向量一般是有空间上的意义的，也就是说，将所有这些向量放在一起形成一个词向量空间，而每一向量则为该空间中的一个点，在这个空间上的词向量之间的距离度量也可以表示对应的两个词之间的“距离”。所谓两个词之间的“距离”，就是这两个词之间的语法，语义之间的相似性。

一个比较爽的应用方法是，得到词向量后，假如对于某个词A，想找出这个词最相似的词，这个场景对人来说都不轻松，毕竟比较主观，但是对于建立好词向量后的情况，对计算机来说，只要拿这个词的词向量跟其他词的词向量一一计算欧式距离或者cos距离，得到距离最小的那个词，就是它最相似的。

这样的特性使得词向量很有意义，自然就会吸引比较多的人去研究，前有Bengio发表在JMLR上的论文《A Neural Probabilistic Language Model》，又有Hinton的层次化Log-Bilinear模型，还有google的TomasMikolov 团队搞的word2vec，等等。

词向量在机器翻译领域的一个应用，就是google的TomasMikolov 团队开发了一种词典和术语表的自动生成技术，该技术通过向量空间，把一种语言转变成另一种语言，实验中对英语和西班牙语间的翻译准确率高达90%。

介绍算法工作原理的时候举了一个例子：考虑英语和西班牙语两种语言，通过训练分别得到它们对应的词向量空间 E 和 S。从英语中取出五个词 one，two，three，four，five，设其在 E 中对应的词向量分别为 v1，v2，v3，v4，v5，为方便作图，利用主成分分析（PCA）降维，得到相应的二维向量 u1，u2，u3，u4，u5，在二维平面上将这五个点描出来，如下图左图所示。类似地，在西班牙语中取出（与 one，two，three，four，five 对应的） uno，dos，tres，cuatro，cinco，设其在 S 中对应的词向量分别为 s1，s2，s3，s4，s5，用 PCA 降维后的二维向量分别为 t1，t2，t3，t4，t5，将它们在二维平面上描出来（可能还需作适当的旋转），如下图右图所示：

观察左、右两幅图，容易发现：五个词在两个向量空间中的相对位置差不多，这说明两种不同语言对应向量空间的结构之间具有相似性，从而进一步说明了在词向量空间中利用距离刻画词之间相似性的合理性。

2.2语言模型

2.2.1基本概念

语言模型其实就是看一句话是不是正常人说出来的。这玩意很有用，比如机器翻译、语音识别得到若干候选之后，可以利用语言模型挑一个尽量靠谱的结果。在 NLP 的其它任务里也都能用到。

语言模型形式化的描述就是给定一个T个词的字符串s，看它是自然语言的概率P(w1,w2,…,wt)。w1 到 wT 依次表示这句话中的各个词。有个很简单的推论是：

(1)

上面那个概率表示的意义是：第一个词确定后，看后面的词在前面的词出现的情况下出现的概率。如一句话“大家喜欢吃苹果”，总共四个词“大家”，“喜欢”，“吃”，“苹果”，怎么分词现在不讨论，总之词已经分好，就这四个。那么这句话是一个自然语言的概率是：

P(大家，喜欢，吃，苹果)=p(大家)p(喜欢|大家)p(吃|大家,喜欢)p(苹果|大家,喜欢,吃)

p(大家)表示“大家”这个词在语料库里面出现的概率；

p(喜欢|大家)表示“喜欢”这个词出现在“大家”后面的概率;

p(吃|大家，喜欢)表示“吃”这个词出现在“大家喜欢”后面的概率；

p(苹果|大家,喜欢,吃)表示“苹果”这个词出现在“大家喜欢吃”后面的概率。

把这些概率连乘起来，得到的就是这句话平时出现的概率。

如果这个概率特别低，说明这句话不常出现，那么就不算是一句自然语言，因为在语料库里面很少出现。如果出现的概率高，就说明是一句自然语言。

从上面的情况看来，计算起来是非常麻烦的，一般都用偷懒的方式。

为了表示简单，上面的公式（1）用下面的方式表示

其中，如果Contexti是空的话，就是它自己p(w)，另外如“吃”的Context就是“大家”、“喜欢”，其余的对号入座。

符号搞清楚了，就看怎么偷懒了。

2.2.2 N-gram模型

接下来说怎么计算，上面看的是跟据这句话前面的所有词来计算，那么就得计算很多了，比如就得把语料库里面p(苹果|大家,喜欢,吃)这种情况全部统计一遍，那么为了计算这句话的概率，就上面那个例子，都得扫描四次语料库。这样一句话有多少个词就得扫描多少趟，语料库一般都比较大，越大的语料库越能提供准确的判断。这样的计算速度在真正使用的时候是万万不可接受的，线上扫描一篇文章是不是一推乱七八糟的没有序列的文字都得扫描很久，这样的应用根本没人考虑。

最好的办法就是直接把所有的提前算好了，那么根据排列组上面的来算，对于一个只有四个词的语料库，总共就有4!+3!+2!+1!个情况要计算，那就是24个情况要计算；换成1000个词的语料库，就是个情况需要统计，对于计算机来说，计算这些东西简直是开玩笑。

这就诞生了很多偷懒的方法，N-gram模型是其中之一了。N-gram什么情况呢？上面的context都是这句话中这个词前面的所有词作为条件的概率，N-gram就是只管这个词前面的n-1个词，加上它自己，总共n个词，计算只考虑用这n个词来算，换成数学的公式来表示，就是

这里如果n取得比较小的话，就比较省事了，当然也要看到n取得太小，会特别影响效果的，有可能计算出来的那个概率很不准。怎么平衡这个效果和计算就是大牛们的事情了，据大牛们的核算，n取2效果都还凑合，n取3就相当不错了，n取4就顶不住了。看下面的一些数据，假设词表中词的个数 |V| = 20,000 词，那么有下面的一些数据。

照图中的数据看去，取n=3是目前计算能力的上限了。在实践中用的最多的就是bigram和trigram了，而且效果也基本够了。

N-gram模型也会有写问题，总结如下：

1、n不能取太大，取大了语料库经常不足，所以基本是用降级的方法

2、无法建模出词之间的相似度，就是有两个词经常出现在同一个context后面，但是模型是没法体现这个相似性的。

3、有些n元组（n个词的组合，跟顺序有关的）在语料库里面没有出现过，对应出来的条件概率就是0，这样一整句话的概率都是0了，这是不对的，解决的方法主要是两种：平滑法（基本上是分子分母都加一个数）和回退法（利用n-1的元组的概率去代替n元组的概率）

2.2.3N-pos模型

当然学术是无止境的，有些大牛觉得这还不行，因为第i个词很多情况下是条件依赖于它前面的词的语法功能的，所以又弄出来一个n-pos模型，n-pos模型也是用来计算的，但是有所改变，先对词按照词性(Part-of-Speech，POS)进行了分类，具体的数学表达是

${\rm{p}}\left( {{w_i}|{\rm{c}}\left( {{w_{i - n + 1}}} \right),{\rm{c}}\left( {{w_{i - n + 2}}} \right), \cdots ,{\rm{c}}\left( {{w_{i - 1}}} \right)} \right)$

其中c是类别映射函数，功能是把V个词映射到K个类别（1=

其他的模型还很多，不一一介绍了。

2.2.4模型的问题与目标

如果是原始的直接统计语料库的语言模型，那是没有参数的，所有的概率直接统计就得到了。但现实往往会带一些参数，所有语言模型也能使用极大似然作为目标函数来建立模型。下面就讨论这个。

假设语料库是一个由T个词组成的词序列s（这里可以保留疑问的，因为从很多资料看来是不管什么多少篇文档，也不管句子什么的，整个语料库就是一长串词连起来的，或许可以根据情况拆成句子什么的，这里就往简单里说），其中有V个词，则可以构建下面的极大似然函数

另外，做一下对数似然

对数似然还有些人称为交叉熵，这里不纠结也不介绍。

上面的问题跟正常的情况不太符合，来看看下一种表达。假设语料库是有S个句子组成的一个句子序列（顺序不重要），同样是有V个词，似然函数就会构建成下面的样子

对数似然就会是下面的样子

${\rm{l}} = {\rm{logL}} = \frac{1}{V} \sum \limits_{j = 1}^{\rm{S}} \left( { \sum \limits_{{i_j} = 1}^{{T_j}} logp\left( {{w_{{i_j}}}{\rm{|}}Contex{t_{{i_j}}}} \right)} \right)$

有意向的同学可以扩展到有文档的样子，这里就不介绍了。

为啥要注意这个问题呢？原因有多种，计算这个东西的参数是主要的原因。

为啥会有参数呢？在计算这个东西的过程中，有非常多的方法被开发出来了，如上面的平滑法，回退法上面的，但这些都是硬统计一下基本就完了；这就带来一些需要求的参数，如平滑法中使用的分子分母分别加上的常数是什么？

这还不够，假如用的是trigram，还得存储一个巨大的元组与概率的映射（如果不存储，就得再进行使用的时候实际统计，那太慢了），存这个东西可需要很大的内存，对计算机是个大难题。

这都难不倒大牛们，他们考虑的工作是利用函数来拟合计算，换句话说，不是根据语料库统计出来的，而是直接把context和wi代到一个函数里面计算出来的，这样在使用的时候就不用去查那个巨大的映射集了（或者取语料库里面统计这个概率）。用数学的方法描述就是

这样的工作也体现了科学家们的价值——这帮人终于有点东西可以忙了。

那么探索这个函数的具体形式就是主要的工作了，也是后面word2vec的工作的主要内容。函数的形式实在太多了，线性的还好，非线性真叫一个多，高维非线性的就更多了。

探索一个函数的具体形式的术语叫做拟合。

然后就有人提出了用神经网络来拟合这个函数，就有了各种方法，word2vec是其中的一种。

致谢

多位Google公司的研究员无私公开的资料。

多位博主的博客资料。

参考文献

[1]http://techblog.youdao.com/?p=915 Deep Learning实战之word2vec，网易有道的pdf

[2] http://www.zhihu.com/question/21714667/answer/19433618 @皮果提在知乎上的问答

[3]http://www.zhihu.com/question/21661274/answer/19331979 @杨超在知乎上的问答《Word2Vec的一些理解》

[4] 第五章 n-gram语言模型百度文库上的一个资料

[5] 主题：统计自然语言处理的数学基础百度文库上的一个资料

吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人信息保护法实施后，互联网广告的未来在哪里？数字化营销攻略
随着互联网和移动手机的普及，传统纸媒越来越逐步困难，网络已经发展成为十分重要的媒介形式。其中互联网在线广告已经构成现代社会中各大商家和企业主必不可少的广告模式。互联网广告形式主要分为两种：用户主动寻找的搜索广告，比如百度搜索等；还有就是用户被动推送的广告，各大信息流app中插入的广告，比如头条，知乎，抖音等文章和页面中与内容融为一体的信息流广告。2020根据艾瑞咨询数据显示，网络广告市场中信息流广
2021.11.27 科技新闻 | 生活很慢，世界很快【豌豆姑娘整理】豌豆壳外
2021.11.27科技新闻|生活很慢，世界很快【豌豆姑娘整理】5、市场监管总局拟规定：互联网广告不得倒计时结束才能关闭【新榜】1、京东旗下跨境出口电商平台JOYBUY将升级为跨境B2B交易和服务平台【36氪】2、美团：截至三季度末年交易用户数为6.7亿，创历史新高（三季度期内亏损99.9亿元，反垄断处罚所致，上年同期盈利63亿元）【36氪】3、拼多多发布Q3财报：营收环比下降，利润全部投入“百亿
吴恩达深度学习笔记(24)-为什么要使用深度神经网络？极客Array
为什么使用深层表示？（Whydeeprepresentations?）我们都知道深度神经网络能解决好多问题，其实并不需要很大的神经网络，但是得有深度，得有比较多的隐藏层，这是为什么呢？我们一起来看几个例子来帮助理解，为什么深度神经网络会很好用。首先，深度网络在计算什么？如果你在建一个人脸识别或是人脸检测系统，深度神经网络所做的事就是，当你输入一张脸部的照片，然后你可以把深度神经网络的第一层，当成一
【深度学习笔记】1 数据操作 RIKI_1 深度学习深度学习笔记人工智能
注：本文为《动手学深度学习》开源内容，仅为个人学习记录，无抄袭搬运意图数据操作在深度学习中，我们通常会频繁地对数据进行操作。作为动手学深度学习的基础，本节将介绍如何对内存中的数据进行操作。在PyTorch中，torch.Tensor是存储和变换数据的主要工具。如果你之前用过NumPy，你会发现Tensor和NumPy的多维数组非常类似。然而，Tensor提供GPU计算和自动求梯度等更多功能，这些使
【深度学习笔记】6_4 循环神经网络的从零开始实现 RIKI_1 深度学习深度学习笔记 rnn
注：本文为《动手学深度学习》开源内容，部分标注了个人理解，仅为个人学习记录，无抄袭搬运意图6.4循环神经网络的从零开始实现在本节中，我们将从零开始实现一个基于字符级循环神经网络的语言模型，并在周杰伦专辑歌词数据集上训练一个模型来进行歌词创作。首先，我们读取周杰伦专辑歌词数据集：importtimeimportmathimportnumpyasnpimporttorchfromtorchimport
【深度学习笔记】6_10 双向循环神经网络bi-rnn RIKI_1 深度学习深度学习笔记 rnn
注：本文为《动手学深度学习》开源内容，部分标注了个人理解，仅为个人学习记录，无抄袭搬运意图6.10双向循环神经网络之前介绍的循环神经网络模型都是假设当前时间步是由前面的较早时间步的序列决定的，因此它们都将信息通过隐藏状态从前往后传递。有时候，当前时间步也可能由后面时间步决定。例如，当我们写下一个句子时，可能会根据句子后面的词来修改句子前面的用词。双向循环神经网络通过增加从后往前传递信息的隐藏层来更
互联网广告怎么做好精准引流五谷丰登登
随着移动网络的蓬勃发展，互联网广告成为各大商家必争之选。而互联网广告的最核心的价值，是流量，这也是它与传统广告行业的最大区别，但是殊途同归，最终目的都是为了获客。获客这个概念比较笼统，不同的商家企业对获客的判定也不一样，大体上来说，是指获得客户。任何一个产品想要生存，都需要不断获客，而获客的来源是流量。在保证流量的基础上尽可能的精准投放，将最有吸引力的广告放到最有需求的人眼前。获客的最终目的是为了
深度学习笔记１：神经网络端到端学习笔记撒哈拉土狼深度学习
许多重要问题都可以抽象为变长序列学习问题（sequencetosequencelearning），如语音识别、机器翻译、字符识别。这类问题的特点是，1)输入和输出都是序列（如连续值语音信号/特征、离散值的字符），2)序列长度都不固定，3)并且输入输出序列长度没有对应关系。因此，传统的神经网络模型（DNN，CNN，RNN）不能直接以端到端的方式解决这类问题的建模和学习问题。解决变长序列的端到端学习，
百度电商“历劫”归来 liukuang110 dubbo
随着互联网广告市场的日趋饱和以及竞争的逐渐加剧，互联网企业都开始寻求新的增长点。电商作为获得利润的最佳捷径，就成为了很多互联网企业跨界布局的首选。而国内领先搜索引擎和人工智能技术公司的百度，自然也走上了探索智能时代新零售的道路。只不过，相较于已经拥有了较为成熟电商模式的淘宝、京东、拼多多、抖音等玩家，百度的电商之路则走得十分坎坷。早在2007年，百度就开始尝试发展电商业务，但其陆续上线的几款电商产
吴恩达深度学习-L1 神经网络和深度学习总结向来痴_ 深度学习人工智能
作业地址：吴恩达《深度学习》作业线上版-知乎(zhihu.com)写的很好的笔记：吴恩达《深度学习》笔记汇总-知乎(zhihu.com)我的「吴恩达深度学习笔记」汇总帖（附18个代码实战项目）-知乎(zhihu.com)此处只记录需要注意的点，若想看原笔记请移步。1.1深度学习入门我们只需要管理神经网络的输入和输出，而不用指定中间的特征，也不用理解它们究竟有没有实际意义。1.2简单的神经网络——逻
大学生做什么兼职副业比较赚钱？分享12个适合学生赚钱的项目氧惠购物达人
互联网创业的热潮依旧，互联网思维对当今中小企业的创业方向产生了巨大影响，如今，网络创业什么项目好呢？像做互联网广告就很不错，当下媒体时代已经从传统到互联网广告，并且商家对于互联网广告的需求也是越来越大的。下面，为你推荐网上创业的好项目有哪些，让你足不出户就可以赚钱。➤推荐使用“氧惠”，邀请码:887766，团队有滑落，佣金真的高，全新模式，你注册我推广，我的直邀会在你的下面，创始团队―裂变快、收益
三十而立，当今如何才能立？ fighterking
时间一晃，2020年马上步入32岁的年龄，老话儿说的“三十而立”仿佛在自己身上显得这么尴尬。本人男，在互联网广告公关行业混迹多年，但...自认为没什么成功感，我所指的成功感大概就是钱没赚到，职位平平，或许和我本身的性格也有关系。从小我是一个性格偏向内向的人，学生时代成绩不错，高中时候也算是班上佼佼者，随后进入大学，读广告学专业，经过几年的大学生活，性格也逐渐开朗起来。不如社会开始工作，选择的是与专
深度学习笔记：推理服务 TaoTao Li tensorflow 深度学习深度学习人工智能机器学习
在线推理服务解决的问题样本处理特征抽取(生成)特征抽取过程特征定义通用定义具体定义特征抽取加速Embeding查询NN计算DL框架计算优化图优化量化优化异构计算CodeGen总结参考资料解决的问题模型训练解决模型效果问题，模型推理解决模型实时预测问题。推理服务是把训练好的模型部署到线上，进行实时预测的过程。如阿里的RTP系统顾名思义，实时预测是相对于非实时预测(离线预测)而言，非实时预测是将训练好
fast.ai 深度学习笔记（三）绝不原创的飞龙人工智能人工智能深度学习笔记
深度学习2：第1部分第6课原文：medium.com/@hiromi_suenaga/deep-learning-2-part-1-lesson-6-de70d626976c译者：飞龙协议：CCBY-NC-SA4.0来自fast.ai课程的个人笔记。随着我继续复习课程以“真正”理解它，这些笔记将继续更新和改进。非常感谢Jeremy和Rachel给了我这个学习的机会。第6课[##2017年深度学习优
深度学习笔记 stoAir 深度学习笔记人工智能
DeepLearningBasic神经网络：algorithm1input1outputinput2input3input4algorithm2监督学习：1个x对应1个y；Sigmoid:激活函数sigmoid=11+e−xsigmoid=\frac{1}{1+e^{-x}}sigmoid=1+e−x1ReLU:线性整流函数；##LogisticRegression-->binaryclassif
fast.ai 深度学习笔记（六）绝不原创的飞龙人工智能人工智能 python 深度学习
深度学习2：第2部分第12课原文：medium.com/@hiromi_suenaga/deep-learning-2-part-2-lesson-12-215dfbf04a94译者：飞龙协议：CCBY-NC-SA4.0来自fast.ai课程的个人笔记。随着我继续复习课程以“真正”理解它，这些笔记将继续更新和改进。非常感谢Jeremy和Rachel给了我这个学习的机会。生成对抗网络（GANs）视频
fast.ai 深度学习笔记（一）绝不原创的飞龙人工智能人工智能深度学习笔记
深度学习2：第1部分第1课原文：medium.com/@hiromi_suenaga/deep-learning-2-part-1-lesson-1-602f73869197译者：飞龙协议：CCBY-NC-SA4.0来自fast.ai课程的个人笔记。随着我继续复习课程以“真正”理解它，这些笔记将继续更新和改进。非常感谢Jeremy和Rachel给了我这个学习的机会。第一课开始[0:00]：为了训练
移动app广告变现，对接广告联盟还是选择第三方聚合广告平台？ AdSet聚合广告平台
作为互联网广告的载体，APP天生就比线下传统广告位更具优势，不受地域限制可以辐射到地球上的每一个角落，可以让广告获得更广的覆盖面。通过丰富的广告形式，精准的目标用户画像，也可以更好地实现品牌广告或效果广告的投放目的。AdSet官方资讯-上海神蓍信息科技有限公司接入广告联盟第三方APP（一般称为流量方，区别于第二方平台和第一方广告主），向广告联盟平台请求并曝光广告，并以一定比例和平台进行广告收入分成
吴恩达深度学习笔记(15）-浅层神经网络之神经网络概述极客Array
神经网络概述（NeuralNetworkOverview）从今天开始你将学习如何实现一个神经网络。这里只是一个概述，详细的在后面会讲解，看不懂也没关系，先有个概念，就是前向计算然后后向计算，理解了这个就可以了，有一些公式和表达在后面会详细的讲解。在我们深入学习具体技术之前，我希望快速的带你预览一下后续几天你将会学到的东西。现在我们开始快速浏览一下如何实现神经网络。之前我们讨论了逻辑回归，我们了解了
干货 | PID算法在广告成本控制领域的应用携程技术广告算法人工智能 python 深度学习
作者简介JasonPei，携程高级算法工程师，对计算广告、推荐系统、NLP等领域有浓厚兴趣。一、背景介绍在商品服务高度发达，信息爆炸的市场经济体制下，企业之间的竞争日益激烈，广告作为一种重要的营销手段，肩负着将企业自身的品牌形象及产品服务准确传达给消费者，促进企业商业利益达成的使命。可以说广告对于企业的生存发展至关重要。随着信息技术的进步，互联网广告由于投放周期短、触达范围广、可精准投放等优点，近
淘宝联盟招商团长规则有哪些? 古楼
淘宝联盟是阿里巴巴旗下的一个广告联盟平台，而招商团长则是淘宝联盟中的一种职业身份。招商团长在淘宝联盟中起到了推广产品和招揽广告主的重要作用。那么，关于淘宝联盟招商团长的规则有哪些呢？下面我将对此进行详细介绍。首先，招商团长需要具备一定的专业知识和技能。在申请成为淘宝联盟招商团长之前，个人需要通过专业的培训和考试来获取相关资质证书。这些培训包括对于互联网广告行业的基本知识、淘宝联盟的政策规定等内容。
Tensorflow实战深度学习笔记一独立开发者Lau
人类直观能力----人工智能（自然语言理解、图像识别、语音识别等）。经验----机器学习。训练----特征相关度。特征提取深度学习---自动地将简单的特征组合成更加复杂的特征，并使用这些复杂特征解决问题。深度学习--------不等于模仿人类大脑。
详解2020推广获客新业态：智能化、存量之争、流量闭环弹吉他的小姐姐
广告是经济发展的晴雨表，做营销推广的朋友都知道，近几年，广告市场发展尽管非常迅速，但增速也呈放缓趋势。尤其是2020年疫情年，广告行业更是“破屋更遭连夜雨”，更有行内人士称“今年是中国互联网广告最困难的一年”。据TalkingData数据显示，倾向于在2020增加营销推广预算的广告主占比同比下滑7%。其中的意味，不言自明。互联网广告主要分为两大块，一块是品牌广告，一块是效果广告。随着互联网广告行业
吴恩达深度学习笔记(82)-深度卷积神经网络的发展史极客Array
为什么要探索发展史(实例分析)？我们首先来看看一些卷积神经网络的实例分析，为什么要看这些实例分析呢？上周我们讲了基本构建，比如卷积层、池化层以及全连接层这些组件。事实上，过去几年计算机视觉研究中的大量研究都集中在如何把这些基本构件组合起来，形成有效的卷积神经网络。最直观的方式之一就是去看一些案例，就像很多人通过看别人的代码来学习编程一样，通过研究别人构建有效组件的案例是个不错的办法。实际上在计算机
新浪爱问自问自答怎么做，新浪爱问售后联系方式河南贝杰文化传媒有限公司
新浪爱问自问自答怎么做，新浪爱问售后联系方式多少?业务咨询找河南贝杰传媒开户快-业务合作咨询【电话/微信：13581665528、QQ：532504880】互联网广告时代，新浪爱问问答平台作为一个基于搜索的互动式知识问答分享平台，其权重和流量都是不能小觑的。好的问答营销不仅可以给企业带来正面的品牌宣传，还能够获得良好的口碑，那么新浪爱问自问自答怎么做，新浪爱问售后联系方式多少?新浪爱问做问答营销的
哪家公司能做新浪爱问推广，新浪爱问广告怎么做？河南贝杰文化传媒有限公司
哪家公司能做新浪爱问推广，新浪爱问广告怎么做？可找河南贝杰传媒靠谱，业务咨询QQ：532504880（微信同号）现在是互联网广告时代，新浪爱问问答平台是一个基于搜索的互动式知识问答分享平台，是国内目前三大问答平台之一。好的问答营销不仅可以给企业带来正面的品牌宣传，还能够获得良好的口碑。那新浪爱问开户费用哪家最便宜？新浪爱问是现在非常受关注的问答营销平台之一，我们在新浪爱问上面能够找到最为专业的知识
网上创业做什么好？在家网上创业挣钱项目有哪些？氧惠好项目
互联网创业的热潮依旧，互联网思维对当今中小企业的创业方向产生了巨大影响，如今，网络创业什么项目好呢？像做互联网广告就很不错，当下媒体时代已经从传统到互联网广告，并且商家对于互联网广告的需求也是越来越大的。下面，为你推荐网上创业的好项目有哪些，让你足不出户就可以赚钱。➤推荐使用“氧惠”，邀请码:521521，团队有滑落，佣金真的高，全新模式，你注册我推广，我的直邀会在你的下面，创始团队―裂变快、收益
深度学习笔记：灾难性遗忘 UQI-LIUWJ 机器学习笔记
1灾难性遗忘介绍当神经网络被训练去学习新的任务时，它可能会完全忘记如何执行它以前学过的任务。这种现象尤其在所谓的“连续学习”（continuouslearning）或“增量学习”（incrementallearning）场景中很常见2不同视角下看待灾难性遗忘以及对应的解决方法2.1从梯度的视角2.1.1从梯度的视角看灾难性遗忘我们有两个不同任务的损失曲面，用平滑的曲面训练完之后，再在坑坑洼洼的曲面
深度学习笔记（九）——tf模型导出保存、模型加载、常用模型导出tflite、权重量化、模型部署絮沫深度学习深度学习笔记人工智能
文中程序以Tensorflow-2.6.0为例部分概念包含笔者个人理解，如有遗漏或错误，欢迎评论或私信指正。本篇博客主要是工具性介绍，可能由于软件版本问题导致的部分内容无法使用。首先介绍tflite:TensorFlowLite是一组工具，可帮助开发者在移动设备、嵌入式设备和loT设备上运行模型，以便实现设备端机器学习。框架具有的主要特性：延时（数据无需往返服务器）隐私（没有任何个人数据离开设备）
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

深度学习word2vec笔记之基础篇

深度学习word2vec笔记之基础篇

一．前言

二．背景知识

2.1词向量

2.1.1 One-Hot Representation

2.1.2 Distributed Representation

2.2语言模型

2.2.1基本概念

2.2.2 N-gram模型

2.2.3N-pos模型

2.2.4模型的问题与目标

致谢

参考文献

你可能感兴趣的:(互联网广告,深度学习笔记)