kaijie234

【2019斯坦福CS224N笔记】（3）神经网络

搜索微信公众号:‘AI-ming3526’或者’计算机视觉这件小事’ 获取更多AI干货

csdn：https://blog.csdn.net/abcgkj

github：https://github.com/aimi-cn/AILearners

本文内容我们主要讲述一下深度学习中的神经网络，在此之前，我们先来简单回顾一下机器学习的主要任务和常用算法。

一、机器学习（ML）

1.ML主要任务

机器学习中主要有两种任务，即分类和回归。（除此之外，还有聚类任务等等）

分类（classification）：将实例数据划分到合适的类别中。应用实例：判断网站是否被黑客入侵（二分类）。对于二分类任务，通常令y={-1，+1}或{0，1}。而手写数字的自动识别（多分类）。
回归（regression）：主要用于预测数值型数据。应用实例：股票价格波动的预测，房屋价格的预测等。

2.ML常用算法

机器学习中的常用算法一般可根据训练数据是否拥有标记信息，大致分为两类：监督学习和无监督学习。（当然，除了监督和无监督学习，还有强化学习，但这里我就不过多讲述了）

监督学习：即拥有标记信息，以便机器学习算法可以发现特征和标记信息之间的关系。在监督学习中，给定一组数据，我们知道正确的输出结果应该是什么样子 (代表任务：分类和回归)
无监督学习：在未加标记的数据中，试图找到隐藏的结构。因为提供给学习者的实例是未标记的，因此没有错误或报酬信号来评估潜在的解决方案。在无监督学习使用的许多方法是基于用于处理数据的数据挖掘方法。（代表任务：聚类和密度估计）

常用机器算法如下图所示：

二、神经网络（NN）

神经网络是一门重要的机器学习技术，是机器学习的一个重要分支。它是目前最为火热的研究方向–深度学习的基础。神经网络是一种模拟人脑的神经网络以期能够实现类人工智能的机器学习技术。神经网络会将前一层神经元们的信号经过处理后传到下一层，下一层神经元们的信号经过处理后再传到下下层，并且可以证明的是，层数越深越可以更好的拟合出任意的函数。

1.经典的神经网络

这是一个包含三个层次的神经网络。红色的是输入层，绿色的是输出层，紫色的是中间层（也叫隐藏层）。输入层有3个输入单元，隐藏层有4个单元，输出层有2个单元。如下图：

在开始介绍前，我们需要知道：

设计一个神经网络时，输入层与输出层的节点数往往是固定的，中间层则可以自由指定；
结构图里的关键不是圆圈（代表“神经元”），而是连接线（代表“神经元”之间的连接）。每个连接线对应一个不同的权重（其值称为权值），这是需要训练得到的。

2.神经元结构

神经元模型是一个包含输入，输出与计算功能的模型。下图是一个典型的神经元模型：包含有3个输入，1个输出，以及2个计算功能。

连接是神经元中最重要的东西。每一个连接上都有一个权重。一个神经网络的训练算法就是让权重的值调整到最佳，以使得整个网络的预测效果最好。由下图我们可以清楚的看到，神经元模型的本质，无非是线性函数+非线性函数。

神经元模型可以这样理解：我们有一个数据，称之为样本。样本有四个属性，其中三个属性已知，一个属性未知。我们需要做的就是通过三个已知属性预测未知属性。这里，已知的属性称之为特征，未知的属性称之为目标。假设特征与目标之间确实是线性关系，并且我们已经得到表示这个关系的权值w1，w2，w3。那么，我们就可以通过神经元模型预测新样本的目标。

3.单层神经网络（感知机）

在原来MP模型的“输入”位置添加神经元节点，标志其为“输入单元”。其余不变，于是我们就有了下图。

在“感知器”中，有两个层次。分别是输入层和输出层。输入层里的“输入单元”只负责传输数据，不做计算。输出层里的“输出单元”则需要对前面一层的输入进行计算。我们把需要计算的层次称之为“计算层”，并把拥有一个计算层的网络称之为“单层神经网络”。

我们可以用决策分界来形象的表达分类的效果。决策分界就是在二维的数据平面中划出一条直线，当数据的维度是3维的时候，就是划出一个平面，当数据的维度是n维时，就是划出一个n-1维的超平面。
下图显示了在二维平面中划出决策分界的效果，也就是感知器的分类效果。

但是感知器也只能做简单的线性分类任务，因此有了两层神经网络（多层感知机）。

4.两层神经网络（多层感知机）

单层神经网络无法解决异或问题。但是当增加一个计算层以后，两层神经网络不仅可以解决异或问题，而且具有非常好的非线性分类效果。

两层神经网络除了包含一个输入层，一个输出层以外，还增加了一个中间层。此时，中间层和输出层都是计算层。我们扩展上节的单层神经网络，在右边新加一个层次（只含有一个节点）。

需要说明的是，至今为止，我们对神经网络的结构图的讨论中都没有提到偏置节点（bias unit）。事实上，这些节点是默认存在的。它本质上是一个只含有存储功能，且存储值永远为1的单元。在神经网络的每个层次中，除了输出层以外，都会含有这样一个偏置单元。所以我们这里就不过于赘述了。

与单层神经网络不同。理论证明，两层神经网络可以无限逼近任意连续函数。这是什么意思呢？也就是说，面对复杂的非线性分类任务，两层（带一个隐藏层）神经网络可以分类的很好。

这里有一个重要的事情，隐藏层的节点数如何设计？在设计一个神经网络时，输入层的节点数需要与特征的维度匹配，输出层的节点数要与目标的维度匹配。而中间层的节点数，却是由设计者指定的。因此，“自由”把握在设计者的手中。但是，节点数设置的多少，却会影响到整个模型的效果。如何决定这个自由层的节点数呢？目前业界没有完善的理论来指导这个决策。一般是根据经验来设置。较好的方法就是预先设定几个可选值，通过切换这几个值来看整个模型的预测效果，选择效果最好的值作为最终选择。这种方法又叫做Grid Search（网格搜索）。

那么两层的神经网络是如何训练的呢？我们先定义一个损失函数，通过优化算法（如梯度下降算法）优化参数，使损失最小。

优化问题只是训练中的一个部分。机器学习问题之所以称为学习问题，而不是优化问题，就是因为它不仅要求数据在训练集上求得一个较小的误差，在测试集上也要表现好。因为模型最终是要部署到没有见过训练数据的真实场景。提升模型在测试集上的预测效果的主题叫做泛化（generalization），相关方法被称作正则化（regularization）。神经网络中常用的泛化技术有权重衰减等。

而在实际训练过程中，我们往往会用到BP算法，即反向传播，下节内容我们会进行详细介绍。

5.多层神经网络（深度学习）

常见的多层神经网络有：FNN、RNN、CNN等。这里我们只介绍一下简单的FNN，即前馈神经网络。

我们延续两层神经网络的方式来设计一个多层神经网络。在两层神经网络的输出层后面，继续添加层次。原来的输出层变成中间层，新加的层次成为新的输出层。所以可以得到下图。

依照这样的方式不断添加，我们可以得到更多层的多层神经网络。与两层层神经网络不同。多层神经网络中的层数增加了很多。增加更多的层次有什么好处？更深入的表示特征，以及更强的函数模拟能力。

更深入的表示特征可以这样理解，随着网络的层数增加，每一层对于前一层次的抽象表示更深入。在神经网络中，每一层神经元学习到的是前一层神经元值的更抽象的表示。例如第一个隐藏层学习到的是“边缘”的特征，第二个隐藏层学习到的是由“边缘”组成的“形状”的特征，第三个隐藏层学习到的是由“形状”组成的“图案”的特征，最后的隐藏层学习到的是由“图案”组成的“目标”的特征。通过抽取更抽象的特征来对事物进行区分，从而获得更好的区分与分类能力。

更强的函数模拟能力是由于随着层数的增加，整个网络的参数就越多。而神经网络其实本质就是模拟特征与目标之间的真实关系函数的方法，更多的参数意味着其模拟的函数可以更加的复杂，可以有更多的容量（capcity）去拟合真正的关系。

6.对比

从单层神经网络，到两层神经网络，再到多层神经网络，下图说明了，随着网络层数的增加，以及激活函数的调整，神经网络所能拟合的决策分界平面的能力。

可以看出，随着层数增加，其非线性分界拟合能力不断增强。图中的分界线并不代表真实训练出的效果，更多的是示意效果。神经网络的研究与应用之所以能够不断地火热发展下去，与其强大的函数拟合能力是分不开关系的。

三、命名实体识别

1.什么是命名实体识别

经过之前那么的铺垫，我们终于开始进行第一个NLP的任务：命名实体识别(Named Entity Recognition)

命名实体识别(Named Entity Recognition)简称NER，目的是找到并分类文本中的实体。如“雷锋是一名军人”中的实体有“雷锋”和“军人”，除了找出这些实体，我们还希望AI可以识别出“雷锋”是人名、“军人”是职业。

命名实体识别是NLP中的一项基础任务，也是一项比较重要的任务。因为一句话中重要的语义信息往往就蕴含在实体之间的关系中，我们在进行问答时，答案也常常是实体名称。

也许你会觉得，这个问题太简单了，完全不需要使用深度学习来实现，人为建一个字典就行了，这个字典中包含我们提前定义的实体名称，只要语句中的词出现在字典中，那这些词就肯定是实体：当我们在一句话中看到“你”、“他”、“她”，“我”这样的词时，这些词肯定是实体，属于代词；当文本中有“游乐园”、“餐厅”、“车站”时，这些词肯定也是实体，属于地名……

只要按照如上步骤，就可以快速地找到一句话中的实体，哪还需要用深度学习来实现啊。

但是，无论是什么语言，都会存在一词多义的情况：英语中”To sanction” 可以理解为”to permit”（允许）或者 “to punish”（惩罚）；中文中的“可怜”一词，在“我好可怜”中，“可怜”是形容词，而在“你们可怜可怜我吧”中，“可怜”又成了动词……类似的例子数不胜数，我们往往需要依靠一个词的上下文才能明白该词的意思。

而且在“南京市长江大桥”这样的话中，不考虑上下文的实体识别可能会出现分成“南京”、“市长”、“江大桥”这样的笑话。

2 如何实现命名实体识别

上文中我们讲到我们最好通过上下文来理解一个词。因此，我们让神经网络判别一个词是否是实体时，我们不仅告诉神经网络这个词是什么，我们还要告诉神经网络这个词前后N个词是什么。

比如N取2，那么我们可以向神经网络输入X=[museums, in, Paris, are, amaing]，让神经网络通过“Paris”的上下文来推断“Paris”是否为实体。

下面具体来说一下整个网络：

假设每个单词都是的词向量（更多词向量相关请看:笔记一笔记二。维度D为4（取4仅仅是为了绘图方便，正常情况下，词向量维度在100-300之间），那么输入的数据的长度为5 * 4。我们可以构建一个输入节点个数为5*4，输出节点个数为1的神经网络。有一层隐藏层，其长度为8，输出层长度为1。这里激活函数只在隐藏层中使用，在输出层不使用。如下图：

上图的神经网络仅仅是一个示意，我们可以改进一下，如输11个单词，每个单词的词向量维度为100。那么输入层的长度为1100，之后我们再设第一层隐藏层维度为300，第二层隐藏层维度为100，第三层隐藏层维度为50，最后的输出层维度为1。其中输出层的激活函数是sigmoid，所有隐藏层的激活函数均为ReLU。

经过神经网络后，输出层最终会返回一个数值。那么如何来评判预测的好坏，我们提出了一个损失函数。

我们取一对训练样本，如一个正样本[“他”，“去”，“游乐园”, “玩”]（词“游乐园”是实体）和一个负样本[“我”，“是”，“一”，“个”，“公民”]（词“一”不是实体）。

我们希望正样本经过神经网络后，神经网络的输出数据是一个比较大的数，而负样本经过神经网络后，神经网络的输出数据是一个比较小的数。

我们设每一对训练样本中，正样本经过神经网络后的输出数据为S，而负样本经过神经网络后的输出数据为Sc 。为了满足我们上述的希望，即S大，Sc小，我们设目标函数为 J = max(0, 1 – S + Sc), 最小化目标函数 J 的取值即可完成我们S取值大Sc取值小的愿望。如下图：

当S的取值比Sc大很多时（这里是S比Sc大1）1-S+Sc就会是负数，那么J = max(0, 1 – S + Sc) 就能取到最小值0。若S比Sc小，或者S并不比Sc大多少时，1-S+Sc就会是一个正数，目标函数J就是一个大于0的数，其还有继续优化的空间。

这里 1 – S + Sc中的 1 可以是2、3、100……只要大于零即可，其目的是让正样本的输出S和负样本的输出Sc拉开一定的差距。

知识补充：这里max(0, ∆ − S + Sc)也称为 Hinge Loss 或者 max-margin objective function，是SVM中常见的一个目标函数。

当然我们也可以采用softmax作为我们的输出层的函数，交叉熵来作为我们的损失函数。

上述内容中我们只考虑了一个词是不是命名实体，没有给实体进行分类。可以考虑将我们所讨论的模型从二分类问题改为多分类问题。输出层的维度不再是1，而是N。如N取4，考虑一个单词是属于[非实体, 人名, 地名, 组织机构名]中的哪一个。若属于“人名”，则输出层中对应“人名”的结点取值应该很大，其他结点取值很小。

那么我们是否更新词向量？

在上述讨论中，词向量都是提前预训练好的（可以使用word2vec，glove等方法）。那么我们到底需不需要更新词向量呢？其实，当我们的训练样本很少的时候，最好使用预训练好的词向量，再来训练神经网络。再者，使用预训练好的词向量可以大幅度减少我们训练网络的时间。

所以在我们在命名实体识别的时候，我们可以采用fine-tune方法，更新词向量。其学习率α要很小，因为词向量已经捕获了语义信息，我们只需要对词向量进行微调即可。而且在神经网络训练刚开始时不更新词向量，等目标函数收敛到一定程度时才开始训练词向量。因为神经网络开始时是随机初始化的，此时要是更新词向量，只会降低词向量的表现效果。

总结

首先，回顾了机器学习中的任务和常用算法。
其次，讲述了一下神经网络的历史进程，从单层到两层，到最后的多层神经网络。我们现在常用的激活函数为Relu。
最后，介绍了NLP中的一个基本任务，命名实体识别。

下节，我们将会介绍反向传播机制。

本文参考资料

cs224n第三讲ppt

cs224n第三讲视频

机器学习基础

如何简单形象又有趣地讲解神经网络是什么？

神经网络浅讲：从神经元到深度学习

What is the intuition behind SoftMax function?

2019版CS224N中文笔记(3)神经网络基础知识-上

深度学习（一）——MP神经元模型, BP算法, 神经元激活函数, Dropout

Word2Vec ——gensim实战教程王同学死磕技术
最近斯坦福的CS224N开课了，看了下课程介绍,去年google发表的Transformer以及最近特别火的ContextualWordEmbeddings都会在今年的课程中进行介绍。NLP领域确实是一个知识迭代特别快速的领域，每年都有新的知识冒出来。所以身处NLP领域的同学们要时刻保持住学习的状态啊。笔者又重新在B站上看了这门课程的第一二节课。这里是课程链接。前两节课的主要内容基本上围绕着词向量
CS224N笔记——词向量表示 random_walk
onehot表示image.png主要问题所有的向量都是正交的，无法准确表达不同词之间的相似度，没有任何语义信息向量维度是语料库中所有单词的数量，维度太大。以下内容主要摘抄自来斯惟的博士论文基于神经网络的词和文档语义向量表示方法研究CS224n的notesYoavGoldberg的word2vecExplained:DerivingMikolovetal.’sNegative-SamplingWo
谢撩，人在斯坦福打SoTA 夕小瑶人工智能 ai cstring 边缘检测 nlp
文|Jazon编|小戏小编注：不知道大家还记不记得卖萌屋之前人在斯坦福，刚上CS224n的Jazon小哥发来的关于斯坦福神课CS224n上半学期的报道？今天，Jazon又在斯坦福前线发来了关于他在CS224n下半学期的经历，那么现在让我们把画面交给Jazon，看看大佬的课程作业是怎么完成的吧！上篇文章提到我在Stanford上NLP“神课”CS224n，课程的前半学期以上课、写作业为主，而后半学期
2021斯坦福CS224N课程笔记~4 mwcxz 斯坦福CS224N学习笔记 pytorch 深度学习人工智能
4.依存解析DependencyParsing参考文档：https://zhuanlan.zhihu.com/p/420736640https://www.showmeai.tech/article-detail/237https://zhuanlan.zhihu.com/p/147321515https://zhuanlan.zhihu.com/p/49992664https://blog.cs
斯坦福NLP课程来了人工智能大讲堂学习资料深度学习自然语言处理人工智能
生成式AI，尤其是以ChatGPT为首的大语言模型正在改变人们的生活方式，我想一定有小伙伴想加入NLP这个行列。微软重磅发布4个适合初学者的机器学习资料我在前一篇文章中分享了微软人工智能初学者课程，其中的【生成式AI】非常适合初学者，今天我将分享NLP的进阶课程。https://web.stanford.edu/class/cs224n/关注v公众号：人工智能大讲堂，后台回复snlp获取全部资料。
【关于Python中两个相等字符串is判断出来是false的问题】李不卷 python list
今天在写cs224n的作业时，在判断words中的单词和corpus中的单词进行判断单词是否相等时，采用了is进行逻辑判断。但是出现了相同的单词进行判断结果为false的情况。即，如“END”is"END"的结果为false.先开始以为是代码的其他部分逻辑错了，就改来改去也没有找到原因。晚上躺在床上，想起来试一试==来判断，结果居然跑通了。所以，利用==来替换is，得到了最终想要的正确结果。在博客
2021斯坦福CS224N课程笔记~7 mwcxz 人工智能深度学习机器学习
7.机器翻译，序列到序列、注意力机制参考文献：https://zhuanlan.zhihu.com/p/430709084https://zhuanlan.zhihu.com/p/147310766【简易】https://zhuanlan.zhihu.com/p/47063917【注意力系列】https://www.showmeai.tech/article-detail/242https://z
2021斯坦福CS224N课程笔记~5 mwcxz 斯坦福CS224N学习笔记机器学习人工智能自然语言处理
5语言模型(LM)与循环神经网络(RNN)参考文档：https://zhuanlan.zhihu.com/p/424671205https://www.showmeai.tech/article-detail/239https://zhuanlan.zhihu.com/p/147322049[易懂]https://zhuanlan.zhihu.com/p/61893429讲座计划\1.神经依存解析
2021斯坦福CS224N课程笔记~3 mwcxz 斯坦福CS224N学习笔记人工智能深度学习机器学习
3.神经网络学习：手工计算梯度Lecture3:Neuralnetlearning:Gradientsbyhand(matrixcalculus)andalgorithmically(thebackpropagationalgorithm)参考文档：https://zhuanlan.zhihu.com/p/527211871https://zhuanlan.zhihu.com/p/41429307
【笔记3-6】CS224N课程笔记 - RNN和语言模型 jessie_weiqing 笔记 CS224N RNN cs224n 自然语言处理 GRU LSTM
CS224N（六）RecurrentNeuralNetworksandLanguageModels语言模型语言模型介绍n-gram基于窗口的神经语言模型RNNRNNLossandPerplexityRNN的优缺点及应用梯度消失和梯度爆炸问题梯度消失/爆炸问题的解决方法DeepBidirectionalRNN应用：RNN翻译模型GRULSTM【笔记3-1】CS224N课程笔记-深度自然语言处理【笔记
Transformer简单理解（MT） rd142857 nlp transformer 机器翻译深度学习
Transformer21年cs224n的Transformer这课换了TA来讲，有点听不太懂（我是菜狗）这篇suggestedreading讲得非常清楚TheIllustratedTransformerKey-Query-ValueAttention使得xi的不同方面得以被使用或强调。计算分数时，除以d的平方根以获得更加稳定的梯度。softmax计算得到的某单词上的权重可以被视作为该单词应当被获
NLP进阶之路——CS224n（一）技术宅zch NLP
NLP绪论什么是自然语言处理？NLP的层次NLP的应用人类语言的特殊之处什么是深度学习为什么NLP很难？NLP语义层面的表示Reference什么是自然语言处理？自然语言处理（NLPnaturallanguageprocessing）是一门计算机科学、人工智能和语言学的交叉学科。是人工智能领域的重要分支！人工智能有机器视觉、语音识别、和NLP。自然界拥有视觉的生物有很多，但是拥有高级语言的生物只有
关于无监督、聚类和主题模型 Silv_Kim
Somereferenceshttp://www.52nlp.cn/2012/04https://github.com/Computing-Intelligence/Referenceshttp://web.stanford.edu/class/cs224n/https://study.163.com/course/courseLearn.htm?courseId=1004570029#/lear
【Stanford CS224N 笔记】lecture 7 Recurrent Neural Network 宇智波艾尼路深度学习机器学习 pytorch
一、语言模型1.1定义语言模型LanguageModel，是指预测一个句子（词语有序序列）出现的概率的模型，即，一般可用于以下场景：1.判断什么词序出现的可能性更高：p(六点吃饭)>p(六点饭吃)2.判断在上下文中，什么词汇出现的可能性更高：p(七点下班回家)>p(七点下班回公司)1.2n-gram语言模型一般基于一个错误但有必要的马尔科夫假设：一个单词的出现概率仅取决于前n个单词是什么，即在足量
Stanford CS224n 第一讲：深度自然语言处理江南丶 Stanford CS224n NLP Stanford CS224n 学习笔记
第一节课主要是介绍了NLP（尤其是DeepNLP）的背景知识。主要有一下几点：什么是NLP？NLP的应用NLP的难点MachineLearningvs.DeepLearning接下来，根据课程视频+自己的理解，我将一一详细介绍以上的4部分。1.什么是NLP？Naturallanguageprocessing(NLP)是计算机科学+AI+语言学的交叉产物；它的目标是让机器能够处理或者明白自然语言(t
2021斯坦福CS224N课程笔记~2 mwcxz 斯坦福CS224N学习笔记机器学习算法人工智能
2NeuralClassifiers2.1本篇内容覆盖word2vec与词向量回顾算法优化基础计数与共现矩阵GloVe模型词向量评估wordsenses2.2.回顾：word2vec的主要思想2.2.1.主要步骤具体见1.3.2Word2Vec算法的具体思路(1)随起：从随机的词向量开始；(2)遍历：遍历整个语料库中的每个单词；(3)预测：尝试使用词向量预测周围的词（见图2.1）：(4)学习：更新
斯坦福CS224N学习笔记-6 依存分析 CoderZhangsM 学习笔记人工智能深度学习神经网络自然语言处理
课程内容概述句法结构：一致性与依赖性依存文法和Treebank基于转移的依存分析使用神经网络的依存分析描述语言结构的两种方法上下文无关文法上下文无关文法=短语结构文法=句子成分依存文法通过找出句子中每个词所依赖的部分来描述句子的结构为了描述语言结构，人们采用了两种方法。其中一个就是计算机科学中常用的上下文无关文法，在语言学中，这常常被称为短语结构文法，然后也被称为句子成分的概念。另一种方法就是依存
cs224n学习笔记9-问答系统 TARO_ZERO 学习笔记 nlp 自然语言处理
目录QuestionAnswering问答系统QuestionAnswering问答ReadingComprehension阅读理解Stanfordquestionansweringdataset(SQuAD)斯坦福问答数据集神经网络模型BiDAF:theBidirectionalAttentionFlowmodel(2017)用于阅读理解的BERT模型比较BiDAF和BERT模型预训练模型Spa
Stanford CS224N - word2vec oveZ AI 人工智能深度学习神经网络自然语言处理机器学习
最近在听Stanford放出来的StanfordCS224NNLPwithDeepLearning这门课，弥补一下之前nlp这块基础知识的一些不清楚的地方，顺便巩固一下基础知识关于word2vec：1.为什么要把单词表示成向量一开始人们造了一个类似于词典表的东西-wordnet：但是这里面存在一些问题，大概有这么几个：例如，“proficient”被列为“good”的同义词，但这只在某些情境下是正
斯坦福大学CS520知识图谱系列课程学习笔记：第一讲什么是知识图谱 ngl567
随着知识图谱在人工智能各个领域的广泛使用，知识图谱受到越来越多AI研究人员的关注和学习，已经成为人工智能迈向认知系统的关键技术之一。之前，斯坦福大学的面向计算机视觉的CS231n和面向自然语言处理的CS224n成为了全球非常多AI研究人员的入门经典学习课程。因此，斯坦福大学于今年3月开设了一门专门面向知识图谱的系列课程CS520，官网课程页：https://web.stanford.edu/cla
神经网络基础知识 hqc888688 神经网络和深度学习
本文由斯坦福CS224n翻译整理而来1.神经网络基础知识1.1单个神经元单个神经元是神经网络的基本单位，其主要接受一个n维的向量x，输出为一个激活函数的输出aa=11+exp(−(ωTx+b))每个神经元均可拟合一种非线性的变化形势，上图采用的主要是基于sigmoid函数的神经元。神经元内部的主要参数为一个n维向量的参数ω和一个偏移量b。每一个神经网络可以看作是同时运行多个逻辑回归1.2单层神经网
Stanford CS224N: PyTorch Tutorial (Winter ‘21) —— 斯坦福CS224N PyTorch教程（第二部分）放肆荒原 AI PyTorch Python pytorch 人工智能 python
本教程译文的第一部分，请见我的上一篇博文：StanfordCS224N:PyTorchTutorial(Winter‘21)——斯坦福CS224NPyTorch教程（第一部分）_放肆荒原的博客-CSDN博客运算(Operations)PyTorch运算与NumPy的运算非常相似。我们可以使用标量和其他张量。In[40]:#Createanexampletensor#创建一个示例张量x=torch.
机器学习100天-Day10 Tensorflow实现RNN算法我的昵称违规了
本例是为了配合NLP学习中的RNN网络，斯坦福CS224n课程里面使用的是Tensorflow进行，所以提前熟悉一下，使用Tensorflow生成一个echo-rnn。说实话，这个例子是照着教程敲出来的，仅仅实现了，但是没有对后面的原理进行分析，目前还是在一步一步往前推。代码同样更新在github：https://github.com/jwc19890114/-02-learning-file-1
Stanford:Natural Language Processing with Deep Learning 元宇宙iwemeta
CS224n:NaturalLanguageProcessingwithDeepLearningStanford/Winter2019LogisticsLectures:areonTuesday/Thursday4:30-5:50pmPSTinNVIDIAAuditorium.Lecturevideosforenrolledstudents:arepostedonmvideox.stanford.
CS224n 2019 Winter 笔记（一）：Word Embedding:Word2vec and Glove lairongxuan CS224n 自然语言处理
CS224n笔记：Word2Vec:CBOWandSkip-Gram摘要一、语言模型（LanguageModel）（一）一元模型（UnaryLanguageModel）（二）二元模型（BigramModel）二、如何表示“word”——词向量（WordVector）三、Word2Vec模型（一）Word2vec的作用（二）ContinuousBagofWordsModel(CBOW)1、CBOW模
CS224n自然语言处理（四）——单词表示及预训练，transformer和BERT 李明朔自然语言处理自然语言处理
文章目录一、ELMO1.TagLM–“Pre-ELMo”2.ELMo:EmbeddingsfromLanguageModels二、ULMfit三、Transformer1.编码器（1）词向量+位置编码（2）多头注意力层（3）前馈神经网络层2.解码器四、BERT1.BERT的输入2.预训练任务1：MaskedLM3.预训练任务2：NextSentencePrediction之前介绍的WordVect
SoftMax函数意念回复机器学习数学
目录1Softmax的形式2hardmax的特性3softmax和hardmax的相似性4softmax函数概率模型构建5softmax函数优化1Softmax的形式Softmax函数是在机器学习中经常出现的，时常出现在输出层中。softmax的表达式：而下面我们要介绍的softmax“暂时”长相和它有些不一样，暂且叫做softmax_g：为什么叫softmax呢？根据CS224n的说法，主要是因
CS 224N总结长命百岁️ 自然语言处理人工智能深度学习
CS224N网址：StanfordCS224N|NaturalLanguageProcessingwithDeepLearningLecture1PPT网址：PowerPointPresentation(stanford.edu)这一讲主要讲了NLP研究的对象，我们如何表示单词的含义，以及Word2Vec方法的基本原理。这里我们简单介绍一些Word2Vec方法的基本原理：人们认为，一个词往往与其上
CS224N学习笔记（六）—— 句法分析 DataArk
写在前面的话：CS224N的第四课和第五课分别是word窗口分类、神经网络和反向传播的知识，但是第四课前半部分内容其实蛮乱的，我个人准备后面在这部分的更新换成对传统的一些机器算法在NLP上的应用上的学习。后面的神经网络和反向早就学过了，所以也就跳过了，后面总结神经网络的时候一起总结。一、语言学的两种观点如何描述语法，有两种主流观点，其中一种是短语结构文法，也就是上下文无关文法，英文术语是：Cons
NLP-D22-cs224n&UNICORN&多层感知机&房价预测kaggle 甄小胖 NLP python 自然语言处理 pytorch 深度学习
–0519今天0430起床的，早上开始看cs224n，感觉老师好可爱！现在开始读论文啦！一、Unicorn—0558感觉还是有创新的！但是一时间说不上来？可能是时间与关系在溯源图中的综合？？？先干饭！–0621吃饭的时候看了cs224n，讲的很细。主要讲了word2vec，具体是如何去做word2vec这件事。1、用中心词预测周围词2、用两套向量，分别表示这个词作为中心词和作为周围词时的向量表示3
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少