FB1024

【cs224n-13】Natural Language Generation

本文主要讲解自然语言生成的神经方法(NLG)的一般性应用和发展概况。

一.概述:LMs和解码算法

NLG： 自然语言生成(NLG)指的是我们生成（即写入）新文本的任何设置。包括：机器翻译、文本摘要、对话、创意写作（讲故事、诗歌创作）、问答系统、图形字幕等等。

语言建模：是给定之前的单词，预测下一个单词的任务。一个产生这一概率分布的系统叫做 语言模型。如果系统使用 RNN，则被称为 RNN-LM

条件语言建模： 是给定之前的单词以及一些其他输入 x ，预测下一个单词的任务。

RNN-LM：神经机器翻译中的例子

在训练期间,我们将正确的(又名引用)目标句子输入解码器，而不考虑解码器预测的。这种培训方法称为 Teacher Forcing

解码算法：

贪心解码（greedy decoding）

在每一步中，取最可能的单词（即argmax），将其用作下一个单词，并在下一步中将其作为输入提供继续前进，直到您产生或达到某个最大长度。缺乏回溯，输出可能很差

Beam搜索 (特别是高beam大小)搜索高概率输出

一种旨在通过一次跟踪多个可能的序列，找到高概率序列（不一定是最佳序列）的搜索算法。核心思想：在解码器的每一步，跟踪 k 个最可能的部分序列（我们称之为假设），k是光束大小，达到某个停止标准后，选择概率最高的序列（考虑一些长度调整）。比贪婪提供更好的质量，但是如果 Beam 尺寸太大，可能会返回高概率但不合适的输出(如通用的或是短的)，且计算量更大。

抽样方法 来获得更多的多样性和随机性

纯采样：在每个步骤t，从概率分布 Pt中随机抽样以获取你的下一个单词。像贪婪的解码，但是是采样而不是argmax。

Top-n 采样：在每个步骤 t ，从 Pt的前 n 个最可能的单词中，进行随机采样，与纯采样类似，但截断概率分布。增加n以获得更多样化/风险的输出；减少n以获得更通用/安全的输出。这两者都更多比光束搜索更有效率，不用跟踪多个假设

Softmax 温度控制 的另一种方式多样性
- 它不是一个解码算法！这种技术可以应用在任何解码算法。

二.NLG tasks and neural approaches to them

2.1 文本摘要

1）文本摘要分成两种策略：

抽取式摘要 ：选择部分(通常是句子)的原始文本来形成摘要。更简单，限定性的（无需解释）

抽象式摘要：使用自然语言生成技术生成新的文本。更困难，更多变（更人性化）

评估方法：ROUGE

类似于 BLEU，是基于 n-gram 覆盖的算法，不同之处在于：

没有简洁惩罚，基于召回率 recall，BLEU 是基于准确率的。可以说，准确率对于MT 来说是更重要的(通过添加简洁惩罚来修正翻译过短)，召回率对于摘要来说是更重要的(假设你有一个最大长度限制)，因为需要抓住重要的信息。但是，通常使用 F1(结合了准确率和召回率)

2）Pre-neural summarization

Pre-neural摘要系统大多是抽取式的，他们通常有一个流水线

内容选择 Content selection：选择一些句子

信息排序 Information ordering：为选择的句子排序

句子实现 Sentence realization：编辑并输出句子序列例如，简化、删除部分、修复连续性问题)

Pre-neural 内容选择 算法

句子得分函数： 可以根据主题关键词，通过计算如tf-idf等特性，例如这句话出现在文档的哪里

图算法： 将文档为一组句子(节点)，每对句子之间存在边边的权重与句子相似度成正比，使用图算法来识别图中最重要的句子。

3）Neural summarization (2015 - present)

自2015年以来，基于神经网络的文本摘要有了更多的发展

使其更容易复制，也防止太多的复制
分层/多层次的注意力机制
更多的全局/高级的内容选择
使用 RL 直接最大化 ROUGE 或者其他离散目标（例如长度）
复兴 pre-neural 想法(例如图算法的内容选择)，把它们变成神经系统

复制机制

复制机制使用注意力机制，使seq2seq系统很容易从输入复制单词和短语到输出。

复制机制的问题，他们有时复制得太多，比如长短语甚至是整个句子，这就会崩溃成为一个主要是抽取的摘要系统。
另一个问题他们不善于整体内容的选择，特别是如果输入文档很长的情况下没有选择内容的总体战略

自下而上摘要

内容选择阶段：使用一个神经序列标注模型来将单词标注为 include / don’t-include
自下而上的注意力阶段：seq2seq + attention 系统不能处理 don’t-include 的单词（使用 mask ）

通过强化学习的神经摘要

使用 RL 直接优化 ROUGE-L
- 相比之下，标准的最大似然(ML)训练不能直接优化ROUGE-L，因为它是一个不可微函数
有趣的发现
- 使用RL代替ML取得更高的ROUGE分数，但是人类判断的得分越低
混合模型最好

2.2 对话系统

“对话”包括各种各样的设置

面向任务的对话
- 辅助 (如客户服务、给予建议，回答问题，帮助用户完成任务，如购买或预订)
- 合作 (两个代理通过对话在一起解决一个任务)
- 对抗 (两个代理通过对话完成一个任务)
社会对话
- 闲聊 (为了好玩或公司)
- 治疗/精神健康

1）Pre- and post-neural dialogue

由于开放式自由NLG的难度，pre-neural对话系统经常使用预定义的模板，或从语料库中检索一个适当的反应的反应
摘要过去的研究，自2015年以来有很多论文将seq2seq方法应用到对话，从而导致自由对话系统兴趣重燃
一些早期seq2seq对话文章包括
- A Neural Conversational Model, Vinyals et al, 2015
  
  https://arxiv.org/pdf/1506.05869.pdf
- Neural Responding Machine for Short-Text Conversation, Shang et al, 2015
  
  https://www.aclweb.org/anthology/P15-1152

2）Seq2seq-based dialogue

然而，很快他们就明白简单的应用标准seq2seq +attention 的方法在对话(闲聊)任务中有严重的普遍缺陷

一般性/无聊的反应
无关的反应(与上下文不够相关)
重复
缺乏上下文(不记得谈话历史)
缺乏一致的角色人格

无关紧要的反应问题

问题：seq2seq经常产生与用户无关的话语
- 要么因为它是通用的(例如,“我不知道”)
- 或因为改变话题为无关的一些事情
一个解决方案：不是去优化输入 S 到回答 T 的映射来最大化给定 S 的 T 的条件概率，而是去优化输入S 和回复 T 之间的最大互信息Maximum Mutual Information (MMI)，从而抑制模型去选择那些本来就很大概率的通用句子

一般性/无聊的响应问题

简单的测试时修复
- 直接在Beam搜索中增大罕见字的概率
- 使用抽样解码算法而不是Beam搜索
条件修复
- 用一些额外的内容训练解码器(如抽样一些内容词并处理)
- 训练 retrieve-and-refine 模型而不是 generate-from-scratch 模型
  - 即从语料库采样人类话语并编辑以适应当前的场景
  - 这通常产生更加多样化/人类/有趣的话语！

重复的问题

直接在 Beam 搜索中禁止重复n-grams
- 通常非常有效
更复杂的解决方案
- 在seq2seq中训练一个覆盖机制，这是客观的，可以防止注意力机制多次注意相同的单词
- 定义训练目标以阻止重复
  - 如果这是一个不可微函数生成的输出，然后将需要一些技术例如RL来训练

缺乏一致的人物角色问题

2016年，李等人提出了一个seq2seq对话模式，学会将两个对话伙伴的角色编码为嵌
- 生成的话语是以嵌入为条件的
最近有一个闲聊的数据集称为PersonaChat，包括每一次会话的角色(描述个人特质的5个句子的集合)
- 这提供了一种简单的方式，让研究人员构建 persona-conditional 对话代理

3）Negotiation dialogue

Deal or No Deal? End-to-End Learning for Negotiation Dialogues, Lewis et al, 2017

Hierarchical Text Generation and Planning for Strategic Dialogue, Yarats et al, 2018

2.4 故事生成

神经讲故事的大部分工作使用某种提示

给定图像生成的故事情节段落
给定一个简短的写作提示生成一个故事
给定迄今为止的故事，生成故事的下一个句子（故事续写）

讲故事的挑战：

事件和它们之间的因果关系结构
人物，他们的个性、动机、历史、和其他人物之间的关系
世界(谁、是什么和为什么)
叙事结构(如说明 →冲突 →解决)
良好的叙事原则(不要引入一个故事元素然后从未使用它)

发展进程：

Generating Stories about Image

类似于我们如何学通过预测周围的文字来学习单词的嵌入，使用 COCO (图片标题数据集)，学习从图像到其标题的 Skip-thought 编码的映射，使用目标样式语料库(Taylor Swift lyrics)，训练RNN-LM，将Skip-thought向量解码为原文。

Hierarchical Neural Story Generation, Fan et al, 2018

1） convolutional-based，这使它的速度比RNN-based seq2seq

2）封闭的多头多尺度的self-attention
- self-attention 对于捕获远程上下文而言十分重要
- 门控允许更有选择性的注意机制
- 不同的注意力头在不同的尺度上注意不同的东西——这意味着有不同的注意机制用于检索细粒度和粗粒度的信息
3）模型融合
- 预训练一个seq2seq模型，然后训练第二个 seq2seq 模型访问的第一个 model 的隐状态
- 想法是，第一seq2seq模型学习通用LM，第二个model学习基于提示的条件

Event Representations for Automated Story Generation with Deep Neural Nets, Martin et al, 2018

Strategies for Structuring Story Generation, Fan et al, 2019

2.5 诗歌生成

Generating Topical Poetry, Ghazvininejad et al, 2016

使用一个有限状态受体(FSA)来定义所有可能的序列，服从希望满足的节奏约束，然后使用FSA约束RNN-LM的输出。
Hafez: an Interactive Poetry Generation System, Ghazvininejad et al, 2017

作者制作了系统交互和用户可控。控制方法很简单：在Beam搜索中，增大具有期望特征的单词的分数

Deep-speare: A joint neural model of poetic language, meter and rhyme, Lau et al, 2018

三个组件：语言模型、pentameter model、rhyme model 韵律模型；作为一个多任务学习问题共同学习。

2.6 翻译系统

Non-Autoregressive Neural Machine Translation, Gu et al, 2018

它不是根据之前的每个单词，从左到右产生翻译，它并行生成翻译，这具有明显的效率优势，但从文本生成的角度来看也很有趣；架构是基于Transformer 的；最大的区别是，解码器可以运行在测试时并行。

三. NLG evaluation

3.1 基于词重叠的指标(BLEU，ROUGE，METROR，F1，等等)

不适用于开放性NLG任务，如生成式摘要、开发式对话系统，机器翻译等。

3.2 困惑度

捕捉你的LM有多强大，但是不会告诉你关于生成的任何事情(例如，如果你的困惑度是未改变的，解码算法是不好的)

3.3 词嵌入基础指标

主要思想：比较词嵌入的相似度(或词嵌入的均值)，而不仅仅是重叠的单词。以更灵活的方式捕获语义。
不幸的是,仍然没有与类似对话的开放式任务的人类判断，产生很好的联系

3.4 人类评估

问题与困难：缓慢且成本很高。还会存在一下问题：是不一致的、可能是不合逻辑的、失去注意力、误解了你的问题、不能总是解释为什么他们会这样做

3.5 可能存在的新的方式

语料库级别的评价指标
- 度量应独立应用于测试集的每个示例，或整个语料库的函数
- 例如，如果对话模型对测试集中的每一个例子回答相同的通用答案，它应该被惩罚
评估衡量多样性安全权衡的评估指标
免费的人类评估
- 游戏化：使任务（例如与聊天机器人交谈）变得有趣，这样人类就可以为免费提供监督和隐式评估，作为评估指标
对抗性鉴别器作为评估指标
- 测试NLG系统是否能愚弄经过训练能够区分人类文本和AI生成的文本的识别器

四.Thoughts on NLG research, current trends, and the future

任务越开放，一切就越困难。约束有时是受欢迎的
针对特定改进的目标比旨在提高整体生成质量更易于管理
如果你使用一个LM作为NLG：改进LM（即困惑）最有可能提高生成质量，但这并不是提高生成质量的唯一途径
多看看你的输出
你需要一个自动度量，即使它是不受影响的，您可能需要几个自动度量
如果你做了人工评估，让问题尽可能的集中
在今天的NLP + 深度学习和 NLG中，再现性是一个巨大的问题。
在NLG工作可能很令人沮丧，但也很有趣

参考：http://web.stanford.edu/class/cs224n/slides/cs224n-2020-lecture15-nlg.pdf

Word2Vec ——gensim实战教程王同学死磕技术
最近斯坦福的CS224N开课了，看了下课程介绍,去年google发表的Transformer以及最近特别火的ContextualWordEmbeddings都会在今年的课程中进行介绍。NLP领域确实是一个知识迭代特别快速的领域，每年都有新的知识冒出来。所以身处NLP领域的同学们要时刻保持住学习的状态啊。笔者又重新在B站上看了这门课程的第一二节课。这里是课程链接。前两节课的主要内容基本上围绕着词向量
CS224N笔记——词向量表示 random_walk
onehot表示image.png主要问题所有的向量都是正交的，无法准确表达不同词之间的相似度，没有任何语义信息向量维度是语料库中所有单词的数量，维度太大。以下内容主要摘抄自来斯惟的博士论文基于神经网络的词和文档语义向量表示方法研究CS224n的notesYoavGoldberg的word2vecExplained:DerivingMikolovetal.’sNegative-SamplingWo
谢撩，人在斯坦福打SoTA 夕小瑶人工智能 ai cstring 边缘检测 nlp
文|Jazon编|小戏小编注：不知道大家还记不记得卖萌屋之前人在斯坦福，刚上CS224n的Jazon小哥发来的关于斯坦福神课CS224n上半学期的报道？今天，Jazon又在斯坦福前线发来了关于他在CS224n下半学期的经历，那么现在让我们把画面交给Jazon，看看大佬的课程作业是怎么完成的吧！上篇文章提到我在Stanford上NLP“神课”CS224n，课程的前半学期以上课、写作业为主，而后半学期
2021斯坦福CS224N课程笔记~4 mwcxz 斯坦福CS224N学习笔记 pytorch 深度学习人工智能
4.依存解析DependencyParsing参考文档：https://zhuanlan.zhihu.com/p/420736640https://www.showmeai.tech/article-detail/237https://zhuanlan.zhihu.com/p/147321515https://zhuanlan.zhihu.com/p/49992664https://blog.cs
斯坦福NLP课程来了人工智能大讲堂学习资料深度学习自然语言处理人工智能
生成式AI，尤其是以ChatGPT为首的大语言模型正在改变人们的生活方式，我想一定有小伙伴想加入NLP这个行列。微软重磅发布4个适合初学者的机器学习资料我在前一篇文章中分享了微软人工智能初学者课程，其中的【生成式AI】非常适合初学者，今天我将分享NLP的进阶课程。https://web.stanford.edu/class/cs224n/关注v公众号：人工智能大讲堂，后台回复snlp获取全部资料。
【关于Python中两个相等字符串is判断出来是false的问题】李不卷 python list
今天在写cs224n的作业时，在判断words中的单词和corpus中的单词进行判断单词是否相等时，采用了is进行逻辑判断。但是出现了相同的单词进行判断结果为false的情况。即，如“END”is"END"的结果为false.先开始以为是代码的其他部分逻辑错了，就改来改去也没有找到原因。晚上躺在床上，想起来试一试==来判断，结果居然跑通了。所以，利用==来替换is，得到了最终想要的正确结果。在博客
2021斯坦福CS224N课程笔记~7 mwcxz 人工智能深度学习机器学习
7.机器翻译，序列到序列、注意力机制参考文献：https://zhuanlan.zhihu.com/p/430709084https://zhuanlan.zhihu.com/p/147310766【简易】https://zhuanlan.zhihu.com/p/47063917【注意力系列】https://www.showmeai.tech/article-detail/242https://z
2021斯坦福CS224N课程笔记~5 mwcxz 斯坦福CS224N学习笔记机器学习人工智能自然语言处理
5语言模型(LM)与循环神经网络(RNN)参考文档：https://zhuanlan.zhihu.com/p/424671205https://www.showmeai.tech/article-detail/239https://zhuanlan.zhihu.com/p/147322049[易懂]https://zhuanlan.zhihu.com/p/61893429讲座计划\1.神经依存解析
2021斯坦福CS224N课程笔记~3 mwcxz 斯坦福CS224N学习笔记人工智能深度学习机器学习
3.神经网络学习：手工计算梯度Lecture3:Neuralnetlearning:Gradientsbyhand(matrixcalculus)andalgorithmically(thebackpropagationalgorithm)参考文档：https://zhuanlan.zhihu.com/p/527211871https://zhuanlan.zhihu.com/p/41429307
【笔记3-6】CS224N课程笔记 - RNN和语言模型 jessie_weiqing 笔记 CS224N RNN cs224n 自然语言处理 GRU LSTM
CS224N（六）RecurrentNeuralNetworksandLanguageModels语言模型语言模型介绍n-gram基于窗口的神经语言模型RNNRNNLossandPerplexityRNN的优缺点及应用梯度消失和梯度爆炸问题梯度消失/爆炸问题的解决方法DeepBidirectionalRNN应用：RNN翻译模型GRULSTM【笔记3-1】CS224N课程笔记-深度自然语言处理【笔记
Transformer简单理解（MT） rd142857 nlp transformer 机器翻译深度学习
Transformer21年cs224n的Transformer这课换了TA来讲，有点听不太懂（我是菜狗）这篇suggestedreading讲得非常清楚TheIllustratedTransformerKey-Query-ValueAttention使得xi的不同方面得以被使用或强调。计算分数时，除以d的平方根以获得更加稳定的梯度。softmax计算得到的某单词上的权重可以被视作为该单词应当被获
NLP进阶之路——CS224n（一）技术宅zch NLP
NLP绪论什么是自然语言处理？NLP的层次NLP的应用人类语言的特殊之处什么是深度学习为什么NLP很难？NLP语义层面的表示Reference什么是自然语言处理？自然语言处理（NLPnaturallanguageprocessing）是一门计算机科学、人工智能和语言学的交叉学科。是人工智能领域的重要分支！人工智能有机器视觉、语音识别、和NLP。自然界拥有视觉的生物有很多，但是拥有高级语言的生物只有
关于无监督、聚类和主题模型 Silv_Kim
Somereferenceshttp://www.52nlp.cn/2012/04https://github.com/Computing-Intelligence/Referenceshttp://web.stanford.edu/class/cs224n/https://study.163.com/course/courseLearn.htm?courseId=1004570029#/lear
【Stanford CS224N 笔记】lecture 7 Recurrent Neural Network 宇智波艾尼路深度学习机器学习 pytorch
一、语言模型1.1定义语言模型LanguageModel，是指预测一个句子（词语有序序列）出现的概率的模型，即，一般可用于以下场景：1.判断什么词序出现的可能性更高：p(六点吃饭)>p(六点饭吃)2.判断在上下文中，什么词汇出现的可能性更高：p(七点下班回家)>p(七点下班回公司)1.2n-gram语言模型一般基于一个错误但有必要的马尔科夫假设：一个单词的出现概率仅取决于前n个单词是什么，即在足量
Stanford CS224n 第一讲：深度自然语言处理江南丶 Stanford CS224n NLP Stanford CS224n 学习笔记
第一节课主要是介绍了NLP（尤其是DeepNLP）的背景知识。主要有一下几点：什么是NLP？NLP的应用NLP的难点MachineLearningvs.DeepLearning接下来，根据课程视频+自己的理解，我将一一详细介绍以上的4部分。1.什么是NLP？Naturallanguageprocessing(NLP)是计算机科学+AI+语言学的交叉产物；它的目标是让机器能够处理或者明白自然语言(t
2021斯坦福CS224N课程笔记~2 mwcxz 斯坦福CS224N学习笔记机器学习算法人工智能
2NeuralClassifiers2.1本篇内容覆盖word2vec与词向量回顾算法优化基础计数与共现矩阵GloVe模型词向量评估wordsenses2.2.回顾：word2vec的主要思想2.2.1.主要步骤具体见1.3.2Word2Vec算法的具体思路(1)随起：从随机的词向量开始；(2)遍历：遍历整个语料库中的每个单词；(3)预测：尝试使用词向量预测周围的词（见图2.1）：(4)学习：更新
斯坦福CS224N学习笔记-6 依存分析 CoderZhangsM 学习笔记人工智能深度学习神经网络自然语言处理
课程内容概述句法结构：一致性与依赖性依存文法和Treebank基于转移的依存分析使用神经网络的依存分析描述语言结构的两种方法上下文无关文法上下文无关文法=短语结构文法=句子成分依存文法通过找出句子中每个词所依赖的部分来描述句子的结构为了描述语言结构，人们采用了两种方法。其中一个就是计算机科学中常用的上下文无关文法，在语言学中，这常常被称为短语结构文法，然后也被称为句子成分的概念。另一种方法就是依存
cs224n学习笔记9-问答系统 TARO_ZERO 学习笔记 nlp 自然语言处理
目录QuestionAnswering问答系统QuestionAnswering问答ReadingComprehension阅读理解Stanfordquestionansweringdataset(SQuAD)斯坦福问答数据集神经网络模型BiDAF:theBidirectionalAttentionFlowmodel(2017)用于阅读理解的BERT模型比较BiDAF和BERT模型预训练模型Spa
Stanford CS224N - word2vec oveZ AI 人工智能深度学习神经网络自然语言处理机器学习
最近在听Stanford放出来的StanfordCS224NNLPwithDeepLearning这门课，弥补一下之前nlp这块基础知识的一些不清楚的地方，顺便巩固一下基础知识关于word2vec：1.为什么要把单词表示成向量一开始人们造了一个类似于词典表的东西-wordnet：但是这里面存在一些问题，大概有这么几个：例如，“proficient”被列为“good”的同义词，但这只在某些情境下是正
斯坦福大学CS520知识图谱系列课程学习笔记：第一讲什么是知识图谱 ngl567
随着知识图谱在人工智能各个领域的广泛使用，知识图谱受到越来越多AI研究人员的关注和学习，已经成为人工智能迈向认知系统的关键技术之一。之前，斯坦福大学的面向计算机视觉的CS231n和面向自然语言处理的CS224n成为了全球非常多AI研究人员的入门经典学习课程。因此，斯坦福大学于今年3月开设了一门专门面向知识图谱的系列课程CS520，官网课程页：https://web.stanford.edu/cla
神经网络基础知识 hqc888688 神经网络和深度学习
本文由斯坦福CS224n翻译整理而来1.神经网络基础知识1.1单个神经元单个神经元是神经网络的基本单位，其主要接受一个n维的向量x，输出为一个激活函数的输出aa=11+exp(−(ωTx+b))每个神经元均可拟合一种非线性的变化形势，上图采用的主要是基于sigmoid函数的神经元。神经元内部的主要参数为一个n维向量的参数ω和一个偏移量b。每一个神经网络可以看作是同时运行多个逻辑回归1.2单层神经网
Stanford CS224N: PyTorch Tutorial (Winter ‘21) —— 斯坦福CS224N PyTorch教程（第二部分）放肆荒原 AI PyTorch Python pytorch 人工智能 python
本教程译文的第一部分，请见我的上一篇博文：StanfordCS224N:PyTorchTutorial(Winter‘21)——斯坦福CS224NPyTorch教程（第一部分）_放肆荒原的博客-CSDN博客运算(Operations)PyTorch运算与NumPy的运算非常相似。我们可以使用标量和其他张量。In[40]:#Createanexampletensor#创建一个示例张量x=torch.
机器学习100天-Day10 Tensorflow实现RNN算法我的昵称违规了
本例是为了配合NLP学习中的RNN网络，斯坦福CS224n课程里面使用的是Tensorflow进行，所以提前熟悉一下，使用Tensorflow生成一个echo-rnn。说实话，这个例子是照着教程敲出来的，仅仅实现了，但是没有对后面的原理进行分析，目前还是在一步一步往前推。代码同样更新在github：https://github.com/jwc19890114/-02-learning-file-1
Stanford:Natural Language Processing with Deep Learning 元宇宙iwemeta
CS224n:NaturalLanguageProcessingwithDeepLearningStanford/Winter2019LogisticsLectures:areonTuesday/Thursday4:30-5:50pmPSTinNVIDIAAuditorium.Lecturevideosforenrolledstudents:arepostedonmvideox.stanford.
CS224n 2019 Winter 笔记（一）：Word Embedding:Word2vec and Glove lairongxuan CS224n 自然语言处理
CS224n笔记：Word2Vec:CBOWandSkip-Gram摘要一、语言模型（LanguageModel）（一）一元模型（UnaryLanguageModel）（二）二元模型（BigramModel）二、如何表示“word”——词向量（WordVector）三、Word2Vec模型（一）Word2vec的作用（二）ContinuousBagofWordsModel(CBOW)1、CBOW模
CS224n自然语言处理（四）——单词表示及预训练，transformer和BERT 李明朔自然语言处理自然语言处理
文章目录一、ELMO1.TagLM–“Pre-ELMo”2.ELMo:EmbeddingsfromLanguageModels二、ULMfit三、Transformer1.编码器（1）词向量+位置编码（2）多头注意力层（3）前馈神经网络层2.解码器四、BERT1.BERT的输入2.预训练任务1：MaskedLM3.预训练任务2：NextSentencePrediction之前介绍的WordVect
SoftMax函数意念回复机器学习数学
目录1Softmax的形式2hardmax的特性3softmax和hardmax的相似性4softmax函数概率模型构建5softmax函数优化1Softmax的形式Softmax函数是在机器学习中经常出现的，时常出现在输出层中。softmax的表达式：而下面我们要介绍的softmax“暂时”长相和它有些不一样，暂且叫做softmax_g：为什么叫softmax呢？根据CS224n的说法，主要是因
CS 224N总结长命百岁️ 自然语言处理人工智能深度学习
CS224N网址：StanfordCS224N|NaturalLanguageProcessingwithDeepLearningLecture1PPT网址：PowerPointPresentation(stanford.edu)这一讲主要讲了NLP研究的对象，我们如何表示单词的含义，以及Word2Vec方法的基本原理。这里我们简单介绍一些Word2Vec方法的基本原理：人们认为，一个词往往与其上
CS224N学习笔记（六）—— 句法分析 DataArk
写在前面的话：CS224N的第四课和第五课分别是word窗口分类、神经网络和反向传播的知识，但是第四课前半部分内容其实蛮乱的，我个人准备后面在这部分的更新换成对传统的一些机器算法在NLP上的应用上的学习。后面的神经网络和反向早就学过了，所以也就跳过了，后面总结神经网络的时候一起总结。一、语言学的两种观点如何描述语法，有两种主流观点，其中一种是短语结构文法，也就是上下文无关文法，英文术语是：Cons
NLP-D22-cs224n&UNICORN&多层感知机&房价预测kaggle 甄小胖 NLP python 自然语言处理 pytorch 深度学习
–0519今天0430起床的，早上开始看cs224n，感觉老师好可爱！现在开始读论文啦！一、Unicorn—0558感觉还是有创新的！但是一时间说不上来？可能是时间与关系在溯源图中的综合？？？先干饭！–0621吃饭的时候看了cs224n，讲的很细。主要讲了word2vec，具体是如何去做word2vec这件事。1、用中心词预测周围词2、用两套向量，分别表示这个词作为中心词和作为周围词时的向量表示3
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc

【cs224n-13】Natural Language Generation

一.概述:LMs和解码算法

二.NLG tasks and neural approaches to them

三. NLG evaluation

四.Thoughts on NLG research, current trends, and the future

你可能感兴趣的:(CS224N)