24kb_

Lecture 15: Natural Language Generation

文章目录

Recap: LMs and decoding algorithms
- Natural Language Generation (NLG)
- LM
NLG tasks and neural approaches to them
- 摘要
- - 两个主要策略
  - Pre-neural summarization
  - Neural summarization (2015 -present)
- 对话 Dialogue
- - Pre-and post-neural dialogue
  - Seq2seq-based dialogue
- Storytelling
- - Generating a story from an image
  - Generating a story from a writing prompt
  - Challenges in storytelling
  - Event2event Story Generation
  - Structured Story Generation
- Poetry generation
- - Hafez
  - Poetry generation: Deep-speare
- Non-autoregressive generation for NMT
NLG evaluation
- Automatic evaluation metrics for NLG
- Human evaluation
- Possible new avenues for NLG eval
Thoughts on NLG research, current trends, and the future
- Exciting current trends in NLG
- Neural NLG community is rapidly maturing
- 8 things I’ve learnt from working in NLG
- Bizarre conversations between me and my chatbot
总结

Recap: LMs and decoding algorithms

Natural Language Generation (NLG)

自然语言生成是指我们生成（即编写）新文本的任何设置。
NLG是以下任务的子组件：
- 机器翻译
- 摘要
- 对话（闲聊和任务型）
- 创意写作：讲故事，诗歌创作
- 自由问答（答案是产生的，而不是从文本或知识库中抽取的）
- 图像字幕
- ···

LM

给出目前已知的词序列，预测下一个词
$p(y_t|y_1,···,y_{y-1})$
产生这个概率分布的系统叫做语言模型
如果这个系统是一个RNN，那么就被称为RNN-LM

ConditionalLanguage Modeling

给定目前已知的词序列，并且还有一些其他输入 $x$ ，预测下一个词
$p(y_t|y_1,···,y_{t-1},x)$
条件语言模型任务的例子
- 机器翻译（x = source sentence, y = target sentence）
- 摘要（x = input text, y = summarized text）
- 对话（x = dialogue history, y = next utterance）
- ···

training a (conditional) RNN-LM
例子：Neural Machine Translation

在训练时，解码时将gold（aka reference）target sentence 作为输入，而不管解码器预测的结果，这种训练方法叫做 Teacher Forcing

decoding algorithms

问题：一旦训练好（条件）语言模型，如何用它生成为本？
答案：解码算法就是一种用来从语言模型中生成文本的算法
我们已经学过两种解码算法
- Greedy decoding
- Beam search

greedy decoding

一种简单的算法
在每个时间步，选择概率最大的单词（i.e. argmax）
将其作为下一个单词，并输入到下一个时间步
直到产生（或达到最大长度）停止
由于缺乏回溯，输出可能很差（比如，不和语法，不自然，无意义）

beam search decoding

一个搜索算法，通过同时跟踪多个可能的句子来在找到概率较高的概率（尽管不一定是最优的）
核心思想：在解码的每个时间步，跟踪概率最高的k个部分句子（我们称之为假设）
- k 是beam size
当达到某些停止规则时，选择概率最高的句子（根据句子长度对概率调整后）

What’s the effect of changing beam size k?
较小的 k 会出现ugreedy decoding（k = 1）相同的问题
- 不合语法，不自然，无意义，不正确
较大的 k 意味着可以考虑更多的假设
- 增加 k 减少了上述的问题
- 更大的 k 需要更多的计算
- 但增加 k 会引入一些其他问题
  - 对于 NMT，增加 k 太多会减小BLEU分数(Tu et al, Koehn et al)，这主要是因为large-k beam search会产生非常短的翻译（即使是分数标准化！）
  - 在诸如聊天对话之类的开放式任务中，更大的k可以使输出更通用（请参见下一张幻灯片）

Effect of beam size in chitchat dialogue

Sampling-based decoding

纯采样
- 在每一步 t ，从概率分布 $P_t$ 中随机抽样以获得下一个单词
- 像 greedy decoding一样，但是是采样而不是argmax
Top-n sampling
- 在每一步 t ，从概率分布 $P_t$ 中的前n个最有概率的单词中随机抽样
- 像纯采样一样，但截断概率分布
- n = 1 是greedy search，n = V 是纯采样
- 增加 n 获得更多样/冒险的输出
- 减小 n 获得更泛化/安全的输出
这两种比beam seatch更加有效，因为不用跟踪多个假设

Softmax temperature

复习：在时间步 t，语言模型通过softmax计算向量 $\in R^{|V|}$ 的概率分布 $P_t$
$P_t(w) = \frac{exp(s_w}{\sum_{w' \in V}exp(s_{w'})}$
你可以将温度（temperature）超参数 $\tau$ 应用于 softmax：
$P_t(w) = \frac{exp(s_w/\tau)}{\sum_{w' \in V}exp(s_{w'}/\tau)}$
提高KaTeX parse error: Undefined control sequence: \tao at position 1: \̲t̲a̲o̲： $P_t$ 变得更均匀
- 因此输出更加多样化（概率分布在整个词表中）
降低KaTeX parse error: Undefined control sequence: \tao at position 1: \̲t̲a̲o̲： $P_t$ 变得更尖锐
- 因此输出多样性较小（概率集中在顶层词汇上）
注：softmax temperature 不是一种解码算法
这是一种可以在测试时应用的技术，与解码算法（如波束搜索或采样）结合使用

Decoding algorithms: in summary

Greedy decoding 是一种简单的方法；输出的质量较低
Beam search（尤其是beam size较大时）搜索高概率输出
- 提供比贪心更好的质量，但如果beam search太大，可能会返回高概率但不合适的输出（例如通用、短）
Sampling methods是一种获得多样性和随机性的方法
- 适合开放式/创造性的生成（诗歌、故事）
- Top-n sampling允许你来控制多样性
Softmax temperature是另一种控制多样性的方法
- 它不是解码算法！它是一种可以和解码算法一起使用的技巧

NLG tasks and neural approaches to them

摘要

任务定义

任务：给出输入文本 x，写出一个较短的并且包含 x 主要信息的 y
摘要可以是单文档或者多文档的

单文档意味着我们写出一个单个文档 x 的总结 y
多文档意味着我们要写出多个文档 $x_1,···, x_n$ 的总结 y
通常 $x_1，…，x_n$ 有重叠的内容：例如关于同一事件的新闻文章
在单个文档摘要中，存在具有不同长度和样式的源文档的数据集：
- Gigaword：新闻文章的前一两句话→标题（又称句子压缩）
- LCSTS（中国微博）：段落→单句摘要
- NYT，CNN/DailyMail：新闻文章→（多）句摘要
- Wikihow（新的）：完整的指导文章→总结句

句子简化(Sentence simplification)是一个不同但相关的任务:
以更简单（有时更短）的方式重写源文本

Simple Wikipedia：标准Wikipedia句子→简单版本
Newsela：新闻文章→儿童版

List of summarization datasets, papers, and codebases: https://github.com/mathsyouth/awesome-text-summarization

两个主要策略

抽取型摘要（Extractive summarization）
选择原文的部分（通常是句子）形成摘要。
- 更简单
- 限制性（无释义）
抽象式摘要（Abstractive summarization）
使用自然语言生成技巧生成新文本
- 更难
- 更灵活（更人性化）

Pre-neural summarization

在神经网络之前，摘要系统主要是抽取式的
与神经网络之前的MT一样，它们通常有一条管道：
- 内容选择：选择一些句子
- 信息排序：为这些句子排序
- 句子实现：编辑句子序列（例如简化、删除部分、修复连续性问题）
句子评分功能基于：
- 存在主题关键字，通过例如tf idf计算
- 句子出现在文档中的位置等特征
基于图的算法将文档视为一组句子（节点），每个句子对之间有边
- 边缘权重与句子相似度成正比
- 使用图算法识别图中的中心句子

Summarization evaluation: ROUGE

ROUGE(Recall-Oriented Understudy for GistingEvaluation)

像 BLEU一样，它是基于n-gram重叠的。两者区别如下：
- ROUGE没有简短惩罚
- ROUGE基于召回率，而BLEU基于准确率
  - 可以说，精确性对MT更为重要（然后加上简洁性惩罚以修复翻译不足），而召回率对于摘要更为重要（假设您有最大长度限制）
  - 然而，无论如何，通常都会报告F1（精确性和召回率的组合）版本的分数
- BLEU是一个单一的数字，它是n=1,2,3,4 n-grams的精度的组合
- 对于每个n-gram分别计算ROUGE评分
最常用的ROUGE分数如下：
- ROUGE-1：unigram overlap
- ROUGE-2: bigram overlap
- ROUGE-L: longest common subsequence overlap
有一个简便的ROUGE的Python实现：https://github.com/google-research/google-research/tree/master/rouge

Neural summarization (2015 -present)

2015: Rush et al. 发布第一篇seq2seq摘要的论文
单文档抽象性摘要是一个翻译任务
因此我们可以使用标准seq2seq + attention NMT 模型

A Neural Attention Model for Abstractive Sentence Summarization, Rush et al, 2015 https://arxiv.org/pdf/1509.00685.pdf
从2015年开始，有很多的发展
- 使其更容易复制
  - 同时也避免太多的复制
- 分层/多层次的注意力机制
- 更多的全局/高级的内容选择
- 使用 RL（强化学习）直接最大化 ROUGE 或者其他离散目标（例如长度）
- 恢复 pre-neural 思想（如内容选择的图形算法）并将其应用到神经系统中

List of summarization datasets, papers, and codebases: https://github.com/mathsyouth/awesome-text-summarization
A Survey on Neural Network-Based Summarization Methods, Dong, 2018 https://arxiv.org/pdf/1804.04589.pdf

copy mechanisms

Seq2seq+attention 系统很擅长写出流利的输出，但不擅长正确地复制细节（如罕见的单词）
复制机制使用 attention 使 seq2seq 系统能够轻松地将单词和短语从输入复制到输出
- 很明显这对摘要很有用
- 允许复制和生成提供了一种混合的提取/抽象方法
有几篇论文提出了复制机制的变体：
- Language as a Latent Variable: Discrete Generative Models for Sentence Compression, Miao et al, 2016 https://arxiv.org/pdf/1609.07317.pdf
- Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond, Nallapatiet al, 2016 https://arxiv.org/pdf/1602.06023.pdf
- Incorporating Copying Mechanism in Sequence-to-Sequence Learning, Gu et al, 2016 https://arxiv.org/pdf/1603.06393.pdf

一个复制机制的例子

在解码的每个时间步，计算 $p_gen$ ，这是产生下一个单词的概率（而不是复制它），最终的分布是生成（也称为“词表”）分布和复制（即注意）分布的混合：

Summarization with Pointer-Generator Networks, See et al, 2017 https://arxiv.org/pdf/1704.04368.pdf

复制机制出现了一些问题

复制的太多了
- 大多数是长的短语，有时甚至是整个句子
- 本应是抽象系统，结果可能会崩溃成一个主要是抽取系统。
另一个问题
- 它们不善于选择整体内容，尤其是当输入文档很长时
- 没有选择内容的总体策略

better content selection

回忆：神经系统前的总结对于内容选择和表面实现（即文本生成）有单独的阶段
在一个标准的 seq2seq + attention 摘要系统内，这两个阶段混合在一起
- 在解码的每一步（即表面实现），我们实现了词汇级别内容的选择（attention）
- 这不好：没有全局内容选择策略
一个解决方法：自下向上摘要

Bottom-up summarization

内容选择阶段：使用一个神经序列标注模型来将单词标注为 include / don’t-include
自下向上注意力阶段：seq2seq + attention 系统不能处理 don’t-include 的单词（使用 mask ）

Bottom-Up Abstractive Summarization, Gehrmannet al, 2018 https://arxiv.org/pdf/1808.10792v1.pdf

简单但是有效！

更好的整体内容选择策略
减少长序列的复制(即更摘要的输出)
- 因为长序列中包含了很多 don’t-include 的单词，所以模型必须学会跳过这些单词并将那些 include 的单词进行摘要与组合

Neural summarization via Reinforcement Learning

2017年，Paulus et al 发表了一个"deep reinforced"摘要模型
主要思想：使用强化学习(RL)直接优化ROUGE-L分数
- 相比之下，标准的最大似然(ML)训练不能直接优化ROUGE-L，因为它是一个不可微函数
  
  A Deep Reinforced Model for Abstractive Summarization, Paulus et al, 2017 https://arxiv.org/pdf/1705.04304.pdf
  Blog post: https://www.salesforce.com/products/einstein/ai-research/tl-dr-reinforced-model-abstractive-summarization/

对话 Dialogue

“对话”包含多种设置：

任务导向型对话
- 辅助（例如，客户服务、提供建议、回答问题、帮助用户完成购买或预订等任务）
- 合作（两名代理人通过对话解决任务）
- 对抗性（两个代理通过对话在一个任务中竞争）
社会性对话
- 闲聊（为了娱乐或陪伴）
- 治疗 / 精神健康

Pre-and post-neural dialogue

由于开放式自由形式NLG的困难，pre-neural 对话系统更常使用预先定义的模板，或者从一个反应语料库中检索适当的回复。
在总结研究中，自2015年以来，有许多论文将seq2seq方法应用到对话中，从而使人们对开放式自由形式对话系统产生了新的兴趣
一些早期的seq2seq文章包括
- A Neural Conversational Model, Vinyalset al, 2015
  https://arxiv.org/pdf/1506.05869.pdf
- Neural Responding Machine for Short-Text Conversation, Shang et al, 2015 https://www.aclweb.org/anthology/P15-1152
这是最近（主要是神经）对话人工智能工作的一个很好的概述：
https://medium.com/gobeyond-ai/a-reading-list-and-mini-survey-of-conversational-ai-32fceea97180

Seq2seq-based dialogue

然而，很快就发现，标准seq2seq+attention方法的简单应用对于（闲聊）对话具有严重的普遍缺陷：

一般性/无聊的回复
无关的回复(与上下文不够相关)
重复
缺乏上下文(不记得谈话历史)
缺乏一致的角色人格

Irrelevant response problem
问题：seq2seq经常产生与用户无关的话语

要么因为它是通用的(例如,“我不知道”)
或因为改变话题为无关的一些事情

一个解决方法：优化输入与响应T之间的最大互信息（MMI），而之前是给定 S 下生成概率最高的回复 T，这就会导致产生一些本来概率就很大的句子用于回复

A Diversity-Promoting Objective Function for Neural Conversation Models, Li et al, 2016 https://arxiv.org/pdf/1510.03055.pdf

Genericness/ boring response problem

简单的测试时修复
- 直接在Beam搜索中增大罕见字的概率
- 使用抽样解码算法而不是Beam搜索
条件修复
- 用一些额外的内容训练解码器(如抽样一些内容词并处理)
- 训练 retrieve-and-refine 模型而不是 generate-from-scratch 模型
  - 即从语料库采样人类话语并编辑以适应当前的场景
  - 这通常产生更加多样化/人类/有趣的话语！
Why are Sequence-to-Sequence Models So Dull?, Jiang et al, 2018
https://staff.fnwi.uva.nl/m.derijke/wp-content/papercite-data/pdf/jiang-why-2018.pdf

Repetition problem
简单的解决方法：

直接在 Beam 搜索中禁止重复n-grams
- 通常非常有效

更复杂的解决方案

在seq2seq中训练覆盖机制，这是一个防止注意机制多次注意同一单词的目标。
定义训练目标以阻止重复
- 如果这是一个不可微函数生成的输出，然后将需要一些技术例如RL来训练

Lack of consistent persona problem
缺乏一致的人物角色问题

2016年，Li等人提出了seq2seq对话模型，该模型学习将对话双方的角色编码为嵌入
- 生成的话语是以嵌入为条件的
最近，有一个叫做PersonaChat的聊天数据集，它包括每次对话的人物角色（5个描述个人特征的句子的集合）。
- 这提供了一种轻量级的基础，使研究人员能够构建角色条件对话代理

A Persona-Based Neural Conversation Model, Li et al 2016, https://arxiv.org/pdf/1603.06155.pdf
Personalizing Dialogue Agents: I have a dog, do you have pets too?, Zhang et al, 2018 https://arxiv.org/pdf/1801.07243.pdf

Negotiation dialogue
2017，Lewis等人收集了一个谈判对话数据集

两个代理（通过自然语言）协商如何划分一些东西。
代理对东西具有不同的价值功能。
代理在达成协议前一直在交谈。

Deal or No Deal? End-to-End Learning for Negotiation Dialogues, Lewis et al, 2017 https://arxiv.org/pdf/1706.05125.pdf
他们发现用标准的最大似然(ML)来训练seq2seq系统的产生了流利但是缺乏策略的对话代理
和Paulus等的摘要论文一样，他们使用强化学习来优化离散奖励(代理自己在训练自己)
RL 的基于目的的目标函数与 ML 目标函数相结合
潜在的陷阱：如果两两对话时，代理优化的只是RL目标，他们可能会偏离英语（不满足语法）

在测试时，模型通过计算 rollouts，选择可能的反应：模拟剩余的谈话和预期的回报

2018年，Yarats 等提出了另一个谈判任务的对话模型，将策略和NLG方面分开
每个话语 $x_t$ 都有一个对应的离散潜在变量 $z_t$
$z_t$ 学习成为一个很好的预测对话中的未来事件的预测器(未来的消息，策略的最终收获)，但不是 $x_t$ 本身的预测器
这意味着 $z_t$ 学会代表 $x_t$ 对对话的影响，而不是 $x_t$ 的话
因此 $z_t$ 将任务的策略方面从 NLG方面分离出来,这对可控制性、可解释性和更容易学习策略等是有用的

Hierarchical Text Generation and Planning for Strategic Dialogue, Yarats et al, 2018 https://arxiv.org/pdf/1712.05846.pdf

Conversational question answering: CoQA

CoQA: a Conversational Question Answering Challenge, Reddy et al, 2018 https://arxiv.org/pdf/1808.07042.pdf

一个来自斯坦福NLP的新数据集
任务：回答关于以一段对话为上下文的文本的问题
答案必须具有摘要性(而不是复制)
QA / 阅读理解任务，和对话任务

Storytelling

神经讲故事的大部分工作使用某种提示
- 给定图像，生成故事情节段落
- 给定一个简短的写作提示，生成一个故事
- 给定迄今为止的故事，生成故事的下一个句子（故事续写）
  这和前两个不同，因为我们不关心系统在几个生成的句子上的性能
神经网络生成故事飞速发展
- 第一个故事研讨会于2018年举行
- 它举行比赛(使用五张图片的序列生成一个故事)

Storytelling Workshop 2019: http://www.visionandlanguage.net/workshop2019/

Generating a story from an image

有趣的是，这不是直接的监督图像字幕（supervised image-captioning）。没有可供学习的配对数据。
Generating Stories about Images, https://medium.com/@samim/generating-stories-about-images-d163ba41e4ed

问题：如何解决缺乏并行数据的问题
回答：使用一个通用的 sentence-encoding space
Skip-Thought Vectors, Kiros2015, https://arxiv.org/pdf/1506.06726v1.pdf

Skip-thought 向量是一种通用的句子嵌入方法
- 想法类似于我们如何学通过预测其周围的单词来学习单词的嵌入
使用 COCO (图片标题数据集)，学习从图像到其标题的 Skip-thought 编码的映射
使用目标样式语料库(Taylor Swift lyrics)，训练一个RNN-LM来将Skip-thought向量解码为原文
把两个结合在一起

Generating a story from a writing prompt

2018年，Fan 等发布了一个新故事生成数据集 collected from Reddit’s WritingPrompts subreddit.
每个故事都有一个相关的简短写作提示

Fan 等也提出了一个复杂的 seq2seq prompt-to-story 模型
Hierarchical Neural Story Generation, Fan et al, 2018 https://arxiv.org/pdf/1805.04833.pdf
基于卷积
- 这使得比基于RNN的seq2seq快
门控的多头多尺度自注意力
- self-attention 对捕获远程上下文而言十分重要
- 门控允许更有选择性的注意机制
- 不同的注意力头集中在不同的尺度上——这意味着有不同的注意力机制专门用于检索细粒度信息和粗粒度信息
模型融合
预训练一个seq2seq模型，然后训练第二个 seq2seq 模型访问的第一个 model 的隐状态
想法是，第一个seq2seq模型学习通用LM，第二个model学习基于提示的条件

结果令人印象深刻

与提示相关
多样化，并不普通
在文体上戏剧性

但是

主要是氛围/描述性/场景设定，很少是事件/情节
生成更长时，大多数停留在同样的想法并没有产生新的想法——一致性问题

Challenges in storytelling

由神经LM生成的故事听起来流畅…但是是曲折的，荒谬的，情节不连贯的
缺失的是什么？
LMs对单词序列进行建模。故事是事件序列

为了讲一个故事，我们需要理解和模拟
- 事件和它们之间的因果关系结构
- 人物，他们的个性、动机、历史、和其他人物之间的关系
- 世界的状态(谁、是什么、在哪里和为什么)
- 叙事结构(如说明 → 冲突 → 解决)
- 良好的叙事原则(不要引入一个故事元素然后从未使用它)

Event2event Story Generation

Event Representations for Automated Story Generation with Deep Neural Nets, Martin et al, 2018 https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/view/17046/15769

Structured Story Generation

Strategies for Structuring Story Generation, Fan et al, 2019 https://arxiv.org/pdf/1902.01109.pdf

Tracking events, entities, state, etc.

旁注：在神经NLU(自然语言理解)领域，已经有大量关于跟踪事件/实体/状态的工作
- 例如，Yejin Choi’s group 在这一领域做了很多工作
将这些方法应用到 NLG是更加困难的
- 如果你缩小范围，则更可控的
- 不采用自然语言生成开放域的故事，而是跟踪状态
- 在跟踪因素的状态中，生成一个recipe(基于给定的因素)

Tracking world state while generating a recipe

神经过程网络：基于 ingrdients 来生成 recipe instructions
显式地跟踪所有 ingredients 的状态，并用它来决定下一步要采取什么行动。

Simulating Action Dynamics with Neural Process Networks, Bosselutet al, 2018 https://arxiv.org/pdf/1711.05313.pdf

Poetry generation

Hafez

Hafez：Ghazvininejad et al 的诗歌系统
主要思想：使用一个有限状态接收器(FSA)来定义所有可能的序列，服从希望满足的节奏约束。然后使用FSA约束RNN-LM的输出

例如

莎士比亚的十四行诗是14行的iambic pentameter
所以莎士比亚的十四行诗的FSA是 $01)^5)^{14}$
在Beam搜索解码中，只探索属于FSA的假设

Generating Topical Poetry, Ghazvininejadet al, 2016 http://www.aclweb.org/anthology/D16-1126
Hafez: an Interactive Poetry Generation System, Ghazvininejadet al, 2017 http://www.aclweb.org/anthology/P17-4008

全系统
用户提供主题字
得到一个与主题相关的词的集合
识别押韵主题词。这是每一行的结尾
使用受制于FSA的RNN-LM生成这首诗
RNN-LM向后(自右向左)。这是必要的,因为每一行的最后一个词是固定的。

在后续的论文中，作者制作了一个交互式并且用户能够控制的系统
控制方法很简单：在 beam search 中，增大具有期望特征单词的分数

Poetry generation: Deep-speare

一种更加端到端的诗歌生成方法（Lau等人）
Deep-speare: A joint neural model of poetic language, meter and rhyme, Lau et al, 2018 http://aclweb.org/anthology/P18-1181

三个组件

语言模型
pentameter（五音步诗律） model
rhyme model 韵律模型……

作为一个多任务学习问题共同学习

作者发现 meter 和押韵是相对容易的，但生成的诗歌上有些缺乏“情感和可读性”

Non-autoregressive generation for NMT

2018年，Gu等人发表了一个“Non-autoregressive Neural Machine Translation”模型 https://arxiv.org/pdf/1711.02281.pdf
- 意义：它不是根据之前的每个单词，从左到右产生翻译
它并行生成翻译
这具有明显的效率优势，但从文本生成的角度来看也很有趣
架构是基于Transformer 的；最大的区别是，解码器可以运行在测试时并行

NLG evaluation

Automatic evaluation metrics for NLG

基于词重叠的指标(BLEU，ROUGE，METROR，F1，等等)

我们知道他们不适合机器翻译
对于摘要而言是更差的评价标准，因为摘要比机器翻译更开放
- 不幸的是，与抽象摘要系统相比，抽取摘要系统更受ROUGE青睐
对于对话甚至更糟，这比摘要更开放
- 类似的例子还有故事生成

Word overlap metrics are not good for dialogue

How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation, Liu etal,2017 https://arxiv.org/pdf/1603.08023.pdf

Why We Need New Evaluation Metrics for NLG, Novikovaet al, 2017 https://arxiv.org/pdf/1707.06875.pdf

迷惑度如何？
- 捕捉你的LM有多强大，但不告诉你关于生成的任何事情（例如，如果你的解码算法不好，困惑是不受影响的）
词嵌入基础指标？
- 主要思想：比较词嵌入的相似度(或词嵌入的均值)，而不仅仅是单词的重叠。以更灵活的方式捕获语义。
- 不幸的是,仍然没有与类似对话的开放式任务的人类判断，产生很好的联系
我们没有自动指标充分捕捉整体质量(即代表人类的质量判断)
但我们可以定义更多的集中自动度量来捕捉生成文本的特定方面
- 流利性(使用训练好的LM计算概率)
- 正确的风格(使用目标语料库上训练好的LM的概率)
- 多样性(罕见的用词，n-grams 的独特性)
- 相关输入(语义相似性度量)
- 长度和重复
- 特定于任务的指标，如摘要的压缩率
虽然这些不衡量整体质量，他们可以帮助我们跟踪一些我们关心的重要品质

Human evaluation

人类的判断被认为是黄金标准
当然，我们知道人类评价是缓慢而昂贵的
但这是仅有的问题吗？
假如你能达到人类的评估：人类评估解决了你所有的问题吗？
不！
进行人类有效评估非常困难
人类
- 是不一致的
- 可能是不合逻辑的
- 失去注意力
- 误解了你的问题
- 不能总是解释为什么他们会这样做

Detailed human eval of controllable chatbots
详细的人类评估可控聊天机器人

在聊天机器人项目（PersonaChat）工作的个人经验：
我们研究了可控性（特别是对生成的话语的控制方面，如重复性、特异性、反应相关性和提问）。

What makes a good conversation? How controllable attributes affect human judgments, See et al, 2019 https://arxiv.org/pdf/1902.08654.pdf
如何要求人的质量判断？
我们尝试了简单的整体质量（多项选择）问题，例如：
- 这次对话有多好？
- 这个用户有多吸引人？
- 这些用户中哪一个给出了更好的响应？
- 您想再次与该用户交谈吗？
- 您认为该用户是人还是机器人？
主要问题：
- 必然非常主观
- 回答者有不同的期望；这会影响他们的判断
- 对问题的灾难性误解（例如“聊天机器人非常吸引人，因为它总是回写”）
- 总体质量取决于许多潜在因素；他们应该如何被称重和/或比较？

最终，我们设计了一个详细的人类评估系统，将影响聊天机器人整体质量的重要因素分离出来：

What makes a good conversation? How controllable attributes affect human judgments, See et al, 2019 https://arxiv.org/pdf/1902.08654.pdf

发现：
- 控制重复对于所有人类判断都非常重要
- 提出更多问题可以提高参与度
- 控制特异性（较少的通用话语）提高了聊天机器人的吸引力，趣味性和感知的听力能力。
  - 但是，人类评估人员对风险的容忍度较低（例如无意义或非流利的输出）与较不通用的机器人相关联
- 总体度量“吸引力”（即享受）很容易最大化 - 我们的机器人达到了近乎人性化的表现
- 整体度量“人性化”（即图灵测试）根本不容易最大化 - 所有机器人远远低于人类表现
- 人性化与会话质量不一样！
- 人类是次优的会话主义者：他们在有趣，流利，倾听上得分很低，并且问的问题太少

Possible new avenues for NLG eval

NLG评估的可能新途径

语料库级别的评价指标
- 评估指标应该独立地应用于测试集中的每个样例，还是应用于整个语料库的函数？
- 例如，如果对话模型对测试集中的每一个例子回答相同的通用答案，它应该被惩罚
评估衡量多样性安全权衡的评估指标
免费的人类评估
- 游戏化：使任务（例如与聊天机器人交谈）变得有趣，这样人类就可以为免费提供监督和隐式评估，作为评估指标
对抗性鉴别器作为评价指标
- 测试NLG系统是否能愚弄经过训练能够区分人类文本和AI生成的文本的识别器

Thoughts on NLG research, current trends, and the future

Exciting current trends in NLG

将离散潜在变量纳入NLG
- 可以帮助在真正需要它的任务中建模结构，例如讲故事，任务导向对话等
严格的从左到右生成的替代方案
- 并行生成，迭代细化，自上而下生成较长的文本
teacher forcing 是最大似然训练的另一种选择
- 更全面的句子级别的目标函数（而不是单词级别）

Neural NLG community is rapidly maturing

在NLP+深度学习的早期，社区主要是将成功的NMT方法转化为NLG任务。
现在，越来越多的创造性的NLG技术出现，特别是非NMT生成设置。
越来越多的（神经）NLG研讨会和比赛，特别是针对开放式NLG：
- NeuralGen workshop
- Storytelling workshop
- Alexa challenge
- ConvAI2 NeurIPS challenge
这些对于组织社区、提高再现性、标准化评估特别有用
最大障碍是评估

8 things I’ve learnt from working in NLG

任务越开放，一切就越困难。
约束有时是受欢迎的
针对某一特定改进的目标要比旨在提高整体生成质量的目标更易于实现。
如果你使用NLG的LM：改进LM（即困惑度）将极有可能提高生成质量。
但这并不是提高生成质量的唯一途径。
多看看你的输出
你需要一个自动的度量，即使它不完美。
你或许需要几个自动度量
如果你做人类评估，让问题尽可能集中。
再现性是当今NLP+深度学习中的一个大问题，也是NLG中一个更大的问题。
请公开发布你所有的输出与你的论文！
在NLG领域工作会很令人沮丧。但也很有趣…

Bizarre conversations between me and my chatbot

我和聊天机器人之间奇怪的对话

总结

语言模型
条件性语言模型：MT、摘要、对话
解码算法
- Greedy decoding
- Beam search：beam size变化，会引起哪些效果
- Sampling-based decoding
  - Pure sampling
  - Top-n sampling：n = 1就是greedy search， n = V 就是pure sampling
一种解码技巧：sotmax temperature

增大 $\tau$ ： $P_\tau$ 变得更均匀，因此输出更多样
减小 $\tau$ ，效果相反，输出多样i性减小

各种NLG任务，和神经网络方法

摘要
- 单文档、多文档
- 抽取式、抽象式
- 神经网络前大多是管道方法
- 评判标准：ROUGE
- 复制技巧：attention
- 同时使用复制技巧和生成能构建一个混合抽取/抽象的方法
- 自底向上的摘要：将内容选择和表面实现分开
- 使用强化学习来专门以提高ROUGE分数为目标，得到的结果虽然有更高的ROUGE分数，但人类评分更低
对话
- 任务导向型对话
- 社会性对话
  - 聊天型、治疗/精神健康
- 由于NLG自由性的难度，因此在神经网络之前使用预先设置的模板方法（templates）
- 基于seq2seq的对话：优化MMI能得到更好的结果
- CoQA：QA/ 阅读理解 / 对话任务
Storytelling
- 根据某种提示：图片、写作提示、给出故事的下一句
- 图片：Skip-thought
- 写作提示 Hierarchical Neural Story Generation
  其思想是，第一个seq2seq模型学习一般LM，第二个模型学习在提示时进行条件处理
- Event2event Story Generation
诗歌生成
- Hafez：使用一个FSA来定义满足韵律限制的序列，然后使用FSA来限制RNN-LM的输出
- Deep-speare：LM，pentameter model，rhyme model
Non-autoregressive generation for NMT
NMT的非自回归生成
- 不是从左到右生成翻译，每次依赖前一个单词
- 基于Transformer，可以并行

NLG 评测

自动评测
- BLEU, ROUGE, METEOR, F1, etc. 都不适合，与人类评判不相似
- 没有评价整体质量的自动评测方法，但可以评价多个方面
人工评价
- 被视为标准答案
- 但也有很多问题：不一致、可能不合理、误解问题
NLG可能的新的评价方式

对NLG当前趋势，未来的思考

任务限制越少，越难。因此有时候限制是受欢迎的
自动评价对于任务的提升很重要，即使不是自动评价不是太完美

你可能感兴趣的:(2019,CS224N)

忙碌的一天 b36731d3d324
2019年11月23日星期日晴今天一上班就来了一个老顾客，磨一份养生粉190元，给这位大哥点赞！很懂的养生、舍得投资自己！跟这位大哥聊天、他说自己以前身体不好，经常感冒，从吃这个五谷磨粉后身休真的好多了，皮肤也好了，比吃补药好的多，还涚很多人都说他不像五十多岁的人。今天他来超市还穿短裤，我们都穿长袖了！，你们看这大哥多精神！万事开头难，万事开头难，今天开了个好头.这位大哥来开了一个头?从上班干活一
亲子（919）厦门路小学邵艺馨妈妈
2019.10.6星期日阴转小雨今天真是幸福滴一天，白天店里顾客不是很多，俺悠哉悠哉滴过了一天。傍晚突然想吃猪肉土豆疙瘩汤，于是去了趟超市，切了八块钱猪后肘肉，又买了蘑菇和一些小咸菜。老公接俩孩子回来时，热乎乎的饭菜正好上桌(✪✪)。美的老公直喊：“不错不错(*๓´╰╯`๓)味道好极了～”孩子们也吃的肠滚肚圆，连老公给他俩买的汉堡和三文治都没吃了^ω^你们是开心的，俺就是幸福滴(^o^)o四（1）
2019-11-03 另一种安静_8134
11月3日星期日晴今天上跳舞班儿。老师教我们了1234舞蹈，一直在练习。放学了，妈妈和我舅舅家的妹妹来接我了。然后我们一起高高兴兴的回婆婆家吃饭了。
2019-09-28 新明半岛
今日和一个朋友电话聊了一个半小时，哈哈好久没和人煲过电话粥了。主要聊最近各自在干嘛，关键主题是家庭英语启蒙。之前跟这这个朋友学习家庭英语启蒙，这位朋友也是我比较佩服的一个人，比较优秀，通过不断精进自己，学以致用，创造财富。我们都是普通的上班族，过去的我只知道做家务，照顾孩子，很少有时间去自我学习自我提升，很少去复盘我的人生，没有得到家庭的认可，亲子关系和亲密关系都没有处理好。今年七月份，我跟着这位
2019-12-28 京心达_周莎
2019.12.27今日体验：每天都发生太多太多的事，每一件事都会成为自己成长路上的记忆，如果不认真对待，吃亏后悔的只能是自己，每天都是最后一天，不要吝啬自己的赞美和表达
焦点初13中13坚持分享第196天2019.6.4 ruby吕
三，构建良好的目标。咨询师会协助当事人澄清，对于问题解决时所欲的美好愿景为何，而非以咨询师认为当事人该改变之处为目标。从当事人所偏好未来之细节探讨，将引发当事人改变的动力，并能发展出行动计划。sfbt也会从当事人多个目标中有所聚焦，逐步引导当事人从问题的描述与抱怨，转而能与咨询师共同建构出明确具体可行的，具人际情景互动的，个人能力意愿所及的，符合当事人生活脉络的以及立即可以开始行动的步骤。
生命中一束特别的光抹茶阿白
每个人的生命中都会有一束特别的光，这束光是信仰，激励着我们不断前进。谈谈我自己吧，我的生命中有两束特别的光。第一束：鞠婧祎。她是现在舞台上闪闪发光的偶像，是粉丝们的信仰。2018年我通过大火的古装影视剧《芸汐传》认识她。她饰演的韩芸汐，是一个活泼开朗的小丫头，也是一个温婉动人的王妃娘娘。当时也只是因为她的颜值而喜欢她，努力去了解她，从百度开始，至此，我开始关注她的作品。2019年《新白娘子传奇》开
华鲜栗子
2019年1月26日晴打糍粑的小伙子说今天很暖和我满身浸着汗水细数快乐太阳叉腰发奋展示光芒让我和人们眼里泛着金黄一个跟头下我不说话就是大笑后继续笑等到能站起来后继续出发再跌了跟头后再爬上坡一股劲儿来自无名的女侠羽毛轻盈如即将来的春花儿我是不会被埋没的蜂鸟不需要漂亮就能造出精华
2019-05-15 华英雄_712d
2019-05-15姓名：郭祥华组别：315期六项精进努力一组【日精进打卡第515】【知～学习】背诵《六项精进》2遍共2104遍。背诵《大学》2遍共2104遍。原则：“痛苦加反思等于进步”“接受严厉的爱”“迎接而并非躲避痛苦”经典语句：你面临的挑战将考验你强化了，如果你没有经历过失败，就说明你没有努力突破极限，而如果你不努力突破极限，你就不能最大限度的挖掘自己的潜能，努力突破极限，有时失败有时成功
2019.1.24星期四亲子日记95 李妈妈
图片发自App图片发自App图片发自App大宝被评为三好学生了！一年级的第一学期马上结束了，虽然期末考试的成绩不理想，但是这一学期大宝还是很努力的，大宝的缺点就是学东西还不够扎实，做题的时候读题不认真，不会检查！希望假期里我们一起努力改掉这些坏习惯！让大宝在新的学期里更加的主动认真的去学习，也希望大宝能够再活跃一点，能够积极参与学校的各项活动！做一个全面发展的好学生！！！厦小一年六班李新妈妈
2019-01-19 BOOpan
潘蔚～常州新日催化剂有限公司【日精进打卡第一百七十五天】一、感恩感谢姑姑不远万里来看望妈妈感谢护工的照顾感谢快乐会议带来的欢乐感谢公司准备的年会礼品感谢家人对我英语读法的纠正感谢同事爸爸帮我去买家具感谢同事当我司机二、行善利他快乐会议上唱歌下班后将在线色谱投入使用三、反省做事前没有认真思考，导致自己和自己较真
2019年12月大学英语四级考试（第一套）翻译真题 kandang
2019年12月大学英语四级考试（第一套）翻译真题PartⅣTranslation(30minutes)Directions:Forthispart,youareallowed30minutestotranslateapassagefromChineseintoEnglish.YoushouldwriteyouransweronAnswerSheet2.中国家庭十分重视孩子的教育。许多父母认为应该
亲子日记545篇2019.3.27 明懿妈妈
今晚下班回家，大宝已经和爸爸在下象棋，第一句话就是骄傲的告诉我，作业已经完成，而且在学校等校车时已经写完。一定是昨天跟他二姨家哥哥聊天时受苦的影响。他的表哥今年四年级，作业从来不带回家，在学校全部完成，英语也很棒。有这样的榜样，大宝加油哦！晚上吃过饭已经八点多，洗漱完，大宝拿着书到我们卧室，和小宝一起看书（小宝只是不停的翻着图片问这这、那那的让我回答），读了一篇后就回房间睡觉了。
2019-08-04 b10bc01d9838
尊敬的李老师，智慧的班主任，亲爱的跃友们：大家好！我是来自山东莱州鑫和金店的王秀娟，李总的人今天是2019年8月4日，是我的日精进行动第74天，每天进步一点点，时间长了，实现质的飞跃！1、比学习:生活中有很多细节的地方都需要学习。2、比改变:销售技巧还需要改变，还需要提升。3、比付出:这几天家人们为了换款活动加班加点。4、比谦卑:学会放下，学会感恩。5、比感恩:感恩公司感恩所有的伙伴们。6、比坚持
2019-04-07只要方向对，就不怕路远阿牛时间管理笔记
昨天和公司的小伙伴一起聊天，谈到了价值观，相对我们这个小团队来说：自律、利他、走正道、以用户为中心，是我们一致的价值观。大家只有先在思维方面达成一致，才会拧成一股更有力量的绳，一起做有价值能沉淀的事业。实际上，查理·芒格在他的书中以及演讲中多次提到「价值观」。谈及自己的家庭，他说：「虽然我的家庭没有留下大笔财产，但为我提供了良好的教育，为我的行为规范树立了一个了不起的榜样。归根到底，这些比实际的钱
2019-02-10 茗菲
2019.2.9周六晴亲子日记第191天今天大年初五了，年也算过完了，我早晨老公送我上班，今天姑姑们回娘家，婆婆她们都在家待客。晚上睡一宿今早一起来浑身酸痛，小宝一宿睡得挺好，也没发烧，我可以放心上班啦。中午我走回家自己煮了碗面条吃，有点上火了，吃饱饭躺倒自己家的床上，感觉软和多了，没有孩子在身边，四肢可以任意伸展，舒舒服服睡了个午觉，舒服多了。下午下班后和公公联系一下说正收拾东西一会就都回来了，
2019年7月1日~晴~星期一~亲子日记（36）张华博妈妈
今天是大宝让我最生气的一天，一大早就不听指挥，起床洗脸的时候让他把脖子洗洗，跟我生气，就是不洗。把饭摆到眼前也不吃，气的我把鸡蛋都摔一边去了，不吃走人，去上学吧！什么都没吃走了。在群里看到家长发的视频，看孩子们都停听话，真希望回到家也是这样。到了下午更让人生气的事发生了，放学回来问考的怎么样，他一说，我跟爸爸又看了看试卷，火蹭蹭的上来了，数学不该错的也错，还不如平常考的哪。算式都能错，最气人的是我
把解决问题的权力还给孩子小溪与大海
刘琳坚持第694天分享(2019/4/26）这刚刚体育实验微机考完，紧跟着2930期中考试，5月9号10号一模，一模考试完以后就要报自愿。这一连串的事情，一连串需要去解决的问题，那到底该如何更好的进入冲刺阶段？如何更好的提高成绩？如何保持一个最好的状态面对中考呢？这可能是当下，作为父母，作为孩子，首先要面对也是首先要解决的问题。那么，这个解决的方法在哪里呢？可能作为父母的我们，此时此刻特别希望能为
当身边的人离我们而去时，我们可以选择做什么？朱亚萍
昨天把爷爷送走，今天整理了一下朋友圈，发现一个对我很好的长辈，也在昨天走了。如何才能更好的去陪伴身边的亲人？陪伴？电话？或是什么？猫叔说时间就是生命。现在的我真的不能去浪费时间我要去把握当下，把每一件事做好努力的去践行最大的感恩就是拿钱说话因为钱，引发了多少问题在我的家人身上，这两天也看的很清楚把2019年的计划，认真践行，有能力给到我最爱的人。我不管别人怎么去说去对待我知道小时候我在你们身上得到
2019-06-02 胡五妹1964
五妹日记我是不是多心了在去年冬天，已忘了哪一天了，我在手机上浏览，听说在上写文章的人，被人抄袭，发表在别的平台上。正因为这个，看到自己在写的几篇文章，也没什么阅读量，投稿又被拒绝，也许自己写的还是不够好吧。于是，我就在精力转到今日头条的悟空问答里做问答。看到那么多的问答题，有时感觉自己有话要说，于是就把自己经历的或知道的事写了不少。有时答诗词方面的问题，我还会去百度上查资料，或看《唐诗三百首》《宋
晨语问安2019年4月25日求索大伟
『晨语问安4.25』在如此竞争激烈的当下，我们是否不由想过，如若能够穿越过去，必定会好好重新来过，不让时光再虚度。且不说，时光无法倒流，即使能够倒流思想也带不回去，因为物质的存在不可逆，只会存在一次，也只有一次，这是不可争辩的事实。如若不带着脑袋的回归，即使再重来一遍，也还会像现在的自己一样，依然是一事无成，依然像现在一样怨天尤人和怨恨自己的曾经不努力、悔恨自己过去的得过且过。既然无法选择重来，也
2019年2月第四周周总结（0217-0223）當下_lee
一、健康1、早睡早起：本周早睡基本完成，早起有3次超过六点起床，主要原因是到点没马上起床和身体需要休息。2、晨间运动：本周坚持完成。而且按照上个星期的要求，给自己定个要求，若是早上无法执行，有闲余时间或是晚上睡觉前补上。3、饮食：早晨固定蜂蜜水+米糊。本周按时用餐，本周肠胃没有不舒服的地方。4、泡脚：本周泡脚1次。虽然只有1次，但是是和妈妈、宝宝一起泡的，边泡边聊天，蛮好的时光。5、跑步：已经做好
2020北京大学西班牙语语言文学考研详情介绍、必看经验指导 xxxedu666
学习方式全日制招生人数2019拟招4人研究方向00.不区分研究方向考试科目①101思想政治理论②201英语一③620综合考试④844西班牙语语言文学复试线18年：总分330政治英语50/专业课9017年：总分330政治英语50/专业课9016年：总分340政治英语50/专业课902018录取闵逸菲初试分数386.5
美韵森-践行日记打卡第51天文馨养生
世界上有一种强大的正能量叫相信；也有一种负能量叫不信。你相信的事情，成为你的信念；你不信的东西，成为你的障碍，禁锢你的思维。没有一个人因相信而一无所有；却有太多人因不信而丧失成长机会！信与不信，在于内心的强大与否；当你内心无比强大的时候，充满着的永远是正能量。自信开放，世界便在你脚下！2019招商会开始便进入倒计时，加油吧，人在做，天在看，努力了，一定会有收获！带着爱，去分享健康！
我的梦想清单 2c60c9621064
我的梦想好像很简单1、2019年9月份能瘦到100斤2、2019年7月份赚1万，8月份可以月入3万，然后往后每个月都可以更多3、2020年上半年孩子可以在县城上学然后租一个好点的房子4、2020年下半年可以买一套属于自己的房子然后给女儿儿子报兴趣班，让他们以后的生活多姿多彩
大伟荐语2019.5.6 求索大伟
【大伟荐语】我从不信命运，不信所谓的可以指引我们的生命征兆，我不相信算命师讲的故事，不相信可以预知未来的扑克牌。我只相信简单的巧合，还有偶然的真相。——马克·李维《伊斯坦布尔假期》遐思：命运掌握在自己的手里，而非某种神秘的力量所能安排和引领，惟有做好自己才有可能有一个美好的明天。而一味地听从命运的安排，不去努力，不去拼搏，只想随遇而安，随波逐流，最后结局不会有什么好的结局。把当下做好，把现在做实，
每周复盘 2019年 2.4.---2.10 简书时间煮雨
感悟:再难也要坚持，慢慢找思路，写着写着就顺了！学习:1.死磕！终于完成第二次作业上交，难度四个字一一吭吭哧哧！2.听有书共读《行为设计学一一零成本改变》。3.手勤，眼要勤。及时记录稍纵即逝的灵感，抓住它，更文2篇。不管好坏，在写得过程中锻炼自己。工作:过年待班两天，也没有发生年前担心的那么多事。所以说，焦虑和恐惧只是因为自己的内心还不够强大。休闲与放松:图片发自App1.观影两场:《飞驰人生》和
【原创文集】如果时光会说话 7a82ff5fbe9b
大数据工程学院21计科本2王玉艳1528662159515286621595.如果时光会说话，它会不会知道未来发生的事情然后跟人类讲呢？从2006年的非典到2019年的新冠疫情，发生了太多太多的让人类遭遇苦难的病毒。如果时光会说话，它是否会将即将发生的事与我们一说，让人类避免所遭遇的一切呢？如果时光会说话，不知道它看见这些在它身体里所发生的一切，它会不会感到悲哀呢？如果时光会说话，我会问问它新冠疫
虚惊一场（2019.4.12）辛馨
图片发自App今天我跟往常一样，在回家的公交车上听课，正当一节课听完纠结继续再听一节课，还是用樊登读书会听一本书的时候，爸爸来电话了，用近乎哭腔的声音说：“奕奕找不到了！”“在哪找不到了？”“后湾小区旋转滑梯这里！”我提前一站下车，开始一路跑向滑梯的地方。一边跑一边想这得上哪去找孩子呀，万一被人领走了，我不敢往下想了……大脑一片空白……快到的时候给奶奶打电话，问奶奶，奕奕怎么找不到了。奶奶说她就进
2019-03-21 如何抉择喜欢与不喜欢的安静的大海
当一个人喜欢一件事情，习惯上往往会首先把它做完，把难的留到最后。从小，我的老爸跟我强调先做不擅长的，做完后剩下的一切都感觉轻松自如了。但是那时我没有意识到在做不擅长的遇到难关怎么办？结果，有时在这方面耗时过长，导致情绪沮丧，后面本来相对容易的也变得有些困难了。因此，这里面有个策略问题。我觉得可以先挑一件感兴趣的一件事，把它做完后，会信心满满；这时可以冲刺一下困难的，当无法前进时，及时=换项目；然后
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round