weixin_42001089

前言

首先介绍一篇对话系统领域综述最新的paper，写的非常好

2021年南洋理工大学发表的论文： https://arxiv.org/pdf/2105.04387.pdf

第一章：简要介绍对话系统和深度学习。

第二章：讨论现代对话系统中流行的神经模型及其相关工作。

第三章：介绍面向任务对话系统的原理和相关工作，并讨论研究挑战和热门话题。

第四章：介绍开放域对话系统中的热门话题。

第五章：对话系统的主要评估方法。

第六章：常用的数据集

第七章：总结并提供有关研究趋势的一些见解。

同时这里推荐一个英文领域有关对话系统最新消息的平台，其上提供了一些常见模型以及数据集下载等资源

ParlAI： https://parl.ai/about/

由于对话系统领域有很多研究方向，比如大的方面可以分为“面向任务型的对话系统”和“开放领域对话系统”、又比如“开放领域对话系统”又有专门研究带有感情、知识对话特色的系统等等，从模型方面考虑又有检索，生成甚至是检索+生成等。

所以这里大概会分多篇介绍，尽可能的同步当前业界研究的水平和动向～，欢迎关注文末笔者公众号～

作为开胃菜，本次主要介绍一下开放领域end-to-end的一些耳熟能详的模型，说白了就是近两年火过的模型，尤其提一嘴的是目前在中文领域，百度的PLATO应该是效果最好的了，大家可以试玩一下。这里展示一下笔者实验过的一个聊天片段：

左面为PLATO，右面为笔者

下面涉及总结的图片均来自笔者自己的PPT，为了省时间，直接截图啦。

背景

对话系统一般包括领域内(任务型)对话比如订票，订餐等等和开放领域对话。前者主要是靠识别特定的意图+反复确认来实现，整体来说难度不高，而后者实现起来相对来说较为困难，目前也较为不成熟。

之前一些开发领域对话的解决方案如微软的小冰都是一套很复杂的架构，但是随着最近几年预训练模型取得的成功，对话系统领域也开始探索端到端的实现方式，尤其在2019，2020，2021这三年涌现出了很多相关研究。比如2020年1月份google发表的Meena、4月份Facebook的Blender以及百度PLATO系列包括PLATO、PLATO-2、PLATO-XL等等，前两篇分别发表在ACL2020和ACL-IJCNLP2021，PLATO-XL则是今年9月在arxiv上预印，目前效果比较好的就是百度的PLATO-XL系列。

这里做一个简单的总结

更多的对话Bot可以看二文看懂百度对话系统PLATO系列（上） - 知乎

本文从关注中文领域聊天的角度出发，且目前效果较好的基本上就是百度的PLATO，所以下面介绍paper的时候，PLATO的笔墨会偏多和篇细一点，其它的paper的一些细节，感兴趣可以去看原论文，都已附上链接。

Datasets & Evaluation & Spend

这里主要介绍一下常用的公开数据集和评价方式以及训练这些模型需要的一个资源。

英文公开数据集：

Reddit and Twitter 爬取的数据集

中文公开数据集：

chatterbot，豆瓣多轮，PTT八卦语料，青云语料，电视剧对白语料，贴吧论坛回语料，微博语料，小黄鸡语料

评价方式

评价的一些指标

训练模型需要的资源

DialoGPT

论文链接：https://arxiv.org/abs/1911.00536

代码：GitHub - microsoft/DialoGPT: Large-scale pretraining for dialogue

项目：https://www.microsoft.com/en-us/research/project/large-scale-pretraining-for-response-generation/

这是微软的一篇paper，也是比较早的一篇探索使用Transformer来做对话的工作，思想比较简单，用的就是GPT-2这一生成模型，只不过语料用的是对话文本进而达到对话生成的目的。

使用的数据集就是DSTC-7和Reddit 。

GPT-2

MMI：后向模型，直观来看，最大化后向模型似然会对所有枯燥的假设施加惩罚，因为频繁的和重复性的假设可能与很多可能的查询有关，因此在任意特定查询下得到的概率会更低。

效果

DSTC

case: Human-Bot Chat

case: Self-chat

Meena

论文链接：https://arxiv.org/pdf/2001.09977.pdf

效果对比：https://github.com/google-research/google-research/tree/master/meena/

这是google提出的，之前闲聊都是基于很复杂的框架，比如基于知识、检索、规则等等，本文主要是想

探索End-to-end的可行性。

主要贡献点就是：

(1) 提出了评估多轮对话效果的指标SSA；

(2) PPL和SSA高度负相关，所以可用PPL自动评估模型效果；

(3) 足够大的端到端模型可以打败复杂架构的对话系统。

Dataset

从Reddit爬取，创建了tree ，任何根节点到叶子结点都说一次对话即(context, response) pair训练样本，最多7 turns。

然后过滤掉一些低质的对话样本，最后获得了867M条训练样本，总计341GB。

Model

Meena采用的是19年Google通过NAS方法得到的进化版transformer模型Evolved Transformer如下。Meena由1个ET编码器和13个ET解码器构成，ET解码器和标准Transformer解码器的对比如下图所示：

具体的其是2560 hidden size，32 attention heads。

Decoder

没有使用常规的Beam search，而是使用了Sample-and-rank: T越小越倾向于常规词汇，相反倾向使用上下文词汇，比如实体等等。具体公式：

SSA

Sensibleness and Specificity Average

咋一看，这个指标挺朴素的，没啥创新点，但是最近的一些研究表明，那些自动评价的指标结果和人的评价结果

还是有很多gap的，所以这里作者通过SSA明确量化结果，认为这是一个很好的点。

具体的是设置两个问题：

(1)Sensibleness : a response is completely reasonable in context

(2)Specificity : if it is specific to the given context

这里为了说明，作者假设有一个机器人(GenericBot)对所有questions都说“I do not know”，对所有称述都说“ok”，那其实其回答的结果是Sensibleness的，对比DialoGPT , GenericBot70%的回答都是sensible的，而DialoGPT 才62%，但是DialoGPT其实更像人说话。为了解决这个gap，所以又加了一个Specificity，即回答的要明确。

Evaluation

（1）Static Evaluation

Mini-Turing Benchmark (MTB) :

1477 examples ：315 single-turn 、500 two-turn 、662 three-turn

包含了一些 personality questions ？比如：Do you like cats?

（2）Interactive Evaluation

最少进行14 turns ，其中7 turns来着Bot，随机评价100conversations，也就是说最少7 * 100 =700 label的句子。这里会给培训人员说一下，不鼓励其极端对话(知道是和机器人聊，故意会问一下刁钻的问题)

result

Sampling outputs

Beam search outputs

(1)人的评价是具有高的sensibleness，但是低的specificity。

(2)目前而人总体平均是86% Meena总体最好是79%。

(3) PPL和SSA的负相关，进而相比其它静态指标如BLUE，可以利用PPL来更好的作为模型评估指标。

Blender

论文链接：https://arxiv.org/pdf/2004.13637.pdf

代码和模型：https://parl.ai/projects/recipes/

这是facebook提出的，创新没有多少，更像是对之前所有技术的一个汇总实验。

其提出之前的工作证明了数据量+参数量可以提升效果。

(1)但是作者考虑了另外一个方向即不同风格的训练数据其实也是影响对话质量的一个重要因素，其列举了一个高质量的对话大概有的skill是：愿意倾听、知识渊博、同情心等等。

(2) 解码方式

(3) 另外也实验了三种模型：检索、生成、检索+生成

Dataset

BST 这个数据集对话就是包含了上诉说的skill

解码方式

没有采用Meena的Sample方式，而是认为如果合适的调一些 beam search超参结果还是很强的，比如长度：

太短了的回答比较无趣，太长了的回答又比较啰嗦，表现的不愿意倾听。

(1)Minimum length：要求回复长度必须大于设定的值。长度不达标时，强制不产生结束token；

(2) Predictive length：把长度分成四段，例如 < 10, < 20, < 30, 和 > 30 tokens，然后利用四分类模型预测当前回复应该落在哪个长度段。模型使用的依旧是 poly-encoder。

(3) 屏蔽重复的子序列（Subsequence Blocking）：不允许产生当前句子和前面对话（context）

中已经存在的 3-grams。

框架

（1）Retriever

双塔结构：Poly-encoders。

极端情况下整个training set就是candidate set

（2）Generator

Seq2seq(Transformer): Unlikelihood Loss: 容易组合成常见n-grams的tokens, 如

果一个token组成的n-grams比真实答案中n-grams比例高

（3）Retrieve and Refine

先retriever 再 generate

Retrieval : Dialogue & Knowledge

其中Knowledge 可以用 TF-IDF-based

在Refine训练阶段，部分用gold reponse

Pretrain

在Reddit 数据集上面训练

Fine-tuning

ConvAI2 : personality & engaging

Empathetic Dialogues : empathy

Wizard of Wikipedia : knowledge

Blended Skill Talk : blending these skills

总体流程就是：Reddit -> (ConvAI2, Empathetic Dialogues, Wizard of Wikipedia ) -> Blended Skill Talk

ConvAI2，Empathetic Dialogues，Wizard of Wikipedia是各个谈话技巧的数据。

实验结果

这里就贴一个case吧，更多对比实验，大家感兴趣可以去看看paper

作者也说了目前其实模型还是不够好，有很多缺点比如被深入质询后就不行了，缺乏知识回答不上来，倾向于

使用简单的语言，并且有用重复短语的倾向。对此目前还没有一个解决的定论，只是展开的讨论了一下。比如考虑使用retrieve-and-refine 。

PLATO

论文链接：https://arxiv.org/pdf/1910.07931.pdf

代码链接：Research/NLP/Dialogue-PLATO at master · PaddlePaddle/Research · GitHub

这是百度PLATO系列的开山之作，之前很多工作证明了直接使用 bert 在对话语料上进行finetune效果不太好，可能的原因就是：

(1)数据分布的gap: 对话领域和通用领域的潜在语义存在gap

(2) 模型的差异：单向生成和双向bert

(3) 多样性:一对多，对待同一句话不应该每次只回答同一句respons

针对上诉问题，解决方法：

(1)使用Reddit and Twitter 数据集

(2) 采用unified language modeling ：unified transformer

(3) 提出latent speech act

其中最大的看点就是(3)，作者希望通过隐变量来表征不同的说话风格进而生成多样的回答。

[z]就是上文说的latent speech act ，注意一点的就是[z] 的 role, turn, position 都是空。

对于问答类型的话c就是背景知识，对于聊天就是之前的聊天。

那么不禁要问[z]是怎么学习呢？这里很简单，采用的是负采用方法，即通过构造(context，response) pair来训练，具体的使用随机采样response来作为context的负样本pair，总的来说就是一个二分类任务。

所以训练目标就是两大类：

Response Generation ： NLL、BOW

Response Selection ：RS

其中NLL和BOW没什么说的，就是常见的两个生成类loss，具体如下：

NLL

BOW：不关注词的顺序，关注全局信息

RS就是我们上面说的二分类

所以最后的总loss就是上述三者相加：

这里为了更好的说明上述训练过程，我们实际去看一下其代码(c:context，r:response)：

每个pair(c, r)过两次模型，第一次计算得到RS，第二次计算得到NLL和BOW，然后相加loss更新网络。

其实总共一个样本要过三次预训练模型！！！

Fine-tuning and Inference :

从k个里面选取一个score 最大的latent value 作为最后的输出。

代码说明：

b: batch k : num latent h: hidden size

447-450和452-456行其实为了计算RS，注意这里是过了两次模型，batch内抽负样本。

458-465行就是核心代码，这里z是[b, k]，self.latent_embeddings是[k，h]所以最后的464行是 [b,h]即【M】这个隐变量的表征。

只不过训练的时候是z是一个关于k的概率分布，而infer的时候是一个max 的one-hot，实际中k=20

实验结果

(1)在DSTC7-AVSD最下面的一行是给出了模型的上限，即假设所产生的k个response中最好的那个100% score最高即被选中。说明select部分还有很多可做空间。

(2) Seq2Seq是RNN的一种网络，LIC是一种基于transformer的网络。没有哪种结果在所有数据集和指标上都获得压倒性的胜利。

(3)Transformer的网络还是要好于RNN的，起码在human Evaluation上面上。

case analysis：

每个context 选了5个候选的response，附录中进一步展示了persona-chat、Daily Dialog和DSTC7-AVSD三个数据集场景下多个模型的输出case，感兴趣的可以看paper。

消融实验

在persona-chat数据集上面做的，指标是perplexity。

1系列是直接finetune；2系列是先在Reddit and Twitter数据集上面预训练一把；3是使用了latent

从1.2和1.3可以看到双向context的要好

从2系列和1系列对比来看，使用了对话数据预训练是要好于普通文本

3.1和2.2的相比，证明了latent的有效性。

PLATO-2

论文链接：https://arxiv.org/pdf/2006.16779.pdf

代码链接：https://github.com/PaddlePaddle/Knover/tree/develop/projects/PLATO-2

这是PLATO系列的第二篇，DialoGPT ，Meena，Blender 都是使用了更大的数据量，更大的模型进行训练，为此PLATO就想也上一下数据量和参数量。

但是一个问题就是，直接训练遇到训练不稳定和效率问题。作者猜测原因可能是让模型一上来就学习one-to-many挺难。于是想到了从简到难的学习过程即本文提到的curriculum learning。

总的来说相比于PLATO，PLATO-2 在框架上基本上没有太多改动，主要就是使用了一种多阶段训练方式扩大了数据量和模型参数量。

curriculum learning

这次同时训练了英文和中文，不过遵循了一贯的风格，哈哈，只开源了英文。

本文介绍的训练方式叫做curriculum learning 课程学习，即分阶段训练

第一阶段是one-to-one

第二阶段是one-to-many

具体来说其实是三个阶段

Coarse-grained : 粗粒度的学习，单纯的one-to-one生成模型，学一些通用性的response，缺乏多样性。

Fine-grained: 使用latent进行学习diverse response generation

Evaluation：学习score (还记得 PLATO中的上限吗?估计在这里思考了下) 即response coherence

之所以分开训练，是决定多任务会影响，具体可以看

http://proceedings.mlr.press/v119/standley20a.html

Coarse-grained： NLL

Fine-grained： NLL & BOW

Evaluation ： RCE & MLM

RCE：就是PLATO中的RS

训练了多个版本，大概可以总结如下

实验结果

英文 Self-Chat

中文 Human-Bot Chat

一些数据集上Static评价

Case 分析

两者都很好，Blender和plato-2都是比较高质量的聊天，但是前者偏向于频繁换话题，后者偏向于深层面的聊天。原因可能是Blender使用的训练数据BST就是这种风格，plato-2就是因为有隐变量产生丰富的response并且有select的过程，选出一个更好的深层次的response，这里也做了一个实验，就是看深层次对话对比，发现确实PLATO-2更好。

同时在比赛DSTC9 ，三个任务：

一个是交互的任务Track3-task2 、一个静态的知识聊天Track3-task1 、一个专业领域的对话Track2-task1都取得了第一。

PLATO–XL

论文链接：https://arxiv.org/pdf/2109.09519.pdf

代码链接：https://github.com/PaddlePaddle/Knover/tree/develop/projects/PLATO-XL

这是第三篇，也是最新的一篇，也是开头展示测试效果的对应模型。其背景是在对话生成领域，目前没有一个关于模型大小和对话质量的明确的结论。如下图

最好的模型却不是最大的模型。

本文就是试图探索：

在适当的设计好预训练框架的前提下，恐怕对话质量还是会继续收益于大模型。

从上面可以看出一些大的趋势是：模型越来越大。

PLATO有一个基本假设就是只出现两个角色并且交替对话，这个人工标注的对话数据集大概率符合，但是在社交媒体的对话中就变得复杂了。

框架

主要就是强调了这里的Role编码多个角色，框架等都没变，甚至loss只使用了一个NLL这一个。

小插曲：至于为什么没用其它的花里胡俏的loss，作者也是提都没提，个人猜测:

(1)本文重点就是探索上数据和参数量能否带来效果，在绝对量面前，这些trick 都不用上就可以碾压之前的效果。

(2) 另外就是猜测可能是之前的方式太费时间了，一个样本要过好多次模型。本来现在模型就大，耗费时间。

所以paper没有过多的在loss 上面下功夫，主要目的就是上模型参数量+数据量，所以重点关注 computation and parameter efficiency ：

(1) 使用unified transformer ，相比于encoder-decoder 这种网络，共享了参数。

(2) 另外一个是训练的时候batch使用尽可能一样长的样本可以达到即BlockShuffle。

(3) data parallelism & gradient checkpointing

实验结果

由于自动评估的结果和人为评估的结果一致性相差还是比较远，所以本篇主要采用了人工评价方式。

和其它一些大模型比较：

Self-Chat

和一些商业机器人比较

Human-Bot

Case

Self-chat

(1)对核能和马里亚纳海沟的讨论说明其包含了一些知识。

(2)左边的对话可以体现角色，P2担任了小白提问者，一直提问，P1担任了expert，耐心讲解。

Human-chat

能够利用一些诗词以及给出理由

knowledge grounded dialogue, and task-oriented conversation

总结

(1) 预训练模型，单纯要想效果上数据量上参数量，猛训就完事了，相比花里胡俏的trick ,数据量和大模型更能带来大的甚至是质的提升，相对来说简单粗暴。

(2) 目前的一个训练样本都是深度遍历对话tree，是否可以进一步考虑宽度遍历，使得其学到大家讨论这一层面信息？

(3) 在闲聊领域端到端的这种大模型应该是个趋势。

(4)关于open-domain领域，对话技巧的研究目前是个热门，已经有部分工作进行了探索，大部分涌现的paper时间都在最近2年即2019年开始，但是在中文领域目前还没有很多工作，目前高质量、深度聊天这块还有很大提升空间。

彩蛋

机器之所以还不能代替人进行聊天，或者说聊一会人还是能感觉其是一个机器，本质上是什么原因呢？

其没有感情，冷冰冰？不理解你？不会主动分享事情等等？业界其实也注意到这个事情了，也针对性的进行了相关的研究，比如研究的领域分为：

Context Awareness ：怎么用好历史上下文？

Response Coherence ：回复的连贯性。

Response Diversity ：回复的多样性。

Personality-based Response ：有必要意识到自己的角色，并基于固定的角色做出回应。

Empathetic Response ：富有同情心。

Conversation Topic ：识别出想聊的主题，能主动切换相关话题促进聊天。

Knowledge-Grounded System ：包含知识，知识渊博，能够给出正向引导。

Interactive Training ：交互式训练，不需要很完善，边聊边学。

由于篇幅有限，下次我们将重点分析有关研究上述聊天技巧的文章～

关注

欢迎关注笔者微信公众号：

github:

Mryangkaitong · GitHubMryangkaitong has 12 repositories available. Follow their code on GitHub.https://github.com/Mryangkaitong

知乎：

小小梦想 - 知乎https://www.zhihu.com/people/sa-tuo-de-yisheng/posts

首先介绍一篇对话系统领域综述最新的paper，写的非常好

2021年南洋理工大学发表的论文： https://arxiv.org/pdf/2105.04387.pdf

第一章：简要介绍对话系统和深度学习。

第二章：讨论现代对话系统中流行的神经模型及其相关工作。

第三章：介绍面向任务对话系统的原理和相关工作，并讨论研究挑战和热门话题。

第四章：介绍开放域对话系统中的热门话题。

第五章：对话系统的主要评估方法。

第六章：常用的数据集

第七章：总结并提供有关研究趋势的一些见解。

同时这里推荐一个英文领域有关对话系统最新消息的平台，其上提供了一些常见模型以及数据集下载等资源

ParlAI： https://parl.ai/about/

所以这里大概会分多篇介绍，尽可能的同步当前业界研究的水平和动向～，欢迎文末关注笔者公众号～

左面为PLATO，右面为笔者

下面涉及总结的图片均来自笔者自己的PPT，为了省时间，直接截图啦。

背景

这里做一个简单的总结

更多的对话Bot可以看二文看懂百度对话系统PLATO系列（上） - 知乎

Datasets & Evaluation & Spend

这里主要介绍一下常用的公开数据集和评价方式以及训练这些模型需要的一个资源。

英文公开数据集：

Reddit and Twitter 爬取的数据集

中文公开数据集：

chatterbot，豆瓣多轮，PTT八卦语料，青云语料，电视剧对白语料，贴吧论坛回语料，微博语料，小黄鸡语料

评价方式

评价的一些指标

训练模型需要的资源

DialoGPT

论文链接：https://arxiv.org/abs/1911.00536

代码：https://github.com/microsoft/DialoGPT

项目：https://www.microsoft.com/en-us/research/project/large-scale-pretraining-for-response-generation/

使用的数据集就是DSTC-7和Reddit 。

GPT-2

效果

DSTC

case: Human-Bot Chat

case: Self-chat

Meena

论文链接：https://arxiv.org/pdf/2001.09977.pdf

效果对比：https://github.com/google-research/google-research/tree/master/meena/

这是google提出的，之前闲聊都是基于很复杂的框架，比如基于知识、检索、规则等等，本文主要是想

探索End-to-end的可行性。

主要贡献点就是：

(1) 提出了评估多轮对话效果的指标SSA；

(2) PPL和SSA高度负相关，所以可用PPL自动评估模型效果；

(3) 足够大的端到端模型可以打败复杂架构的对话系统。

Dataset

从Reddit爬取，创建了tree ，任何根节点到叶子结点都说一次对话即(context, response) pair训练样本，最多7 turns。

然后过滤掉一些低质的对话样本，最后获得了867M条训练样本，总计341GB。

Model

具体的其是2560 hidden size，32 attention headsDecoder

没有使用常规的Beam search，而是使用了Sample-and-rank: T越小越倾向于常规词汇，相反倾向使用上下文词汇，比如实体等等。具体公式：

SSA

Sensibleness and Specificity Average

咋一看，这个指标挺朴素的，没啥创新点，但是最近的一些研究表明，那些自动评价的指标结果和人的评价结果

还是有很多gap的，所以这里作者通过SSA明确量化结果，认为这是一个很好的点。

具体的是设置两个问题：

(1)Sensibleness : a response is completely reasonable in context

(2)Specificity : if it is specific to the given context

Evaluation

（1）Static Evaluation

Mini-Turing Benchmark (MTB) :

1477 examples ：315 single-turn 、500 two-turn 、662 three-turn

包含了一些 personality questions ？比如：Do you like cats?

（2）Interactive Evaluation

result

Sampling outputs

Beam search outputs

(1)人的评价是具有高的sensibleness，但是低的specificity。

(2)目前而人总体平均是86% Meena总体最好是79%。

(3) PPL和SSA的负相关，进而相比其它静态指标如BLUE，可以利用PPL来更好的作为模型评估指标。

Blender

论文链接：https://arxiv.org/pdf/2004.13637.pdf

代码和模型：https://parl.ai/projects/recipes/

这是facebook提出的，创新没有多少，更像是对之前所有技术的一个汇总实验。

其提出之前的工作证明了数据量+参数量可以提升效果。

(2) 解码方式

(3) 另外也实验了三种模型：检索、生成、检索+生成

Dataset

BST 这个数据集对话就是包含了上诉说的skill

解码方式

没有采用Meena的Sample方式，而是认为如果合适的调一些 beam search超参结果还是很强的，比如长度：

太短了的回答比较无趣，太长了的回答又比较啰嗦，表现的不愿意倾听。

(1)Minimum length：要求回复长度必须大于设定的值。长度不达标时，强制不产生结束token；

(3) 屏蔽重复的子序列（Subsequence Blocking）：不允许产生当前句子和前面对话（context）

中已经存在的 3-grams。

框架

（1）Retriever

双塔结构：Poly-encoders。

极端情况下整个training set就是candidate set

（2）Generator

Seq2seq(Transformer): Unlikelihood Loss: 容易组合成常见n-grams的tokens, 如

果一个token组成的n-grams比真实答案中n-grams比例高

（3）Retrieve and Refine

先retriever 再 generate

Retrieval : Dialogue & Knowledge

其中Knowledge 可以用 TF-IDF-based

在Refine训练阶段，部分用gold reponse

Pretrain

在Reddit 数据集上面训练

Fine-tuning

ConvAI2 : personality & engaging

Empathetic Dialogues : empathy

Wizard of Wikipedia : knowledge

Blended Skill Talk : blending these skills

总体流程就是：Reddit -> (ConvAI2, Empathetic Dialogues, Wizard of Wikipedia ) -> Blended Skill Talk

ConvAI2，Empathetic Dialogues，Wizard of Wikipedia是各个谈话技巧的数据。

实验结果

这里就贴一个case吧，更多对比实验，大家感兴趣可以去看看paper

作者也说了目前其实模型还是不够好，有很多缺点比如被深入质询后就不行了，缺乏知识回答不上来，倾向于

使用简单的语言，并且有用重复短语的倾向。对此目前还没有一个解决的定论，只是展开的讨论了一下。比如考虑使用retrieve-and-refine 。

PLATO

论文链接：https://arxiv.org/pdf/1910.07931.pdf

代码链接：Research/NLP/Dialogue-PLATO at master · PaddlePaddle/Research · GitHub

这是百度PLATO系列的开山之作，之前很多工作证明了直接使用 bert 在对话语料上进行finetune效果不太好，可能的原因就是：

(1)数据分布的gap: 对话领域和通用领域的潜在语义存在gap

(2) 模型的差异：单向生成和双向bert

(3) 多样性:一对多，对待同一句话不应该每次只回答同一句respons

针对上诉问题，解决方法：

(1)使用Reddit and Twitter 数据集

(2) 采用unified language modeling ：unified transformer

(3) 提出latent speech act

其中最大的看点就是(3)，作者希望通过隐变量来表征不同的说话风格进而生成多样的回答。

[z]就是上文说的latent speech act ，注意一点的就是[z] 的 role, turn, position 都是空。

对于问答类型的话c就是背景知识，对于聊天就是之前的聊天。

所以训练目标就是两大类：

Response Generation ： NLL、BOW

Response Selection ：RS

其中NLL和BOW没什么说的，就是常见的两个生成类loss，具体如下：

NLL

BOW：不关注词的顺序，关注全局信息

RS就是我们上面说的二分类

所以最后的总loss就是上述三者相加：

这里为了更好的说明上述训练过程，我们实际去看一下其代码(c:context，r:response)：

每个pair(c, r)过两次模型，第一次计算得到RS，第二次计算得到NLL和BOW，然后相加loss更新网络。

其实总共一个样本要过三次预训练模型！！！

Fine-tuning and Inference :

从k个里面选取一个score 最大的latent value 作为最后的输出。

代码说明：

b: batch k : num latent h: hidden size

447-450和452-456行其实为了计算RS，注意这里是过了两次模型，batch内抽负样本。

458-465行就是核心代码，这里z是[b, k]，self.latent_embeddings是[k，h]所以最后的464行是 [b,h]即【M】这个隐变量的表征。

只不过训练的时候是z是一个关于k的概率分布，而infer的时候是一个max 的one-hot，实际中k=20

实验结果

(1)在DSTC7-AVSD最下面的一行是给出了模型的上限，即假设所产生的k个response中最好的那个100% score最高即被选中。说明select部分还有很多可做空间。

(2) Seq2Seq是RNN的一种网络，LIC是一种基于transformer的网络。没有哪种结果在所有数据集和指标上都获得压倒性的胜利。

(3)Transformer的网络还是要好于RNN的，起码在human Evaluation上面上。

case analysis：

每个context 选了5个候选的response，附录中进一步展示了persona-chat、Daily Dialog和DSTC7-AVSD三个数据集场景下多个模型的输出case，感兴趣的可以看paper。

消融实验

在persona-chat数据集上面做的，指标是perplexity。

1系列是直接finetune；2系列是先在Reddit and Twitter数据集上面预训练一把；3是使用了latent

从1.2和1.3可以看到双向context的要好

从2系列和1系列对比来看，使用了对话数据预训练是要好于普通文本

3.1和2.2的相比，证明了latent的有效性。

PLATO-2

论文链接：https://arxiv.org/pdf/2006.16779.pdf

代码链接：https://github.com/PaddlePaddle/Knover/tree/develop/projects/PLATO-2

这是PLATO系列的第二篇，DialoGPT ，Meena，Blender 都是使用了更大的数据量，更大的模型进行训练，为此PLATO就想也上一下数据量和参数量。

总的来说相比于PLATO，PLATO-2 在框架上基本上没有太多改动，主要就是使用了一种多阶段训练方式扩大了数据量和模型参数量。

curriculum learning

这次同时训练了英文和中文，不过遵循了一贯的风格，哈哈，只开源了英文。

本文介绍的训练方式叫做curriculum learning 课程学习，即分阶段训练

第一阶段是one-to-one

第二阶段是one-to-many

具体来说其实是三个阶段

Coarse-grained : 粗粒度的学习，单纯的one-to-one生成模型，学一些通用性的response，缺乏多样性。

Fine-grained: 使用latent进行学习diverse response generation

Evaluation：学习score (还记得 PLATO中的上限吗?估计在这里思考了下) 即response coherence

之所以分开训练，是决定多任务会影响，具体可以看

http://proceedings.mlr.press/v119/standley20a.html

Coarse-grained： NLL

Fine-grained： NLL & BOW

Evaluation ： RCE & MLM

RCE：就是PLATO中的RS

训练了多个版本，大概可以总结如下

实验结果

英文 Self-Chat

中文 Human-Bot Chat

一些数据集上Static评价

Case 分析

同时在比赛DSTC9 ，三个任务：

一个是交互的任务Track3-task2 、一个静态的知识聊天Track3-task1 、一个专业领域的对话Track2-task1都取得了第一。

PLATO–XL

论文链接：https://arxiv.org/pdf/2109.09519.pdf

代码链接：https://github.com/PaddlePaddle/Knover/tree/develop/projects/PLATO-XL

最好的模型却不是最大的模型。

本文就是试图探索：

在适当的设计好预训练框架的前提下，恐怕对话质量还是会继续收益于大模型。

从上面可以看出一些大的趋势是：模型越来越大。

PLATO有一个基本假设就是只出现两个角色并且交替对话，这个人工标注的对话数据集大概率符合，但是在社交媒体的对话中就变得复杂了。

框架

主要就是强调了这里的Role编码多个角色，框架等都没变，甚至loss只使用了一个NLL这一个。

小插曲：至于为什么没用其它的花里胡俏的loss，作者也是提都没提，个人猜测:

(1)本文重点就是探索上数据和参数量能否带来效果，在绝对量面前，这些trick 都不用上就可以碾压之前的效果。

(2) 另外就是猜测可能是之前的方式太费时间了，一个样本要过好多次模型。本来现在模型就大，耗费时间。

所以paper没有过多的在loss 上面下功夫，主要目的就是上模型参数量+数据量，所以重点关注 computation and parameter efficiency ：

(1) 使用unified transformer ，相比于encoder-decoder 这种网络，共享了参数。

(2) 另外一个是训练的时候batch使用尽可能一样长的样本可以达到即BlockShuffle。

(3) data parallelism & gradient checkpointing

实验结果

由于自动评估的结果和人为评估的结果一致性相差还是比较远，所以本篇主要采用了人工评价方式。

和其它一些大模型比较：

Self-Chat

和一些商业机器人比较

Human-Bot

Case

Self-chat

(1)对核能和马里亚纳海沟的讨论说明其包含了一些知识。

(2)左边的对话可以体现角色，P2担任了小白提问者，一直提问，P1担任了expert，耐心讲解。

Human-chat

能够利用一些诗词以及给出理由

knowledge grounded dialogue, and task-oriented conversation

总结

(2) 目前的一个训练样本都是深度遍历对话tree，是否可以进一步考虑宽度遍历，使得其学到大家讨论这一层面信息？

(3) 在闲聊领域端到端的这种大模型应该是个趋势。

彩蛋

机器之所以还不能代替人进行聊天，或者说聊一会人还是能感觉其是一个机器，本质上是什么原因呢？

其没有感情，冷冰冰？不理解你？不会主动分享事情等等？业界其实也注意到这个事情了，也针对性的进行了相关的研究，比如研究的领域分为：

Context Awareness ：怎么用好历史上下文？

Response Coherence ：回复的连贯性。

Response Diversity ：回复的多样性。

Speaker Consistency and Personality-based Response ：有必要意识到自己的角色，并基于固定的角色做出回应。

Empathetic Response ：同情心。

Conversation Topic ：识别出想聊的主题，能主动切换相关话题。

Knowledge-Grounded System ：包含知识，知识渊博。

Interactive Training ：交互式训练，不需要很完善，边聊边学。

Visual Dialogue ：其它模态对话，会视频等等。

由于篇幅有限，下次我们将重点分析有关研究上述聊天技巧的文章～

关注

欢迎关注笔者微信公众号：

github：

Mryangkaitong · GitHubMryangkaitong has 12 repositories available. Follow their code on GitHub.https://github.com/Mryangkaitong

知乎：

小小梦想 - 知乎https://www.zhihu.com/people/sa-tuo-de-yisheng/posts

你可能感兴趣的:(算法,深度学习,人工智能)

【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
游戏寻路之A*算法（GUI演示） jforgame 从零开始搭建游戏服务器框架 java A星自动寻路
一、A*算法介绍A*算法是一种路径搜索算法，用于在图形网络中找到最短路径。它结合了Dijkstra算法和启发式搜索的思想，通过综合利用已知的最短路径和估计的最短路径来优化搜索过程。在游戏自动寻路得到广泛应用。二、A*算法的基本思想在图形网络中选择一个起点和终点。维护两个列表：开放列表和关闭列表。开放列表用于存储待考虑的节点，关闭列表用于存储已考虑过的节点。将起点加入开放列表。循环以下工作当open
疲劳检测与行为分析：工厂智能化实践智驱力人工智能安全智慧城市行为识别人员属性识别疲劳检测抽烟检测徘徊检测
视觉分析算法赋能工厂疲劳与安全管理一、背景与需求在制造业中，疲劳作业是导致安全事故和效率下降的核心因素之一。传统人工巡检存在覆盖面不足、响应滞后等问题，而基于视觉分析的智能监控系统通过多算法协同，可实现全天候、高精度的疲劳检测与行为管理。本文围绕疲劳检测算法、人员计数算法、抽烟检测算法及徘徊检测算法，探讨其在工厂场景中的技术实现与应用价值。二、技术实现疲劳检测算法原理：基于PERCLOS（眼睑闭合
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
010 【入门】链表入门题目-合并两个有序链表要天天开心啊算法专栏链表数据结构
合并两个有序链表|[算法]-[中级]-[链表]▶JDK8+|⏱️O(m+n)核心代码实现packageclass010;//将两个升序链表合并为一个新的升序链表并返回//新链表是通过拼接给定的两个链表的所有节点组成的//测试链接:https://leetcode.cn/problems/merge-two-sorted-lists/publicclassMergeTwoLists{//链表节点定义
008 【入门】算法和数据结构简介要天天开心啊算法专栏算法数据结构
算法与数据结构系统概览|[算法]-[基础]-[通用]一、算法分类与应用1.硬计算类算法|[算法]-[中级]-[通用]特点应用场景复杂度特征-精确求解问题-可能带来较高计算复杂度-大厂笔试/面试-ACM竞赛-所有程序员岗位必考⏱️通常为O(n)~O(n²)//[示例]快速排序算法-分治思想核心实现publicvoidquickSort(int[]arr,intleft,intright){if(le
DeepSeek-V3 通俗详解：从诞生到优势，以及与 GPT-4o 的对比码事漫谈 AI ai
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站1.DeepSeek的前世今生1.1什么是DeepSeek？DeepSeek是一家专注于人工智能技术研发的公司，致力于打造高性能、低成本的AI模型。它的目标是让AI技术更加普惠，让更多人能够用上强大的AI工具。1.2DeepSeek-V3的诞生DeepSeek-V3是DeepSeek公司推出的最新一代A
企业级AI开发利器：Spring AI框架深度解析与实战_spring ai实战 AI大模型-海文人工智能 spring python 算法开发语言 java 机器学习
企业级AI开发利器：SpringAI框架深度解析与实战一、前言：Java生态的AI新纪元在人工智能技术爆发式发展的今天，Java开发者面临着一个新的挑战：如何将大语言模型（LLMs）和生成式AI（GenAI）无缝融入企业级应用。传统的Java生态缺乏统一的AI集成方案，开发者往往需要为不同AI供应商（如OpenAI、阿里云、HuggingFace）编写大量重复的接口适配代码，这不仅增加了开发成本，
莫队算法 —— 将暴力玩出花秒啦算法
莫队算法——将暴力玩出花一、为什么需要莫队？——暴力法的瓶颈我们已经学会了用分块处理一些在线的区间问题。现在，我们来看一类特殊的离线区间查询问题。“离线”意味着我们可以把所有查询先读进来，再按我们喜欢的顺序去处理它们。思考一个问题：给定一个长度为N的数组，M次询问。每次询问一个区间[l,r]，问区间内有多少种数字至少出现了2次？那我们回到最朴素的暴力。纯暴力：对于每个询问(l,r)，都for一遍，
图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
Web3前沿科技：开启数字资产交易新征程 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据 web3 科技 ai
Web3前沿科技：开启数字资产交易新征程关键词：Web3、数字资产交易、区块链、智能合约、去中心化金融摘要：本文聚焦于Web3前沿科技在数字资产交易领域的应用与发展。详细阐述了Web3的核心概念、相关技术原理，包括区块链、智能合约等。通过具体的算法原理和Python代码示例，深入剖析了数字资产交易在Web3环境下的运行机制。同时，结合实际项目案例，讲解了开发环境搭建、代码实现与解读。探讨了Web3
转行要趁早！网络安全行业人才缺口大，企业招聘需求正旺！
网络安全行业具有人才缺口大、岗位选择多、薪资待遇好、学历要求不高等优势，对于想要转行的人员来说，是一个非常不错的选择。人才缺口大网络安全攻防技术手段日新月异，特别是现在人工智能技术飞速发展，网络安全形势复杂严峻，人才重要性凸显。教育部《网络安全人才实战能力白皮书》数据显示，到2027年，我国网络安全人员缺口将达327万。近期发布的《2024年网络安全产业人才发展报告》中提到，沿用ISC2的人才缺口
高斯混合模型GMM&K均值（十三-1）——K均值是高斯混合模型的特例 phoenix@Capricornus 模式识别与机器学习均值算法机器学习算法
EM算法与K均值算法的关系K均值可以看成是高斯混合模型的特例。对K均值算法与EM算法进行比较后，可以发现它们之间有很大的相似性。K均值算法将数据点硬（hard）分配到聚类中，每个数据点唯一地与一个聚类相关联，而EM算法基于后验概率进行软（soft）分配。事实上，可以从EM算法推导出K均值算法。考虑一个高斯混合模型，其中混合分量的协方差矩阵由σ2I{\sigma^2}Iσ2I给出，其中σ2{\sig
Practical TLA+ 项目中的Dekker算法形式化验证焦习娜Samantha
PracticalTLA+项目中的Dekker算法形式化验证practical-tla-plusSourceCodefor'PracticalTLA+'byHillelWayne项目地址:https://gitcode.com/gh_mirrors/pr/practical-tla-plus概述本文分析PracticalTLA+项目中关于Dekker互斥算法的形式化规范。Dekker算法是解决多线
【C++算法竞赛】前缀和+桶数组 YLCHUP C++算法技巧算法 c++开发语言数据结构哈希算法 c语言笔记
文章目录1.前缀和基础2.算法原理3.例题讲解[P1114“非常男女”计划](https://www.luogu.com.cn/problem/P1114)[P11965[GESP202503七级]等价消除](https://www.luogu.com.cn/problem/P11965)[P10724[GESP202406七级]区间乘积](https://www.luogu.com.cn/pro
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
提示词编程语言设计艺术探索 AI天才研究院计算 AI人工智能与大数据 AI大模型企业级应用开发实战 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《提示词编程语言设计艺术探索》关键词：提示词编程语言，设计艺术，编程语言设计，核心算法，实例分析，项目实战摘要：本文旨在深入探讨提示词编程语言的设计艺术，从基础概念到核心算法，再到实际应用和未来趋势，全面解析这一领域的关键技术和设计理念。通过具体的实例分析和项目实战，帮助读者更好地理解和掌握提示词编程语言的设计与实现。引言与概述1.1提示词编程语言的背景和重要性提示词编程语言（Prompt-Bas
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
【Html实现“心形日出”（附效果+源代码）】| JavaScript面试题：解释一下异步编程中的回调函数、Promise和Async/Await的概念。它们有什么区别？追光者♂ html5 css3 心形日出前端特效 JS面试题 Promise Async/Await
风会带走你曾经存在过的证明。——虞姬作者主页：追光者♂个人简介：[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步，一起追光！！！
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
C++ Lambda表达式详解：从入门到精通 Jay_515 c++Lambda
Lambda表达式是C11引入的最重要特性之一，它彻底改变了我们在C中编写函数对象的方式。本文将带你全面掌握Lambda表达式的使用技巧！1.什么是Lambda表达式？Lambda表达式是C++11引入的一种匿名函数对象，它允许我们在需要函数的地方内联定义函数，无需单独命名。Lambda的出现极大简化了代码，特别是在使用STL算法时。为什么需要Lambda？简化代码：避免为简单操作单独编写函数对象
Tiktok App 登录账号、密码、验证码 XOR 加密算法
抖音App登录账号、密码、验证码XOR加密算法%E9n+z,\&R1a4b.^流程分析登录TiktokAPP时，通过抓包发现账号密码是非明文传输的。getUserProfile($userId,$secUid);echo"\n\n视频列表：\n";echo$tiktok->getMixList($userId);//示例：加密后的密码hex字符串$encrypted_hex="7472607771
mongodb和redis的区别： huangbfeng mongodb redis 数据库
1、内存管理机制Redis数据全部存在内存，定期写入磁盘，当内存不够时，可以选择指定的LRU算法删除数据。MongoDB数据存在内存，由linux系统mmap实现，当内存不够时，只将热点数据放入内存，其他数据存在磁盘。2、支持的数据结构Redis支持的数据结构丰富，包括hash、set、list等。MongoDB数据结构比较单一，但是支持丰富的数据表达，索引，最类似关系型数据库，支持的查询语言非常
数据库系统工程师简要概括笔记 Mint_Datazzh 数据库系统工程师数据库笔记数据库系统工程师
文章内容仅为粗略总结知识，便于个人复习思考原文链接:数据库系统工程师简要概括笔记–笔墨云烟数据库系统工程师—1.1计算机硬件基础知识数据库系统工程师—1.2计算机体系结构与存储系统数据库系统工程师—1.3安全性、可靠性与系统性能评测基础知识数据库系统工程师—2.程序语言基础知识数据库系统工程师—3.1~3.4线性结构、数组和矩阵、树和二叉树、图数据库系统工程师—3.5排序算法数据库系统工程师—3.
结构化数据增强的生成式算法案例：客户交易数据增强 python游乐园数据深度学习大数据算法学习
1基础信息1.1案例背景这是一个用于增强结构化客户交易数据的生成式算法。这种类型的数据增强在金融、电子商务等领域非常有用，可以帮助解决数据不平衡问题或在小数据集上提高模型性能。1.2问题定义给定原始交易数据集D={x₁,x₂,...,xₙ}，其中每条记录包含：交易金额交易时间客户年龄客户收入水平交易类别地理位置是否为欺诈交易(标签)目标：生成与原始数据分布相似但多样化的新样本，同时保持字段间的合理
LLMs基础学习（八）强化学习专题（7）汤姆和佩琦 NLP 学习 Actor-Critic 算法
LLMs基础学习（八）强化学习专题（7）文章目录LLMs基础学习（八）强化学习专题（7）Actor-Critic算法基础原理算法流程细节算法优缺点分析算法核心总结视频链接：https://www.bilibili.com/video/BV1MQo4YGEmq/?spm_id_from=333.1387.upload.video_card.click&vd_source=57e4865932ea6c
【基数排序介绍】 wdwc2 算法设计算法数据结构排序算法
文章目录前言一、基数排序是什么？二、基数排序的步骤（LSD低位优先）1.找出最大数的位数2.对每一位进行排序（从最低位到最高位）三、C++实现1.主函数：基数排序实现四、时间复杂度分析五、基数排序的适用场景六、与其他排序算法对比七、扩展：处理负数的思路总结前言在处理大规模整数排序问题时，比较类排序（如快速排序）可能无法发挥最优性能。本篇博客将详细介绍一种非比较类排序算法：基数排序（RadixSor
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

最新对话系统综述

前言

背景

Datasets & Evaluation & Spend

英文公开数据集：

中文公开数据集：

评价方式

训练模型需要的资源

DialoGPT

Meena

Dataset

Model

Decoder

SSA

Evaluation

result

Blender

Dataset

解码方式

框架

Pretrain

Fine-tuning

实验结果

PLATO

实验结果

PLATO-2

PLATO–XL

彩蛋

关注

背景

Datasets & Evaluation & Spend

英文公开数据集：

中文公开数据集：

评价方式

评价的一些指标

训练模型需要的资源

DialoGPT

效果

Meena

Dataset

Model

SSA

Evaluation

result

Blender

Dataset

解码方式

框架

Pretrain

Fine-tuning

实验结果

PLATO

实验结果

PLATO-2

实验结果

PLATO–XL

框架

实验结果

总结

彩蛋

关注

你可能感兴趣的:(算法,深度学习,人工智能)