美团技术团队

检索式对话系统在美团客服场景的探索与实践

在传统的客服、IM等场景中，坐席需要花费大量时间回答用户的各种咨询，通常面临答案查询时间长、问题重复、时效要求高等挑战。因而，使用技术手段辅助坐席快速、准确、高效地回答用户的各类问题非常有必要。

我们设计并迭代了一套基于检索式对话系统的框架，以推荐回复的方式，基于对话上文为坐席提供候选回复，提高坐席效率进而提升用户体验，在众多业务上均取得显著效果。本文主要介绍了整体架构、指标体系、召回排序、应用示例等方面，希望为从事相关工作的同学带来启发或者帮助。

1 背景与挑战

对话系统一直是人工智能研究的热门领域之一，近年来随着深度学习技术的发展，人工智能在对话系统上出现了不少的突破性进展。但是，由于自然语言的复杂性，目前的智能对话系统还远远达不到可以直接替代人类的地步。因此在一些复杂的业务场景中，目前的智能对话系统如何更好的去辅助人类做到人机协同，提升沟通效率，也成为了当今研究的一个热点以及实际落地方向。

作为一家连接用户和商户的生活服务电子商务平台，美团在平台服务的售前、售中、售后全链路的多个场景中，用户向商家都存在有大量的问题咨询情况，如在线坐席CHAT、商家IM等。因此我们希望利用对话系统，以推荐回复的方式，基于对话上文为客服提供候选回复，来帮助商家提升回答用户问题的效率，同时更快地解决用户问题，改善用户咨询体验。一般来说，对话系统可以大致分为三类：

任务型：一般为受限域，以完成特定领域的特定任务为目的，主流方法是基于有限状态机（FSM）的可配置化TaskFlow，而基于强化学习、监督学习等基于数据驱动的对话管理方法在实际应用中尚不成熟，应用场景如售后退款等流程明确的智能机器人。
问答型：受限域或开放域，主要是回答特定领域的信息咨询或开放领域的知识性问题，主流方法包括图谱问答（KBQA）、社区问答（CQA）、文档问答（MRC）等单轮问答，也可能涉及多轮问答，应用场景如酒店、旅游等领域的售前咨询。
闲聊型：一般为开放域，无特定目的，在开放领域内让对话有意义地进行下去即可，主流方法是基于检索的召回排序二阶段方法或基于生成的端到端模型，应用场景如聊天机器人。

其中，任务型和问答型系统具备较高的准确性，但是需要针对细分领域进行不同程度的适配与优化，在大范围应用上需要较高的成本。本文主要关注基于检索式方案的对话系统，其准确性略低，但是成本较小并且领域迁移性好，非常适合用于如话术推荐等人机协同等场景。

在后文中，我们主要以话术推荐应用为例，即根据对话上下文为坐席/商家提供候选回复，来介绍检索式对话系统在美团客服场景的探索与实践。以下内容会分为五个部分：第一部分介绍系统的整体架构与指标体系；第二和第三部分分别介绍召回和排序模块的工作；第四部分展示一些具体的应用示例，最后一部分则是总结与展望。

2 架构与指标

检索式对话系统的整体架构如下图1所示，可以划分为五层：

图1 检索式对话系统架构图

数据与平台层：离线对坐席/商家与用户的历史对话Session进行清洗、处理，建立自动化流程，日更新话术索引库。同时，利用对话平台构建知识库，既可以用在智能客服中，也可以用作话术推荐。
召回层：给定对话上文及其它限制条件，从话术索引库和知识库中召回结果，包括文本、向量、标签、知识等多路召回。
排序层：针对召回模块返回的结果集合，进行排序打分，包括规则排序、文本相关性模型排序以及CTR预估排序。
策略层：针对排序模块返回的结果列表，进行重排序或者拒推，例如非活跃商户拒推，推荐列表包含正确答案而商家长期无采纳行为则降低推荐概率；多样性答案选择，尽量选择语义及表达形式不同的答案，避免推荐过于相似的答案；个性化场景策略，针对场景特征定制策略。
应用层：主要用于人工辅助场景，包括在线回复咨询时的话术推荐和输入联想，以及离线填答智能客服知识库时的答案推荐供给。

同时，为了更合理地指导系统相关优化，我们设计了一套离线到在线的指标体系，以话术推荐为例，如下图2所示，具体来说可分为三个部分：

图2 话术推荐指标体系

离线自动指标：主要计算的是Top-N推荐话术与坐席/商家下一句真实回复的语义相关性，我们采用了文本相关性的BLEU、ROUGE指标，以及排序相关性的Recall、MRR指标。
离线人工指标：上述离线自动指标计算比较简单，无需人工参与，但存在一定的局限性。为此我们进一步进行了离线人工满意度评估，通过人工打分来判断系统推荐回复是否满足当前对话回复上下文，并计算了离线人工指标与离线自动指标的相关性，结果表示离线人工指标与离线自动指标基本成正相关，且ROUGE指标相对来说更为客观而且与人工指标相关程度更高。
线上业务指标：此部分指标是系统线上效果的重点观测指标，直接真实反映话术推荐效果（在我们的多次AB试验中，也证实了离线自动指标ROUGE与线上采纳率指标呈正相关性）。

因此在后续离线试验中，我们主要以文本相关性指标，尤其是ROUGE指标作为离线的核心观测指标。

3 召回模块

召回阶段的主要目标是根据当前对话的上下文Context召回若干条相关的回复Response，这里的Context就相当于传统检索系统中的Query，Response就相当于Doc。但与传统检索系统不同的地方在于，话术推荐中的每条推荐回复，都对应一个历史的对话上下文，而我们这里召回的核心也在于，利用当前上下文去检索一些相似的历史对话上下文，然后用这些上下文对应的回复作为召回结果。因此，这里的重点就在于如何利用当前上下文检索相似的对话历史上下文。

在召回阶段，我们采用了基于本文&基于向量&基于知识的多路召回方案。其中，知识的来源主要包括商家结构化信息（KBQA）以及商家个性化知识库（QABOT），主要形式是上文最后一句的单轮问答。下面会重点介绍文本及向量召回。

针对上述对话多样性、商户个性化及时间迁移性等问题，在设计文本及向量召回索引时，我们划分了两类索引并引入日更新机制：

商户/坐席历史索引：商户或坐席过去一个月的对话历史日志所抽取得到的Context-Response对，话术符合商家/坐席的业务场景及说话习惯，精准个性化召回。
通用高频话术索引：主要包括通用及高频的Context-Response对，如问好、感谢等等场景，用于兜底，可大大提升覆盖率。
索引日更新机制：借助离线数据表生产平台和在线索引查询平台，保证对话日志的回流和索引的日更新。

因此，在实际的话术推荐中，对商户/坐席而言，推荐答案的来源是该商户/坐席本身历史话术或通用高频话术，既部分缓解了个性化及时间漂移问题，也避免了因推荐不合格或违规话术引发客诉。

3.1 文本召回

对于文本召回，在对历史对话建立索引时，最粗暴的方案是直接把历史对话上下文直接拼接成一长串文本建立索引，然后线上利用BM25进行召回。这种做法主要存在两个较大的缺陷：

没有考虑到对话的顺承特性，即对话的下一句回复通常与最近几句对话历史更为相关。
把所有对话历史进行拼接导致内容较为杂乱，不利于精确检索。

针对这两个问题，我们对对话历史上下文索引的建立进行了优化。具体来说，我们将整个对话历史划分为：

短期对话上文：一般为上文最后一句包含完整语义的话，中文分词后去停用词建立倒排索引。
长期对话上文：一般为上文除最后一轮外前N轮对话，中文分词后去停用词通过TF-IDF等方法挖掘Top-M关键词入索引库。
机器人对话上文：主要为进线标签等，可以增加对话初期的背景信息。

如下图3所示，针对不同的对话上文采用不同的信息抽取及建模方式，核心思想在于对于短期上文保留尽量多的信息，保证召回时的相关性，对于长期上文中的信息进行筛选过滤，只保留核心信息，提升召回的精准性。

图3 文本召回对话上文建模方式

此外，我们针对话术库构建的主要工作集中于扩大数据规模和提升数据质量两部分：

扩大数据规模：时间跨度上，我们对比了应用过去半个月/一个月/两个月的对话历史的理想上限效果，发现一个月相比半个月提升较大但两个月相比一个月几乎无提升，故而最终选定使用过去一个月的对话历史日志；文本频率上，早期仅选择答案出现频率大于1的问答对，后期添加所有问答对发现效果有较为明显的提升。
提升数据质量：主要是清洗过滤噪音数据，包括不限于链接、卡片、脏文本等。这里如果采取较为严格的过滤方案，线上效果反而下降，推测是召回排序方案本身具备去噪效果，而离线严格过滤反而会损失可用数据。

3.2 向量召回

近年来，随着深度学习的火热发展，分布式语义表示（Distributed Representation）成为人们研究的一个热点。分布式语义表示通过将文档的语义压缩到一个稠密向量空间，有效的缓解了数据稀疏性的问题，同时结合一系列向量检索方案（如FAISS）还可以实现对文档的高效检索。

针对话术推荐场景，在文本召回的基础上增加向量召回作为补充主要有以下两点考虑：

增加短期上文的泛化性：文本召回仅仅是词粒度的匹配，引入向量表示可以大大增强表示和匹配的泛化性。
增强长期上文的表示：文本中的长期上文仅使用关键词进行表示，语义明显失真，通过向量召回的方法可以更加有效地表示和利用长期上文。

具体来说，向量召回即给定对话上文（Context，Q），检索得到答案集合（Response，A），一个最基本的问题就是召回方式的选择（QQ vs QA），最终我们选了QQ的方式来进行检索召回，即构建Context-Response Pair对，将Context表示为向量后检索召回索引中相似的历史Context，再使用这些历史Context对应的历史Response作为召回结果。

这样选择的核心原因在于：Context与Response之间并非单纯的语义相似或相关关系，更多的是一种顺承推理的关系，难以用基于相似度或距离的向量检索方案来直接处理，通过引入历史Context作为其中的"桥梁"，可以让建模变得更加简单。

举一个简单的例子，如果Context是“谢谢”，那么向量检索返回的集合中大多都是此类表示感谢语义的句子，然而我们应该召回回复感谢的“不客气”之类的句子。在实际实验和业务中，我们也进行了一系列的对比，发现Context-Response（QA）召回方式效果远差于Context-Context（QQ）方式。

3.2.1 表示模型

关于如何表征文档，我们简单介绍三类典型的模型框架：

BoW：词袋向量模型（Bag-of-Words Embedding）是文档向量表示的一个基础模型，在大规模无监督对话语料中通过 Word2vec[1]、Glove[2] 等算法计算出每个单词的向量表示，文档的向量表示可以通过文档中所有词语的向量进行组合来得到，比较简单有效的方法是平均池化（Average Pooling）。
BERT：大规模无监督预训练显著地提升了深度学习在自然语言处理领域的实用性和通用性，BERT[3]和MLM（Mask Language Model）作为典型的模型及任务，在对话领域内大规模数据预训练后，可以获得词语的上下文相关表征向量，最终文档的向量依然可由平均池化获得。
DualEncoder：双塔模型[4]是大规模文本相似度计算或者说向量召回中最为经典的模型之一，以上述预训练之后的BERT作为基础模型来表征Context与Response（参数共享），最终文档的表示是[CLS]位置的向量。

总结来看，BoW的局限之处在于对每个单词仅有一种表示，忽视不同上下文情境下词语的多义性；BERT缓解了BoW的这一问题，考虑了词的上下文特征；DualEncoder在BERT的基础上，不再使用平均池化的方式来表征文档，而是直接在文档级别进行训练，更好地建模了文档内部的长程依赖关系，同时考虑了对话本身的特征。因此，我们最终选择了双塔模型，如下图4所示：

图4 向量召回中的双塔模型

3.2.2 数据采样

双塔模型的一个基本问题是如何构造高质量的正样本对，在话术推荐的场景这个问题并不复杂，不过存在两种选择：

Context-Response Pair：经由历史对话日志挖掘得到的样本对，及给定上文和其对应的回复。
Context-Context Pair：借助商户Context与Response的对应关系，同一Response对应的Context集合互为正例，通过这种关系伪造获取Context及其对应Context。

我们选择了方式一，这是因为对话中Context与Response尽管存在一定的多样性，但是总体上来说相比搜索系统中的Query-Document还是具备很强的对应关系，Response本身提供了足够的监督信息来区分不同的Context。

此外，负例采样是向量召回中最重要的问题，一般来说典型的采样方法有以下三种[19]：

预定义采样：在数据准备阶段预先根据某些规则或条件采样负例，在模型训练过程中单个正例对应的负例集合不变。局限于资源等问题，一般来说负例个数不会太多。
Batch内采样：模型训练过程中，Batch内除当前正例及其对应样例之外的其它样例都可视作负例。相比于预定义采样，Batch内随机采样使得每轮训练时同一正例对应不同的负例，并且可以设置较大的负例个数，可以更加简单高效地利用数据。
难负例采样：除了简单负例之外，为了提升模型对难负例的识别效果以及对细节的学习能力，一般会结合场景特征挖掘部分难负例作为补充。

不管是学术界文章还是工业界实践，都显示Batch内简单负例+难负例的组合效果最好，经验比例大致在100:1。因此，我们最终也基本参考了这种设置[5]，如下图5所示，其中关于难负例的采样，我们尝试了如下两种方式：

图5 Batch内简单负例 + 难负例

基于Context的BM25难负例挖掘（CBM）：建立Context索引，通过BM25召回相似的Context，并在对应的Response集合中挑选难负例。
基于Response的BM25难负例挖掘（RBM）：建立Response索引，通过BM25召回相似的Response，并在召回的Response集合中挑选难负例。

实验结果表明，CBM会带来一定提升而RBM则是负向效果，推测是RBM方法召回的样例与真实回复的字面相似度较高，本质上是假负例而非难负例，导致了模型效果的下降。

3.2.3 多样性表征

因类目场景及商户特征所导致的多样性问题利用上述构建索引的原则已经得到了缓解，这里主要关注的是对话本身语义上的多样性，即给定一段Context，可能存在多个语义点，存在多样性的回复。具体来说，又可以分为两方面：

多个Context对应一个Response：在Context包含多轮历史对话的情形下尤其显著。
一个Context对应多个Response：Context中包含多个主题或者说语义点，针对不同的语义点，存在不同的回复。即便是相似语义的回复，在表达形式上也会有所差异。

针对第一类多样性，在Context召回相似Context的设置下并不存在明显问题。但是在实际的实验中，我们发现将同一个Response对应的Context集合做平均池化获取均值向量，以此合并多条记录到一条记录并以该均值向量作为Context表示，可以有效提升召回结果集合的文本相关性指标，我们称之为语义纯化。

推测平均池化的方式去除了每个Context向量上附着的噪音，仅保留与对应Response最为相关的语义向量部分，故而提升了召回效果。

针对第二类多样性，类似的问题或者思想在对话回复选择、电商推荐、文本检索中有过相关的工作：

弱交互[6]：对话回复选择任务，一般来说，交互模型的效果远好于双塔模型，但是交互模型的推理速度较慢。本文通过设计多个Poly Codes或直接选取First-M、Last-M个Context Hidden States将Context表征为多个向量，从而引入弱交互性质，相比双塔模型可以有效提升效果，相比交互模型可以大幅提升推理速度，不过其主要应用是在粗排模块，而非向量召回模块。
多兴趣[7]：电商场景的推荐任务，本文将推荐系统视作一个序列化推荐任务，即根据用户点击Item历史推测下一个用户可能感兴趣的Item。作者认为单个向量难以表征用户历史的多兴趣，通过动态路由（Dynamic Routing）与自注意力（Self-Attentive）从历史中抽取K个向量表示不同的兴趣点，不同的兴趣点向量独立召回不同的Items，然后设计聚合模块对召回的Items进行重新分组和排序，聚合时除了相似度分数还可以考虑引入Diversity等更多的性质。
多向量[8]：稠密文档检索，作者认为简单的双塔模型可能造成文档表征严重的信息损失，因而利用迭代聚类（Iterative Clustering）的方法将文档表示为K个向量，即类簇中心点。在建立索引时保留文档的K个vector，检索时召回K * N个结果并经过重排序保留N个结果。

可以看出，多样性（多向量表征）的核心问题在于如何表征获取K个向量，结合话术推荐的场景，给定一个Context，可能存在多个合适的Response，根据Context不同的复杂程度，可能存在不同数目的Response。我们希望将Context表征为多个向量，理想情况下每个向量表征了一种可能的语义点，但是我们并不希望为每个Context生成固定数量的向量，不同的Context视其难易程度应该对应不同数目的向量。因此，我们针对对话本身的结构特征和轮次信息，提出了一种简单的对话特定的多向量生成方法：

如上式，和分别代表SHOP和USER说的一句话，是生成向量的位置。具体来说，我们在USER说完所有连续的话的位置，获取一个向量（以USER语义为准）。整体的模型框架如下图6所示，我们称之为语义发散。

图6 引入对话多样性的多向量表征模型

具体来说，Context和Response输入BERT编码器后，获取一个Context Vector Set即，以及一个Response Vector即。在离线训练时，我们采取Scaled Dot Attention的方式来获取Context最终表征向量，而后与Response Vector计算Score，如下所示：

在线上推理时，对Context Vector Set中的每个Vector进行并行检索，而后通过重排和聚合获取最终结果。

4 排序模块

排序模块是在上一步召回模块的基础上，结合当前的对话上下文对每个召回的答案进行打分排序。在召回阶段，为了能够更高效率的进行检索，我们通常采用的是双塔架构模型，这种模型Context与Response信息交互的程度低，效果相对也较差。而在排序阶段，召回的候选集通常已经控制到了几十条，可以利用交互式架构模型，来更好的学习Context与Response之间的相关性，从而提升话术推荐的准确性。

典型的交互模型如下图7所示，一般采用BERT作为编码器，通过将Context与Response进行拼接当做模型输入，最后模型输出0-1之间的打分作为排序结果[9]。本场景对应了学术上一个经典任务，即对话回复选择（Conversational Response Selection），我们后续重点介绍预训练、负采样、建模方式、对比学习、特征融入等方面的工作。

图7 排序模块中的交互模型

4.1 对话预训练

目前，预训练语言模型（如BERT、GPT等）已经广泛应用于许多NLP任务。众多文章证明了，哪怕不使用额外的数据，仅在领域相关的数据继续预训练（Domain-Adaptive Pretraining）依然可以带来性能效果的提升，例如Masked Language Model（MLM）、Sentence Order Prediction（SOP）等通用预训练任务。并且也可以进行任务特定的预训练（Task-Specific Pretraining），使得预训练模型提前学习到相关任务的信息与模式。同时，预训练任务大都是自监督任务，也可以在多任务学习（Multi-Task Learning）的框架下用作主任务的辅助性任务进行联合训练。

针对检索式对话系统，尤其是对话回复选择这一任务，可以从下列两个角度出发设计预训练任务：

（1）对话层级：建模不同层级（Token-Level/Sentence-Level/Session-Level）的结构。

Token-Level的任务大多是通用NLP任务。最简单的Language Model（LM）任务，基于上文预测下一个单词。BERT的Masked Language Model（MLM）任务，根据句子中其余的词来预测被Mask的词。XLNet的Permutation Language Model（PLM ）任务，将句子中的Token随机排列后用自回归的方法训练预测末尾的Tokens。
Sentence-Level的任务众多，可以有效表征对话中的句间关系，通过特殊设计后也可以建模对话的一致性等性质。BERT中的Next Sentence Prediction（NSP）预测句子对是否是同一文档的上下句关系。Next Sentence Generation（NSG）[10]任务在给定上文时生成对应的回复。Sentence Reordering Task（SRT）将对话中句子打乱顺序后预测正确的顺序。Incoherence Detection（ID）随机替换对话中的一句话并预测哪句话被替换了。Consistency Discrimination（CD）是面向说话人角色的一致性判别，建模目标为来自同一说话人的句对比来自不同说话人的句对相似度分数更高，使模型更多地去捕捉两个话语之间在主题、说话个性和风格之间的相似性，而不是话语之间地连贯性和语义相关性。在本场景中，我们实验了NSG任务，希望生成式任务可以对检索式任务有所增益。
Session-Level的任务较少，Next Session Prediction（NSP）[11]预测两个片段是否是相邻的两个轮次，计算对话中两段Session之间的匹配程度，相当于是Next Sentence Prediction的对话改进版。

（2）对话性质：建模流畅性（Fluency）、一致性（Coherence）、可读性（Readability）、多样性（Diversity）、特异性（Specificity）等性质。

以一致性和特异性为例，文章[12]借助N元逆文档频率（n-NIDF，n-gram Normalized Inverse Document Frequency）为每个正例进行打分，而后通过均方差损失函数（MSE，Mean-Square Error）进行学习建模。

在本场景中，我们并未使用额外的语料，仅仅在BERT基础上继续进行预训练，主要实验了MLM、NSG、NSP任务分别建模Token、Sentence、Session层级的性质，均有一定提升。

4.2 负例采样

一般来说，在搜索推荐场景中，正样本为点击样本，负样本为曝光未点击样本。但是对话的场景有所不同，以商家IM中的话术推荐为例，正样本的构造并不困难，因为不管线上是否有点击行为，通过对话日志关联，总是可以获取到真实的回复。而负样本却不能单纯地设置为曝光未点击，根据推荐列表的数据来源可以把可能的负样本划分为下列三类，如下图8所示：

图8 话术推荐可采样负例集合

曝光列表（View，False or Hard Negatives）：曝光未点击，上一版精排模型的排序Top-3结果集合，存在精排模型偏置。
召回列表（Retrieval，Hard or Common Negatives）：召回模块返回的样例集合，线上精排模型的输入全集，存在召回模型偏置。
随机话术（Random， Easy Negatives）：该商户过去一个月发送过的句子集合，以及商户所属二级类目发送的高频句子集合。

实验表明将曝光未点击样例作为负例的效果极差，推测是因对话多样性导致其中包含过多假负例。仅从Retrieval集合采样与Retrieval + Random联合采样的效果相差不大，不过后者更加稳定，对召回集合分布漂移问题具备更强的鲁棒性。

4.3 学会排序

针对排序的任务的建模一般有以下两种思想：

二元绝对论[13]：非黑即白，候选回复要么是相关的要么就是不相关的，主要工作在于如何构造难负例。作者使用DialogueGPT类预训练生成模型来伪造假负例，通过对话流变形（Flow Distortion）和上文扰动（Context Destruction）的方式获取修改过的对话，输入到模型生成对应的回复，最后选择困惑度分数（Perplexity Score）最高的回复以避免假负例问题。常见的建模方式为Pointwise。
多元相对论[14]：次序关系，注重回复质量的多样性，主要工作在于如何构造数据建模更细粒度的好坏关系。作者使用生成（Generation）或者检索（Retrieval）的方式来构造所谓的灰度数据（Grayscale），并希望模型学习“Ground Truth Response > Greyscale Response > Random Sampled Response”的渐进关系，最终损失函数同时建模“Ground Truth > Random”、“Ground Truth > Retrieval > Random”、“Ground Truth > Generation > Random”三类次序关系。常见的建模方式为Pairwise。

结合我们当前的场景，这两类方法的典型对比如下图9所示，区别在于将召回集合视作难负例还是灰度数据。

图9 排序任务两种建模方式（Pointwise vs Pairwise）

上述的基线模型就是Pointwise的建模方式，针对二元组学习一个0-1之间的分数，其损失函数为交叉熵函数。而Pairwise建模方式，则针对三元组进行分类，对具体的打分不关心，只需要更相关的样例得分更高即可。一般来说有两种类型的损失函数，其一是比较著名的RankNet[15]模型，公式如下，记为Logistic形式，其中分别代表两个Response的得分，当时，；当时，。

其二为合页损失，记为Hinge形式，其中m为阈值边界，表示有错误答案排到了正确答案的前面。

实验结果表明，在Pairwise设置下Logistic形式的损失效果优于Hinge形式，并且GT > Retrieval > Random增强有效。同时，Pointwise和Pairwise建模方式无绝对的高低上下之分，效果好坏取决于场景和数据特性。事实上在线坐席CHAT场景中Pairwise更好，商家IM场景中Pointwise更好，联合建模（Pointwise+Pairwise or Pointwise->Pairwise）效果略有提升。

4.4 对比学习

在分析排序错误的过程中，我们发现存在Context或Response少量扰动导致最终分数变化较大的情形，典型的例子如短Response添加或删除句尾符号导致预测标签变化。而对比学习的指导原则是通过自动构造相似实例和不相似实例学习一个表示模型，使得相似的实例在投影空间中比较接近，而不相似的实例在投影空间中距离比较远。因此，为了缓解上述问题，我们希望借助对比学习的思想使得模型的输出结果更为稳定一致，具体来说，输出的向量表示尽可能接近，输出的概率分布尽可能一致。

针对向量表示，我们对Context[16]和Response[17]分别进行了数据增强，或者说添加了不改变语义的扰动，希望增强之后样例与原始样例在表示空间上尽可能接近，并且远离对应的负例，如下图10所示：

图10 对话中的对比学习

具体来说：

（1）Context端数据增强：基本原则是不显式改变Context的最后一句话，因为最后一句话的语义最为重要。

Context为单句，不进行显式改变，添加Dropout。
Context包含商家或用户连续说话情形，进行Sentence Re-ordering操作（角色信息很重要，不会调换不同角色说的话的位置）。
其它多轮情形，随机选择一句，进行Sentence Token Shuffling操作（针对中文，我们利用Jieba分词后再打乱重组，避免字级别打乱重组噪音过多）。

（2）Response端数据增强：基本原则是尽量不改变语义，不引入过多噪音。

句子长度小于5，随机进行Dropout或者Operate punctuations（添加删减句尾标点符号）操作。
句子长度大于5，随机选择Random Deletion或Random Swaping，每个位置20%概率进行替换或删除。

此外，关于如何设置对比负例也有两种方式：

Batch角度：Batch内其它样本都作为对比负例，目的是优化向量分布，改善Bert产生的向量各向异性和分布不均匀。
Pair角度：仅仅将同Pair内的负例作为对比负例，目的是拉远正例和负例的向量。

实验结果表明，Context增强方式下对比负例为Batch维度更好，而Response增强方式下对比负例为Pair维度更好。

除了向量维度之外，针对概率分布，我们采取了R-Drop[18]方法来限制同一数据两次Dropout下输出的分数是一致的。因为我们的输出结果是二分类概率，所以除了KL散度之外，还可以使用MSE函数计算损失。实验结果均有一定提升而KL散度效果更好。

4.5 个性化建模

上文的工作主要都集中在文本语义相关性上，但是没有考虑不同商户/坐席等的个性化偏好问题。学术上常规的做法是利用一个说话人模型将每个角色编码为一个向量，而后将该向量输入到生成模型中以限制和产生个性化回复[20]。

尽管我们可以效仿该方案为每个商户学习一个向量以影响精排模型的排序效果，但是，在我们的场景中（以商家IM为例），日活跃商家数为数十万并且每天都可能有新商户出现，出于效果和性能的考虑该方案并不合适。

因此，我们采取了一种非常简单但是极为有效的建模方案，该方案基于一个明显的直觉，即在语义相关合理的回复候选集合中商户/坐席更偏好自己曾经说过的话。具体来说，排序模块的输入（候选回复集合）除了文本问答对之外，还存在着众多的非文本特征，如该候选回复的来源，我们希望通过这些特征的建模来体现不同维度的个性化。以商家IM话术推荐为例，我们主要考虑三种类型的特征：

商家个性化特征：对于精排模型输入集合的样例，关注答案是否来源于商户历史，即商家是否说过这句话。
商品个性化特征：在咨询过程中，除了纯文本信息之外，还存在商品、团购等卡片信息，这类信息为“多少钱”、“适用人群”等问题提供了约束和限制。
时间个性化特征：部分问题如“营业时间”、“经营项目”存在时效性和周期性。针对时效性问题，同样的问题下答案时间越近越好；针对周期性问题，上一周期的同时段的答案最好。

业界通用的特征建模方式是Wide & Deep模型，我们因为可用特征较少，所以采取了一种简化的联合建模的方式。

具体来说，我们采取了一种简单的类双塔的形式来分别建模文本特征和非文本个性化特征，如下图11所示：

图11 个性化特征建模

这是一种无交互的建模方式，本质上来说最终的打分相当于文本相关性打分加非文本特征打分，并且由于非文本特征的维度都很小（2-5），因此实际上线时可以不改变基线模型结构，仅需要通过非文本特征分数微调即可。实际实验中，商家个性化特征影响范围最广，效果最好；时间个性化特征也有一定效果；商品个性化影响范围较小，但是在涉及到相关类型信息时有一定提升。

5 应用实践

5.1 离线实验效果

为精准反映模型迭代的离线效果，我们针对召回及精排模型分别构造了一批Benchmark。召回模块主要考虑Top-6召回结果的BLEU、ROUGE-2指标，结果如下表所示：

表1 召回模块指标

可以看到，基于BM25的短期上文召回效果优于基于长期上文的词袋向量模型，而BERT考虑了词的上下文特征，提升巨大；双塔模型则建模了对话本身的特征，效果进一步提升。在双塔模型基础上，引入难负例会带来一定提升，而引入对话多样性表征则带来明显提升。

精排模型主要考虑Top-1排序结果的BLEU、ROUGE2、RECALL指标，结果如下表所示：

表2 精排模型指标

可以看到，引入Pairwise学习并不能带来完全的正向收益，对话预训练则带来了稳定提升，对比学习增强大大提升了所有指标。非文本特征融入在文本相关性指标上有一定提升，并且显著提升了排序相关性指标，说明该方法非常有效处理了在语言表达形式类似情况下商家个性化偏好问题。

5.2 商家IM话术推荐

商家IM是商家与用户在交易流程中的在线即时通讯工具，在获取所需商品和服务过程中，用户有主动表述问题咨询信息的诉求，并通过IM向商家发起提问。以到综业务为例，大部分商家由于没有配备专门客服等原因，回复能力不足，回复欲望较低，效率不足，导致回复率较低，回复不及时，夜间无回复，容易造成客资流失。针对这一问题，我们建立面向商家的智能助手，商家在线时提供话术推荐辅助人工能力，降低客服输入成本，提升回复率，最终提升用户服务体验，如下图12所示：

图12 商家IM话术推荐产品示例

5.3 在线坐席CHAT输入联想

在线坐席为平台客服，主要解决用户购买产品或服务后的咨询问题。在这些场景中，存在着以下问题：聊天过程中经常回复相似甚至相同的话术，需要重复输入，效率低下；新人坐席由于业务熟悉程度还不够，对于一些用户的问题不知道该如何回复。为了缓解这些问题，我们话术推荐及输入联想功能来提高对话效率，其中输入联想相比话术推荐主要是多了客服已输入前缀的限制，如下图13所示：

图13 在线坐席CHAT输入联想产品示例

5.4 知识库答案供给

商家IM中，除了商家在线时提供话术推荐辅助人工能力之外，我们也在商家离线时提供智能客服自动回复能力，解决夜间无人值守的问题。其中首要的步骤就是帮助商家建立自定义知识库，在意图体系构建完成之后，除了存在默认答案的通用意图之外，部分特定意图仍需要商家手动填写答案。

在此过程中，我们根据意图中的问法为商家提供了推荐答案，减轻填写成本，提升填答效率，以提升答案覆盖率，如下图14所示：

图14 商家知识库答案供给示例

6 总结与展望

检索式对话系统是一个复杂的系统，包括离线数据流程、在线召回排序、个性场景策略等多个算法模块，其整体框架早已成熟，不过针对其中细分模块的优化仍然是研究和实践的重点。

经过一年多的技术探索与应用实践，我们不仅在多个业务中落地，并且构建了一套可快速推广复用的检索式对话系统。尽管当前的系统已经达到了较高的满意度，基本覆盖解决了咨询场景中的闲聊、知识等类型问题，但是针对系统本身以及咨询场景的解决方案依然有很多探索优化的方向，包括但不限于：

检索与生成结合：尽管生成式模型不适合作为主要解决方案，但是可以作为召回的补充来源或者是排序的打分器，并且在特定场景可能端到端模型更为适合。
多模态交互：当前主要的交互模式是基于文本的，未来可以探索在业务场景和模型层面都支持语言、图片等的多模态交互。
全自动托管：当前的模式仍需要人工客服每轮进行协同点击干预，希望在特定细分场景建立全自动托管对话机器人，解决闲聊、问答、任务等类型问题，完成咨询流程。

7 作者简介

子健、瑞年、冠炜、翔宇、超博、炎根、杨帆、广鲁等，均来自美团平台/语音交互部。

8 参考文献

[1] Mikolov, Tomas, et al. "Efficient estimation of word representations in vector space." arXiv preprint arXiv:1301.3781 (2013).
[2] Pennington, Jeffrey, Richard Socher, and Christopher D. Manning. "Glove: Global vectors for word representation." Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014.
[3] Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).
[4] Reimers, Nils, and I. Sentence-BERT Gurevych. "Sentence Embeddings using Siamese BERT-Networks. arXiv 2019." arXiv preprint arXiv:1908.10084 (1908).
[5] Liu, Yiding, et al. "Pre-trained language model for web-scale retrieval in baidu search." Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. 2021.
[6] Humeau, Samuel, et al. "Poly-encoders: Transformer architectures and pre-training strategies for fast and accurate multi-sentence scoring." arXiv preprint arXiv:1905.01969 (2019).
[7] Cen, Yukuo, et al. "Controllable multi-interest framework for recommendation." Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020.
[8] Tang, Hongyin, et al. "Improving document representations by generating pseudo query embeddings for dense retrieval." arXiv preprint arXiv:2105.03599 (2021).
[9] Whang, Taesun, et al. "An effective domain adaptive post-training method for bert in response selection." arXiv preprint arXiv:1908.04812 (2019).
[10] Mehri, Shikib, et al. "Pretraining methods for dialog context representation learning." arXiv preprint arXiv:1906.00414 (2019).
[11] Xu, Ruijian, et al. "Learning an effective context-response matching model with self-supervised tasks for retrieval-based dialogues." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 35. No. 16. 2021.
[12] Li, Junlong, et al. "Task-specific objectives of pre-trained language models for dialogue adaptation." arXiv preprint arXiv:2009.04984 (2020).
[13] Qiu, Yao, et al. "Challenging Instances are Worth Learning: Generating Valuable Negative Samples for Response Selection Training." arXiv preprint arXiv:2109.06538 (2021).
[14] Lin, Zibo, et al. "The world is not binary: Learning to rank with grayscale data for dialogue response selection." arXiv preprint arXiv:2004.02421 (2020).
[15] Burges, Chris, et al. "Learning to rank using gradient descent." Proceedings of the 22nd international conference on Machine learning. 2005.
[16] Zhang, Wentao, Shuang Xu, and Haoran Huang. "Two-Level Supervised Contrastive Learning for Response Selection in Multi-Turn Dialogue." arXiv preprint arXiv:2203.00793 (2022).
[17] Li, Yuntao, et al. "Small Changes Make Big Differences: Improving Multi-turn Response Selection in Dialogue Systems via Fine-Grained Contrastive Learning." arXiv preprint arXiv:2111.10154 (2021).
[18] Wu, Lijun, et al. "R-drop: Regularized dropout for neural networks." Advances in Neural Information Processing Systems 34 (2021): 10890-10905.
[19] Karpukhin, Vladimir, et al. "Dense Passage Retrieval for Open-Domain Question Answering." Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020.
[20] Li, Jiwei, et al. "A Persona-Based Neural Conversation Model." Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2016.

---------- END ----------

招聘信息

语音交互部负责美团语音和智能交互技术及产品研发，面向美团业务和生态伙伴，提供对语音和口语数据的大规模处理及智能响应能力。经过多年研发积累，团队在语音识别、合成、口语理解、智能问答和多轮交互等技术上已建成大规模的技术平台服务，并研发包括外呼机器人、智能客服、语音内容分析等解决方案和产品，在公司丰富的业务场景中广泛落地；同时我们也非常重视与行业的紧密合作，通过美团语音应用平台已与第三方手机语音助手、智能音箱、智能车机等诸多合作伙伴开展对接，将语音生活服务应用提供给更多用户。

语音交互部长期招聘自然语言处理算法工程师、算法专家，感兴趣的同学可以将简历发送至[email protected]。

美团科研合作

美团科研合作致力于搭建美团技术团队与高校、科研机构、智库的合作桥梁和平台，依托美团丰富的业务场景、数据资源和真实的产业问题，开放创新，汇聚向上的力量，围绕机器人、人工智能、大数据、物联网、无人驾驶、运筹优化等领域，共同探索前沿科技和产业焦点宏观问题，促进产学研合作交流和成果转化，推动优秀人才培养。面向未来，我们期待能与更多高校和科研院所的老师和同学们进行合作。欢迎老师和同学们发送邮件至：[email protected]。

也许你还想看

| 美团BERT的探索和实践

| Transformer 在美团搜索排序中的实践

| 常识性概念图谱建设以及在美团场景中的应用

阅读更多

前端 | 算法 | 后端 | 数据

安全 | Android | iOS | 运维 | 测试

你可能感兴趣的:(算法,人工智能,java)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs