J-JunLiang

聊天机器人（chatbot）终极指南：自然语言处理（NLP）和深度机器学习（Deep Machine Learning）

为了这份爱

在过去的几个月中，我一直在收集自然语言处理（NLP）以及如何将NLP和深度学习（Deep Learning）应用到聊天机器人（Chatbots）方面的最好的资料。

时不时地我会发现一个出色的资源，因此我很快就开始把这些资源编制成列表。不久，我就发现自己开始与bot开发人员和bot社区的其他人共享这份清单以及一些非常有用的文章了。

在这个过程中，我的名单变成了一个指南，经过一些好友的敦促和鼓励，我决定和大家分享这个指南，或许是一个精简的版本 - 由于长度的原因。

这个指南主要基于Denny Britz所做的工作，他深入地探索了机器人开发中深度学习技术的利用。文章中包含代码片段和Github仓，好好利用！

闲话不扯了…让我们开始吧！

概述：聊天机器人开发中的深度学习技术

聊天机器人是一个热门话题，许多公司都希望能够开发出让人无法分辨真假的聊天机器人，许多人声称可以使用自然语言处理（NLP）和深度学习（Deep Learning）技术来实现这一点。但是人工智能（AI）现在吹得有点过了，让人有时候很难从科幻中分辨出事实。

在本系列中，我想介绍一些用于构建对话式代理（conversational agents）的深度学习技术，首先我会解释下，现在我们所处的位置，然后我会介绍下，哪些是可能做到的事情，哪些是至少在一段时间内几乎不可能实现的事情。

模型分类

基于检索的模型 VS. 生成式模型

基于检索的模型（retrieval-based model）更容易实现，它使用预定义响应的数据库和某种启发式推理来根据输入（input）和上下文（context）选择适当的响应（response）。启发式推理可以像基于规则（rule based）的表达式匹配一样简单，或者像机器学习中的分类器集合（classifier ensemble）一样复杂。这些系统不会产生任何新的文本，他们只是从固定的集合中选择一个响应。

成式模型（generative model）要更难一些，它不依赖于预定义的响应，完全从零开始生成新的响应。生成式模型通常基于机器翻译技术，但不是从一种语言翻译到另一种语言，而是从输入到输出（响应）的“翻译”：

两种方法都有明显的优点和缺点。由于使用手工打造的存储库，基于检索的方法不会产生语法错误。但是，它们可能无法处理没有预定义响应的场景。出于同样的原因，这些模型不能引用上下文实体信息，如前面提到的名称。生成式模型更“更聪明”一些。它们可以引用输入中的实体，给人一种印象，即你正在与人交谈。然而，这些模型很难训练，而且很可能会有语法错误（特别是在较长的句子上），并且通常需要大量的训练数据。

深度学习技术既可以用于基于检索的模型，也可以用于生成式模型，但是chatbot领域的研究似乎正在向生成式模型方向发展。像seq2seq这样的深度学习体系结构非常适合l来生成文本，研究人员希望在这个领域取得快速进展。然而，我们仍然处于建立合理、良好的生成式模型的初期阶段。现在上线的生产系统更可能是采用了基于检索的模型。

对话的长短

对话越长，就越难实现自动化。一种是短文本对话（更容易实现），其目标是为单个输入生成单个响应。例如，你可能收到来自用户的特定问题，并回复相应的答案。另一种是很长的谈话（更难实现），谈话过程会经历多个转折，需要跟踪之前说过的话。客户服务中的对话通常是涉及多个问题的长时间对话。

开放领域 VS. 封闭领域

开放领域的chatbot更难实现，因为用户不一定有明确的目标或意图。像Twitter和Reddit这样的社交媒体网站上的对话通常是开放领域的 - 他们可以谈论任何方向的任何话题。无数的话题和生成合理的反应所需要的知识规模，使得开放领域的聊天机器人实现相当困难。

“开放领域：可以提出一个关于任何主题的问题，并期待相关的回应，这很难实现。考虑一下，如果就抵押贷款再融资问题进行交谈的话，实际上你可以问任何事情“ —— 马克·克拉克

封闭领域的chatbot比较容易实现，可能的输入和输出的空间是有限的，因为系统试图实现一个非常特定的目标。技术支持或购物助理是封闭领域问题的例子。这些系统不需要谈论政治，只需要尽可能有效地完成具体任务。当然，用户仍然可以在任何他们想要的地方进行对话，但系统并不需要处理所有这些情况 - 用户也不期望这样做。

“封闭领域：可以问一些关于特定主题的有限的问题，更容易实现。比如，迈阿密天气怎么样？“

“Square 1迈出了一个聊天机器人的可喜的第一步，它表明了可能不需要智能机器的复杂性，也可以提供商业和用户价值。

”Square 2使用了可以生成响应的智能机器技术。生成的响应允许Chatbot处理常见问题和一些不可预见的情况，而这些情况没有预定义的响应。智能机器可以处理更长的对话并且看起来更像人。但是生成式响应增加了系统的复杂性，而且往往是增加了很多的复杂性。

我们现在在客服中心解决这个问题的方法是，当有一个无法预知的情况时，在自助服务中将没有预定义的回应，这时我们会把呼叫传递给一个真人“ Mark Clark

共同的挑战

在构建聊天机器人时，有一些挑战是显而易见的，还有一些则不那么明显，这些挑战中的大部分都是现在很活跃的研究领域。

使用上下文信息

为了产生明智的反应，系统可能需要结合语言上下文和实物上下文。在长时间的对话中，人们会跟踪说过的内容以及所交换的信息。上图是使用语言上下文的一个例子。最常见的实现方法是将对话嵌入到向量（vector）中，但是长时间的对话对这一技术带来了挑战。两个相关的论文：“使用生成式层级神经网络模型构建端到端的对话系统”以及“在神经网络对话模型中使用有目的的注意力”，都在朝着这个方向发展。此外，还可能需要在上下文中合并其他类型的数据，例如日期/时间，位置或关于用户的信息。

一致的个性

理想情况下，当生成响应时代理应当对语义相同的输入产生一致的答案。例如，对于这两个问题：“你几岁了？”和“你的年龄是？”，你会期望得到同样的回答。这听起来很简单，但是如何将这种固定的知识或者说“个性”纳入到模型里，还是一个需要研究的问题。许多系统学可以生成语言上合理的响应，但是它们的训练目标并不包括产生语义一致的反应。通常这是因为它们接受了来自多个不同用户的大量数据的训练。类似于论文“基于角色的神经对话模型”中的模型，正在向为个性建模的方向迈出第一步。

模型的评估

评估聊天代理的理想方法是衡量是否在给定的对话中完成其任务，例如解决客户支持问题。但是这样的标签（label）的获取成本很高，因为它们需要人为的判断和评估。有时候没有良好定义的目标，就像在开放领域域的模型一样。通用的衡量指标，如BLEU，最初是用于机器翻译的，它基于文本的匹配，因此并不是特别适合于对话模型的衡量，因为一个明智的响应可能包含完全不同的单词或短语。事实上，在论文“ 对话响应生成的无监督评估指标的实证研究”中，研究人员发现，没有任何常用指标与人类的判断具有真正相关性。

意图和多样性

生成式系统的一个常见问题是，它们往往会生成一些类似于“很棒！”或“我不知道”之类的没有营养的响应，这些响应可以应对很多输入。谷歌智能答复的早期版本倾向于用“我爱你”来回应几乎任何事情。这一现象的部分根源在于这些系统是如何训练的，无论是在数据方面还是在实际的训练目标和算法方面。一些研究人员试图通过各种目标函数（Object function）来人为地促进多样性。然而，人类通常会产生特定于输入的反应并带有意图。因为生成式系统（特别是开放域系统）没有经过专门的意图训练，所以缺乏这种多样性。

现在能实现到什么程度？

基于目前所有前沿的研究，我们现在处于什么阶段，这些系统的实际工作情况到底怎么样？再来看看我们的模型分类。基于检索的开放领域系统显然是不可能实现的，因为你永远不可能手工制作足够的响应来覆盖所有的情况。生成式的开放域系统几乎是通用人工智能（AGI：Artificial General Intelligence），因为它需要处理所有可能的场景。我们离这个的实现还很远（但是在这个领域正在进行大量的研究）。

这就给我们剩下了一些限定领域的问题，在这些领域中，生成式和基于检索的方法都是合适的，对话越长，情境越重要，问题就越困难。

（前）百度首席科学家Andrew Ng 最近接受采访时说：

现阶段深度学习的大部分价值可以体现在一个可以获得大量的数据的狭窄领域。下面是一个它做不到的例子：进行一个真正有意义的对话。经常会有一些演示，利用一些精挑细选过的对话，让它看起来像是在进行有意义的对话，但如果你真的自己去尝试和它对话，它就会很快地偏离正常的轨道。

许多公司开始将他们的聊天外包给人力工作者，并承诺一旦他们收集了足够的数据就可以“自动化”。这只有在一个非常狭窄的领域运行时才会发生 - 比如说一个叫Uber的聊天界面。任何开放的领域（比如销售电子邮件）都是我们目前无法做到的。但是，我们也可以通过提出和纠正答案来利用这些系统来协助工作人员。这更可行。

生产系统中的语法错误是非常昂贵的，因为它们可能会把用户赶跑。这就是为什么大多数系统可能最好采用基于检索的方法，这样就没有语法错误和攻击性的反应。如果公司能够以某种方式掌握大量的数据，那么生成式模型就变得可行 - 但是它们必须辅以其他技术，以防止它们像微软的Tay那样脱轨。

用TENSORFLOW实现一个基于检索的模型

本教程的代码和数据在Github上。

基于检索的博客

当今绝大多数的生产系统都是基于检索的，或者是基于检索的和生成式相结合。 Google的Smart Reply就是一个很好的例子。生成式模型是一个活跃的研究领域，但我们还不能很好的实现。如果你现在想构建一个聊天代理，最好的选择就是基于检索的模型。

UBUNTU DIALOG CORPUS

在这篇文章中，我们将使用Ubuntu对话语料库（论文， github ）。 Ubuntu 对话语料库（UDC）是可用的最大的公共对话数据集之一。它基于公共IRC网络上的Ubuntu频道的聊天记录。论文详细说明了这个语料库是如何创建的，所以在这里我不再重复。但是，了解我们正在处理的是什么样的数据非常重要，所以我们先做一些数据方面的探索。

训练数据包括100万个样例，50％的正样例（标签1）和50％的负样例（标签0）。每个样例都包含一个上下文，即直到这一点的谈话记录，以及一个话语（utterance），即对上下文的回应。一个正标签意味着话语是对当前语境上下文的实际响应，一个负标签意味着这个话语不是真实的响应 - 它是从语料库的某个地方随机挑选出来的。这是一些示例数据：

请注意，数据集生成脚本已经为我们做了一堆预处理 - 它使用NLTK工具对输出进行了分词（tokenize），词干处理（stem）和词形规范化（lemmatize）。该脚本还用特殊的标记替换了名称，位置，组织，URL和系统路径等实体（entity）。这个预处理并不是绝对必要的，但它可能会提高几个百分点的性能。上下文的平均长度是86字，平均话语长17字。使用Jupyter notebook来查看数据分析。

数据集拆分为测试集和验证集。这些格式与训练数据的格式不同。测试/验证集合中的每个记录都包含一个上下文，一个基准的真实话语（真实的响应）和9个不正确的话语，称为干扰项（distractors）。这个模型的目标是给真正的话语分配最高的分数，并调低错误话语的分数。

有多种方式可以用来评估我们的模型做得如何。常用的衡量指标是k召回（recall@k ），它表示我们让模型从10个可能的回答中选出k个最好的回答（1个真实和9个干扰）。如果正在选中的回答中包含正确的，我们就将该测试示例标记为正确的。所以，更大的k意味着任务变得更容易。如果我们设定k = 10，我们得到100％的召回，因为我们只有10个回答。如果我们设置k = 1，模型只有一个机会选择正确的响应。

此时你可能想知道如何选择9个干扰项。在这个数据集中，9个干扰项是随机挑选的。然而，在现实世界中，你可能有数以百万计的可能的反应，你不知道哪一个是正确的。你不可能评估一百万个潜在的答案，选择一个分数最高的答案 - 这个成本太高了。 Google的“ 智能答复”使用集群技术来提出一系列可能的答案，以便从中选择。或者，如果你只有几百个潜在的回应，你可以对所有可能的回应进行评估。

基准

在开始研究神经网络模型之前，我们先建立一些简单的基准模型，以帮助我们理解可以期待什么样的性能。我们将使用以下函数来评估我们的recall@ k指标：

def evaluate_recall(y, y_test, k=1):
num_examples = float(len(y))
num_correct = 0
for predictions, label in zip(y, y_test):
if label in predictions[:k]:
num_correct += 1
return num_correct/num_examples

这里，y是我们按照降序排序的预测列表，y_test是实际的标签。例如，[0,3,1,2,5,6,4,7,8,9]中的ay表示话语0得分最高，话语9得分最低。请记住，对于每个测试样例，我们有10个话语，第一个（索引0）始终是正确的，因为我们数据中的话语列位于干扰项之前。

直觉是，一个完全随机的预测器也应该可以在recall@ 1指标上拿10分，在recall@2指标上得20分，依此类推。让我们来看看是否是这种情况：

# Random Predictor
def predict_random(context, utterances):
return np.random.choice(len(utterances), 10, replace=False)
# Evaluate Random predictor
y_random = [predict_random(test_df.Context[x], test_df.iloc[x,1:].values) for x in range(len(test_df))]
y_test = np.zeros(len(y_random))
for n in [1, 2, 5, 10]:
print(“Recall @ ({}, 10): {:g}”.format(n, evaluate_recall(y_random, y_test, n)))

测试结果：

Recall @ (1, 10): 0.0937632
Recall @ (2, 10): 0.194503
Recall @ (5, 10): 0.49297
Recall @ (10, 10): 1

很好，看起来符合预期。当然，我们不只是想要一个随机预测器。原始论文中讨论的另一个基准模型是一个tf-idf预测器。 tf-idf代表“term frequency - inverse document frequency”，它衡量文档中的单词与整个语料库的相对重要性。这里不阐述具体的的细节了（你可以在网上找到许多关于tf-idf的教程），那些具有相似内容的文档将具有类似的tf-idf向量。直觉上讲，如果上下文和响应具有相似的词语，则它们更可能是正确的配对。至少比随机更可能。许多库（如scikit-learn 都带有内置的tf-idf函数，所以它非常易于使用。现在，让我们来构建一个tf-idf预测器，看看它的表现如何。

class TFIDFPredictor:
def __init__(self):
self.vectorizer = TfidfVectorizer()
def train(self, data):
self.vectorizer.fit(np.append(data.Context.values,
data.Utterance.values))
def predict(self, context, utterances):
# Convert context and utterances into tfidf vector
vector_context = self.vectorizer.transform([context])
vector_doc = self.vectorizer.transform(utterances)
# The dot product measures the similarity of the resulting vectors
result = np.dot(vector_doc, vector_context.T).todense()
result = np.asarray(result).flatten()
# Sort by top results and return the indices in descending order
return np.argsort(result, axis=0)[::-1]
# Evaluate TFIDF predictor
pred = TFIDFPredictor()
pred.train(train_df)
y = [pred.predict(test_df.Context[x], test_df.iloc[x,1:].values) for x in range(len(test_df))]
for n in [1, 2, 5, 10]:
print(“Recall @ ({}, 10): {:g}”.format(n, evaluate_recall(y, y_test, n)))

运行结果：

Recall @ (1, 10): 0.495032
Recall @ (2, 10): 0.596882
Recall @ (5, 10): 0.766121
Recall @ (10, 10): 1

我们可以看到tf-idf模型比随机模型表现得更好。尽管如此，这还不够完美。我们所做的假设不是很好。首先，响应不一定需要与上下文相似才是正确的。其次，tf-idf忽略了词序，这可能是一个重要的改进信号。使用一个神经网络模型，我们应该可以做得更好一点。

双编码器LSTM

我们将在本文中构建的深度学习模型称为双编码器LSTM网络（Dual Encoder LSTM Network）。这种类型的网络只是可以应用于这个问题的众多网络之一，并不一定是最好的。你可以尝试各种深度学习架构 - 这是一个活跃的研究领域。例如，经常在机器翻译中使用的seq2seq模型在这个任务上可能会做得很好。我们打算使用双编码器的原因是因为据报道它在这个数据集上性能不错。这意味着我们知道该期待什么，并且可以肯定我们的丝线代码是正确的。将其他模型应用于这个问题将是一个有趣的项目。

我们将建立的双编码器LSTM看起来像这样（论文）：

它的大致工作原理如下：

上下文和响应文本都是按照单词分割的，每个单词都嵌入到一个向量中。词嵌入是用斯坦福大学的GloVe矢量进行初始化的，并且在训练过程中进行了微调（注：这是可选的，并且没有在图片中显示，我发现用GloVe进行初始化对模型性能没有太大的影响）。
嵌入的上下文和响应都逐字地输入到相同的递归神经网络（Recurrent Neural Network）中。 RNN生成一个矢量表示，不严格地说，这个表示捕捉了上下文和响应（图片中的c和r）中的“含义”。我们可以自由选择矢量的大小，不过先选择256个维度吧。
我们用矩阵M乘以c来“预测”一个响应r'。如果c是256维向量，则M是256×256维矩阵，结果是另一个256维向量，我们可以将其解释为产生的响应。矩阵M是在训练中学习到的。
我们通过取这两个向量的点积来度量预测响应r'和实际响应r的相似度。大的点积意味着两个向量更相似，因此应该得到高分。然后，我们应用sigmoid函数将该分数转换为概率。请注意，步骤3和4在图中组合在一起。

为了训练网络，我们还需要一个损失（成本）函数。我们将使用分类问题中常见的二项交叉熵损失（binary cross-entropy loss）。让我们将上下文响应的真实标签称为y。这可以是1（实际响应）或0（不正确的响应）。让我们把上面第4条中提到的预测概率称为y'。然后，交叉熵损的计算公式为L = -y * ln（y'） - （1-y）* ln（1-y'）。这个公式背后的直觉很简单。如果y = 1，则剩下L = -ln（y'），这意味着对远离1的预测加以惩罚；如果y = 0，则剩下L = -ln（1-y'），这惩罚了远离0的预测。

我们的实现将使用numpy ，pandas ， Tensorflow和TF Learn （ Tensorflow的高层API）的组合。

数据预处理

原始的数据集是CSV格式。我们可以直接使用CSV，但最好将我们的数据转换成Tensorflow专有的example格式。（顺便说一下：还有一个tf.SequenceExample，但tf.learn似乎不支持这一格式）。 example格式的主要好处是它允许我们直接从输入文件加载张量（tensor），并让Tensorflow来对输入进行随机排序（shuffle），批次处理（batch）和队列处理（queue）。作为预处理的一部分，我们还创建了一个词表。这意味着我们将每个单词映射到一个整数，例如“cat”可能变成2631.我们将生成的TFRecord文件，存储的就是这些整数而不是字串。我们会保留词表，以便后续可以从整数映射回单词。

每个样例包含以下字段：

context：表示上下文文本的词序列，例如[231,2190,737,0,912]
context_len：上下文的长度，例如上面例子中的5
utterance：表示话语（响应）的一系列单词id
utterance_len：话语的长度
label：标签，在训练数据中才有。 0或1。
distractor_ [N]：仅在测试/验证数据中。 N的范围从0到8.代表干扰项的词序列id。
distractor_ [N] _len：仅在测试/验证数据中。 N的范围是从0到8.发音的长度。

预处理由Python脚本prepare_data.py 完成，该脚本生成3个文件：train.tfrecords，validation.tfrecords和test.tfrecords。你可以自己运行脚本或者在这里下载数据文件。

创建一个输入函数

为了使用Tensorflow内置的训练和评估支持，我们需要创建一个输入函数 - 一个返回批量输入数据的函数。事实上，由于我们的训练和测试数据有不同的格式，我们需要不同的输入功能。输入函数应返回一批特征和标签（如果可用）。模板如下：

def input_fn():
# TODO Load and preprocess data here
return batched_features, labels

因为在训练和评估过程中我们需要不同的输入函数，并且因为我们讨厌复制代码，所以我们创建了一个名为create_input_fn的包装器，以便为相应的模式（mode）创建一个输入函数。它也需要一些其他参数。这是我们使用的定义：

def create_input_fn(mode, input_files, batch_size, num_epochs=None):
def input_fn():
# TODO Load and preprocess data here
return batched_features, labels
return input_fn

完整的代码可以在udc_inputs.py中找到。这个函数主要执行以下操作：

创建描述样例文件中字段的特征定义（feature definition）
使用tf.TFRecordReader从输入文件中读取记录
根据特征定义解析记录
提取训练标签
将多个样例和培训标签构造成一个批次
返回批次

定义评估指标

我们已经提到，我们要使recall@ k指标来评估我们的模型。幸运的是，Tensorflow预置了很多我们可以使用的标准的评估指标，包括recall@ k。要使用这些指标，我们需要创建一个从指标名称映射到函数（以预测和标签为参数）的字典：

def create_evaluation_metrics():
eval_metrics = {}
for k in [1, 2, 5, 10]:
eval_metrics[“recall_at_%d” % k] = functools.partial(
tf.contrib.metrics.streaming_sparse_recall_at_k,
k=k)
return eval_metrics

上面代码中，我们使用functools.partial将一个带有3个参数的函数转换为只带有2个参数的函数。不要让名称streaming_sparse_recall_at_k把你搞糊涂。 streaming只是意味着指标是在多个批次上累积的，而sparse则是指我们标签的格式。

这带来了一个重要的问题：评估过程中我们的预测到底是什么格式？在训练期间，我们预测样例正确的概率。但是在评估过程中，我们的目标是对话语和9个干扰项进行评分，并挑选分最高的一个 - 我们不能简单地预测正确还是不正确。这意味着在评估过程中，每个样例都应该得到一个有10个分值的向量，例如[0.34,0.1,0.22,0.45,0.01,0.02,0.03,0.08,0.33,0.11]，每一个分数分别对应于真实的响应和9个干扰项。每个话语都是独立评分的，所以概率不需要加起来为1.因为真正的响应在数组中总是为0，所以每个例子的标签都是0。上面的例子将被recall@ 1指标视为分类错误，因为第三个干扰项的概率是0.45，而真实的回答只有0.34。然而，它会被recall@ 2指标视为正确的。

训练代码样板

在编写实际的神经网络代码之前，我喜欢编写用于训练和评估模型的样板代码。这是因为，只要你坚持正确的接口，很容易换出你使用的是什么样的网络。假设我们有一个模型函数model_fn，它以批次特征，标签和模式（训练或评估）作为输入，并返回预测结果。那么我们可以编写如下的通用代码来训练我们的模型：

estimator = tf.contrib.learn.Estimator(
model_fn=model_fn,
model_dir=MODEL_DIR,
config=tf.contrib.learn.RunConfig())
input_fn_train = udc_inputs.create_input_fn(
mode=tf.contrib.learn.ModeKeys.TRAIN,
input_files=[TRAIN_FILE],
batch_size=hparams.batch_size)
input_fn_eval = udc_inputs.create_input_fn(
mode=tf.contrib.learn.ModeKeys.EVAL,
input_files=[VALIDATION_FILE],
batch_size=hparams.eval_batch_size,
num_epochs=1)
eval_metrics = udc_metrics.create_evaluation_metrics()
# We need to subclass theis manually for now. The next TF version will
# have support ValidationMonitors with metrics built-in.
# It’s already on the master branch.
class EvaluationMonitor(tf.contrib.learn.monitors.EveryN):
def every_n_step_end(self, step, outputs):
self._estimator.evaluate(
input_fn=input_fn_eval,
metrics=eval_metrics,
steps=None)
eval_monitor = EvaluationMonitor(every_n_steps=FLAGS.eval_every)
estimator.fit(input_fn=input_fn_train, steps=None, monitors=[eval_monitor])

在这里，我们为model_fn，训练和评估数据的两个输入函数以及评估指标字典创建了一个估计器。我们还定义了一个监视器，在训练期间每隔FLAGS.eval_every_every指定的步数对模型进行评估。最后，我们训练模型。训练过程可以无限期地运行，但Tensorflow可以自动地将检查点文件保存在MODEL_DIR指定的目录中，因此可以随时停止训练。一个更炫的技巧是使用早期停止，这意味着当验证集指标停止改进时（即开始过拟合），将自动停止训练。你可以在udc_train.py中看到完整的代码。

我想简要提及的两件事是FLAGS的使用。这是给程序提供命令行参数的一种方法（类似于Python的argparse）。 hparams是我们在hparams.py中创建的一个自定义对象，它包含用来调整模型的参数、超参数。我们在实例化模型时将这个hparams对象赋予给模型。

创建模型

现在我们已经建立了关于输入，解析，评估和训练的样板代码，可以为我们的Dual LSTM神经网络编写代码了。因为我们有不同格式的训练和评估数据，所以我写了一个create_model_fn包装器，它负责为我们提供正确的格式。它接受一个model_impl参数，应当指向一个实际进行预测的函数。在我们的例子中就是上面介绍的双编码器LSTM，但是我们可以很容易地把它换成其他的神经网络。让我们看看是什么样的：

def dual_encoder_model(
hparams,
mode,
context,
context_len,
utterance,
utterance_len,
targets):
# Initialize embedidngs randomly or with pre-trained vectors if available
embeddings_W = get_embeddings(hparams)
# Embed the context and the utterance
context_embedded = tf.nn.embedding_lookup(
embeddings_W, context, name=”embed_context”)
utterance_embedded = tf.nn.embedding_lookup(
embeddings_W, utterance, name=”embed_utterance”)
# Build the RNN
with tf.variable_scope(“rnn”) as vs:
# We use an LSTM Cell
cell = tf.nn.rnn_cell.LSTMCell(
hparams.rnn_dim,
forget_bias=2.0,
use_peepholes=True,
state_is_tuple=True)
# Run the utterance and context through the RNN
rnn_outputs, rnn_states = tf.nn.dynamic_rnn(
cell,
tf.concat(0, [context_embedded, utterance_embedded]),
sequence_length=tf.concat(0, [context_len, utterance_len]),
dtype=tf.float32)
encoding_context, encoding_utterance = tf.split(0, 2, rnn_states.h)
with tf.variable_scope(“prediction”) as vs:
M = tf.get_variable(“M”,
shape=[hparams.rnn_dim, hparams.rnn_dim],
initializer=tf.truncated_normal_initializer())
# “Predict” a response: c * M
generated_response = tf.matmul(encoding_context, M)
generated_response = tf.expand_dims(generated_response, 2)
encoding_utterance = tf.expand_dims(encoding_utterance, 2)
# Dot product between generated response and actual response
# (c * M) * r
logits = tf.batch_matmul(generated_response, encoding_utterance, True)
logits = tf.squeeze(logits, [2])
# Apply sigmoid to convert logits to probabilities
probs = tf.sigmoid(logits)
# Calculate the binary cross-entropy loss
losses = tf.nn.sigmoid_cross_entropy_with_logits(logits, tf.to_float(targets))
# Mean loss across the batch of examples
mean_loss = tf.reduce_mean(losses, name=”mean_loss”)
return probs, mean_loss

完整的代码在dual_encoder.py中。鉴于此，我们现在可以在我们之前定义的udc_train.py的主例程中实例化我们的模型函数。

model_fn = udc_model.create_model_fn(
hparams=hparams,
model_impl=dual_encoder_model)

好了！我们现在可以运行python udc_train.py，它将开始训练我们的网络，间或评估验证数据的召回情况（你可以选择使用-eval_every开关来选择评估的频率）。要获得我们使用tf.flags和hparams定义的所有可用的命令行标志的完整列表，你可以运行python udc_train.py --help。

INFO:tensorflow:training step 20200, loss = 0.36895 (0.330 sec/batch).
INFO:tensorflow:Step 20201: mean_loss:0 = 0.385877
INFO:tensorflow:training step 20300, loss = 0.25251 (0.338 sec/batch).
INFO:tensorflow:Step 20301: mean_loss:0 = 0.405653
…
INFO:tensorflow:Results after 270 steps (0.248 sec/batch): recall_at_1 = 0.507581018519, recall_at_2 = 0.689699074074, recall_at_5 = 0.913020833333, recall_at_10 = 1.0, loss = 0.5383
…

评估模型

在你训练完模型之后，你可以在测试集上使用python udc_test.py - model_dir = $ MODEL_DIR_FROM_TRAINING来评估它，例如python udc_test.py - model_dir =〜/ github / chatbot-retrieval / runs / 1467389151。这将在测试集而不是验证集上运行recall@ k评估指标。请注意，你必须使用在训练期间使用的相同参数调用udc_test.py。所以，如果你用 - embedding_size = 128进行训练，就需要用相同的方法调用测试脚本。

经过约20,000步的训练（在快速GPU上一个小时左右），我们的模型在测试集上得到以下结果：

recall_at_1 = 0.507581018519
recall_at_2 = 0.689699074074
recall_at_5 = 0.913020833333

虽然recall@ 1接近我们的TFIDF模型，recall@ 2和recall@ 5显着更好，这表明我们的神经网络为正确的答案分配了更高的分数。原始论文中recall@1、recall@2和recall@5的值分别是0.55，0.72和0.92，但是我还没能重现。也许额外的数据预处理或超参数优化可能会使分数上升一点。

预测

你可以修改并运行udc_predict.py，以获取不可见数据的概率得分。例如python udc_predict.py — model_dir=./runs/1467576365/，将得到输出：

Context: Example context
Response 1: 0.44806
Response 2: 0.481638

.
你可以想象为，在一个上下文中输入100个潜在的响应，然后选择一个最高分的。

结论

在这篇文章中，我们已经实现了一个基于检索的神经网络模型，可以根据对话上下文对潜在的响应打分。然而，还有很多改进的余地。可以想象，与双LSTM编码器相比，其他神经网络在这个任务上做得更好。超参数优化还有很多空间，或者预处理步骤的改进。本教程的代码和数据在Github上，请查看。

原文：Ultimate Guide to Leveraging NLP & Machine Learning for your Chatbot

https://blog.csdn.net/qfire/article/details/78809289

你可能感兴趣的:(人工智能,深度学习,对话机器人,聊天机器人,对话机器人,NLP,自然语言处理,深度学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
感赏日志133 马姐读书
图片发自App感赏自己今天买个扫地机，以后可以解放出来多看点书，让这个智能小机器人替我工作了。感赏孩子最近进步很大，每天按时上学，认真听课，认真背书，主动认真完成老师布置的作业。感赏自己明白自己容易受到某人的影响，心情不好，每当此刻我就会舒缓，感赏，让自己尽快抽离，想好的一面。感赏儿子今天在我提醒他事情时，告诉我谢谢妈妈对我的提醒我明白了，而不是说我啰嗦，管事情，孩子更懂事了，懂得感恩了。投射父母
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
读书||陶新华《教育中的积极心理学》1—28 流水淙淙2022
读一本好书，尤如和一位高尚者对话，亦能对人的精神进行洗礼。但是若不能和实践结合起来，也只能落到空读书的状态。读书摘要与感想1、塞利格曼在《持续的幸福》一书中提出了幸福2.0理论，提出幸福由5个元素决定——积极情绪、投入的工作和生活、目标和意义、和谐的人际关系、成就感。2、人的大脑皮层在进行智力活动时，都伴有皮下中枢活动，对这些活动进行体验请假，并由此产生了情感解读。人的情绪情感体验总是优先于大脑的
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
基于STM32与Qt的自动平衡机器人：从控制到人机交互的的详细设计流程极客小张 stm32 qt 机器人物联网人机交互毕业设计 c语言
一、项目概述目标和用途本项目旨在开发一款基于STM32控制的自动平衡机器人，结合步进电机和陀螺仪传感器，实现对平衡机器人的精确控制。该机器人可以用于教育、科研、娱乐等多个领域，帮助用户了解自动控制、机器人运动学等相关知识。技术栈关键词STM32单片机步进电机陀螺仪传感器AD采集电路Qt人机界面实时数据监控二、系统架构系统架构设计本项目的系统架构设计包括以下主要组件：控制单元:STM32单片机传感器
笋丁网页自动回复机器人V3.0.0免授权版源码希希分享软希网58soho_cn 源码资源笋丁网页自动回复机器人
笋丁网页机器人一款可设置自动回复，默认消息，调用自定义api接口的网页机器人。此程序后端语言使用Golang，内存占用最高不超过30MB，1H1G服务器流畅运行。仅支持Linux服务器部署，不支持虚拟主机，请悉知！使用自定义api功能需要有一定的建站基础。源码下载：https://download.csdn.net/download/m0_66047725/89754250更多资源下载：关注我。安
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
2021.11.18 星初呀
2021.11.18＃小狗钱钱金金先生和吉亚的对话，金先生说，我总感觉你和大多数小孩很不一样。吉雅说我思考的问题不一样。很惊讶于一个小孩这样的归纳能力。我们思考问题方式是怎样的?自从跟着小狗群练习，思考问题方式也在跟着转变，关注自己做到的，写成功日记，关注微小事情，思考问题消耗我们的注意力。注意力放在哪里，哪里就会开花结果。所以我们琢磨的东西会塑造我们的大脑，建立稳固的价值观。今天听了定投课堂一节
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
使用datepicker和uploadify的冲突解决（IE双击才能打开附件上传对话框） zhanglb12
在开发的过程当中，IE的兼容无疑是我们的一块绊脚石，在我们使用的如期的datepicker插件和使用上传附件的uploadify插件的时候，两者就产生冲突，只要点击过时间的插件，uploadify上传框要双才能打开ie浏览器提示错误Missinginstancedataforthisdatepicker解决方案//if(.browser.msie&&'9.0'===.browser.version
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
Sissi书单｜《每天刷本书》365天不间断阅读第28天每天刷的sissi
以前我是一个不太会和自己对话的人，但是后来经历得多了，就慢慢变得喜欢自省起来。喜欢通过做各种测试题来更好的了解自己。测出来什么点，我觉得需要改善，就会到处去找调整的方法。这本书就是我在找方法的时候看到的，看的过程中除了觉得有用，还是觉得有用，非常推荐阅读！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla