北邮张博

实现基于seq2seq的聊天机器人

前几篇博客介绍了基于检索聊天机器人的实现、seq2seq的模型和代码，本篇博客将从头实现一个基于seq2seq的聊天机器人。这样，在强化学习和记忆模型出现之前的对话系统中的模型就差不多介绍完了。后续将着重介绍强化学习和记忆模型在对话系统中的应用。

基于检索的聊天机器人的实现

seq2seq模型详解

tensorflow中的seq2seq的代码详解

闲聊机器人在网上有很多有趣的小例子：

cleverbot 闲聊机器人

小黄鸡闲聊机器人

他们不一定是用seq2seq来做的，但是实现的效果都是类似的。
本篇博客主要参考github代码DeepQA。可以实现命令行中的交互式对话和前端网页版的交互式对话。

可以看到，实现的效果就是单轮的闲聊对话，是对话中最简单的任务，但对于以后理解和实现多轮对话和对话管理帮助也很大。代码DeepQA的实现较为复杂，并不适合初学者理解其构造，因此我将代码按照textCNN的构造方式自己写了一遍，代码也已上传至githubSeq2seq-QA。闲话不多说，我们仍然按照数据处理、模型构建、模型训练和训练结果四个部分来介绍。

数据处理

数据集介绍：Cornell Movie-Dialogs Corpus
该电影对话数据集包含从原始电影脚本中提取的虚构对话集合：
- 10,292对电影人物之间的220,579次会话交流
- 涉及617部电影中的9,035个角色
- 总共304,713条话语

本次训练主要使用了movie_lines.txt和movie_conversations.txt。

movie_lines.txt每一行的属性包括：
- lineID
- characterID (who uttered this phrase)
- movieID
- character name
- text of the utterance

举一个例子：

各属性之间以“ +++$+++ ”分割。第一个属性为lineID，最后一个属性为对话的文本。

movie_conversations.txt每一行的属性包括：
- characterID of the first character involved in the conversation
- characterID of the second character involved in the conversation
- movieID of the movie in which the conversation occurred
- list of the utterances that make the conversation

举一个例子：

仍然以相同的分隔符分割，每一行的最后一个属性为截取的对话的片段。如第一行对话片段为[‘L194’,’L195’,’L196’,’L197’]，每一个元素代表lineID，将movie_conversations.txt中的lineID替换为movie_lines.txt中的对话文本，就构成了训练的数据集，即将lineID替换为对话文本后的[‘L194’,’L195’],[‘L195’,’L196’], [‘L196’,’L197’]就构成了三个训练样本。

接下来开始写代码。数据处理部分的三板斧：读取数据、构建词典、构造数据集，我们已经熟的不能再熟了。

1、读取数据依然使用pandas：

read_csv中使用正则来匹配分隔符，所以需要对“+++$+++”进行转义，在movie_lines.txt文件中只需要使用lineID和对话文本两列即可，然后将对话文本进行分词，得到对话文本的单词列表。

movie_conversations.txt中只需要使用对话片段，即只需要line_ids列即可，读取的时候是以str格式读取的，因此需要eval或者literal_eval函数将其还原为列表格式。

# 读取 movie_lines.txt 和movie_conversations.txt两个文件
print("开始读取数据")
self.lines = pd.read_csv(self.args.line_path, sep=" \+\+\+\$\+\+\+ ", usecols=[0,4],
                    names=["line_id", "utterance"], dtype={"utterance":str}, engine="python")
self.conversations = pd.read_csv(self.args.conv_path, usecols=[3], names=["line_ids"],
                    sep=" \+\+\+\$\+\+\+ ", dtype={"line_ids":str},  engine="python")

self.lines.utterance = self.lines.utterance.apply(lambda conv : self.word_tokenizer(conv))
self.conversations.line_ids = self.conversations.line_ids.apply(lambda li : eval(li))

2、构建词表

为了方便，将文本中所有的单词都转为小写，然后按照单词出现次数进行排序并分配id。选择出现次数大于1的单词作为vocab，减小长尾对生成结果的影响。使用pandas的series来构造word2id和id2word词表。

# 得到word2id和id2word两个词典
print("开始构建词典")
words = self.lines.utterance.values
words = list(chain(*words))
# 将全部words转为小写
print("正在转为小写")
words = list(map(str.lower, words))
print("转化小写完毕")

sr_words_count = pd.Series(words).value_counts()
# 筛选出 出现次数 大于 1 的词作为 vocabulary
sr_words_size = np.where(sr_words_count.values > self.args.vacab_filter)[0].size
sr_words_index = sr_words_count.index[0:sr_words_size]

self.sr_word2id = pd.Series(range(self.numToken, self.numToken + sr_words_size), index=sr_words_index)
self.sr_id2word = pd.Series(sr_words_index, index=range(self.numToken, self.numToken + sr_words_size))
self.sr_word2id[self.padToken] = 0
self.sr_word2id[self.goToken] = 1
self.sr_word2id[self.eosToken] = 2
self.sr_word2id[self.unknownToken] = 3
self.sr_id2word[0] = self.padToken
self.sr_id2word[1] = self.goToken
self.sr_id2word[2] = self.eosToken
self.sr_id2word[3] = self.unknownToken

3、构造数据集
生成对话类的数据集只需要构造训练样本就可以。前面提到要将movie_conversations.txt中的lineID替换为movie_lines.txt中的对话文本，为了快速索引，需要构建一个以lineID为键，对话文本为value的字典，即代码中的sr_line_id。然后构造型为[first_conv, first_conv]的样本。细心的读者可能注意到，这里在构造数据集的时候并没有填充，因为填充的部分卸载get_batch的部分了，这样可以方便代码的重用，在构建batch的时候会详细说明的。至此数据处理部分就完成了。

print("开始生成训练样本")
# 将id与line作为字典，以方便生成训练样本
self.sr_line_id = pd.Series(self.lines.utterance.values, index=self.lines.line_id.values)
for line_id in tqdm(self.conversations.line_ids.values, ncols=10):
    for i in range(len(line_id) - 1):

        first_conv = self.sr_line_id[line_id[i]]
        second_conv = self.sr_line_id[line_id[i+1]]

        # 将文本全部转化为小写，然后再将word替换为id
        first_conv = self.replace_word_with_id(first_conv)
        second_conv = self.replace_word_with_id(second_conv)
        # 筛选样本，将输入或输出大于max_length的样本、输出中含有UNK的单词的样本过滤掉
        valid = self.filter_conversations(first_conv, second_conv)

        if valid :
            temp = [first_conv, second_conv]
            self.train_samples.append(temp)

print("生成训练样本结束")

def filter_conversations(self, first_conv, second_conv):
    # 筛选样本， 首先将encoder_input 或 decoder_input大于max_length的conversation过滤
    # 其次将target中包含有UNK的conversation过滤
    valid = True
    valid &= len(first_conv) <= self.args.maxLength
    valid &= len(second_conv) <= self.args.maxLength
    valid &= second_conv.count(self.sr_word2id[self.unknownToken]) == 0
    return valid

模型构建

模型构建部分主要使用tensorflow中的tf.contrib.legacy_seq2seq接口的embedding_rnn_seq2seq函数。这个函数在tensorflow中的seq2seq的代码详解中有详细的解释。值得注意的是，模型构建时的placeholder是一个列表，即list of [batch_size,]。因此在训练过程中，生成batch时需要根据对应的placeholder的shape进行填充和变形。此处的模型构建也不复杂，因此不详细介绍了。

class seq2seq:
    def __init__(self, args, text_data):

        self.args = args
        self.text_data = text_data

        # Placeholders
        self.encoder_inputs = None
        self.decoder_inputs = None
        self.decoder_targets = None
        self.decoder_weights = None

        self.num_encoder_symbols = len(text_data.sr_word2id)
        self.num_decoder_symbols = self.num_encoder_symbols

        # self.num_encoder_symbols = 10000
        # self.num_decoder_symbols = 10000

        # important operation
        self.outputs = None
        self.loss = None

        self.build_model()

    def build_model(self):

        outputProjection = None

        # define mutil RNN cell
        def create_cell():
            cell = tf.contrib.rnn.BasicLSTMCell(self.args.hidden_size)
            cell = tf.contrib.rnn.DropoutWrapper(
                        cell,
                        input_keep_prob=1.0,
                        output_keep_prob=self.args.dropout)
            return cell

        self.cell = tf.contrib.rnn.MultiRNNCell([create_cell() for _ in range(self.args.rnn_layers)])

        # define placeholder
        with tf.name_scope("encoder_placeholder"):
            self.encoder_inputs = [tf.placeholder(tf.int32, [None, ])
                                    for _ in range(self.args.maxLengthEnco)]
        with tf.name_scope("decoder_placeholder"):
            self.decoder_inputs  = [tf.placeholder(tf.int32,   [None, ], name='decoder_inputs')
                                    for _ in range(self.args.maxLengthDeco)]
            self.decoder_targets  = [tf.placeholder(tf.int32,   [None, ], name='decoder_targets')
                                    for _ in range(self.args.maxLengthDeco)]
            self.decoder_weights  = [tf.placeholder(tf.float32,   [None, ], name='decoder_weights')
                                    for _ in range(self.args.maxLengthDeco)]



        decoder_output, state = tf.contrib.legacy_seq2seq.embedding_rnn_seq2seq(self.encoder_inputs,
                           self.decoder_inputs,
                           self.cell,
                           self.num_encoder_symbols,
                           self.num_decoder_symbols,
                           self.args.embedding_size,
                           output_projection=None,
                           feed_previous=bool(self.args.test),
                           dtype=None,
                           scope=None)

        # For testing only
        if self.args.test is not None:
            if not outputProjection:
                self.outputs = decoder_output
            else:
                self.outputs = [outputProjection(output) for output in decoder_output]
        else:
            self.loss = tf.contrib.legacy_seq2seq.sequence_loss(logits=decoder_output,
                                               targets=self.decoder_targets,
                                               weights=self.decoder_weights)
            tf.summary.scalar('loss', self.loss)  # Keep track of the cost


        print("模型构建完毕")

模型训练

训练的主体结构如下。这和我们之前所写的代码结构都一样，需要详细讲的是如何得到训练和预测都可以用的batch，即get_next_batches()；如何得到训练和预测都可以用的feed_dict，即self.seq2seq_model.step(next_batch)。

try:  
    for i in range(self.args.epoch_nums):

        # Generate batches
        tic = datetime.datetime.now()
        batches = self.text_data.get_next_batches()
        for next_batch in tqdm(batches, desc="Training"):
            # train_op, summaries, loss = self.seq2seq_model.step(next_batch)
            feed_dict = self.seq2seq_model.step(next_batch)

            _, summaries, loss = self.sess.run(
                (self.train_op, mergedSummaries, self.seq2seq_model.loss),
                feed_dict)
            self.global_step += 1

            self.writer.add_summary(summaries, self.global_step)

            # Output training status
            if self.global_step % 100 == 0:
                perplexity = math.exp(float(loss)) if loss < 300 else float("inf")
                tqdm.write("----- Step %d -- Loss %.2f -- Perplexity %.2f" %(self.global_step, loss, perplexity))

            if self.global_step % self.args.checkpoint_every == 0:
                self.save_session(self.sess, self.global_step)

        toc = datetime.datetime.now()
        print("Epoch finished in {}".format(toc - tic))

except (KeyboardInterrupt, SystemExit):  # If the user press Ctrl+C while testing progress
    print('Interruption detected, exiting the program...')

# self.save_session(sess, self.global_step)  # Ultimate saving before complete exit

get_next_batches():当一次epoch结束时，首先要进行样本的shuffle。然后使用yield的方式来产生样本，得到的batches即为已经混洗过的，len(train_samples)/len(batch_size)个batches。注意samples，是没有经过数据填充，并且数据shape也不为list of [batch_size,]格式的。因此create_batch将数据填充，并且进行数据变形。

def get_next_batches(self):
        """Prepare the batches for the current epoch
        Return:
            list: Get a list of the batches for the next epoch
        """
        self.shuffle()

        batches = []

        def gen_next_samples():
            """ Generator over the mini-batch training samples
            """
            for i in range(0, len(self.train_samples), self.args.batch_size):
                yield self.train_samples[i:min(i + self.args.batch_size, len(self.train_samples))]

        # TODO: Should replace that by generator (better: by tf.queue)

        for samples in gen_next_samples():
            batch = self.create_batch(samples)
            batches.append(batch)
        return batches

create_batch():主要进行数据填充和数据变形，以适应embedding_rnn_seq2seq函数输入参数的要求。

def create_batch(self, samples):
        batch = Batch()
        batch_size = len(samples)

        # 数据填充和数据构造，将模型中四个placeholder都构造好。
        for i in range(batch_size):
            # Unpack the sample
            sample = samples[i]
            batch.encoderSeqs.append(list(reversed(
                sample[0])))  # Reverse inputs (and not outputs), little trick as defined on the original seq2seq paper
            batch.decoderSeqs.append([self.sr_word2id[self.goToken]] + sample[1] + [self.sr_word2id[self.eosToken]])  # Add the  and  tokens
            batch.targetSeqs.append(
                batch.decoderSeqs[-1][1:])  # Same as decoder, but shifted to the left (ignore the )

            # Long sentences should have been filtered during the dataset creation
            assert len(batch.encoderSeqs[i]) <= self.args.maxLengthEnco
            assert len(batch.decoderSeqs[i]) <= self.args.maxLengthDeco

            # TODO: Should use tf batch function to automatically add padding and batch samples
            # Add padding & define weight
            batch.encoderSeqs[i] = [self.sr_word2id[self.padToken]] * (self.args.maxLengthEnco -
                            len(batch.encoderSeqs[i])) + batch.encoderSeqs[i]  # Left padding for the input

            batch.weights.append(
                [1.0] * len(batch.targetSeqs[i]) + [0.0] * (self.args.maxLengthDeco - len(batch.targetSeqs[i])))
            batch.decoderSeqs[i] = batch.decoderSeqs[i] + [self.sr_word2id[self.padToken]] * (
            self.args.maxLengthDeco - len(batch.decoderSeqs[i]))
            batch.targetSeqs[i] = batch.targetSeqs[i] + [self.sr_word2id[self.padToken]] * (
            self.args.maxLengthDeco - len(batch.targetSeqs[i]))

        # 数据的reshape，构造为list of [batch_size,]格式的
        encoderSeqsT = []  # Corrected orientation
        for i in range(self.args.maxLengthEnco):
            encoderSeqT = []
            for j in range(batch_size):
                encoderSeqT.append(batch.encoderSeqs[j][i])
            encoderSeqsT.append(encoderSeqT)
        batch.encoderSeqs = encoderSeqsT

        decoderSeqsT = []
        targetSeqsT = []
        weightsT = []
        for i in range(self.args.maxLengthDeco):
            decoderSeqT = []
            targetSeqT = []
            weightT = []
            for j in range(batch_size):
                decoderSeqT.append(batch.decoderSeqs[j][i])
                targetSeqT.append(batch.targetSeqs[j][i])
                weightT.append(batch.weights[j][i])
            decoderSeqsT.append(decoderSeqT)
            targetSeqsT.append(targetSeqT)
            weightsT.append(weightT)
        batch.decoderSeqs = decoderSeqsT
        batch.targetSeqs = targetSeqsT
        batch.weights = weightsT

        return batch

self.seq2seq_model.step(next_batch)：训练时，需要将encoder_inputs、decoder_inputs、decoder_targets、decoder_weights四个placeholder都进行feed,否则无法计算loss，也就没法训练。预测时，将encoder_inputs和decoder_inputs的第一个时间步长进行feed就可以。

def step(self, batch):
    """ Forward/training step operation.
    Does not perform run on itself but just return the operators to do so. Those have then to be run
    Args:
        batch (Batch): Input data on testing mode, input and target on output mode
    Return:
        (ops), dict: A tuple of the (training, loss) operators or (outputs,) in testing mode with the associated feed dictionary
    """

    # Feed the dictionary
    feedDict = {}

    if not self.args.test:  # Training
        for i in range(self.args.maxLengthEnco):
            feedDict[self.encoder_inputs[i]]  = batch.encoderSeqs[i]
        for i in range(self.args.maxLengthDeco):
            feedDict[self.decoder_inputs[i]]  = batch.decoderSeqs[i]
            feedDict[self.decoder_targets[i]] = batch.targetSeqs[i]
            feedDict[self.decoder_weights[i]] = batch.weights[i]

        # ops = (self.optOp, self.lossFct)
    else:  # Testing (batchSize == 1)
        for i in range(self.args.maxLengthEnco):
            feedDict[self.encoder_inputs[i]]  = batch.encoderSeqs[i]
        feedDict[self.decoder_inputs[0]]  = [self.text_data.sr_word2id[self.text_data.goToken]]

        # ops = (self.outputs,)

    # Return one pass operator
    return feedDict

训练结果：

经过了大概七千多步的训练:

loss降到了二点多，困惑度降到了二十多，交互式预测结果如下图所示：

Rasa框架的优点和缺点不会编程的程序猿ᅟ rasa
优点1.开源和免费Rasa是开源的，无需支付许可费用，可自由下载和修改源码，适合预算有限或需要定制化解决方案的团队。企业可以完全掌控自己的对话系统，无需依赖外部服务。2.数据隐私和安全Rasa支持完全本地部署，无需将数据上传到第三方服务器，数据隐私保护性高，非常适合医疗、金融和其他注重数据安全的行业。3.高度可定制化可以根据需求修改NLU管道、策略和模型。支持自定义动作（CustomActions
大模型：LangChain技术讲解玉成226 【大模型】langchain
一、什么是LangChain1、介绍LangChain是一个用于开发由大型语言模型提供支持的Python框架。它提供了一系列工具和组件，帮助我们将语言模型集成到自己的应用程序中。有了它之后，我们可以更轻松地实现对话系统、文本生成、文本分类、问答系统等功能。2、LangChain官网文档官网：https://python.langchain.com/docs/introduction/3、LangC
如何使用 LangChain 实现模型功能调用 dagGAIYD langchain python
在本文中，我们将探索如何使用LangChain框架实现语言模型（LLM）的功能调用。这是构建智能对话系统、工具调用代理等应用的核心能力。通过本文，你将能够理解模型功能调用的原理，并学习如何在代码中实现这一功能。技术背景介绍功能调用是近年来语言模型（特别是ChatGPT等对话模型）的一个重要特性。它允许开发者定义特定的工具或功能，并让模型根据上下文自动决定是否调用这些功能，以及如何调用。LangCh
Gradio + Transformers** 实现带记忆功能的对话系统完整代码示例大霸王龙 python python 开发语言
以下是一个使用Gradio+Transformers实现带记忆功能的对话系统完整代码示例，无需额外数据库依赖：importgradioasgrimportnumpyasnpfromtransformersimportAutoTokenizer,AutoModelfromtypingimportDict,List,Tuple#-----------------初始化模型---------------
如何使用LangChain的`filter_messages`过滤消息 dagGAIYD langchain java 数据库 python
在复杂的对话链和代理中，我们常常需要维护一个消息列表。这个列表可能会积累来自多个不同模型、讲述者、子链等的消息。为了确保每次模型调用时只处理所需的消息，我们可以使用filter_messages实用工具来按类型、ID或名称过滤消息。技术背景介绍在对话系统或智能代理的开发中，管理消息状态是一项重要任务。随着对话深度的增加，消息列表可能会变得庞杂。因此，仅传递消息列表的子集至每个模型调用成为必要。此时
6. NLP自然语言处理（Natural Language Processing）啊波次得饿佛哥 AI人工智能自然语言处理人工智能
自然语言是指人类日常使用的语言，如中文、英语、法语等。自然语言处理是人工智能（AI）领域中的一个重要分支，它结合了计算机科学、语言学和统计学的方法，通过算法对文本和语音进行分析，使计算机能够理解、解释和生成自然语言。随着深度学习技术的发展，NLP在文本分类、机器翻译、情感分析、对话系统等任务中取得了显著进展，推动了人工智能技术在多个领域的广泛应用。自然语言处理的核心任务涉及如何使计算机理解和处理语
【拥抱AI】浅谈Prompt的书写规范及要点奔跑草- 人工智能人工智能 prompt RAG AI编程大模型 LLM AI Agent
Prompt是什么？Prompt是一种技术，它通过自然语言处理来引导用户与机器之间的交互。在人工智能领域，Prompt通常用于生成文本，例如对话系统、机器翻译和文本摘要等应用。它也用于训练模型，以使其能够理解和生成人类语言。Prompt的工作原理是通过建立相应的语料库和语义解析模型，将自然语言转换为机器可识别的指令。在大模型时代，Prompt的使用尤为重要，因为它可以帮助模型更好地理解用户的意图并
深入解析五大 LLM 可视化工具：Langflow、Flowise、Dify、AutoGPT UI 和 AgentGPT 花千树-010 AI编程 langchain 机器学习 AI编程 python 机器人
近年来，大语言模型（LLM）技术的迅猛发展推动了智能代理（Agent）应用的广泛应用。从任务自动化到智能对话系统，LLM代理可以极大简化复杂任务的执行。为了帮助开发者更快地构建和部署这些智能代理，多个开源工具应运而生，尤其是那些提供可视化界面的工具，让开发者通过简单的图形界面设计、调试和管理智能代理。本文将详细介绍五款热门的LLM可视化工具，分别是Langflow、Flowise、Dify、Aut
德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第十一周) - 自然语言处理扩展研究 Encarta1993 自然语言处理自然语言处理人工智能
自然语言处理扩展研究1.多语言研究2.语言锚定3.伦理问题1.多语言研究多语言(Multilinguality)是NLP的一个重要研究方向，旨在开发能够处理多种语言的模型和算法。由于不同语言在语法、词汇和语义结构上存在差异，这成为一个复杂且具有挑战性的研究领域。多语言性的研究促进了机器翻译、跨语言信息检索和多语言对话系统等应用的发展。以下是多语言的几个主要研究方向和重要技术：多语言模型的构建，开发
使用深度学习TensorFlow框架进行图片识别开发者社区小百科 TensorFlow 阿里云大学阿里云大学 TensorFlow
ApsaraClouder大数据专项技能认证：使用深度学习TensorFlow框架进行图片识别本认证系统的介绍了深度学习的一些基础知识，以及Tensorflow的工作原理。通过阿里云机器学习PAI基于经典的CIFAR-10数据集实现图片识别。学员可以通过本实验，对深度学习Tensorflow框架有一个简单、直观的了解。课时预览机器学习PAI介绍本节主要介绍阿里云机器学习PAI平台的功能以及常用的操
LLM大模型落地-从理论到实践 hhaiming_ 语言模型人工智能 ai 深度学习
简述按个人偏好和目标总结了学习目标和路径（可按需学习），后续将陆续整理出相应学习资料和资源。学习目标熟悉主流LLM（Llama,ChatGLM,Qwen）的技术架构和技术细节；有实际应用RAG、PEFT和SFT的项目经验较强的NLP基础，熟悉BERT、T5、Transformer和GPT的实现和差异，能快速掌握业界进展，有对话系统相关研发经验掌握TensorRT-LLM、vLLM等主流推理加速框架
Hugging Face教程小牛笔记自然语言处理人工智能自然语言处理
HuggingFace教程1.引言在当今数字化时代，自然语言处理（NLP）在各个领域中扮演着重要角色。从文本分类、情感分析到机器翻译和对话系统，NLP技术的应用日益广泛。在NLP领域，HuggingFace是一个备受欢迎的开源工具库，提供了丰富的预训练模型和强大的工具，帮助开发者快速构建和部署NLP应用。2.HuggingFace简介HuggingFace是一个专注于NLP的开源组织，致力于提供易
深度探索：机器学习中的序列到序列模型（Seq2Seq）原理及其应用生瓜蛋子机器学习机器学习人工智能
目录1.引言与背景2.庞特里亚金定理与动态规划3.算法原理4.算法实现5.优缺点分析优点缺点6.案例应用7.对比与其他算法8.结论与展望1.引言与背景在当今信息爆炸的时代，机器学习作为人工智能领域的核心驱动力，正以前所未有的深度和广度渗透进我们的日常生活。从语言翻译、文本摘要、语音识别到对话系统，众多自然语言处理（NLP）任务的成功解决离不开一种强大的模型架构——序列到序列（Sequence-to
大模型19：微调大模型方法 bluewelkin 大模型
有监督微调（SFT）、奖励模型（RM）训练，以及基于人类反馈的强化学习（RLHF）训练1.有监督微调（SFT-SupervisedFine-Tuning）数据处理数据收集：首先，需要收集大量的对话数据。这些数据通常包括人工标注的问答对，或者从已有的高质量对话系统中获取的数据集。数据预处理：对收集的数据进行清洗、标注和格式化。预处理包括移除噪音数据、分词、生成模型输入输出格式等。模型训练模型初始化：
什么是LLM，主要用途有哪些，在应用中有哪些优势和局限性？好好学习的不知名程序员机器学习深度学习 AIGC 人工智能
LLM（大型语言模型）在实际应用中的优势包括多领域应用、技术突破、创新应用等。其局限性则包括设计挑战、行为问题、科学难题等。LLM在实际中的应用优势：1.多领域应用：自然语言处理：LLM在机器翻译、语音识别、文本生成等领域表现出色。智能对话系统：LLM能够提供与人类相似的聊天机器人体验。内容创作：从文章写作到代码开发，LLM都能提供高效的辅助。2.技术突破：深度学习架构：LLM基于先进的深度学习技
人工智能领域--RAG技术胡萝卜不甜机器学习人工智能 python 学习算法
今天带大家来学习一下RAG技术，尤其在在大模型中应用广泛。一.RAG（RetrievalAugmentedGeneration）检索增强生成RAG，即Retrieval-AugmentedGeneration（检索增强的生成），是一种结合了检索（Retrieval）和生成（Generation）机制的人工智能技术，常用于提升自然语言处理（NLP）任务的性能，尤其是在问答系统、文本摘要、对话系统等领
生成式 AI 的发展方向，是 Chat 还是 Agent？码农不是吗喽（大学生版）人工智能
简介随着生成式AI技术的不断进步，关于其未来发展方向的讨论也愈发激烈。究竟生成式AI的未来是在对话系统（Chat）中展现智慧，还是在自主代理（Agent）中体现能力？这一问题引发了广泛的讨论和探索。你怎么看待生成式AI的未来发展方向？方向一：整体介绍生成式AI技术在对话系统（Chat）和自主代理（Agent）两个领域的应用已经取得了显著的进展。以下是这两个领域的一些发展现状、主要技术和应用场景的介
「亲测有效」ChatGPT Plus会员/GPT4开通方法 — 仅需支付宝或微信 chatgpt
「亲测有效」ChatGPTPlus会员/GPT4开通方法—仅需支付宝或微信随着人工智能技术的不断发展和普及，ChatGPT作为一款备受欢迎的智能对话系统，为用户提供了更加智能、流畅的对话体验。为了满足用户的需求，ChatGPT推出了Plus会员计划，以及全新的GPT4版本。本文将介绍如何开通ChatGPTPlus会员和GPT4，仅需支付宝或微信支付。ChatGPTPlus会员：提升对话体验的高级会
chat GPT第一讲 IT二哥 chatGPT chatgpt
计算机的语言奇迹：探秘ChatGPT的智能回答和写作能力目前我们这个行业，最火的话题无疑是AI人工智能，类似ChatGPT这样的智能Ai,今天剩下的时间不多，每天一个主题，我给大家讲一下计算机回答问题和写作的能力，尤其是聊天型AI模型ChatGPT。让大家可以更加前沿的了解一下关于它的一些情况。说起ChatGPT呢，之所以如此受欢迎，其实是因为它可以模仿人类对话。不同于以前的对话系统，它不再是讲的
掌握Python编程与ChatGPT的强强联手：开启人工智能助手新时代快乐非自愿 python chatgpt 人工智能
本文将介绍如何利用Python编程语言和ChatGPT技术实现强强联手，以打造功能强大的人工智能助手。我们将探讨Python编程在ChatGPT应用中的重要性，并展示如何利用Python与ChatGPT共同构建一个智能对话系统。最后，我们将探讨如何将这一技术应用于实际场景，为用户提供高效、实用的解决方案。随着人工智能技术的不断发展，自然语言处理（NLP）已经成为当今科技领域的热点。在众多NLP技术
openai chatGPT 原理通俗介绍后端java
引言近年来，随着深度学习技术的不断发展，自然语言处理（NLP）领域取得了长足的进步。ChatGPT（GenerativePre-trainedTransformer）作为一种先进的语言生成模型，在各类对话系统和智能助手中得到了广泛应用。然而，尽管这些模型在生成文本方面表现出色，但如何保证生成的文本在逻辑上合理仍然是一个挑战。本文将探讨在ChatGPT中如何实现逻辑，并探讨自然语言中逻辑的理解方式。
对话系统 | (6) 医疗健康领域的短文本理解 CoreJT 对话系统
原文地址分享嘉宾：杨比特丁香园编辑整理：叶祺出品平台：DataFunTalk导读：本次分享的主题为医疗健康领域的短文本理解，主要介绍在丁香园的业务场景下，短文本理解的技术实践，并讨论知识图谱技术如何在医疗健康领域的搜索推荐中落地应用，希望能够给大家的日常工作提供一些思路。主要内容包括：丁香园主要的业务和所服务的对象，以及在垂直领域下NLP工作可能需要面对的挑战在医疗健康领域短文本理解上的尝试结合工
AI引领低代码革命：未来应用开发的新主流 ZOHO卓豪人工智能低代码
距离ChatGPT发布已经过去快一年时间。在这一年里，以ChatGPT为代表的自然语言处理领域的重大进步，为我们的对话系统和语言交流提供了更加智能和自然的体验。随着ChatGPT的应用不断扩大，人们开始认识到人工智能（AI）技术在各个领域的潜在价值，并积极寻求将其融入更多方面的生活和工作中。AI技术与低代码开发的结合成为这一年里的亮点之一。低代码开发平台使应用程序的创建变得更加简单，无需深厚的编程
【大厂AI课学习笔记】【1.5 AI技术领域】（10）对话系统 giszz 学习笔记人工智能学习笔记
对话系统，DialogueSystem，也称为会话代理。是一种模拟人类与人交谈的计算机系统，旨在可以与人类形成连贯通顺的对话，通信方式主要有语音/文本/图片，当然也可以手势/触觉等其他方式一般我们将对话系统，分为两类：任务导向性的对话系统。例如问答系统；非任务导向型的对话系统。例如聊天机器人；比如在聊天机器人，语音助手，智能客服方面，都有很大的应用。比较重要的是，基于人工智能的对话系统，可以模拟人
如何利用ChatGPT填写表格数据摆烂大大王 chatgpt chatgpt
随着人工智能技术的迅速发展，ChatGPT等智能对话系统已经成为了我们生活中的得力助手。其中，利用ChatGPT填写表格数据是一项十分实用的功能，它可以帮助我们节省时间，提高工作效率。下面，我们将介绍如何利用ChatGPT来填写表格数据。了解ChatGPT的能力在开始之前，我们需要明白ChatGPT的能力。ChatGPT是一个基于GPT-3或GPT-4的对话式人工智能模型，它能够理解和生成自然语言
自然语言处理（NLP）——使用Rasa创建聊天机器人思诺学长 NLP自然语言处理机器人 nlp 自然语言处理
1基本概念1.1自然语言处理的分类IR-BOT：检索型问答系统Task-bot：任务型对话系统Chitchat-bot:闲聊系统1.2任务型对话Task-Bot:task-orientedbot这张图展示了一个语音对话系统（或聊天机器人）的基本组成部分和它们之间的工作流程。这个系统可以接受语音信号作为输入，输出文本响应，并且它包括以下几个主要部分：1.2.1自动语音识别（ASR）这个部分的任务是将
管理消极情绪的五步走法则：真真成长日记
第一步，注意自己的心跳，心跳加速说明情绪要上来，脾气可能暴躁，这时候可以通过深呼吸让自己的心跳放缓变的平静。第二步，认知察觉采用自言自语的对话系统，跟自己对话，问问自己这是怎么啦？为什么会这样？有意识觉察，情绪已经得到处理了。第三步，全然接纳自己和孩子的情绪，接纳即可放下，放下才会拥有更好。第四步，反驳不合理认知。比如：绝对化要求，什么事都是必须要、应该之类的这种绝对化要求让人难以接受，还有灾难性
对话系统介绍和基础神经网络模型浅白Coder 自然语言处理人工智能自然语言处理深度学习
1、对话系统背景介绍对话系统（或聊天机器人）在世界上扮演着越来越重要的角色。人们可能仍然有一种刻板印象，认为聊天机器人是给银行打电话时那些死板的代理。然而，得益于人工智能的复兴，尤其是深度学习的发展，现代聊天机器人可以与丰富的话题进行对话，从你的生日派对到拜登的演讲，如果你愿意，它们可以为你的派对场所预定位置或播放演讲视频。目前，对话系统是NLP的热点话题之一，在工业和日常生活中有很高的要求。聊天
对话系统介绍和基础神经网络模型(二) 浅白Coder 自然语言处理神经网络深度学习人工智能自然语言处理
接上一篇对话系统介绍和基础神经网络模型（一）2.2.2、长短期记忆网络（LSTM）LSTM（如图2-3）通过引入门机制来解决梯度消失问题，输入门、遗忘门、输出门被用来决定从当前输入和过去的记忆中应该保留多少信息。模型可以用以下方程来描述：其中t表示时间步长；i,f,o为门，分别表示输入门、输出门。x,h,C分别表示输入，长时记忆和短时记忆。“长短时记忆”一词的直观含义是，提出的模型同时应用长短时记
对话系统介绍和基础神经网络模型(三) 浅白Coder 自然语言处理神经网络人工智能深度学习自然语言处理
链接对话系统介绍和基础神经网络模型链接对话系统介绍和基础神经网络模型(二)3、面向任务式对话系统本章介绍面向任务式对话系统，包括管道方式和端到端系统。面向任务的系统解决特定领域中的特定问题，如电影票预定、餐厅餐桌预定等。由于深度学习突出的性能，我们重点描述基于深度系统的任务式对话系统。我们将介绍模块化系统和端到端系统的原理以及面向任务式对话系统的相关挑战和热点研究话题。面向任务式对话系统旨在准确地
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb

实现基于seq2seq的聊天机器人

数据处理

模型构建

模型训练

你可能感兴趣的:(深度学习Tensorflow,对话系统,对话系统)