Huterox

快速构建一个简单的对话+问答AI （上）

文章目录

前言
part0 资源准备
- 基本功能
- 语料
- - 停用词
  - 问答
  - 闲聊语料
- 获取
part01句的表达
- 表达
- - one-hot编码
- 词嵌入
- - - 大致原理
    - 实现
    - - 简单版
      - 复杂版
      - 如何训练
  - 转换后的形状
part02 循环神经网络
- RNN
- - RNN投影图
  - RNN是三维立体的
- LSTM&GRU
part03意图识别
- 分词
- FastText分类
- - FastText网络结构
  - 优化点
- 构造FastText数据集
- 训练
part04 闲聊对话
- Seq2Seq
- - 网络结构
  - 输入与输出（编/解码器）
- 数据准备
- - 构造词典
  - 数据加载
- 网络搭建
- - 编码器
  - 解码器
  - 注意力机制
- 训练
- - 搭建seq网络
  - 训练
- 推理
- - BeamSearch
  - 完整过程
Part05 问答处理
- 简单思路
- 难点
上文分割线

前言

okey,许久不见甚是想念，那么今天的话也是来开启一个新的一个章节吧。当然承认最近是有在划水，但是问题不大。那么今天的话咱们就是来填一填以前的坑，吹过的牛皮总还是要实现的。那么在这边咱们的目的是实现出一个简单一点的AI助手，通过我们的文本来实现一些对话，问答之类的一些处理。从基础部分，一步一步实现一个这样的小AI，在未来你还可以打造属于自己的一个数据集，同时在这个架构的基础上不断优化，在未来的某一天也许是有机会得到一个专属于你的一个AI对象的。

所以咱们今天给出的还是一个baseline。同时本文的风格也是慢慢来递进的，从最基础的尺度表达，到搭建一个网络，再到基本的优化，最后是一个封装。
项目开源地址：
https://github.com/Huterox/xiaojiejieBoot.git

咱们的这个机器人就叫叫作“小姐姐”。是的非常的直接：Although I have been rejected, I will not give up.
对应语料资源：
https://github.com/codemayq/chinese_chatbot_corpus

基本要求，阅读本篇文章需要一定的门槛：

熟练掌握python
了解基本的深度学习知识
会使用pytorch搭建神经网络
具备一定的抽象能力（受限于篇幅问题，本博文在原理部分只能做简化，因此重点还是实战（或者说，都在代码里面了），但是对应相应内容都会进行一个介绍，和我认为比较容易不太好理解的点，所以如果想要完善理论部分的话，建议自行深入，这里更多是科普，之后是代码实现，你将这部分作为灰盒子就好了，因为你还是可以调参，准备自己的数据集的）

part0 资源准备

ok,在开始之前呢，咱们先来说说在咱们本篇博文当中，咱们是怎么设计的，需要使用到哪些资源。

基本功能

先来看到咱们的这个基本功能的一个样例图吧：

所以的话，咱们这边有问答功能，和闲聊功能，现在的话，那么闲聊的话其实顾名思义，其实就是说如果你想要让这个AI能够就是说像情侣一样对话的话，那么这个闲聊就是咱们的这个恋爱聊天功能，也就是所谓的AI女友的最基本的一个对话雏形。

语料

ok,看到了咱们的一个具体的大致的功能，那么咱们接下来要做的就是说，我们需要使用到哪些东西。首先的话，由于咱们只是先做一个baseline级别的dome，加上咱们的这个算力确实比较那啥。所以的话，咱们的这个语料都是做了一个简要的删减，因为确实是太多了。
那么首先咱们这边使用的主要是这四个东西：

首先第一个是百度问答的问答对一共是5W，还有小黄鸡的一个语料库，大概是50W条问答。
之后第百度停用词和汉语词库。大概就这几个。那么如果你是想要做AI情侣的话，那么就需要把小黄鸡的一个语料库，换成这个对应的恋爱对话的一个语料（你可以尝试把你和你对象的对话搞过来，但是量得足够大，那么咱们这边就不去搞这种，一方面是我搞不到这个数据集，也没有没有办法从自己身上收集，另一方面确实不太合适，但是方法我还是会说的）

之后的话，咱们来看看一看咱们的这个格式：

停用词

打开之后的话，格式大概是这样的：

词库的格式也是类似的。

问答

之后的是问答的一个语料，这个是百度的一个问答，通过数据处理之后的一个格式。这边整理好了。格式是这样的：

问答对。

闲聊语料

这个闲聊也简单，是这样的：

E 是开始标志
M 对话

这个到时候怎么用，咱们在后面再说。

获取

之后的话是咱们的一个资源的获取。
这块的资源的话都已经打包好了在这：
链接：https://pan.baidu.com/s/1Bb0sWcITQLrkibDqIT8Qvg
提取码：6666

part01句的表达

表达

计算机和我们人类是不一样的，他只能进行基本的数字运算，在咱们先前的图像处理当中，图像的表达依然还是通过数值矩阵的，但是一个句子或者单纯是如何表示的呢。所以为了能够让计算机可以处理到咱们的文本数据，咱们需要对文本做一点点处理。

那么在这里是如何做的呢，其实很简单，既然计算机只能处理数字，对数字进行运算，那么我们只需要把我们的一个句子转化为一种向量就好了。那么这个是如何做的呢？

其实非常简单。

看下面一组图就明白了：

我们通过一个词典其实就可以完成一个向量的映射。

看到了吧，我们这个时候我们只需要对一个句子进行分词，之后将每一个词进行标号，这样一来就可以实现把一个句子转化为一个向量。

one-hot编码

此时我们得到了一组序列，但是这个序列的表达能力是在是太弱了，只能表示出一个标号，不能表示出其他的特点。或者说，只有一个数字表示一个词语实在是太单调了，1个词语也应该由一个序列组成。那么这个时候one-hot编码就出来了。他是这样做的：

首先一个词，一个字，我们叫做token，那么编码的很简单。其实就是这样：

但是这样是有问题的，那就是说，我们虽然实现了一个词到向量的表示。但是这个表示方法显然是太大了，假设有10000个词语，那么按照这种方式进行标号的话，那么1个词就是10000个维度。这样显然是不行的。所以这块需要优化一下。

词嵌入

这个原来解释起来稍微复杂一点。你只需要需要知道他们的本质其实就是这样的：
词 ——> 向量空间1 ——> 向量空间2
现在向量空间1不合适，所以我们要想办法能不能往空间2进行靠拢。

于是乎这里大概就有了两个方案：

1）尝试将词向量映射到一个更低维的空间；
2）同时保持词向量在该低维空间中具备语义相似性，如此，越相关的词，它们的向量在这个低维空间里就能靠得越近。

对于第一个，咱们可以参考原来咱们做协同过滤推荐dome的时候，使用SVD矩阵分解来做。（关于这篇博文的话也是有优化的，优化方案将在本篇博文中查看到，先插个眼）

那么缺点的话也很明显嘛，用咱们的这个方案：

1）亲和矩阵的维度可能经常变，因为总有新的单词加进来，每加进来一次就要重新做SVD分解，因此这个方法不太通用；
2）亲和矩阵可能很稀疏，因为很多单词并不会成对出现。

大致原理

ok,回到咱们的这个（这部分可以选择跳过，知道这个玩意最后得到的是啥就好了），这个该怎么做，首先的话，实现这个东西，大概是有两种方案去做：Continuous Bag Of Words (CBOW)方法和n-gram方法。第一个方案的话，这个比较复杂，咱们这里就不介绍了。

咱们来说说第二个方案。

首先咱们来说说啥是N-gram，首先原理的话也是比较复杂的，具体参考这个：https://blog.csdn.net/songbinxu/article/details/80209197

那么我们这边就是简单说一下这个在咱们这边N-gram实际是咋用的。

[cuted[i:i+2]for i in range(len(cuted))]

其实就是这个，用代码表示，cuted是一个分好词的句子。i+2表示跨越几个。

这样做的好处是，通过N-gram可以考虑到词语之间的一个关系，如果我们使用这个方案来实现一个词向量的话，那么我们必然是可以能够实现：“同时保持词向量在该低维空间中具备语义相似性，如此，越相关的词，它们的向量在这个低维空间里就能靠得越近。”的。因为确实考虑到了之间的一个关系，那么现在我们已经知道了大概N-garm是怎么样的了，其实就是一种方式，将一个句子相近的词语进行连接，或者说是对句子进行一个切割，上面那个只是一种方式只有，这个我们在后面还会有说明，总之它是非常好用的一种方式。

ok,知道了这个我们再来介绍几个名词：

1.跳词模型
跳词模型，它是通过文本中某个单词来推测前后几个单词。例如，根据‘rabbit’来推断前后的单词可能为‘a’,‘is’,‘eating’,‘carrot’。在训练模型时我们在文本中选取若干连续的固定长度的单词序列，把前后的一些单词作为输出，中间的某个位置的单词作为输入。

2.连续词袋模型
连续词袋模型与跳词模型恰好相反，它是根据文本序列中周围单词来预测中心词。在训练模型时，把序列中周围单词作为输入，中心词作为输出。

这个的话其实和我们的这个关系不大，因为N-gram其实是句子–>词的一种方式，但是对我训练的时候的输入还是有帮助的，因为这样输入的话，我们是可以得到词在句子当中的一种关联关系的。

而embedding是词到one-hot然后one-hot到低纬向量的变化过程。

实现

ok,扯了那么多，那么接下来看看我们如何实现这个东西。

我们需要一个词向量，同时我们有很多词语，因此我们将得到一个矩阵，这个矩阵叫做embedding矩阵。

我们首先随机初始化embeddings矩阵，构建一个简单的网络。初始化weights和biases，计算隐藏层的输出。然后计算输出和target结果的交叉熵，之后使用优化器完成一次反向传递，更新可训练的参数，包括embeddings变量。并且我们将词之间的相似度可以看作概率。

ok,我们直接看到代码，那么咱们也是有两个版本的。简单版，复杂版。

简单版

简单版本的话，在pytorch当中有实现：

embed=nn.Embedding(word_num,embedding_dim)

复杂版

那么我们显然是不满足这个的，那么我们还有复杂版本。就是自己动手，丰衣足食！
首先我们定义这个：

class embedding(nn.Module):
    def __init__(self,in_dim,embed_dim):
        super().__init__()
        self.embed=nn.Sequential(nn.Linear(in_dim,200),
                                 nn.ReLU(),
                                 nn.Linear(200,embed_dim),
                                 nn.Sigmoid())
    def forward(self,input):
        b,c,_=input.shape
        output=[]
        for i in range(c):
            out=self.embed(input[:,i])
            output.append(out.detach().numpy())
        return torch.tensor(np.array(output),dtype=torch.float32).permute(1,0,2)

很简单的一个结构。
那么我们输入是上面，首先其实是我们one-hot编码的一个矩阵。
我们其实流程就是这样的：词—＞one-hot—>embedding/svd

ok,那么我们的N-gram如何表示呢，其实这个更多的还是在于对句子的分解上，输入的句子的词向量如何表示的。

如何训练

如何训练的话，首先还是要在one-hot处理的时候再加一个处理，这个过程可能比较绕。就是说我们按照上面提到的词袋模型进行构造我们的数据，我们举个例子吧。

现在有这样的一个文本，分词之后，词的个数是content_size。有num_word个词。

import torch
import re
import numpy as np
 
txt=[] #文本数据
with open('peter_rabbit.txt',encoding='utf-8') as f:
    for line in f.readlines():
        l=line.strip()
        spilted_sentence=re.split(" |;|-|,|!|\'",l)
        for w in spilted_sentence:
            if w !='':
                txt.append(w.lower())
vol=list(set(txt)) #单词表
n=len(vol) #单词表单词数
vol_dict=dict(zip(vol,np.arange(n))) #单词索引
 '''
这里使用词袋模型
每次从文本中选取序列长度为9，输入单词数为,8，输出单词数为1，
中心词位于序列中间位置。并且采用pytorch中的emdedding和自己设计embedding两种方法
词嵌入维度为100。
'''
data=[]
label=[]
 
for i in range(content_size):
    in_words=txt[i:i+4]
    in_words.extend(txt[i+6:i+10])
    out_word=txt[i+5]
    in_one_hot=np.zeros((8,n))
    out_one_hot=np.zeros((1,n))
    out_one_hot[0,vol_dict[out_word]]=1
    for j in range(8):
        in_one_hot[j,vol_dict[in_words[j]]]=1
    data.append(in_one_hot)
    label.append(out_one_hot)
 
class dataset:
    def __init__(self):
        self.n=ci=config.content_size 
    def __len__(self):
        return self.n
    def __getitem__(self, item):
        traindata=torch.tensor(np.array(data),dtype=torch.float32) 
        trainlabel=torch.tensor(np.array(label),dtype=torch.float32)
        return traindata[item],trainlabel[item]

我们只是在投喂数据的时候按照词袋模型进行投喂，或者连续模型也可以。

当然我们这里所说的都只是说预训练出一个模型出来，实际上，我们直接使用这个结构，然后进行正常的训练完成我们的一个模型也是可以的。她是很灵活的，不是固定的！

那么继续预训练的话就是按照词袋模型来就好了（看不懂没关系，跳过就好了）

import torch
from torch import nn
from torch.utils.data import DataLoader
from dataset import dataset
import numpy as np

class model(nn.Module):
    def __init__(self):
        super().__init__()
        self.embed=embedding(num_word,100)
        self.fc1=nn.Linear(num_word,1000)
        self.act1=nn.ReLU()
        self.fc2=nn.Linear(1000,num_word)
        self.act2=nn.Sigmoid()
    def forward(self,input):
        b,_,_=input.shape
        out=self.embed (input).view(b,-1)
        out=self.fc1 (out)
        out=self.act1(out)
        out=self.fc2(out)
        out=self.act2(out)
        out=out.view(b,1,-1)
        return out
if __name__=='__main__':
    pre_model=model()
    optim=torch.optim.Adam(params=pre_model.parameters())
    Loss=nn.MSELoss()
    traindata=DataLoader(dataset(),batch_size=5,shuffle=True)
    for i in range(100):
        print('the {} epoch'.format(i))
        for d in traindata:
            p=model(d[0])
            loss=Loss(p,d[1])
            optim.zero_grad()
            loss.backward()
            optim.step()

这样一来就可以初步完成预训练，你只需要加载好embeding部分的权重就好了，这个只是加快收敛的一种方式。

转换后的形状

最终，词嵌入的话，得到的矩阵是将one-hot变化为了这样的矩阵

ok,词的表达已经了，那么接下来我们在简单介绍一下RNN。
（当然对于这一部分，实际上的话其实还有别的方法，但是咱们这边只是用到这些东西，所以只是介绍这个）

part02 循环神经网络

RNN

这个RNN的话，咋说呢，其实挺简单的，但是有几个点可能是比较容易误导人的，搞清楚这个结构的话，对于我们后面对于LSTM，GRU这种网络的架构可能会更好了解，其实包括LSTM，GRU的话其实本质上还是挺简单的。当然能够直接提出这个东西的人是非常厉害的，不过不管怎么说他们都是属于循环神经网络的一个大家族的，只是在数据处理上面多了一点点东西。那么理解了RNN之后的话，对于我后面理解LSTM，GRU里面它的一个数据的变幻，传递，原理。因为后面的话，我们还是要手写实现这个GRU的（LSTM也是一样的，但是GRU少了点参数，消耗的计算资源少一点点）。所以对于这一部分还是有必要好好唠一唠的。

首先我们来看到基本的神经网络：

这是一个简单的前馈神经网络，也是我们最常见的神经网络。

接下来是我们的RNN神经网络，在大多数情况下，我们经常会提到这几个名词：时间步，最后一层输出等等。

那么在这里的话，我们需要理解展开的其实只有一个东西，那就是对应时间步的理解，什么是上一层网络的输出，他们之间的参数是如何传递的。

RNN投影图

那么在此之前，我们先来看看RNN的网络结构大概是什么样子的。
大多数情况下，你搜索到的图片可能是这样的：

首先承认这张图非常的简洁，以至于你可能一开始没有反应过来，什么体现循环，体现时间步的地方在哪。其实这里的话，这种图其实只是一个缩略平面图。

RNN是三维立体的

但是实际上，如果需要用画图来表示的话，RNN其实是立体的一个样子。大概长这个样子：

可能有点抽象，但是它的意思其实就是这样的，这个其实是RNN真正的样子，之后通过对不同的时间步的输出进行不同的处理，最终我们还可以将RNN进行分类。

OK，这个就是我们在RNN里面需要注意的点，它的真实结构是这样的，是一个三维度的结构。同样的接下来要提到的LSTM，GRU都是。

OK，接下来还没完，我们现在需要不目光放长远一点，首先是在RNN里面对于层的概念，我们接下来会说什么什么层，搭建几层的一个LSTM，GRU之类的，或者说几层的RNN，这个层其实是指，一个时间步上有几个立体的层，而不是说先前平面的那种网络，说几层几层。因为实际上，咱们这里图画的就一层全连接（输入层不算），但是在时间步上，它是N层，你有几个X就有几个层。

我们拿一个句子为例，假设一句话有5个单词，或者说处理之后有5个词语。那么RNN就是把每一个词的词向量作为输入，按照顺序，按照上面图的顺序进行输入。此时需要做的就是循环5次。

LSTM&GRU

那么之后的话，咱们再来说说LSTM和GRU，他们呢叫做长短期记忆网络，其实就是最low的RNN的一个升级版，对信息进一步处理。我们对于模型的调优，优化说白了，除了性能的优化，就是对信息的最大利用（增加信息，或者对重点信息进行提取）。所以基本上为什么大模型的效果很好，其实不考虑对信息的利用率，单单是对信息的使用就已经达到了超大的规模，这效果肯定是比小模型好一点的。

那么这里的话，我们就简单过一下这个结构图吧。

首先是LSTM，其实的话他这里主要是引入了一个东西，叫做记忆。

c就是记忆，因为刚刚的RNN，的话其实更像是一个一阶的马尔科夫，那么导入这个的话，就相当于日记，你不仅仅知道了昨天做了什么，还知道了前天做了什么，这样的话对于信息的利用坑定是上去了的。那么这个是它的一个单元。
宏观上还是这样的：

同理GRU也是一样的

但是这里的话少了一个c 其实还是说把Ht和c合在了一起，他们效果是差不多的，各有各的好处，你用LSTM还能多得到一个日记本，用GRU的话其实相当于，你把日记写在了脑子里面。好处是省钱，坏处是有时候要你女朋友可能需要检查日记（虽然我知道你有95%以上的概率是没有的，一般设置0.05 作为阈值，低于这个概率，基本上我们认为G了）

part03意图识别

OK，我们终于到了写代码的地方了，首先我们这边有三个任务，第一个我们要知道，用户输入的想法意图是什么。所以我们这边需要搞一个文本分类的网络。之后的话，我们就是对话和问答。这里比较难的其实就是闲聊部分。在这部分的话我们还需要学会如何手写GRU的循环过程，为什么用GRU前面说了哈（省点资源，也木有女朋友查“日记”的需求，因为没有）。

分词

那么我们首先要做的就是分词
重点是为了后面能够对这两个家伙实现分词：

ok,那么我们先进行分词，首先是要加载咱们的词典以及咱们的这个停用词，这样的话方便提高效果。
那么在这边的话在这：

这里先进行初始化，加载对应的词典之类的

import jieba
import jieba.posseg as pseg
from tqdm import tqdm, trange
from config.config import jieba_config
import string

jieba.load_userdict(jieba_config.get("word_dict"))
jieba = jieba
pseg = pseg
string = string
with open(file=jieba_config.get("stop_dict"),encoding='utf-8') as f:
    lines = tqdm(f.readlines(),desc="loading stop word")
    StopWords = {}.fromkeys([line.rstrip() for line in lines ])

print("\033[0;32;40m all loading is finished!\033[0m")


__all__ = ['string','jieba','StopWords','pseg']

之后的话分词就好了：

"""
this model just for cutting words
"""
import utils

class Cut(object):

    def __init__(self,other_letters=None):
        self.letters = utils.string.ascii_letters
        self.stopword = utils.StopWords

    def __stop_not_sign(self,result):
        result_rel = []
        for res in result:
            if (res not in self.stopword):
                result_rel.append(res)
        return result_rel

    def __stop_with_sign(self, result):
        result_rel = []
        for res in result:
            if (res.word not in self.stopword):
                result_rel.append((res.word,res.flag))
        return result_rel

    def cut(self,sentence,by_word=False,
              use_stop_word=False,with_sg=False
              ):
        """
        :param sentence:
        :param by_word:
        :param use_stop_word:
        :param with_sg:
        :return:
        """
        if(by_word):
            return self.cut_sentence_by_word(sentece)
        else:
            '''
            without by word,so there will be cutting by jieba
            '''
            if (with_sg):
                result = utils.pseg.lcut(sentece)
                if(use_stop_word):
                    result = self.__stop_with_sign(result)
            else:
                result = utils.jieba.lcut(sentece)
                if (use_stop_word):
                    result = self.__stop_not_sign(result)
            return result

    def cut_sentence_by_word(self,sentence):
        """
        it can cut English sentences and Chinese
        :param sentence:
        :return:
        """
        result = []
        temp = ""
        for word in sentence:
            if word.lower() in self.letters:
                temp+=word
            else:
                if(temp!=""):
                    result.append(temp)
                    temp = ""
                else:
                    result.append(word.strip())
        if(temp!=""):
            result.append(temp.lower())
        return result

if __name__ == '__main__':

    sentece = "你好呀Hello Word?"
    cut  = Cut()
    print(cut.cut(sentece,by_word=False,use_stop_word=True,with_sg=False))

在这里的话就实现了一个简单的句子分词，之后我们还需要使用到这个工具类。

FastText分类

OK，我们快步进入到咱们的FastText，这个东西呢，其实是FaceBook推出的一个能够快速训练文本分类的一个工具模型。我们只需要按照它的格式来输入创建数据集就好了，就可以实现出一个分类效果，这样的话对于我们后面的作用是非常大的。

直接：

pip install fasttext

即可完成安装。

那么同样的在使用之前的话，我简要介绍一下FastText。

FastText网络结构

首先FastText的话其实是非常简单的一个模型

优化点

就是这样的一个结构，其实和很多手写LSTM文本分类的例子很像。但是它的优化点在于：
在使用方面，支持并行计算，可以节省训练时间。
在算法方面：

使用N-gram 的方式进行处理（当然我们这边其实也是，只是我们这边N=1）
通过哈夫曼树进行层次化softmax 优化最后计算概率

那么我们这里简单说一下这个层次化softmax。其实这玩意的本质其实就是在玩概率组合。
首先我们通过哈夫曼树，将对应的标签构造出一棵树。

每次，把多分类的softmax变成了二分类的，此时你甚至可以直接使用sigmod代替softmax函数。

ok,这个做一个了解即可。我们继续我们的编码。

构造FastText数据集

那么接下来我们需要构建FastText需要的数据。
我们需要的数据的集合的格式是这样的：

当然这个格式其实也是可以进行修改的，
这个的话在fastText源码当中可以看到

那么这个的话我这里就不解释了，我们直接上代码：

"""
this mode for preparing data which fasttext need
"""
from tqdm import tqdm, trange
from config import config
from utils.cut_word import Cut
import json
class process_classfiy(object):

    def __init__(self):

        self.cut = Cut()
        self.count_QA = 0
        self.count_Chat = 0
        self.classfiy_save = open(config.process_save.get("classfiy"),'a+',encoding='utf-8')
        self.xiaohuangji_save = open(config.process_save.get("xiaohuangji"),'a+',encoding='utf-8')
        self.QA_save = open(config.process_save.get("QA"),'a+',encoding='utf-8')

    def process_xiaohuangji(self):
        flag = 0
        for line in tqdm(
                open(config.data_path.get("xiaohuangji"),'r',encoding='UTF-8').readlines(),
            desc="process_xiaohuangji"
        ):
            if (line.startswith("E")):
                flag = 0
                continue
            elif(line.startswith("M")):
                if(flag==0):
                    line = line[1:].strip()
                    flag = 1
                else:
                    continue
            line_cuted = " ".join(self.cut.cut(line))+"\t"+"__label__chat"
            self.xiaohuangji_save.write(line_cuted+"\n")
            self.classfiy_save.write(line_cuted+"\n")
            self.count_Chat+=1
        self.xiaohuangji_save.close()

    def process_qa(self):
        """
        this is for qa processing
        :return:
        """

        for line in tqdm(
            open(config.data_path.get("QA"), 'r', encoding='utf8'),
            desc="process_qa"
        ):
            data_line = json.loads(line)
            line_cuted = self.cut.cut(data_line.get("Q"))
            line_cuted = " ".join(line_cuted)+"\t"+"__label__QA"
            self.QA_save.write(line_cuted+"\n")
            self.classfiy_save.write(line_cuted + "\n")
            self.count_QA+=1
        self.QA_save.close()

    def process(self):
        #load xiaohuangji
        self.process_xiaohuangji()
        #load qa
        self.process_qa()
        self.classfiy_save.close()
        print("\033[0;32;40m all processing is finished in classfiy!\033[0m")
        print("All data is:",self.count_QA+self.count_Chat,
              "\n The Chat numbers is:",self.count_Chat,
              "\n The QA numbers is:",self.count_QA
              )

if __name__ == '__main__':
    process_classfiy = process_classfiy()
    process_classfiy.process()

这样一来就可以完成一个构造，那么最终的话我们的数据是：
45W的闲聊数据
5W 的问答数据。

运行结果如下：

loading stop word: 100%|██████████| 1395/1395 [00:00<00:00, 1398101.33it/s]
 all loading is finished!
process_xiaohuangji: 100%|██████████| 1363683/1363683 [00:21<00:00, 62936.02it/s]
process_qa: 50000it [00:04, 10152.58it/s]
 all processing is finished in classfiy!
All data is: 505421 
 The Chat numbers is: 455421 
 The QA numbers is: 50000

这个问答的数据相对少了好多，可能效果会比较差，这个可以自己后面再去收集一些数据，那么我们这边就先这样了。

训练

之后的话就是使用我们的FastText进行训练了，这个训练其实还是非常简单的。
这块的话我把验证的代码也给出来：


import fasttext
from config import config
import os

class train_fasttext(object):

    """
    there are just some params for fastText you can see
    the source code for design more params in there!
    """
    def __init__(self):
        fasttext.FastText.eprint = lambda x: None
        self.current_last_path = os.path.abspath(os.path.join(os.getcwd(), "./"))

    def build_classify(self,wordNgrams=1,
                 epoch = 100,
                 minCount=5
                 ):
        self.ft_model = fasttext.train_supervised(
            self.current_last_path+"\\"+config.process_save_classfiy.get("classfiy"),
            wordNgrams=wordNgrams,
            epoch=epoch,
            minCount = minCount
                                     )
        self.ft_model.save_model(
            self.current_last_path + "\\"+
            config.process_save_classfiy.get("classfiy_model")
        )

    def get_classfiy_model(self,path):
        if(os.path.exists(path=path)):
            model = fasttext.load_model(path)
            return model

        else:
            raise Exception("there is no model in there")

def train():
    train_fastetxt = train_fasttext()
    train_fastetxt.build_classify()


def eval(data):
    """
    for eval
    :return:
    """
    train_fastetxt = train_fasttext()
    mode_path = config.process_save_classfiy.get("classfiy_model")
    model = train_fastetxt.get_classfiy_model(mode_path)
    res = model.predict(data)
    return res

if __name__ == '__main__':
    # train()
    data = [
        "开心 点哈, 一切 都会 好 起来",
        "我 还 喜欢 她, 怎么办",
        "你 知道 谁 么",
    ]
    res = eval(data)
    print(res)

这几个测试数据的话是直接把那个训练集里面的拿过来的，这里的话就不去做评测了，要做的话也很简单，所以这里的的话不去搞了，重点是咱们后面的东西。

([['__label__chat'], ['__label__chat'], ['__label__chat']], [array([0.99958235], dtype=float32), array([0.99872446], dtype=float32), array([1.000009], dtype=float32)])

运行效果就是返回两个列表嘛，一个是标签名，还有一个是概率。这个的概率的话有些是大于1的，这里的话应该是精度的一个问题。

part04 闲聊对话

这里我们假装是你的AI女友吧。这里的话还是老规矩，首先还是咱们用到的数据集。它是怎么样的一个情况，那么这里的话，咱们使用到的还是说这个小黄鸡的语料，但是也正是由于这个问题，所以的话，我们最后训练出来的闲聊机器人可能对话是偏向那个语料的。因此如果说我们期望能够训练出AI女友的话，那么首先在语料的准备上，最好准备情侣对话的这种。如果说你想要训练出合适的或者符合你的审美的AI，那么我们建议在数据集的准备阶段，如果有条件的话，可以考虑把你和你的女朋友的对话给搞进去，越多越好。但是这个可能违背了一定的规则吧。当然这个不是唯一的方案，我们也可以在日后不断通过你们之间的对话进行重新训练。目前我能够想到的方案是Attention+RL。不过鉴于这个是baseline,所以的话这里不会去实现，同时我也需要去阅读更多文献来进行验证，不过我们最终的目的一定是这样的，那就是我们期望可以得到一个独一无二的AI，并且随着你们深入的交流对话，她将更加了解你。我们期望赋予AI与人“相识”的过程，以便完成更加复杂的任务。

考虑到我的PC那可怜的算力，以及项目的难度，我们这边将通过GRU搭建一个最简单的seq2seq模型。

Seq2Seq

这玩意咋说呢，首先我们先来看一看就是说这玩意的话，它大概长啥样吧，先别晕（先晕直接就输了），搞懂的输入输出就好了。等后面对它有一定了解之后，再回到这里来是可以的。那么这一部分也是我会尽可能简化，如果有需要详细讲解的话，评论区留言，当然我相信，其他的博主应该是讲的会不错吧。还是那句话，理解RNN是三维的，知道维度的变幻，知道了这些其他的都是简单。

网络结构

我们将上面的图简化一下那就是这样：

输入与输出（编/解码器）

我们先不管那个复杂的，我们就看到上面那张简单的图，编码器和解码器。首先我们知道从上上张图可以看到，Encode和Decoder其实都是一个循环神经网络，他可能是由LSTM或者GRU组成的。在我们的词语的表达当中，我们知道我们先前是将一个词进行id编号，之后我们通过id进行one-hot编码之后的话通过我们的一个词嵌入变成了一个batchsize,sentence_len,embedding_dim的情况。最后我们可以得到一个输出和最后一层的输出。

我们假设是用的GRU，那么得到的就是两个输出，一个是网络每个时间步的一个输出，还有一个是网络往前传递的时候的一个输出，分别是H，和 output。那么他们的维度的话分别是：

[number_layer1|2,batchsize,hidden]
[batch_size,sentence_len,hiddennumber_layer*1|2]

这里的假设是在pytorch当中，batchsize_first = True 的时候，具体原因的话，看官网哈，真的看人家官网，等于英语理解+新世界大门。

那么这个部分的话，那么对于编码器来说，这个其实就是他的一个输出，每错，所谓的编码器其实就是一个长短期记忆网络，可以是LSTM，也可以是GRU，但是在我这里设计到的那个“日记”是暂时没有用的，所以的话我这里就直接使用GRU了（维度的变幻真的很难调整，太累人）

那么解码器的话，同样的，他也是一个GRU/LSTM，但是最后的话，会通过一个全连接和softmax最后转化为一个大概率。没错，这个解码器其实就是再通过一个GRU/LSTM，之后将它转化为一组大概率，最终得到的概率的形状是： batchsize,out_word_number, word_size
第一个参数，就是你一次性输入多少个句子，第二个是我们实际上设定的句子的一个长度（长度是固定的，但是我们最终有一个终止符号，也就是说，这个东西的长度需要大一点，最终输出的句子最长都不会超过这个）
第三个参数就很恐怖了，就是我们的数据集合里面有多少个单词。没错就是这样暴力，直接把这个玩意变成分类问题。

没错解码器干的就是这个破事儿，因此最重要，最难的实现就是我们的解码器，提高解码器对编码器输出的信息的利用率就是提高这个网络性能的重点。所以的话我们在这边还会引入一个注意力机制，没错也是在解码器部分实现。

ok,那么这个就是seq2seql的一个简单描述，做法就是通过两个长短期网络，将输入的文本，最终转化为一组概率。然后通过概率找到下标，然后通过下标找到咱们的词，最后由词组成句子。看起来和yolo系列算法不一样，似乎不是那么“顺畅”。单从网络上看其实也算是end-to-end,只是中间做的转化多了几步，“知识的表示嘛”。

数据准备

OK，我们来先进行第一步，构造词典，也就是给个标号。

要做的事情就是：
句子—》词语—》词语的id序列之后是embedding
我们实现的就是前面的部分。同时的话，咱们还需要实现DataLoader

构造词典

在构造词典的时候呢，咱们有两个步骤，刚刚咱们已经说了，这个网络说白了是变成了一个分类问题，那么如果是一个分类问题，那么我们就有input 和 target。也就是输入数据和对应的标签，那么在这边的话，我们可以这样做，就是说是，一个对话，我们这样：

所以的话，我们要先做一个分离。然后再去构造咱们的词典。我们这边的实现思路其实非常简单，首先的话，我们需要将input 和 target分开了，然后再去构造。

完整代码如下：

"""
for building corpus for chatboot running
This will be deployed in a white-hole, possibly in version 0.7
"""
import pickle
from tqdm import tqdm
from config import config
from utils.cut_word import Cut

class Chat_corpus(object):

    def __init__(self):
        self.Cut = Cut()
        self.PAD = 'PAD'
        self.UNKNOW = 'UNKNOW'
        self.EOS = 'EOS'
        self.SOS = 'SOS'
        self.word2index={
            self.PAD: config.chatboot_config.get("padding_idx"),
            self.SOS: config.chatboot_config.get("sos_idx"),
            self.EOS: config.chatboot_config.get("eos_idx"),
            self.UNKNOW: config.chatboot_config.get("unk_idx"),
        }
        self.index2word = {}
        self.count = {}

    def fit(self,sentence_list):
        """
        just for counting word
        :param sentence_list:
        :return:
        """
        for word in sentence_list:
            self.count[word] = self.count.get(word,0)+1

    def build_vocab_chat(self,min_count=None,max_count=None,max_feature=None):
        """
        build word dict,this need to save by pickle in computer memory
        :return:
        """

        temp = self.count.copy()
        for key in temp:
            cur_count = self.count.get(key,0)
            if(min_count !=None):
                if(cur_count<min_count):
                    del self.count[key]

            if(max_count!=None):
                if(cur_count>max_count):
                    del self.count[key]

        if(max_feature!=None):
            self.count = dict(sorted(self.count.items(),key= lambda x:x[1],
                                      reverse=True
                                      )[:max_feature]
                               )

        for key in self.count:
            self.word2index[key] = len(self.word2index)
        self.index2word = {item[1]:item[0] for item in self.word2index.items()}

    def transform(self,sentence,max_len,add_eos=False):
        if(len(sentence)>max_len):
            sentence = sentence[:max_len]
        sentence_len = len(sentence)
        if(add_eos):
            sentence = sentence+[self.EOS]
        if(sentence_len<max_len):
            sentence = sentence +[self.PAD]*(max_len-sentence_len)
        result = [self.word2index.get(i,self.word2index.get(self.UNKNOW)) for i in sentence]
        return result

    def inverse_transform(self,indices):
        """
        index ---> sentence
        :param indices:
        :return:
        """
        result = []
        for i in indices:
            if(i==self.word2index.get(self.EOS)):
                break
            result.append(self.index2word.get(i,self.UNKNOW))
        return result

    def __len__(self):
        return len(self.word2index)

    def __by_word(self,data_lines):
        for line in data_lines:
            for word in self.Cut.cut(line,by_word=True):
                self.word2index[word] = self.word2index.get(word,0)+1

    def __by_not_word(self,data_lines):
        for line in  data_lines:
            for word in self.Cut.cut(line,by_word=False):
                self.word2index[word] = self.word2index.get(word, 0) + 1

    def division(self,by_word=False,use_stop_word=False):
        """
        this funcation just for dividing input and target in xiaohuangji corpus
        :return:
        """
        count_input = 0
        count_target = 0
        temp_sentence = []

        if(by_word):
            middle_prx = ""
        else:
            middle_prx = "_no"

        target_save = open(config.chatboot_config.get("target_path"+middle_prx+"_by_word"),'a',encoding='utf-8')
        input_save  = open(config.chatboot_config.get("input_path"+middle_prx+"_by_word"),'a',encoding='utf-8')
        xiaohuangji_path = config.data_path.get("xiaohuangji")

        with open(xiaohuangji_path,'r',encoding='utf-8') as file:
            file_lines = tqdm(file.readlines(),desc="division xiaohuangji")
            for line in file_lines:
                line = line.strip()
                if (line.startswith("E")):
                    continue
                elif (line.startswith("M")):
                    line = line[1:].strip()
                    line = self.Cut.cut(line, by_word, use_stop_word)
                    temp_sentence.append(line)

                if(len(temp_sentence)==2):
                    """
                    Because the special symbol has a certain possibility, 
                    it is used as the input of the user.
                    Therefore, retain that special kind of "symbolic dialogue" corpus
                    """
                    if(len(line)==0):
                        temp_sentence = []
                        continue
                    input_save.write(" ".join(line)+'\n')
                    count_input+=1
                    target_save.write(" ".join(line)+'\n')
                    count_target+=1
                    temp_sentence=[]
            input_save.close()
            target_save.close()
            assert count_target==count_input,'count_target need equal count_input'
            print("\033[0;32;40m process is finished!\033[0m")
            print("The input len is:",count_input,"\nThe target len is:",count_target)



def compute_build(chat_corpus,fixed=False,
                  by_word=False,min_count=5,
                  max_count=None,max_feature=None,
                  is_target=True,
                  ):
    """
    for computing fit function with input and target file
    :param fixed: if True when error coming will try to fix by itself
    :return:
    """

    if (by_word):
        middle_prx = ""
    else:
        middle_prx = "_no"


    after_fixed = False
    lines = []

    try:
        if(is_target):
            lines = open(config.chatboot_config.get("target_path"+middle_prx+"_by_word"), 'r', encoding='utf-8').readlines()
        else:
            lines = open(config.chatboot_config.get("input_path"+middle_prx+"_by_word"), 'r', encoding='utf-8').readlines()
    except Exception as e:
        if(fixed):
            chat_corpus.division(by_word=by_word)
            after_fixed = True
        else:
            raise Exception("you need use Chat_corpus division function first! ")

    if(after_fixed):
        if (is_target):
            lines = open(config.chatboot_config.get("target_path" + middle_prx + "_by_word"), 'r',
                         encoding='utf-8').readlines()
        else:
            lines = open(config.chatboot_config.get("input_path" + middle_prx + "_by_word"), 'r',
                         encoding='utf-8').readlines()
    data_lines = tqdm(lines,desc="building")
    for line in data_lines:
        chat_corpus.fit(line.strip().split())

    chat_corpus.build_vocab_chat(min_count,max_count,max_feature)
    if(is_target):

        pickle.dump(chat_corpus,open(config.chatboot_config.get("word_corpus"+middle_prx+"_by_word_target"),'wb'))
    else:

        pickle.dump(chat_corpus, open(config.chatboot_config.get("word_corpus" + middle_prx + "_by_word_input"), 'wb'))

if __name__ == '__main__':
    chat_corpus = Chat_corpus()
    compute_build(chat_corpus,fixed=True,min_count=5,by_word=False,is_target=True)

通过这段代码就完成了最基本的处理。
注意的是，我们将input和target是做了区分的，一方面是为了避免词典过大，另一方面是因为，有些会话当中的词可能并不存在于input当中，所以做了一个区分。
同时的话，这里还负责将句子转化为向量，向量转化为句子的操作。

数据加载

ok,现在我们已经实现了对每一个词进行标号了，那么接下来我们要做的就是将这个词转化为一个向量，同时也要送进咱们的神经网络里面，那么咱们这边就是需要手写DataLoader。

这个的话，其实也是比较简单的，唯一要注意的就是说要手写一个函数。

"""
dataSet about chat_boot
"""
from torch.utils.data import DataLoader,Dataset
from boot.chatboot.encoder import Encoder
from config import config
import torch
class Chat_dataset(Dataset):

    def __init__(self,by_word=False):

        if (by_word):
            middle_prx = ""
        else:
            middle_prx = "_no"

        self.target_lines = open(config.chatboot_config.get("target_path" + middle_prx + "_by_word"), 'r',
                            encoding='utf-8').readlines()
        self.input_lines = open(config.chatboot_config.get("input_path" + middle_prx + "_by_word"), 'r',
                           encoding='utf-8').readlines()

        assert len(self.target_lines)==len(self.input_lines),"len need equal"

    def __getitem__(self, index):
        input_data = self.input_lines[index].strip().split()
        target_data = self.target_lines[index].strip().split()
        if(len(input_data)==0):
            raise Exception("the input_data's length is: 0")
        input_length = len(input_data) if len(input_data)<config.chatboot_config.get("input_max_len") else config.chatboot_config.get("input_max_len")
        target_lenth = len(target_data) if len(target_data)<config.chatboot_config.get("target_max_len")+1 else config.chatboot_config.get("target_max_len")+1
        return input_data, target_data, input_length, target_lenth

    def __len__(self):
        return len(self.input_lines)



def collate_fn(batch):

    if(config.chatboot_config.get("collate_fn_is_by_word")):
        input_ws = config.chatboot_config_load.get("word_corpus_by_word_input_load")
        target_ws = config.chatboot_config_load.get("word_corpus_by_word_target_load")
    else:
        input_ws = config.chatboot_config_load.get("word_corpus_no_by_word_input_load")
        target_ws = config.chatboot_config_load.get("word_corpus_no_by_word_target_load")

    batch = sorted(batch,key=lambda x:x[-2],reverse=True)
    input_data, target_data, input_length, target_lenth = zip(*batch)
    input_data = [input_ws.transform(i, max_len=config.chatboot_config.get("input_max_len")) for i in input_data]
    target_data = [target_ws.transform(i, max_len=config.chatboot_config.get("target_max_len"),add_eos=True) for i in target_data]

    input_data = torch.LongTensor(input_data)
    target_data = torch.LongTensor(target_data)
    input_length = torch.LongTensor(input_length)
    target_lenth = torch.LongTensor(target_lenth)

    return input_data, target_data, input_length, target_lenth

在这里的话我们可以看到大概的一个输出：


Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\31395\AppData\Local\Temp\jieba.cache
Loading model cost 0.624 seconds.
Prefix dict has been built successfully.
loading stop word: 100%|██████████| 1395/1395 [00:00<00:00, 1400443.77it/s]
 all loading is finished!
tensor([[   14,  6243,   925,  ...,   515,    66,  1233],
        [   20,    34,  2173,  ...,   710,     7,     9],
        [12422,    20,    42,  ...,     9,    14,   236],
        ...,
        [ 1636,     1,     1,  ...,     1,     1,     1],
        [  531,     1,     1,  ...,     1,     1,     1],
        [ 8045,     1,     1,  ...,     1,     1,     1]])
tensor([[  165, 19617,   118,  ...,     1,     1,     1],
        [  249,    15,    12,  ...,     1,     1,     1],
        [  153,     8,   153,  ...,     1,     1,     1],
        ...,
        [  329,    58,     3,  ...,     1,     1,     1],
        [  681,     0,  2625,  ...,     1,     1,     1],
        [ 5245,  3641,    15,  ...,     1,     1,     1]])
tensor([20, 19, 16, 15, 13, 13, 12, 12, 11, 11, 11, 11, 11,  9,  9,  9,  9,  8,
         8,  8,  8,  8,  8,  8,  7,  7,  7,  7,  7,  7,  6,  6,  6,  6,  6,  6,
         6,  6,  6,  6,  5,  5,  5,  5,  5,  5,  5,  5,  5,  5,  5,  5,  4,  4,
         4,  4,  4,  4,  4,  4,  4,  4,  4,  4,  4,  4,  4,  4,  4,  4,  4,  4,
         4,  4,  3,  3,  3,  3,  3,  3,  3,  3,  3,  3,  3,  3,  3,  3,  3,  3,
         3,  3,  3,  3,  3,  3,  2,  2,  2,  2,  2,  2,  2,  2,  2,  2,  2,  2,
         2,  2,  2,  2,  2,  2,  2,  2,  2,  2,  1,  1,  1,  1,  1,  1,  1,  1,
         1,  1])
tensor([ 7,  8,  3,  6,  2,  5,  2,  8,  5,  4,  2,  3,  3, 17,  3,  3, 10,  3,
         2, 71, 13,  1,  9, 10, 11, 10, 12,  3,  3,  8,  1, 10,  2, 11,  2,  9,
         2,  3,  8,  2,  3,  3,  4,  3,  3,  6, 40,  3,  8,  1, 30,  2,  7,  6,
         5, 74,  1,  9,  5,  5, 17,  4,  6,  5, 13,  2, 11,  3,  2,  6,  5,  2,
         2,  5,  3, 10,  5, 14,  3,  6,  2,  3, 18,  6,  9,  3,  4,  6,  3,  1,
         1,  7, 10,  6,  6,  3, 14,  2,  2,  7,  9,  6,  9,  3,  3,  9,  2,  3,
         7,  1,  1,  3,  4,  6,  6,  7,  1,  4,  6,  2,  6,  3,  5,  3,  2,  2,
         3,  6])

Process finished with exit code 0

那么在这边的话，我们也是自动生成了这些文件：

网络搭建

OK，基本前置工作OK了，那么我们接下来要做的就是说，来搭建我们的一个网络。那么在我们的网络的搭建部分的话，主要是有三个部分，一个是我们的编码器，还有一个是我们的解码器，之后的话是我们的一个注意力机制，这个注意力机制的话有很多，这里的话我也不去介绍了，我们在这里选择的是Luong注意力机制。这个实现比较简单，毕竟是dome嘛，是一个baseline先快速搭建才是真（感兴趣的可以自己去看这篇论文，是2015年出来的：https://arxiv.org/pdf/1508.04025.pdf）这里的话咱们就不介绍了）

编码器

首先编码器的话，一个非常简单的结构，它是这样的：

import torch.nn as nn
from torch.nn.utils.rnn import pack_padded_sequence, pad_packed_sequence
from config import config


class Encoder(nn.Module):
    def __init__(self,by_word=False):
        super(Encoder,self).__init__()

        if(not by_word):
            self.input_ws = config.chatboot_config_load.get("word_corpus_by_word_input_load")
        else:
            self.input_ws = config.chatboot_config_load.get("word_corpus_no_by_word_input_load")

        self.embedding = nn.Embedding(
            num_embeddings=len(self.input_ws),
            embedding_dim=config.chatboot_config.get("embedding_dim"),
            padding_idx=config.chatboot_config.get("padding_idx")
        )

        self.gru = nn.GRU(input_size=config.chatboot_config.get("embedding_dim"),
                          num_layers=config.chatboot_config.get("num_layers"),
                          hidden_size=config.chatboot_config.get("hidden_size"),
                          bidirectional=config.chatboot_config.get("bidirectional"),
                          batch_first=config.chatboot_config.get("batch_first")
                          )

    def forward(self,input_data,input_length):
        embeded = self.embedding(input_data)
        embeded = pack_padded_sequence(embeded,input_length,batch_first=True)

        out,hidden = self.gru(embeded)
        """
        in there return:
        hidden: num_layers*2,batch_size,hidden_size
        out: batch_size,sentence_len,hidden_size
        """
        out,hidden = pad_packed_sequence(out,
                                         batch_first=config.chatboot_config.get("batch_first"),
                                         padding_value=config.chatboot_config.get("padding_idx")
                                         )
        return out,hidden

解码器

解码器的话也是一个GRU神经网络，但是和咱们的这个编码器的区别是啥呢，就是最后呢，我们会把输出变成一个概率。没错，解码器的作用其实就是最后做一个分类。那么这个时候你要问了，为什么要用循环神经网络呢？首先我们一句话有很多词组成，词语之间是有关联的，所以咱们使用了循环网络，保存连串的一种关系。之后呢我们生成一句话同时也是按照一个词一个词生成的（一个标点也可以是词）。所以我们这边需要一个网络理解句子，同时我们还需要逐词生成，因此也需要一个循环网络来生成句子。所以为什么我们的seq2seq需要两个网络。

之后的话我们在对其中句子信息的利用加大，例如加入注意力机制。比如我们的比较火热的transform架构。其实也是在这个基础上，加了很多注意力机制。可以理解为在seq2seq的基础上，加上注意力机制后再加上注意力机制的注意力，然后套娃，注意力的注意力的注意力。

之后就是我们最后说我们的一个输出是一个分类概率。预测每一个词的概率，也就是假设生成的句子有10个词，那么每一个位置预测全部词的概率。最后相当于一个分类，但是和分类的区别是，并不是在训练集上越准越好，太准了就容易出事，就比如有这样的对话，你说：“你好”，然后在咱们的回答是：“你好呀””。这个时候你相当于分类，网络生成了“你好呀”这句话是没问题，但是它生成了：“你也好呀”，或者是：“你吃了吗”。这种对话也是没问题的，但是单纯作为分类的话，那么如果生成的是这两句话中的其中一个的话，那么从分类的结果上来说，他是匹配句子当中每一个词的id。那么损失是相当难看的，可是实际对话效果可能又是不错的。因此这也是比较难验证的。所以虽然他也算是有监督的，但是和图像这种不一样，他不是完全对应的。也就是没有标准答案，这个也是问题，当然解决也是可以的那就是数据集，多个答案，但是这个难度比较大，咱们这里做也不现实。

OK，回到主题哈，咱们来看看编码器，这个就是一个GRU加上一个全连接，难度就是要手写循环，这里的难点是需要对它的输出的做充分了解。涉及到的维度变化比较多。那么实现的话在这：


class Decoder(nn.Module):
    def __init__(self,by_word=False):
        super(Decoder,self).__init__()

        self.drive = getDrive()

        """
        attention init 
        """

        if(config.chatboot_config.get("use_attention")):


            self.chatboot_encoder_hidden_size = config.chatboot_config.get("hidden_size")*2 if config.chatboot_config.get(
                    "bidirectional") else config.chatboot_config.get("hidden_size")
            self.chatboot_decoder_hidden_size = config.chatboot_config.get("hidden_size")*2 if config.chatboot_config.get(
                    "bidirectional") else config.chatboot_config.get("hidden_size")

            self.atte = LuongAttention()
            self.wa_concat = nn.Linear(
                self.chatboot_encoder_hidden_size+self.chatboot_decoder_hidden_size,
                # decoder
                self.chatboot_decoder_hidden_size,
                bias=False
            )

        if(by_word):
            self.target_ws = config.chatboot_config_load.get("word_corpus_by_word_target_load")
        else:
            self.target_ws = config.chatboot_config_load.get("word_corpus_no_by_word_target_load")

        self.embedding = nn.Embedding(
            num_embeddings=len(self.target_ws),
            embedding_dim=config.chatboot_config.get("embedding_dim"),
            padding_idx=config.chatboot_config.get("padding_idx")
        )

        self.gru = nn.GRU(input_size=config.chatboot_config.get("embedding_dim"),
                          dropout=config.chatboot_config.get("dropout"),
                          num_layers=config.chatboot_config.get("num_layers"),
                          hidden_size=config.chatboot_config.get("hidden_size"),
                          bidirectional=config.chatboot_config.get("bidirectional"),
                          batch_first=config.chatboot_config.get("batch_first")
                          )
    
        self.fc = nn.Linear(config.chatboot_config.get("hidden_size")*
                            config.chatboot_config.get("num_layers"),
                            len(self.target_ws)
                            )
    
    def forward(self,target_data,encoder_hidden,encoder_outputs):
        """
        :param target_data:
        :param encoder_hidden:

        The hardest thing to do here is to pay attention to the dimensional
        changes in input and publication.
        :return:
        """

        decoder_hidden = encoder_hidden
        batch_size = target_data.size(0)

        """
        sos input in decoder for first time step
        """
        decoder_input = torch.LongTensor(torch.ones([batch_size,1],dtype=torch.int64
                                                    ))*config.chatboot_config.get("sos_idx")
        decoder_input = decoder_input.to(self.drive)

        decoder_outputs = torch.zeros([batch_size,config.chatboot_config.get("target_max_len")+1,
                                       len(self.target_ws)
                                       ]).to(self.drive)


        if (random.random() < config.chatboot_config.get("teacher_forcing_ratio")):

            for time in range(config.chatboot_config.get("target_max_len") + 1):
                decoder_output_t, decoder_hidden = self.forward_step(decoder_input, decoder_hidden,encoder_outputs)
                decoder_outputs[:, time, :] = decoder_output_t
                decoder_input = target_data[:,time].unsqueeze(-1)
        else:
            for time in range(config.chatboot_config.get("target_max_len")+1):
                decoder_output_t,decoder_hidden = self.forward_step(decoder_input,decoder_hidden,encoder_outputs)
                decoder_outputs[:,time,:] = decoder_output_t

                value,index = torch.topk(decoder_output_t,1)
                decoder_input = index

        return decoder_outputs,decoder_hidden


    def forward_step(self,decoder_input, decoder_hidden,encoder_outputs):

        decoder_input_embeded = self.embedding(decoder_input)
        out,decoder_hidden = self.gru(decoder_input_embeded,decoder_hidden)
        """
        there we add attention way
        """
        """*******************************************************"""
        if (config.chatboot_config.get("use_attention")):

            attention_weight = self.atte(decoder_hidden,encoder_outputs).unsqueeze(1)

            context_vector = attention_weight.bmm(encoder_outputs)

            concated = torch.cat([out,context_vector],dim=-1).squeeze(1)

            out = torch.tan(self.wa_concat(concated))
            """*******************************************************"""
            # out = out.squeeze(1)
        else:
            out = out.squeeze(1)
        out = self.fc(out)
        output = F.log_softmax(out,dim=-1)
        return output,decoder_hidden

    def evaluate(self,encoder_hidden,encoder_outputs):

        decoder_hidden = encoder_hidden
        batch_size = encoder_hidden.size(1)

        decoder_input = torch.LongTensor(torch.ones([batch_size,1],dtype=torch.int64
                                                    ))*config.chatboot_config.get("sos_idx")
        decoder_input = decoder_input.to(self.drive)
        indices = []

        for i in range(config.chatboot_config.get("out_seq_len")):

            decoder_output_t,decoder_hidden = self.forward_step(decoder_input,decoder_hidden,encoder_outputs)
            value,index = torch.topk(decoder_output_t,1)
            decoder_input = index
            indices.append(index.squeeze(-1).cpu().detach().numpy())

        return indices

注意力机制

之后的话是咱们的注意力机制，咱们这里集成的Luong，这个主要是在解码器当中使用。大概的实现也是比较简单的。

"""
The luong attention in there
"""
import torch.nn as nn
import torch.nn.functional as F
from config import config
import torch
class LuongAttention(nn.Module):

    def __init__(self,method="general"):
        super(LuongAttention,self).__init__()
        assert method in ["dot","general","concat"],'method err just support "dot","general","concat"'
        self.method = method

        self.chatboot_encoder_hidden_size = config.chatboot_config.get("hidden_size")*2 if config.chatboot_config.get(
                "bidirectional") else config.chatboot_config.get("hidden_size")
        self.chatboot_decoder_hidden_size = config.chatboot_config.get("hidden_size")*2 if config.chatboot_config.get(
                "bidirectional") else config.chatboot_config.get("hidden_size")

        self.wa_general = nn.Linear(
            # encoder
            self.chatboot_encoder_hidden_size,
            # decoder
            config.chatboot_config.get("hidden_size"),
            bias=False
        )

        self.wa_concat = nn.Linear(
            self.chatboot_encoder_hidden_size+self.chatboot_decoder_hidden_size,
            # decoder
            self.chatboot_decoder_hidden_size,
            bias=False
        )
        self.va = nn.Linear(
            # decoder
            config.chatboot_config.get("hidden_size"),
            1,
        )

    def forward(self,hidden_state,encoder_outputs):

        attention_weight = None
        if(self.method=='dot'):
            hidden_state = hidden_state[-1,:,:].permute(1,2,0)
            attention_weight = encoder_outputs.bmm(hidden_state).squeeze(-1)
            attention_weight = F.softmax(attention_weight)

        elif (self.method=='general'):
            encoder_outputs = self.wa_general(encoder_outputs)
            hidden_state = hidden_state[-1:,:,:].permute(1,2,0)
            attention_weight = encoder_outputs.bmm(hidden_state).squeeze(-1)
            attention_weight = F.softmax(attention_weight,dim=-1)

        elif self.method == 'concat':
            hidden_state = hidden_state[-1,:,:].squeeze(0)
            hidden_state = hidden_state.repeat(1,encoder_outputs.size(1),1)
            concated = torch.cat([hidden_state,encoder_outputs],dim=-1)
            batch_size = encoder_outputs.size(0)
            encoder_seq_len = encoder_outputs.size(1)
            attention_weight = self.va(F.tanh(self.wa_concat(concated.view((batch_size*encoder_seq_len,-1))))).sequeeze(-1)
            attention_weight = F.softmax(attention_weight.view(batch_size,encoder_seq_len))

        assert attention_weight!=None,"error attention_weight can't be None"

        return attention_weight

训练

现在的话，网络搭建完毕，那么需要做的就是训练。那么训练的话其实这个是比较简单。不过在此之前的话我们需要把刚刚的这两个网络组合在一起。

搭建seq网络

这个seq网络的搭建还是比较简单的，组合在一起就好了。


from torch import nn
from boot.chatboot.decoder import Decoder
from boot.chatboot.encoder import Encoder
from utils.drive import getDrive
from config import  config

class Seq2Seq(nn.Module):
    
    def __init__(self):
        super(Seq2Seq,self).__init__()

        self.drive = getDrive()
        self.encoder = Encoder().to(self.drive)
        self.decoder = Decoder().to(self.drive)


    def forward(self,input_data,target_data,input_length,target_length):

        encoder_outputs,encoder_hidden = self.encoder(input_data,input_length)
        decoder_outputs,decoder_hidden = self.decoder(target_data,encoder_hidden,encoder_outputs)

        return decoder_outputs,decoder_hidden

    def evaluate(self,input_data,input_length):
        encoder_outputs,encoder_hidden = self.encoder(input_data,input_length)
        if(config.chatboot_config.get("beam_search")):
            indices = self.decoder.evaluate(encoder_hidden,encoder_outputs)
        else:
            indices = self.decoder.evaluate_beamsearch(encoder_hidden,encoder_outputs)
        return indices

训练

OK，这个时候的话我们就可以使用seq去训练咯。这部分的主要代码长这样：

from boot.chatboot.chat_dataset import Chat_dataset,collate_fn
from boot.chatboot.seq2seq import Seq2Seq
from torch.optim import Adam
from torch.utils.data import DataLoader,Dataset
import torch.nn.functional as F
from config import config
from tqdm import tqdm
import torch.nn as nn
import torch
from utils.drive import getDrive

class Train_model(object):
    def __init__(self,by_word=False):

        if(config.chatboot_config.get("use_attention")):
            print("\033[0;32;40m using attention by {} method !\033[0m".format(
                config.chatboot_config.get("attention_method")
            ))

        self.drive = getDrive()
        self.seq2seq = Seq2Seq()
        self.seq2seq = self.seq2seq.to(self.drive)
        self.optimizer = Adam(self.seq2seq.parameters(),lr=0.001)
        self.train_data_loader = DataLoader(Chat_dataset(),
                                            batch_size=config.chatboot_config.get("batch_size"),
                                            shuffle=True,
                                            num_workers=config.chatboot_config.get("num_workers"),
                                            collate_fn=collate_fn)

        if(by_word):
            self.save_seq2seq = config.chatboot_config.get("seq2seq_model_by_word")
            self.save_optimizer = config.chatboot_config.get("optimizer_model_by_word")
        else:
            self.save_seq2seq = config.chatboot_config.get("seq2seq_model_no_by_word")
            self.save_optimizer = config.chatboot_config.get("optimizer_model_no_by_word")

    def train(self,e):
        self.drive = getDrive()
        bar = tqdm(enumerate(self.train_data_loader),
                   total=len(self.train_data_loader),desc="training",
                   colour='green'
                   )
        e_loss = 0
        for idx, (input_data, target_data, input_length, target_length) in bar:

            input_data = input_data.to(self.drive)
            target_data = target_data.to(self.drive)
            input_length = input_length.to(self.drive)
            target_length = target_length.to(self.drive)

            self.optimizer.zero_grad()
            decoder_outputs,decoder_hidden = self.seq2seq(input_data,target_data,
                                                          input_length,target_length
                                                          )


            decoder_outputs = decoder_outputs.reshape(decoder_outputs.size(0)*decoder_outputs.size(1),-1)

            target_data = target_data.view(-1)
            loss = F.nll_loss(decoder_outputs,target_data,
                              ignore_index=config.chatboot_config.get("padding_idx")
                              )

            loss.backward()
            nn.utils.clip_grad_norm(self.seq2seq.parameters(),max_norm=config.chatboot_config.get("max_norm"))
            self.optimizer.step()
            e_loss+=loss.item()
            bar.set_description("drive:{} \t epoch:{} \t idx:{} \t current_batch_loss:{:.2f}".format(self.drive,e,idx,loss.item()))

        print("\n","\033[0;32;40m drive:{} \t epoch:{}  \t current_epoch_loss:{:.2f}\033[0m".format(self.drive, e, e_loss))
        if(e%2==0):
            torch.save(self.seq2seq.state_dict(),self.save_seq2seq)
            torch.save(self.optimizer.state_dict(),self.save_optimizer)

推理

当我们训练完成之后，我们将得到权重文件。我们这里搭建的是一个两个双向的2层的GRU加上全连接。得到的权重模型大概是70MB，那么在这部分的话也是有一个简单的优化的。那就是咱们seq网络输出的是概率嘛，我们在每一个位置上，找的都是概率最大的一个词，然后作为这个位置的词，直到达到了我们预定的长度，或者说这个位置概率最大的词是结束标志。然后停止，那么在这里的话就容易出现一个问题，那就是每一步最优不一定代表全局最优，比如当前选了这个词，概率是0.3，之后下一步选一个词是0.2。而如果在上一步选择0.25的概率的词，下一步的一个词的概率有0.6，那么相对来说0.3和0.25差距可能不大，但是0.6和0.2差距是很大的。因此为了解决这个问题，有一个算法叫做beamsearch。这个玩意就是说都会走一遍，最后选出看起来效果还不错的序列作为输出。

BeamSearch

那么这个实现的话，其实集成到了decoder里面，因为推理在那边做的。


    def evaluate_beamsearch(self,encoder_hidden,encoder_outputs):
        batch_size = encoder_hidden.size(1)

        decoder_input = torch.LongTensor([[config.chatboot_config.get("sos_idx")]*batch_size]).to(self.drive)
        decoder_hidden = encoder_hidden

        prev_beam = Beam()
        prev_beam.add(1,False,[decoder_input],decoder_input,decoder_hidden)
        while True:
            cur_beam = Beam()
            for _probility,_complete,_seq,_decoder_input,_decoder_hidden in prev_beam:
                if(_complete==True):
                    cur_beam.add(_probility,_complete,_seq,_decoder_input,_decoder_hidden)
                else:
                    decoder_output_t,decoder_hidden = self.forward_step(_decoder_input,_decoder_hidden,encoder_outputs)

                    value,index = torch.topk(decoder_output_t,config.chatboot_config.get("beam_width"))

                    for m,n in zip(value[0],index[0]):
                        decoder_input = torch.LongTensor([[n]]).to(self.drive)
                        seq = _seq+[n]
                        probility = _probility * m
                        if(n.item()==config.chatboot_config.get("eos_idx")):
                            complete = True
                        else:
                            complete = False

                            cur_beam.add(probility,complete,seq,decoder_input,decoder_hidden)

            best_prob,best_complete,best_seq,_,_ = max(cur_beam)
            if(best_complete==True or len(best_seq)-1 == config.chatboot_config.get("out_seq_len")):
                return self.__prepar_seq(best_seq)
            else:
                prev_beam = cur_beam

    def __prepar_seq(self,best_seq):
        if(best_seq[0].item()==config.chatboot_config.get("sos_idx")):
            best_seq = best_seq[1:]
        if(best_seq[-1].item()==config.chatboot_config.get("eos_idx")):
            best_seq = best_seq[:-1]
        best_seq = [i.item() for i in best_seq]
        return best_seq

完整过程

之后的话我们可以用这个来聊聊天了。

from boot.chatboot.chat_dataset import Chat_dataset,collate_fn
from boot.chatboot.seq2seq import Seq2Seq
from config import config
from utils.drive import getDrive
from utils.cut_word import Cut
import torch
import numpy as np

class Eval_model(object):

    def __init__(self,by_word=False):
        self.by_word = by_word
        self.drive = getDrive()
        self.seq2seq = Seq2Seq()
        self.seq2seq = self.seq2seq.to(self.drive)
        self.cut = Cut()
        if(by_word):
            self.seq2seq.load_state_dict(torch.load(config.chatboot_config.get("seq2seq_model_by_word")))
            self.input_ws = config.chatboot_config_load.get("word_corpus_by_word_input_load")
            self.target_ws = config.chatboot_config_load.get("word_corpus_by_word_target_load")

        else:
            self.seq2seq.load_state_dict(torch.load(config.chatboot_config.get("seq2seq_model_no_by_word")))
            self.input_ws = config.chatboot_config_load.get("word_corpus_no_by_word_target_load")
            self.target_ws = config.chatboot_config_load.get("word_corpus_no_by_word_target_load")

    def while_talk(self):
        while True:
            input_data = input("please input:")
            input_data = self.cut.cut(input_data,by_word=self.by_word)
            if len(input_data) < config.chatboot_config.get( "input_max_len"):
                input_length = len(input_data)
            else:
                input_length = config.chatboot_config.get("input_max_len")

            input_data = [self.input_ws.transform(input_data, max_len=config.chatboot_config.get("input_max_len"))]
            input_data = torch.LongTensor(input_data).to(self.drive)
            input_length = torch.LongTensor([input_length]).to(self.drive)
            """
            index-->Plural form
            """
            indices = np.array(self.seq2seq.evaluate(input_data,input_length)).flatten()

            outputs = self.target_ws.inverse_transform(indices)

            print("xiaojiejie:","".join(outputs))

if __name__ == '__main__':
    eval_model = Eval_model()
    eval_model.while_talk()

之后的话我们可以来看看效果。但是先说一下，我们的配置是GTX1650 4GB，跑一次训练需要12分钟。也就是说训练10次2个小时没了。所以我这里演示的效果不是很好，没办训练的问题，当然还有参数的调优之类的，这个的话需要各位自己拿到项目之后去训练了，而且相关数据文件比较大，所以都不会上传，各位下载好开头给的资源文件后，放到指定位置，先点击训练，他自己会生成很多文件，之后完成训练。

这个看起来是有点问题的。得慢慢调参数，然后训练。

Part05 问答处理

之后就是问答了，这个还不简单。首先的话，我们先来说说最简单的实现。

简单思路

刚刚我们在做Part04的时候的话，我想对于吧词语进行向量化应该都是比较熟悉了吧。没错对于这个处理的话，我们可以先直接把问题转化为向量，把用户的输入也是转化为向量，然后计算这些问题向量和你用户输入的向量计算一个相似度。比如我们计算一个余弦相似度，然后的话，拿到概率最高的那个问题向量对应到的回答，之后的话，把回答拿出来就好了。

但是这样的话计算量就比较大了，我们可以来进行简单的简化。好吧其实也是参考人家的思路。首先的话我们可以参考原来的方案，将问题转化为序列。之后先通过聚类，将问题进行分类。当用户输入的时候，计算用户输入的序列和我们结果簇心的相似度，得到topK，将相似度最像的几个拿出来，之后再去遍历。这样的话就不用挨个遍历了，计算量也就是下来了。这里的话也是可以选择手写，或者调包，按照我们的尿性肯定是手写（才怪）。

OK，这里我介绍就到这里，方法很多，不限于这个。你甚至直接拿我们刚刚part04的来做也是可以的，这个时候就完全是一个严格符合分类的模型了，和对话不同，问答是有明确答案的。当然俺们在这块也就是口嗨一下，把严谨的过程搞出来，还是有点难度的。

难点

OK，我们这边简单分析了一下，我们处理问答的一个情况。那么其实在这里的话，你也发现了，难点其实在于计算，就是说我们都需要进行和问题之间的不断计算最终得到一个排序。其实包括我们之前的这个推荐dome也是，当时我们甚至使用了svd进行一个分解降低运算。

那么是否有更好的方案呢，有的，每次就是我们刚刚开玩笑的直接使用seq。但是当然不是直接使用seq2seq了。只是说我们会构建一个网络来做这件事情。试想一下直接有一个输入，只需要走一次forward，那么就可以得到答案是不是计算量就下去了，只是训练比较繁琐。并且我们不仅仅可以用在这里，我们还可以对我们先前的用户协同过滤进行一个优化。当然这个方案的缺点都是训练麻烦，如果有新的变动的话，但是对于这种我们确实一般都是批处理的，问题还是不大的。

上文分割线

OK，受限于文章的长度，我们做一个切分

后面的咱们还有具体的问答处理的实现，以及咱们对这个项目的简单封装。

你可能感兴趣的:(自然语言处理,人工智能,人工智能,机器人)

感赏日志133 马姐读书
图片发自App感赏自己今天买个扫地机，以后可以解放出来多看点书，让这个智能小机器人替我工作了。感赏孩子最近进步很大，每天按时上学，认真听课，认真背书，主动认真完成老师布置的作业。感赏自己明白自己容易受到某人的影响，心情不好，每当此刻我就会舒缓，感赏，让自己尽快抽离，想好的一面。感赏儿子今天在我提醒他事情时，告诉我谢谢妈妈对我的提醒我明白了，而不是说我啰嗦，管事情，孩子更懂事了，懂得感恩了。投射父母
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
基于STM32与Qt的自动平衡机器人：从控制到人机交互的的详细设计流程极客小张 stm32 qt 机器人物联网人机交互毕业设计 c语言
一、项目概述目标和用途本项目旨在开发一款基于STM32控制的自动平衡机器人，结合步进电机和陀螺仪传感器，实现对平衡机器人的精确控制。该机器人可以用于教育、科研、娱乐等多个领域，帮助用户了解自动控制、机器人运动学等相关知识。技术栈关键词STM32单片机步进电机陀螺仪传感器AD采集电路Qt人机界面实时数据监控二、系统架构系统架构设计本项目的系统架构设计包括以下主要组件：控制单元:STM32单片机传感器
笋丁网页自动回复机器人V3.0.0免授权版源码希希分享软希网58soho_cn 源码资源笋丁网页自动回复机器人
笋丁网页机器人一款可设置自动回复，默认消息，调用自定义api接口的网页机器人。此程序后端语言使用Golang，内存占用最高不超过30MB，1H1G服务器流畅运行。仅支持Linux服务器部署，不支持虚拟主机，请悉知！使用自定义api功能需要有一定的建站基础。源码下载：https://download.csdn.net/download/m0_66047725/89754250更多资源下载：关注我。安
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python可以制作大型游戏_python能做游戏吗-python能开发游戏吗靖dede python可以制作大型游戏
python可以写游戏，但不适合。下面我们来分析一下具体原因。用锤子能造汽车吗？谁也没法说不能吧？历史上也确实曾经有些汽车，是用锤子造出来的。但一般来说，还是用工业机器人更合适对吗？比较大型的，使用Python的游戏有两个，一个是《EVE》，还有一个是《文明》。但这仅仅是个例，没有广泛意义。一般来说，用来做游戏的语言，有两种。一是C++。。一是C#。。Python理论上，不仅不适合做游戏，而是只要
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
基于TRIZ的救援机器人轻量化设计天行健王春城老师 TRIZ 机器人
在救援机器人设计中，轻量化是一个至关重要的目标，它直接关系到机器人的便携性、运输效率以及在复杂环境中的作业能力。TRIZ理论为我们提供了一套系统化的工具和方法，用于解决设计过程中遇到的各种挑战，特别是在实现轻量化目标时，TRIZ能够帮助我们识别并消除设计中的冗余与低效部分，同时保留或增强其关键功能。具体如深圳天行健企业管理咨询公司下文所述：1.功能分析与矛盾识别TRIZ理论强调对系统功能的深入分析
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
越长大越孤单换个时间就好
“于今之世，孰是真身”。意思是：在今天的社会，谁是真正的自己。第一次有这种感受是在初二初三，当时平凡的我只想平凡的走完我的初中时代，不想有变故，不想多新朋友，也不想成为别人的新朋友。在数着教室里那张被多数人期待的，挂在教室后方的钟表，铃声响起结束一天百般无聊的课程，我像个机器人麻木做着和往常一样的动作，拿着装满书的书包，看着空荡荡又充满气味的凳阁，再一次想起我为什么拿着所有的书回去。直到肩膀酸痛，
【机器人建模和控制】读书笔记 Piccab0o 机器人
机器人建模和控制——马克·斯庞A.x10=x1∙x0x^0_1=x_1\bulletx_0x10=x1∙x0，其实就是：1）x1x_1x1轴向量在O0O_0O0系下的坐标2）在x0x_0x0轴上的投影3）坐标变换矩阵的R10R_1^0R10的第一个元素B.点p在o1x1y1z1o_1x_1y_1z_1o1x1y1z1系下的坐标p1p^1p1可以表示为：p=ux1+vy1+wz1p=ux_1+vy_
协作机器人关节模组总结雪花飞龙协作机器人本体结构
协作机器人关节模块总结关节模组介绍关节模组一般部件：通讯协议泰科机器人关节模组RJS系列RJS-II系列RJU系列SHD系列RGM机器人关节模组关节模组介绍协作机器人的技术已经相对成熟，如何快速生产协作机器人？如何降低机器人成本？等问题是现在研究的一个重点。协作机器人的关节功能相对独立，可以做成一个独立模块，只需要提供电源和控制信号就好。关节模组一般部件：1.减速器：谐波减速器是最常用的减速器，此
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache