xhsun1997

解读数学问题自动求解领域的一篇论文A Goal-Driven Tree-Structured Neural Model for Math Word Problems以及论文的代码

论文链接
代码链接

模型大概框架:

这篇论文的思想就是：传统的seq2seq模型是序列式的从左到右生成表达式，缺少一种“目标驱动”机制，而这种目标驱动机制在人类解题过程中是常见的。
例如这么一道题：

小明正在将他的饼干装进包中，一个包里面要装6块饼干。如果他有23块巧克力饼干，25块曲奇饼干，那么他需要几个包？

对于这个问题，我们在解答的时候，首先看出来问题的目标是计算需要几个包，针对这个目标，我们提取相关的信息：一个包里面装6个饼干;有23块巧克力饼干;有25块曲奇饼干。于是乎我们知道，要想得到最终目标需要几个包，我们需要将它分解为两个子目标:
(1)一共有多少块饼干;(2)一个包里面可以装几块饼干
而且最终目标要通过(1)/(2)得到，也就是子目标(1)的结果除以子目标(2)的结果

针对第一个子目标，还需要继续分解成子目标：(11)有23块巧克力饼干;(22)有25块曲奇饼干
而且第一个字目标的结果要通过(11)+(22)得到。两个子子目标(11)和(22)，不用分解了，我们已经可以直接从题目文本中提取出目标的结果，分别是23和25。
针对第二个子目标，同样可以直接从文本中提取目标的结果，也就是6.

所以最终的表达式是(23+25)/6

所以按照上述的思想，模型的流程如下：

首先初始化一个根目标向量，代表整个问题的最终目标。对应上面例子中的需要几个包
根据根目标向量，获取相关的上下文信息。比如对应上面例子中的一个包里面装6个饼干;有23块巧克力饼干;有25块曲奇饼干。
接下来利用上下文信息以及根目标向量预测根目标位置对应的token。比如根据上面这个例子，我们应该预测出来对应的token是除号(话说除号怎么用键盘打出来呢)，这里用/表示除号。然后我们发现预测出来的token是运算符/，而不是数字，那么就说明它一定要分解成两个子目标。
假设正确的分解成了两个子目标：(1)一共有多少块饼干;(2)一个包里面可以装几块饼干。
然后我们预测第一个子目标的token，发现是运算符+，那么接着分解…
按照这个思想流程，我们也就从上到下的构建了论文中图１所示的表达式树

模型处理细节:

数据处理:

定义 $n_p$ 是一个有序的列表，它存储的是对应的问题文本中出现的数字，而且按照数字出现的顺序有序存储。对应上面的例子就是 $n_p$ =[6,23,25]。
问题文本中出现的数字要同意被替换成NUM，因为我们并不关系数值具体是多少，我们要的是推理出来表达式。对应上面的例子就是小明正在将他的饼干装进包中，一个包里面要装NUM块饼干。如果他有NUM块巧克力饼干，NUM块曲奇饼干，那么他需要几个包？
解码端，也就是输出的词汇空间定义为 $V^{dec}$ ，它包含三个部分，第一个就是问题文本中出现的数字 $n_P$ ，第二个是运算符集合，一般就是加减乘除。第三个是常数集合，比如 $\pi$ ，因为有的问题问的是面积或者周长，但是问题中不会出现 $\pi$ ，而表达式却会出现 $\pi r^2$ 这种。

模型描述:

模型的思想就是对问题文本中出现的数字，建立这些数字之间的树形结构关系。

树中的每一个节点有三个主要成分：这个节点的目标向量 $\mathbf{q}$ ；这个节点所预测的token $\hat{y}$ ；这个节点的子目标的嵌入向量 $\mathbf{t}$ (也就是这个节点的子树的嵌入)

下面我们一步一步的来看：

首先要做的显然是把整个question文本送入一个BiGRU，对应论文中的公式(1)(2)(3)
当我们读完了问题之后，怎么定义最终目标，也就是根节点的向量 $\mathbf{q}$ 呢，看论文的公式(4)，显然是前向GRU的最后一个时刻的hidden state和反向GRU的最后一个hidden state两者相加，得到 $\mathbf{q_0}$ 。对应上面的例子，这个 $\mathbf{q_0}$ 编码语义就是需要几个包。
接下来的步骤就是根据目标向量 $\mathbf{q}$ 去获得相关的上下文信息，也就是拿目标向量 $\mathbf{q}$ 和整个问题文本question做一次注意力的运算，提取相关的信息，对应公式(6)。比如在根节点的目标向量下，提取的信息应该是：一个包里面装6个饼干;有23块巧克力饼干;有25块曲奇饼干。
我们现在已经得到了论文中的 $\mathbf{q},\mathbf{c}$ ，这两个都是一个向量，长度是dim。现在来看公式(5)，它是decoder端，也就是输出端的词汇空间中每一个词汇对应的向量表示，其中 $\textbf{M}_{op}$ 和 $\textbf{M}_{con}$ 代表的是两个专门的查找表，也就是嵌入矩阵。 $\textbf{M}_{op}$ 用来查找运算符加减乘除对应的embedding。 $\textbf{M}_{con}$ 用来查找常数对应的embedding，比如 $\pi$ 这种常数。这两个嵌入矩阵都是预先初始化然后随着模型训练更新向量值的，它们对于所有问题的预测都适用。但是 $h_{loc}^P$ 不一样，它是该问题文本中数字那个位置对应的embedding，不同的问题显然该值不同。比如上面的例子，此时 $\mathbf{e}(y|P)$ 的形状我们可以认为是(8,512)，其中512是向量维度，8=4+1+3，其中4表示加减乘除，1表示常数 $\pi$ ，３表示那三个数字:6,23,25
现在我们已经获得了 $\mathbf{q,c},\mathbf{e}(y|P)$ ，根据公式(7)我们就得到了 $s (y ∣ q, c, P)$ ，它是长度为8的向量，每一个值表示预测的token的分数，然后softmax，也就是论文的公式8，我们就得到了预测每一个token的概率。比如[0.1,0.15,0.13,0.37,0.2,0.1,0.1,…]，这表示预测加号的概率是0.1，预测减号的概率是0.15，预测除号的概率是0.37。取最大的值，对应公式(9)，所以我们现在预测了当前节点应该是除号。
既然预测了token是除号，那么显然要继续分解成子目标。：(1)一共有多少块饼干;(2)一个包里面可以装几块饼干。
我们来看左边的子目标(左边的节点)：一共有多少块饼干，这个子目标对应的目标向量定义为 $\mathbf{q}_l$ ，计算方式为公式(10)。我们可以看到它是利用了根节点的目标向量 $\mathbf{q}$ ; $\mathbf{q}$ 和question做注意力得到的上下文信息向量 $\mathbf{c}$ ;还有根节点对应的预测的token $\hat{y}$ 的向量表示 $\mathbf{e}(\hat{y}|P)$ 。利用这三个向量计算得到了 $\mathbf{q}_l$ ，此时 $\mathbf{q}_l$ 表征的语义就是一共有多少块饼干
得到了 $\mathbf{q}_l$ 之后，我们就要预测这个节点对应的token. 计算过程和前面一样。第一步：利用 $\mathbf{q}_l$ 和question做注意力计算，得到上下文信息向量 $\mathbf{c}$ （按照我们的这个例子，此时的 $\mathbf{c}$ 应该蕴含着{有23块巧克力饼干;有25块曲奇饼干}这样的语义信息）。第二步：利用 $\mathbf{q}_l$ 和 $\mathbf{c}$ 以及 $\mathbf{e}(y|P)$ 按照公式(7),(8)预测这个token $\hat{y}$ 。假如预测之后是加号+，那么要继续分解成子目标:有23块巧克力饼干;有25块曲奇饼干
同样的道理，同样的步骤。假如我们已经计算得到了左边节点的目标向量 $\mathbf{q}_l$ ，它表征的语义是有23块巧克力饼干。现在到了预测token这步，对于左边的节点，我们发现预测的token是23，这是数字，不用继续分解了。还记得之前说过，每一个节点有三个组成成分：(1)该节点的目标向量；(2)该节点预测的token；(3)该节点的子树向量 $\mathbf{t}$ 。
对于叶子节点来说，子树向量 $\mathbf{t}$ 就是该节点的token的向量，见公式(12):{ if $\hat{y}\in n_P\cup V_{con}$ ，那么 $\mathbf{t}=\mathbf{e}(\hat{y}|P)$ }。见论文的图２中圈3和圈5两个编号，所以我们就得到了23这个节点的完整信息，也就是这三个组成部分。
对于25这个节点，需要注意的是，它是右子树，它的目标向量的生成方式要考虑左子树。步骤:　第一步，利用加号这个节点的目标向量 $\mathbf{q}$ ， $\mathbf{q}$ 和question做注意力得到的 $\mathbf{c}$ ，以及兄弟节点23的向量，来计算25这个节点的目标向量。然后预测token，假如是25，发现是数字，不用再分解了，对应的子树向量就是本身的向量。具体的见公式(11)和图２的圈4以及圈5
现在回溯到加号+这个节点，它的子树向量的计算方式见公式(12)和公式(13)，无非是将23和25两个向量按照公式(13)的计算方式结合。见图２的圈6
至此，我们计算完了根节点的第一个子目标，然后是计算根节点的第二个子目标: 第一步，利用根节点的目标向量 $\mathbf{q}$ ； $\mathbf{q}$ 和question做注意力得到的 $\mathbf{c}$ ；以及兄弟节点加号的子树向量。根据公式11计算得到了目标向量 $\mathbf{q}_r$ ，然后预测token，假如是6，发现是数字，不再分解，对应的子树向量就是数字6的向量。

整个表达式树就建立完成了，只需要遍历树中每一个节点对应的token，就得到了表达式。

代码部分解读：

首先我们从2万多个问题中选出来10个问题，这10个问题是具有代表性的，比如出现了3.14，出现了重复数字等:

data=[{'id': '0', 'original_text': '镇海雅乐学校二年级的小朋友到一条小路的一边植树．小朋友们每隔2米种一棵树（马路两头都种了树），最后发现一共种了11棵，这条小路长多少米．', 'segmented_text': '镇海 雅乐 学校 二年级 的 小朋友 到 一条 小路 的 一边 植树 ． 小朋友 们 每隔 2 米 种 一棵树 （ 马路 两头 都 种 了 树 ） ， 最后 发现 一共 种 了 11 棵 ， 这 条 小路 长 多少 米 ．', 'equation': 'x=(11-1)*2', 'ans': '20'},
         {'id': '1', 'original_text': '某工厂积极开展植树活动．第一车间45人，第二车间42人，平均每人植树8棵．两个车间一共植树多少棵？', 'segmented_text': '某 工厂 积极开展 植树 活动 ． 第一 车间 45 人 ， 第 二 车间 42 人 ， 平均 每人 植树 8 棵 ． 两个 车间 一共 植树 多少 棵 ？', 'equation': 'x=45*8+42*8', 'ans': '696'}, 
         {'id': '2', 'original_text': '一个工程队挖土，第一天挖了316方，从第二天开始每天都挖230方，连续挖了6天，这个工程队一周共挖土多少方？', 'segmented_text': '一 个 工程队 挖土 ， 第一天 挖 了 316 方 ， 从 第 二 天 开始 每天 都 挖 230 方 ， 连续 挖 了 6 天 ， 这个 工程队 一周 共 挖土 多少 方 ？', 'equation': 'x=316+230*(6-1)', 'ans': '1466'}, 
         {'id': '3', 'original_text': '小明看一本故事书，第一天看了全书的(1/6)，第二天看了24页，第3天看的页数是前两天看的总数的150%，这时还有全书的(1/4)没有看，那么这本书一共多少页．', 'segmented_text': '小 明 看 一本 故事书 ， 第一天 看 了 全书 的 (1/6) ， 第 二 天 看 了 24 页 ， 第 3 天 看 的 页数 是 前两天 看 的 总数 的 150% ， 这时 还有 全书 的 (1/4) 没有 看 ， 那么 这 本书 一共 多少 页 ．', 'equation': 'x=(24+24*150%)/(1-(1/6)-(1/6)*150%-(1/4))', 'ans': '180'}, 
         {'id': '4', 'original_text': '小明看一本书，第一天看了全书的(1/5)，第二天比第一天多看14页，剩下的25页第3天看完，这本书共有多少页？', 'segmented_text': '小 明 看 一 本书 ， 第一天 看 了 全书 的 (1/5) ， 第 二 天 比 第一天 多 看 14 页 ， 剩下 的 25 页 第 3 天 看 完 ， 这 本书 共有 多少 页 ？', 'equation': 'x=(25+14)/(1-(1/5)-(1/5))', 'ans': '65'}, 
         {'id': '5', 'original_text': '小芳家5月份用水量是16.5吨，每吨水的价格是2.1元，小芳家一共有5口人，平均每人应交多少水费？', 'segmented_text': '小 芳 家 5 月份 用水量 是 16.5 吨 ， 每吨 水 的 价格 是 2.1 元 ， 小 芳 家 一共 有 5 口 人 ， 平均 每人 应交 多少 水费 ？', 'equation': 'x=16.5*2.1/5', 'ans': '6.93'}, 
         {'id': '6', 'original_text': '比一个数多12%的数是112，这个数=？', 'segmented_text': '比 一个 数多 12% 的 数 是 112 ， 这个 数 = ？', 'equation': 'x=112/(1+12%)', 'ans': '100'}, 
         {'id': '7', 'original_text': '商店里有梨390千克，比苹果少40%，商店里有苹果多少千克？', 'segmented_text': '商店 里 有 梨 390 千克 ， 比 苹果 少 40% ， 商店 里 有 苹果 多少 千克 ？', 'equation': 'x=390/(1-40%)', 'ans': '650'},
         {'id': '8', 'original_text': '早晨教室里有36名学生，其中女生占教室里总人数的(5/9)，后来又来了几名女生，这时女生占教室里总人数的(11/19)，后来又来了几名女生？', 'segmented_text': '早晨 教室 里 有 36 名 学生 ， 其中 女生 占 教室 里 总 人数 的 (5/9) ， 后来 又 来 了 几名 女生 ， 这时 女生 占 教室 里 总 人数 的 (11/19) ， 后来 又 来 了 几名 女生 ？', 'equation': 'x=36*(1-(5/9))/(1-(11/19))-36', 'ans': '2'},
         {'id': '9', 'original_text': '一个车轮的外直径是4dm，它滚动10距离=多少dm．', 'segmented_text': '一 个 车轮 的 外 直径 是 4dm ， 它 滚动 10 距离 = 多少 dm ．', 'equation': 'x=3.14*4*10', 'ans': '125.6'}]

我们就用这10个问题来看下面的代码:
整个代码的主函数是run_seq2seq.py

前期准备

import random
import json
import copy
import re
import torch
import torch.nn as nn
import math
from copy import deepcopy
data=[{'id': '0', 'original_text': '镇海雅乐学校二年级的小朋友到一条小路的一边植树．小朋友们每隔2米种一棵树（马路两头都种了树），最后发现一共种了11棵，这条小路长多少米．', 'segmented_text': '镇海 雅乐 学校 二年级 的 小朋友 到 一条 小路 的 一边 植树 ． 小朋友 们 每隔 2 米 种 一棵树 （ 马路 两头 都 种 了 树 ） ， 最后 发现 一共 种 了 11 棵 ， 这 条 小路 长 多少 米 ．', 'equation': 'x=(11-1)*2', 'ans': '20'},
         {'id': '1', 'original_text': '某工厂积极开展植树活动．第一车间45人，第二车间42人，平均每人植树8棵．两个车间一共植树多少棵？', 'segmented_text': '某 工厂 积极开展 植树 活动 ． 第一 车间 45 人 ， 第 二 车间 42 人 ， 平均 每人 植树 8 棵 ． 两个 车间 一共 植树 多少 棵 ？', 'equation': 'x=45*8+42*8', 'ans': '696'}, 
         {'id': '2', 'original_text': '一个工程队挖土，第一天挖了316方，从第二天开始每天都挖230方，连续挖了6天，这个工程队一周共挖土多少方？', 'segmented_text': '一 个 工程队 挖土 ， 第一天 挖 了 316 方 ， 从 第 二 天 开始 每天 都 挖 230 方 ， 连续 挖 了 6 天 ， 这个 工程队 一周 共 挖土 多少 方 ？', 'equation': 'x=316+230*(6-1)', 'ans': '1466'}, 
         {'id': '3', 'original_text': '小明看一本故事书，第一天看了全书的(1/6)，第二天看了24页，第3天看的页数是前两天看的总数的150%，这时还有全书的(1/4)没有看，那么这本书一共多少页．', 'segmented_text': '小 明 看 一本 故事书 ， 第一天 看 了 全书 的 (1/6) ， 第 二 天 看 了 24 页 ， 第 3 天 看 的 页数 是 前两天 看 的 总数 的 150% ， 这时 还有 全书 的 (1/4) 没有 看 ， 那么 这 本书 一共 多少 页 ．', 'equation': 'x=(24+24*150%)/(1-(1/6)-(1/6)*150%-(1/4))', 'ans': '180'}, 
         {'id': '4', 'original_text': '小明看一本书，第一天看了全书的(1/5)，第二天比第一天多看14页，剩下的25页第3天看完，这本书共有多少页？', 'segmented_text': '小 明 看 一 本书 ， 第一天 看 了 全书 的 (1/5) ， 第 二 天 比 第一天 多 看 14 页 ， 剩下 的 25 页 第 3 天 看 完 ， 这 本书 共有 多少 页 ？', 'equation': 'x=(25+14)/(1-(1/5)-(1/5))', 'ans': '65'}, 
         {'id': '5', 'original_text': '小芳家5月份用水量是16.5吨，每吨水的价格是2.1元，小芳家一共有5口人，平均每人应交多少水费？', 'segmented_text': '小 芳 家 5 月份 用水量 是 16.5 吨 ， 每吨 水 的 价格 是 2.1 元 ， 小 芳 家 一共 有 5 口 人 ， 平均 每人 应交 多少 水费 ？', 'equation': 'x=16.5*2.1/5', 'ans': '6.93'}, 
         {'id': '6', 'original_text': '比一个数多12%的数是112，这个数=？', 'segmented_text': '比 一个 数多 12% 的 数 是 112 ， 这个 数 = ？', 'equation': 'x=112/(1+12%)', 'ans': '100'}, 
         {'id': '7', 'original_text': '商店里有梨390千克，比苹果少40%，商店里有苹果多少千克？', 'segmented_text': '商店 里 有 梨 390 千克 ， 比 苹果 少 40% ， 商店 里 有 苹果 多少 千克 ？', 'equation': 'x=390/(1-40%)', 'ans': '650'},
         {'id': '8', 'original_text': '早晨教室里有36名学生，其中女生占教室里总人数的(5/9)，后来又来了几名女生，这时女生占教室里总人数的(11/19)，后来又来了几名女生？', 'segmented_text': '早晨 教室 里 有 36 名 学生 ， 其中 女生 占 教室 里 总 人数 的 (5/9) ， 后来 又 来 了 几名 女生 ， 这时 女生 占 教室 里 总 人数 的 (11/19) ， 后来 又 来 了 几名 女生 ？', 'equation': 'x=36*(1-(5/9))/(1-(11/19))-36', 'ans': '2'},
         {'id': '9', 'original_text': '一个车轮的外直径是4dm，它滚动10距离=多少dm．', 'segmented_text': '一 个 车轮 的 外 直径 是 4dm ， 它 滚动 10 距离 = 多少 dm ．', 'equation': 'x=3.14*4*10', 'ans': '125.6'}]

def print_data(data):
    for i in data:
        print(i)
        print()
        
print_data(data)

修改transfer_num

def transfer_num(data):  # transfer num into "NUM"
    print("Transfer numbers...")
    pattern = re.compile("\d*\(\d+/\d+\)\d*|\d+\.\d+%?|\d+%?")
    pairs = []
    generate_nums = []#用来记录那些在表达式中出现，但是不在问题中出现的数字
    generate_nums_dict = {}
    copy_nums = 0
    for d in data:
        nums = []
        input_seq = []
        seg = d["segmented_text"].strip().split(" ")#获得了问题文本的列表表示
        equations = d["equation"][2:]

        for s in seg:
            pos = re.search(pattern, s)
            if pos and pos.start() == 0:
                nums.append(s[pos.start(): pos.end()])
                input_seq.append("NUM")#input_seq的目的是将问题中所有的数字转成NUM
                if pos.end() < len(s):
                    input_seq.append(s[pos.end():])
            else:
                input_seq.append(s)
        #nums记录的就是问题中出现的所有数字
        if copy_nums < len(nums):
            copy_nums = len(nums)
        #copy_nums用来得到数据集中所有问题中出现数字次数最多的对应的次数

        nums_fraction = []

        for num in nums:
            if re.search("\d*\(\d+/\d+\)\d*", num):
                nums_fraction.append(num)
        nums_fraction = sorted(nums_fraction, key=lambda x: len(x), reverse=True)
        #num_fraction用来记录问题中出现(1/2)这种利用括号括起来的分数形式的数字
        def seg_and_tag(st):  # seg the equaticopy_numson and tag the num
            res = []
            for n in nums_fraction:
                if n in st:
                    p_start = st.find(n)
                    p_end = p_start + len(n)
                    if p_start > 0:
                        res += seg_and_tag(st[:p_start])
                    if nums.count(n) == 1:
                        res.append("N"+str(nums.index(n)))
                    else:
                        res.append(n)
                    if p_end < len(st):
                        res += seg_and_tag(st[p_end:])
                    return res
            pos_st = re.search("\d+\.\d+%?|\d+%?", st)
            if pos_st:
                p_start = pos_st.start()
                p_end = pos_st.end()
                if p_start > 0:
                    res += seg_and_tag(st[:p_start])
                st_num = st[p_start:p_end]
                if nums.count(st_num) == 1:
                    res.append("N"+str(nums.index(st_num)))
                else:
                    res.append(st_num)#这行特别要注意，也就是说，如果nums中发现这个数字出现的次数不止一次
                    #那么我们就在输出的表达式中直接填上这个数字，而不是利用N+数字的位置代替。
                if p_end < len(st):
                    res += seg_and_tag(st[p_end:])
                return res
            for ss in st:
                res.append(ss)
            return res

        out_seq = seg_and_tag(equations)
        print("question : ",d['original_text'])
        print('expression : ',d['equation'])
        print('input seq : ',input_seq)
        print('output seq : ',out_seq)
        print("问题中是否出现了括号括起来的分数形式的数字　: ",nums_fraction)
        for s in out_seq:  # tag the num which is generated
            if s[0].isdigit() and s not in generate_nums and s not in nums:
                generate_nums.append(s)
                generate_nums_dict[s] = 0
            if s in generate_nums and s not in nums:
                generate_nums_dict[s] = generate_nums_dict[s] + 1

        num_pos = []
        for i, j in enumerate(input_seq):
            if j == "NUM":
                num_pos.append(i)
        assert len(nums) == len(num_pos)
        # pairs.append((input_seq, out_seq, nums, num_pos, d["ans"]))
        print('问题中出现的数字 : ',nums)
        print("数字在问题中的位置　: ",num_pos)
        print('-'*100)
        pairs.append((input_seq, out_seq, nums, num_pos))

    temp_g = []
    for g in generate_nums:
        if generate_nums_dict[g] >= 1:
            temp_g.append(g)
    return pairs, temp_g, copy_nums

pairs, generate_nums, copy_nums = transfer_num(data)
print_data(pairs)

print(generate_nums)
print(copy_nums)

打印的结果如下：

也就是说，1和3.14这两个数字是常数，它们不在问题中出现，但是在equation中出现。对应的就是论文中的 $V_{con}$

copy_nums=5，含义是这10个问题中出现数字次数最多的那个问题中，出现了5个数字

将中缀表达式转成前缀

temp_pairs = []
for p in pairs:
    temp_pairs.append((p[0], from_infix_to_prefix(p[1]), p[2], p[3]))
pairs = temp_pairs
print_data(pairs)

特别要注意一种情况，就是问题中出现了重复的数字：

for i,pair in enumerate(pairs):
    output_seq=pair[1]
    for each_ in output_seq:
        if each_.isdigit() and each_ not in ['1','3.14']:
            print("当前的这个问题中出现了两个重复数字")
            print(data[i])
            print(pair)

此时表达式的输出是[’/’, ‘*’, ‘N1’, ‘N2’, ‘5’]。这是要特别注意的

修改prepare_data

def prepare_data(pairs_trained, pairs_tested, trim_min_count, generate_nums, copy_nums, tree=False):
    input_lang = Lang()
    output_lang = Lang()
    train_pairs = []
    test_pairs = []

    print("Indexing words...")
    for pair in pairs_trained:
        input_lang.add_sen_to_vocab(pair[0])#构造encoder端的词汇
        output_lang.add_sen_to_vocab(pair[1])#构造decoder端的词汇

    input_lang.build_input_lang(trim_min_count)#构造encoder端的word2id
    if tree:
        output_lang.build_output_lang_for_tree(generate_nums, copy_nums)#构造decoder端的word2id
    else:
        output_lang.build_output_lang(generate_nums, copy_nums)

    for pair in pairs_trained:
        num_stack = []
        for word in pair[1]:
            #pair[1]指的是输出的前缀表达式self.index2word + generate_num + ["N" + str(i) for i in range(copy_nums)] + ["UNK"]
            temp_num = []
            flag_not = True
            if word not in output_lang.index2word:
                #word不在decoder端的word2id的唯一可能性就是上面提到的，出现了重复数字
                flag_not = False
                for i, j in enumerate(pair[2]):
                    if j == word:
                        temp_num.append(i)

            if not flag_not and len(temp_num) != 0:
                num_stack.append(temp_num)
            if not flag_not and len(temp_num) == 0:
                num_stack.append([_ for _ in range(len(pair[2]))])

        num_stack.reverse()#num_stack记录的就是重复数字在nums中出现的位置，别忘了nums记录的是问题中所有出现的数字
        input_cell = indexes_from_sentence(input_lang, pair[0])
        output_cell = indexes_from_sentence(output_lang, pair[1], tree)
        train_pairs.append((input_cell, len(input_cell), output_cell, len(output_cell),
                            pair[2], pair[3], num_stack))
    print('Indexed %d words in input language, %d words in output' % (input_lang.n_words, output_lang.n_words))
    print('Number of training data %d' % (len(train_pairs)))
    for pair in pairs_tested:
        num_stack = []
        for word in pair[1]:
            temp_num = []
            flag_not = True
            if word not in output_lang.index2word:
                flag_not = False
                for i, j in enumerate(pair[2]):
                    if j == word:
                        temp_num.append(i)

            if not flag_not and len(temp_num) != 0:
                num_stack.append(temp_num)
            if not flag_not and len(temp_num) == 0:
                num_stack.append([_ for _ in range(len(pair[2]))])

        num_stack.reverse()
        input_cell = indexes_from_sentence(input_lang, pair[0])#sentence转换为id
        output_cell = indexes_from_sentence(output_lang, pair[1], tree)#equation转换为id,注意
        #由于重复数字不在output_lang.word2index中出现，所以带有数字的表达式中，数字是被替换为UNK的
        test_pairs.append((input_cell, len(input_cell), output_cell, len(output_cell),
                           pair[2], pair[3], num_stack))
    print('Number of testind data %d' % (len(test_pairs)))        # train_pairs.append((input_cell, len(input_cell), output_cell, len(output_cell),
        #                     pair[2], pair[3], num_stack, pair[4]))
    return input_lang, output_lang, train_pairs, test_pairs

pairs_trained=pairs
pairs_tested=pairs
input_lang, output_lang, train_pairs, test_pairs = prepare_data(pairs_trained, pairs_tested, 0, generate_nums,
                                                                    copy_nums, tree=True)

我们打印几个结果

上图就是encoder端的词典和decoder端的词典

for i in range(len(train_pairs)):
    original_example=data[i]
    pair=pairs[i]
    train_example=train_pairs[i]
    #我们随机打印两个样本
    if i==0 or i==4:
        print(original_example)
        print(pair)
        print(train_example)
        print(output_lang.word2index)#对照着decoder端的word2id来看train_example中的输出表达式
        print('-'*100)
    output_seq=pair[1]#我们重点关注出现了重复数字的样本
    for each_ in output_seq:
        if each_.isdigit() and each_ not in ['1','3.14']:
            print("这个问题中出现了两个重复数字，所以对应的train_example中的输出表达式一定有UNK")
            print(original_example)
            print(pair)
            print(train_example)
            print('-'*100)

执行上面的代码打印出来的结果帮助我们理解数据的构造形式：

我们可以观察得到，输入给模型的训练数据train_example有七个元素：

第一个元素就是问题文本对应的id，文本中的数字都被替换成了NUM，对应的id是1
第二个元素就是问题文本的长度
第三个元素是问题对应的表达式对应的id，(问题的表达式已经将原来表达式中的数字全部替换为Ni(重复数字例外)，i指的是这个数字在nums中出现的位置)，需要注意的是，如果问题中出现了重复数字，那么对应的表达式中会保留原来的数字，这就导致decoder端的word2id找不到这个数字，就会出现UNK，比如我们上面的那个例子，对应的表达式的id就是[3, 0, 7, 8, 11]，显然11对应的就是UNK
第四个元素就是表达式的长度
第五个元素是nums，也就是问题中出现的所有数字
第六个元素是nums_pos，也就是这所有元素在问题中出现的位置
第七个元素注意一下,它记录的是问题中重复数字在nums中的位置，没有重复数字出现的问题对应的就是空列表

重新设置参数以及构造各个模块

batch_size = 2
embedding_size = 5
hidden_size = 6
n_epochs = 80
learning_rate = 1e-3
weight_decay = 1e-5
beam_size = 5
n_layers = 2

encoder = EncoderSeq(input_size=input_lang.n_words, embedding_size=embedding_size, hidden_size=hidden_size,
                     n_layers=n_layers)
predict = Prediction(hidden_size=hidden_size, op_nums=output_lang.n_words - copy_nums - 1 - len(generate_nums),
                     input_size=len(generate_nums))
generate = GenerateNode(hidden_size=hidden_size, op_nums=output_lang.n_words - copy_nums - 1 - len(generate_nums),
                        embedding_size=embedding_size)
merge = Merge(hidden_size=hidden_size, embedding_size=embedding_size)

encoder_optimizer = torch.optim.Adam(encoder.parameters(), lr=learning_rate, weight_decay=weight_decay)
predict_optimizer = torch.optim.Adam(predict.parameters(), lr=learning_rate, weight_decay=weight_decay)
generate_optimizer = torch.optim.Adam(generate.parameters(), lr=learning_rate, weight_decay=weight_decay)
merge_optimizer = torch.optim.Adam(merge.parameters(), lr=learning_rate, weight_decay=weight_decay)
encoder_scheduler = torch.optim.lr_scheduler.StepLR(encoder_optimizer, step_size=20, gamma=0.5)
predict_scheduler = torch.optim.lr_scheduler.StepLR(predict_optimizer, step_size=20, gamma=0.5)
generate_scheduler = torch.optim.lr_scheduler.StepLR(generate_optimizer, step_size=20, gamma=0.5)
merge_scheduler = torch.optim.lr_scheduler.StepLR(merge_optimizer, step_size=20, gamma=0.5)

修改prepare_train_batch

def pad_seq(seq, seq_len, max_length):
    seq += [PAD_token for _ in range(max_length - seq_len)]
    return seq
def prepare_train_batch(pairs_to_batch, batch_size,original_data,original_pair):
    pairs = copy.deepcopy(pairs_to_batch)
    datas=copy.deepcopy(original_data)
    orig_pairs=copy.deepcopy(original_pair)
    #original_data和original_pair是我们一会为了打印结果用的，目的是帮助我们输入数据的形式
    
    #random.shuffle(pairs)  # 去掉shuffle，不打乱
    pos = 0
    input_lengths = []
    output_lengths = []
    nums_batches = []
    batches = []
    input_batches = []
    output_batches = []
    num_stack_batches = []  # save the num stack which
    num_pos_batches = []
    num_size_batches = []
    batches_datas=[]
    batches_origianl_pairs=[]
    while pos + batch_size < len(pairs):
        batches.append(pairs[pos:pos+batch_size])
        batches_datas.append(datas[pos:pos+batch_size])
        batches_origianl_pairs.append(orig_pairs[pos:pos+batch_size])
        pos += batch_size
    batches.append(pairs[pos:])
    
    batches_datas.append(datas[pos:])
    batches_origianl_pairs.append(orig_pairs[pos:])

    for batch in batches:
        batch = sorted(batch, key=lambda tp: tp[1], reverse=True)
        input_length = []
        output_length = []
        for _, i, _, j, _, _, _ in batch:
            input_length.append(i)
            output_length.append(j)
        input_lengths.append(input_length)
        output_lengths.append(output_length)
        input_len_max = input_length[0]
        output_len_max = max(output_length)
        input_batch = []
        output_batch = []
        num_batch = []
        num_stack_batch = []
        num_pos_batch = []
        num_size_batch = []
        for i, li, j, lj, num, num_pos, num_stack in batch:
            num_batch.append(len(num))
            input_batch.append(pad_seq(i, li, input_len_max))
            output_batch.append(pad_seq(j, lj, output_len_max))
            num_stack_batch.append(num_stack)
            num_pos_batch.append(num_pos)
            num_size_batch.append(len(num_pos))
        input_batches.append(input_batch)
        nums_batches.append(num_batch)
        output_batches.append(output_batch)
        num_stack_batches.append(num_stack_batch)
        num_pos_batches.append(num_pos_batch)
        num_size_batches.append(num_size_batch)
    return input_batches, input_lengths, output_batches, output_lengths, nums_batches, num_stack_batches, num_pos_batches, num_size_batches,batches_datas,batches_origianl_pairs




input_batches, input_lengths, output_batches, output_lengths, nums_batches, num_stack_batches, num_pos_batches, num_size_batches, batches_datas,batches_original_pairs = prepare_train_batch(train_pairs, batch_size,
                                                                                                                                                                                    original_data=data,original_pair=pairs)

打印一下所有batch内的数据，帮助我们理解数据的形式:

for idx in range(len(pairs_trained)//batch_size):
    print(idx)
    input_batch=input_batches[idx]
    input_length=input_lengths[idx]
    target_batch=output_batches[idx]
    target_length=output_lengths[idx]
    num_stack_batch=num_stack_batches[idx]
    num_size_batch=num_size_batches[idx]
    num_pos=num_pos_batches[idx]
    nums_batch=nums_batches[idx]
    batch_datas=batches_datas[idx]
    batch_orig_pairs=batches_original_pairs[idx]
    print("一个mini batch内的样本如下　：　")
    for i in range(batch_size):
        print("对应的data : ",batch_datas[i])
        print("对应的pair : ",batch_orig_pairs[i])
        print("question text ids : ",input_batch[i])
        print("length of question text : ",input_length[i])
        print("expression ids : ",target_batch[i])
        print("length of expression : ",target_length[i])
        print("all numbers appear in question : ",nums_batch[i])
        print("是否出现了重复的数字，重复数字在nums中出现的下标 : ",num_stack_batch[i])
        print("number of numbers in this question : ",num_size_batch[i])
        print("position of each number in this question",num_pos[i])
        print()
    print('-'*100)

仔细看看打印出来的数据：
一共有10个样本，分成了5个batch。一个batch里面有两条数据，其中的input_seq和output_seq已经pad过了。而且是根据当前batch里面最长的为准。

我们随便打印其中的某个batch:

将数据送入模型中

现在我们已经了解了数据的形式，接下来就是论文源码中的这一行：

loss = train_tree(
    input_batches[idx], input_lengths[idx], output_batches[idx], output_lengths[idx],
    num_stack_batches[idx], num_size_batches[idx], generate_num_ids, encoder, predict, generate, merge,
    encoder_optimizer, predict_optimizer, generate_optimizer, merge_optimizer, output_lang, num_pos_batches[idx])

所以我们现在进入train_tree这个函数一探究竟
我们一行一行的执行train_tree里面的每一行代码

构造输入序列的mask

seq_mask=[]#用来构造input_seq的mask的
max_len=max(input_length)
for i in input_length:
    seq_mask.append([0 for _ in range(i)] + [1 for _ in range(i, max_len)])
    #其中pad位置对应的是0，不是pad位置对应的值是0
seq_mask = torch.ByteTensor(seq_mask)
print_data(input_batch)#打印输入的input_seq
print_data(seq_mask)#打印对应的mask

构造数字空间的mask

我们将decoder端的词汇空间划分成三类， $V_{op}$ 指的是运算符加减乘除的空间， $V_{con}$ 指的就是常数空间。我所指的数字空间对应的就是论文中的 $n_P$ 。

print("在当前的batch中，每一个问题中出现了几个数字 : ",num_size_batch)
num_mask = []
max_num_size = max(num_size_batch) + len(generate_nums)
#我们会按照当前batch中出现数字次数最多的那个问题对应的数字出现的次数作为decoder端的输出数字空间(这对应的就是论文中的nP，见公式5)
for i in num_size_batch:
    d = i + len(generate_nums)
    num_mask.append([0] * d + [1] * (max_num_size - d))
num_mask = torch.ByteTensor(num_mask)
print("当前的batch中，每一个样本对应的数字的mask : ",num_mask)
#0代表没有pad，1代表pad

如下图所示

注意这个num_mask是不包括加减乘除的

构造输入张量

unk = output_lang.word2index["UNK"]
input_var = torch.LongTensor(input_batch).transpose(0, 1)
target = torch.LongTensor(target_batch).transpose(0, 1)
padding_hidden = torch.FloatTensor([0.0 for _ in range(predict.hidden_size)]).unsqueeze(0)
batch_size = len(input_length)

也就是说输入了两个句子，第一个句子比较长，对应的表达式也比较长，第二个句子比较短，所以要pad

获得encoder 的输出，并且提取出每一个问题的根目标向量

encoder_outputs, problem_output = encoder(input_var, input_length)
print(encoder_outputs.size())
print(problem_output.size())
#problem_output就是每一个问题的根目标向量
class TreeNode:  # the class save the tree node
    def __init__(self, embedding, left_flag=False):
        self.embedding = embedding
        self.left_flag = left_flag
        
node_stacks = [[TreeNode(_)] for _ in problem_output.split(1, dim=0)]
#node_stacks就是将batch个样本的根目标向量拿出来，存储到节点中
print(problem_output)
for i in range(batch_size):
    print(node_stacks[i][0].embedding)

encoder返回两个tensor，第一个tensor是encoder_outputs，代表的是整个问题句子中语义向量。第二个tensor是problem_output，它是前向GRU的最后一个单词的向量加上反向GRU的最后一个单词的向量，所以它就是论文中所提到的每一个问题的根目标向量 $\mathbf{q}$ 。node_stacks这个列表初始时刻存储的就是每一个问题的根目标向量

获得num_embedding

#node_stacks就是每一个问题的根节点
max_target_length=max(target_length)
print("当前 batch中，所有句子对应的equation中最长的表达式的长度　: ",max_target_length)
print("我们在当前batch的解码过程中，以最长的表达式作为当前batch解码端的终止长度")

print("当前batch中，每一个问题出现的数字在该问题中的位置 : ",num_pos)
copy_num_len = [len(_) for _ in num_pos]
print("当前batch中，每一个问题出现的数字的个数　: ",copy_num_len)
num_size=max(copy_num_len)
all_nums_encoder_outputs = get_all_number_encoder_outputs(encoder_outputs, num_pos, batch_size, num_size,
                                                          encoder.hidden_size)
print(all_nums_encoder_outputs.size())

这里面的get_all_number_encoder_outputs看名字就知道是为了获得问题中数字对应的embedding。我们可以打印出来证实一下：

是不是不出所料啊，all_nums_encoder_outputs存储的就是当前batch中，每一个问题出现的数字对应的embedding,也就是论文中的 $\mathbf{h}_{loc(y,P)}^p$

需要注意的是因为第二个问题只出现了两个数字，所以要补一行0向量。

还记得前面我们说过吗，每一个节点都有三个成分：根目标向量；预测的token；以及子树嵌入.下面我们初始化每一个根节点，

all_node_outputs = []
num_start = output_lang.num_start
print(output_lang.word2index)
print(num_start)
embeddings_stacks = [[] for _ in range(batch_size)]
left_childs = [None for _ in range(batch_size)]

现在根节点已经初始化好了，也就是说每一个根节点的目标向量就是对应的problem_output，每一个根节点的左子树初始化为None

开始构建树

我们再打印一次当前的batch

print_data(input_batch)
print_data(batch_datas)
print_data(target_batch)
print_data(batch_orig_pairs)
print(output_lang.word2index)

看好了啊，现在我们输入的句子是什么已经清楚了，下面我们一步一步一步一步一步一步的来看接下来的过程：

for i in range(max_target_length)，这里面的max_target_length就是当前batch个问题中最长的expression。我们肯定要以最长的为准，因为短的表达式我们可以提前结束，长的表达式必须到达指定长度才可以。

我们来看predict，它的目的就是预测token，根据公式７，我们现在只是知道q,还不知道c和e(y|P)。

class Prediction(nn.Module):
    # a seq2tree decoder with Problem aware dynamic encoding

    def __init__(self, hidden_size, op_nums, input_size, dropout=0.5):
        super(Prediction, self).__init__()

        # Keep for reference
        self.hidden_size = hidden_size
        self.input_size = input_size
        self.op_nums = op_nums#op_nums=output_lang.n_words - copy_nums - 1 - len(generate_nums)
        #op_nums就是４，也就是加减乘除

        # Define layers
        self.dropout = nn.Dropout(dropout)

        self.embedding_weight = nn.Parameter(torch.randn(1, input_size, hidden_size))
        #input_size=len(generate_nums)，也就是2，代表3.14和1两个常数

        # for Computational symbols and Generated numbers
        self.concat_l = nn.Linear(hidden_size, hidden_size)
        self.concat_r = nn.Linear(hidden_size * 2, hidden_size)
        self.concat_lg = nn.Linear(hidden_size, hidden_size)
        self.concat_rg = nn.Linear(hidden_size * 2, hidden_size)

        self.ops = nn.Linear(hidden_size * 2, op_nums)

        self.attn = TreeAttn(hidden_size, hidden_size)
        self.score = Score(hidden_size * 2, hidden_size)

    def forward(self, node_stacks, left_childs, encoder_outputs, num_pades, padding_hidden, seq_mask, mask_nums):
    	'''
    	node_stacks就是每一个节点，它是TreeNode的对象，包含的是该节点的目标向量q
    	encoder_outputs是用来计算attention的，看公式6
    	num_pades就是all_num_encoder_outputs，它是问题中每一个数字的embedding，对应的是论文中的h_{loc(y,P)}^p，它是e(y|P)的一部
    	padding_hidden, seq_mask, mask_nums这几个不解释了，构造mask的，对于理解模型无关
    	'''
        current_embeddings = []

        for st in node_stacks:
            if len(st) == 0:
                current_embeddings.append(padding_hidden)
            else:
                current_node = st[-1]#current_node.embedding就是当前节点的目标向量q
                current_embeddings.append(current_node.embedding)

        current_node_temp = []
        for l, c in zip(left_childs, current_embeddings):
            if l is None:
                c = self.dropout(c)
                g = torch.tanh(self.concat_l(c))
                t = torch.sigmoid(self.concat_lg(c))
                current_node_temp.append(g * t)#这几行公式论文中找不到
                #ｃ是每一个节点的目标向量
            else:
                ld = self.dropout(l)
                c = self.dropout(c)
                g = torch.tanh(self.concat_r(torch.cat((ld, c), 1)))
                t = torch.sigmoid(self.concat_rg(torch.cat((ld, c), 1)))
                current_node_temp.append(g * t)

        current_node = torch.stack(current_node_temp)#

        current_embeddings = self.dropout(current_node)

        current_attn = self.attn(current_embeddings.transpose(0, 1), encoder_outputs, seq_mask)
        current_context = current_attn.bmm(encoder_outputs.transpose(0, 1))  # B x 1 x N

        # the information to get the current quantity
        batch_size = current_embeddings.size(0)
        # predict the output (this node corresponding to output(number or operator)) with PADE

        repeat_dims = [1] * self.embedding_weight.dim()
        repeat_dims[0] = batch_size
        embedding_weight = self.embedding_weight.repeat(*repeat_dims)  # B x input_size x N
        #self.embedding_weight代表的是常数的embedding,size()==(2,embed_dim)
        #常数的表示向量对于所有问题都是通用的，所以我们可以把它重复batch_size次
        embedding_weight = torch.cat((embedding_weight, num_pades), dim=1)  # B x O x N
        #num_pades就是当前的batch个问题中，每一个问题中数字的embedding
		#此时的embedding_weight.size()==(batch_size,2+3,dim)，所以说此时的embedding_weigth相当于一个查找表，用来查找常数和问题中数字的嵌入向量
        leaf_input = torch.cat((current_node, current_context), 2)
        #相当于结合了q和c，leaf_input.size()==(batch_size,hidden_dim*2)
        leaf_input = leaf_input.squeeze(1)
        leaf_input = self.dropout(leaf_input)

        # p_leaf = nn.functional.softmax(self.is_leaf(leaf_input), 1)
        # max pooling the embedding_weight
        embedding_weight_ = self.dropout(embedding_weight)
        num_score = self.score(leaf_input.unsqueeze(1), embedding_weight_, mask_nums)
        #关于Score的解释见下面，看完了score的解释再回头看这个
        #现在我们知道num-score.size()==(batch_size,2+3)

        # num_score = nn.functional.softmax(num_score, 1)

        op = self.ops(leaf_input)#ops就是用来预测当前的token是不是运算符的
        #op.size()==(batch_size,4)
        #而num_score是用来预测当前的token是不是数字的，是数字的话是论文中的数字还是常数
		#current_context就是论文中c,current_node姑且认为是论文中的q，但是计算的方式在论文中没有提及
        return num_score, op, current_node, current_context, embedding_weight

下面解释下score

class Score(nn.Module):
    def __init__(self, input_size, hidden_size):
        super(Score, self).__init__()
        self.input_size = input_size#input_size=hidden_size*2
        self.hidden_size = hidden_size
        self.attn = nn.Linear(hidden_size + input_size, hidden_size)
        self.score = nn.Linear(hidden_size, 1, bias=False)

    def forward(self, hidden, num_embeddings, num_mask=None):
    	'''
    	hidden是目标向量q和上下文向量c的结合,hidden.size()==(batch_size,dim*2)
    	num_embeddings是数字的嵌入表示，包括问题中的数字和常数，size()==(batch_size,2+3,dim)
    	其中2是指在所有的问题中有两个常数，3是指当前的batch中出现数字次数最多的那个问题出现了三次数字
    	'''
        max_len = num_embeddings.size(1)
        repeat_dims = [1] * hidden.dim()
        repeat_dims[1] = max_len
        hidden = hidden.repeat(*repeat_dims)  # B x O x H
        # For each position of encoder outputs
        this_batch_size = num_embeddings.size(0)
        energy_in = torch.cat((hidden, num_embeddings), 2).view(-1, self.input_size + self.hidden_size)
        #注意注意这个energy_in，它将c,q,num_embeddings连接起来，这正对应着公式7中的[q,c,e(y|P)]
        #只不过此时的e(y|P)不包含运算符的嵌入表示向量，所以预测出来的分数是数字的分数，不预测运算符
        #这也是为什么代码中起名字叫num_score，指的就是预测的所有数字的分数。
        score = self.score(torch.tanh(self.attn(energy_in)))  # (B x O) x 1
        score = score.squeeze(1)
        score = score.view(this_batch_size, -1)  # B x O
        if num_mask is not None:
            score = score.masked_fill_(num_mask, -1e12)
            #这行代码很重要很重要，因为我们知道我们已经将所有数字给pad了，也就是由于第一个问题有3个数字
            #第二个问题有两个数字，所以第二个问题的数字向量的最后一位其实应该是0，所以我们必须把这个位置赋值为很小的数字，这样做
            #softmax才能忽略这个位置，不然模型就会预测出不存在的数字
        return score

现在我们结束了predict:

for t in range(max_target_length):
    num_score, op, current_embeddings, current_context, current_nums_embeddings = predict(
        node_stacks, left_childs, encoder_outputs, all_nums_encoder_outputs, padding_hidden, seq_mask, num_mask)

num_score.size()==(batch_size,2+3)，这个tensor的含义是预测当前节点的token是数字的分数，这里的数字包括常数和问题中的数字
op.size()==(batch_size,4)，这个tensor的含义是预测当前节点的token是运算符的分数。
current_embeddings.size()==(batch_size,dim)，这个tensor指的是当前节点的目标向量
current_context.size()==(batch_size,dim)，这个tensor指的是当前节点的上下文信息向量，它是利用目标向量和encoder_outputs做注意力计算得到的。
current_nums_embeddings.size()==(batch_size,2+3,dim)。这个tensor指的是当前节点对应的数字的embedding，前两个是常数的嵌入向量

print("当前的token可能是哪一个运算符 : ",op)
print("当前的token可能是常数还是问题中的数字的 : ",num_score)
print("当前节点的目标向量q : ",current_embeddings)
print("当前节点的上下文向量c : ",current_context)
print("当前节点对应的e(y|P)中是数字(包含常数或者问题中的数字)的embedding : ",current_nums_embeddings)

我们可以观察到，num_score的第二个问题对应的向量的最后一个值是-1e12，因为这个位置是pad的；此外current_nums_embeddings的两个问题对应的数字嵌入向量的前两个值都是一样的。因为常数嵌入对于所有问题都是适用的。

outputs = torch.cat((op, num_score), 1)#显然中的显然，outputs代表的就是公式(7)中的s(y|q,c,P)
print("预测当前节点对应的token : ",outputs)
all_node_outputs.append(outputs)
print("当前的batch个样本中是否出现了重复数字 : ",num_stack_batch)
print("在output_lang.word2index中数字的起始下标 : ",num_start)
print(output_lang.word2index)
print(unk)

outputs将op和num_score连接起来，那么显然outputs就是论文中的 $s(y|\mathbf{q,c},P)$ ，他代表的就是预测当前节点是哪一个token，其中前四个位置是预测为运算符的分数，后面的位置是预测为数字的分数

我们接下来进入generate_tree_input，在这之前我们看看target是什么

target就是每一个问题的前缀数学表达式，我们现在t=0,所以target[0]就是两个问题对应的表达式的第一个token。显然第一个问题的表达式的第一个字符是-；第二个问题的表达式的第一个字符是*；

现在把模型预测的outputs和target送入generate_tree_input

def generate_tree_input(target, decoder_output, nums_stack_batch, num_start, unk):
    # when the decoder input is copied num but the num has two pos, chose the max
    # decoder_output就是上面的ouputs，它的size==(batch_size,4+2+3)，也就是预测当前的token是
    #运算符还是数字的分数
    target_input = copy.deepcopy(target)
    #target的长度就是batch_size
    for i in range(len(target)):
        if target[i] == unk:
        	#这里面unk=11，target[i]=unk的唯一可能就是当前的问题出现了重复的数字
        	#而出现重复的数字时，论文的做法是保留数字在表达式中，这就是的表达式出现了除常数1和3.14
        	#以外的数字，而这个数字不在output_lang.word2index中，所以就被替换为了unk
            num_stack = nums_stack_batch[i].pop()
            #nums_stack记录的正是重复数字在nums中的位置，nums中记录的是问题中出现的所有数字的位置
            max_score = -float("1e12")
            for num in num_stack:
            	#num的含义就是该数字在nums中的位置
            	#显然decoder[i,4+num]就表示预测该数字的分数
            	#由于有两个重复的数字，他们出现在不同的位置，所以我们取较大的分数的那个位置的数字作为预测值
                if decoder_output[i, num_start + num] > max_score:
                    target[i] = num + num_start
                    max_score = decoder_output[i, num_start + num]
        if target_input[i] >= num_start:
            target_input[i] = 0
    return torch.LongTensor(target), torch.LongTensor(target_input)
    #注意这里面对于target中出现unk位置的情况，我们已经将unk替换为对应的数字的预测分数，所以此时的target才是真正的target
    #但是target_input将那些凡是数字的target全部替换掉是为什么呢

现在我们的代码目前是:

target_t, generate_input = generate_tree_input(target[t].tolist(), outputs, nums_stack_batch, num_start, unk)
target[t] = target_t

根据上面的解释我们知道，假如所有问题中不出现重复的数字，那么target[t]=target_t这一步是不用做的。

接下来我们来看generate

class GenerateNode(nn.Module):
    def __init__(self, hidden_size, op_nums, embedding_size, dropout=0.5):
        super(GenerateNode, self).__init__()
		
        self.embedding_size = embedding_size
        self.hidden_size = hidden_size

        self.embeddings = nn.Embedding(op_nums, embedding_size)#op_nums是4
        self.em_dropout = nn.Dropout(dropout)
        self.generate_l = nn.Linear(hidden_size * 2 + embedding_size, hidden_size)
        self.generate_r = nn.Linear(hidden_size * 2 + embedding_size, hidden_size)
        self.generate_lg = nn.Linear(hidden_size * 2 + embedding_size, hidden_size)
        self.generate_rg = nn.Linear(hidden_size * 2 + embedding_size, hidden_size)

    def forward(self, node_embedding, node_label, current_context):
    	'''
    	node_embedding.size()==(batch_size,1,dim)==current_context.size()
    	node_label的长度是batch_size，取值在[0,4)之间，因为在generate_input中我们已经把不是运算符的标签
    	全部替换为0
    	'''
        node_label_ = self.embeddings(node_label)#(batch_size,dim)
        #也就是将每一个运算符嵌入成一个向量
        node_label = self.em_dropout(node_label_)
        node_embedding = node_embedding.squeeze(1)
        current_context = current_context.squeeze(1)
        node_embedding = self.em_dropout(node_embedding)
        current_context = self.em_dropout(current_context)
		#这三个tensor的size都是(batch_size,dim)
        l_child = torch.tanh(self.generate_l(torch.cat((node_embedding, current_context, node_label), 1)))
        l_child_g = torch.sigmoid(self.generate_lg(torch.cat((node_embedding, current_context, node_label), 1)))
        r_child = torch.tanh(self.generate_r(torch.cat((node_embedding, current_context, node_label), 1)))
        r_child_g = torch.sigmoid(self.generate_rg(torch.cat((node_embedding, current_context, node_label), 1)))
        l_child = l_child * l_child_g
        r_child = r_child * r_child_g
        return l_child, r_child, node_label_
        #l_child是左子树,r_child是右子树,node_label_是对应的运算符的向量表示

下面我们进入到代码：

left_child, right_child, node_label = generate(current_embeddings, generate_input, current_context)
left_childs = []
for idx, l, r, node_stack, i, o in zip(range(batch_size), left_child.split(1), right_child.split(1),
                                               node_stacks, target[t].tolist(), embeddings_stacks):

从这里我们就知道了，原来current_embeddings对应的不是目标向量,node_stacks里面才是节点的目标向量
current_embeddings只不过是将目标向量通过了一层全链接层，这也是为什么后来的generate中左右子树都只有一层全连接层，因为目标向量已经通过了一次全连接层
但是在预测outputs的时候又是用的current_embeddings，这与论文中的公式7不符合
left_child是左子树,right_child是右子树的嵌入，这也是为什么要将target中的数字替换为0，因为我们一开始默认所有节点都是运算符，都是有子树的

left_childs = []
print("当前的标签 : ",target[t].tolist() )
print("当前的batch个问题对应的节点 : ",node_stacks)
for idx, l, r, node_stack, i, o in zip(range(batch_size), left_child.split(1), right_child.split(1),
                                       node_stacks, target[t].tolist(), embeddings_stacks):
    if len(node_stack) != 0:
        node = node_stack.pop()
    else:
        left_childs.append(None)
        continue
    #node就是目标向量
    if i < num_start:
        #如果当前的标签是运算符(注意target是真的标签，没有被替换的，只是其中的unk被替换为真正的数字)
        node_stack.append(TreeNode(r))
        node_stack.append(TreeNode(l, left_flag=True))
        o.append(TreeEmbedding(node_label[idx].unsqueeze(0), False))#node就是运算符的向量表示
        #False表示当前还有子目标
    else:
        #当前的标签是数字，current_nums_embeddings中记录的是所有数字的embeddings，所以要i-num_start才能对应上正确的位置
        #current_embedding.size()==(batch_size,2+3,dim)
        current_num = current_nums_embeddings[idx, i - num_start].unsqueeze(0)
        #current_num就是这个数字的embedding
        while len(o) > 0 and o[-1].terminal:
            sub_stree = o.pop()
            op = o.pop()
            current_num = merge(op.embedding, sub_stree.embedding, current_num)
            #如果len(o)>0，merge就是将两个子目标的嵌入向量合并作为该节点的subtree_embedding，对应的是论文中公式12
        o.append(TreeEmbedding(current_num, True))#current_num和node_label是对应的
        #True表示到达叶子节点
    if len(o) > 0 and o[-1].terminal:
        left_childs.append(o[-1].embedding)
    else:
        left_childs.append(None)

执行完之后：

也就是说，执行完上述流程之后，我们将这两个问题的根节点的左右子树找到了。

我们再次执行一遍上述流程,t+=1

得到了最左侧的节点：

正是数字对应的embeddings

执行完真个max_target_length后，我们有：

显然all_nodes_outputs.size()==(batch_size,max_target_length,4+2+3)
代表的含义就是预测的token的分数，一共有max_target_length个时间步，注意的是不同的batch，时间步也不同，取决于那个batch中最长的表达式的长度。
而且不同的batch，最后的维度，也就是4+2+3中的3也是不一样的
取决于那个batch中所有问题中出现数字次数最多的那个问题中数字出现的次数

最后终于到了

loss = masked_cross_entropy(all_node_outputs, target, target_length)
loss.backward()

train_tree也就结束了，整个训练过程就是这样

接下来来看预测阶段

print(len(test_pairs))
for i,pair in enumerate(test_pairs):
    if pair[-1]!=[]:
        demo_pair=pair
        break
print("我们用下面这个example作为测试阶段的演示",demo_pair)
print("对应的问题是　: ",data[i])

可以看到，这个例子中，5月份的5也是数字，所以此时的nums=[5,16.5,2.1,5]，nums中出现了重复数字。而且对应的num_stack记录的就是重复数字在nums中的位置，所以num_stack=[[0,3]]。

下面我们来看evaluate_tree

首先来看输入:

demo=demo_pair
input_seq=demo[0]
input_seq_length=demo[1]
output_seq=demo[2]
output_seq_length=demo[3]
nums=demo[4]
num_pos=demo[5]
num_stack=demo[6]
seq_mask = torch.ByteTensor(1, input_seq_length).fill_(0)
input_var = torch.LongTensor(input_seq).unsqueeze(1)
num_mask = torch.ByteTensor(1, len(num_pos) + len(generate_nums)).fill_(0)
#由于是一个一个样本的计算，所以不需要seq_mask和num_mask
padding_hidden = torch.FloatTensor([0.0 for _ in range(predict.hidden_size)]).unsqueeze(0)
batch_size = 1
print(num_mask)
print(seq_mask)
print(num_pos)

通过encoder后，得到encoder_outputs和这个问题的根节点向量

encoder_outputs, problem_output = encoder(input_var, [input_seq_length])
print("当前问题的根节点向量q : ",problem_output)
print(encoder_outputs.size())#(seq_length,1,dim)

得到node_stacks

node_stacks = [[TreeNode(_)] for _ in problem_output.split(1, dim=0)]
num_size=len(num_pos)
print("当前这个问题中有%d个数字出现"%num_size)
print(node_stacks[0][0].embedding)

得到问题中数字对应的嵌入all_nums_encoder_outputs

all_nums_encoder_outputs = get_all_number_encoder_outputs(encoder_outputs, [num_pos], batch_size, num_size,
                                                          encoder.hidden_size)
print("当前这个问题中所有数字对应的embedding : ",all_nums_encoder_outputs)#(4,dim)因为有四个数字

num_start = output_lang.num_start
# B x P x N
embeddings_stacks = [[] for _ in range(batch_size)]
left_childs = [None for _ in range(batch_size)]

def copy_list(l):
    r = []
    if len(l) == 0:
        return r
    for i in l:
        if type(i) is list:
            r.append(copy_list(i))
        else:
            r.append(i)
    return r

class TreeBeam:  # the class save the beam node
    def __init__(self, score, node_stack, embedding_stack, left_childs, out):
        self.score = score
        self.embedding_stack = copy_list(embedding_stack)
        self.node_stack = copy_list(node_stack)
        self.left_childs = copy_list(left_childs)
        self.out = copy.deepcopy(out)

MAX_OUTPUT_LENGTH = 45
max_length=MAX_OUTPUT_LENGTH
print(node_stacks,embeddings_stacks,left_childs)

beams = [TreeBeam(0.0, node_stacks, embeddings_stacks, left_childs, [])]

从这里开始进入for循环

t=0
current_beams=[]
b=beams.pop()
left_childs = b.left_childs
print("predict的输入如下 : ")
print(b.node_stack)
print(left_childs)
print(padding_hidden)

num_score, op, current_embeddings, current_context, current_nums_embeddings = predict(
    b.node_stack, left_childs, encoder_outputs, all_nums_encoder_outputs, padding_hidden,
    seq_mask, num_mask)
print("num_score指的是预测token是数字的分数 (长度应该是2+4)",num_score)
print("op指的是预测token是运算符的分数 (长度应该是4)",op)
print("current_embeddings指的是根目标向量经过一层全连接层后 : ",current_embeddings)
print("上下文向量c : ",current_context)
print("当前这个对应的数字嵌入，也就是在原来的基础上加上常数的嵌入(需要特别注意的是predi \
      ct类只有一个，而关于常数的嵌入矩阵是predict的一个成员变量，所以对于所有的问题，都是通用的)",current_nums_embeddings)

往回找一下，就会发现当前current_num_embeddings的前两行和前面的current_num_embeddings的前两行是一样的

获得预测该token的概率

outputs=torch.cat((op,num_score),dim=1)#对应的就是论文中的s(y|q,c,P)
print(outputs)
print(outputs.size())#(1,10) 这里的10=4+2+4，第一个4是加减乘除,2代表的是1和3.14，第二个4是因为这个问题中出现了四个数字
out_score = nn.functional.log_softmax(torch.cat((op, num_score), dim=1), dim=1)
print(out_score)

print(beam_size)
topv,topi=out_score.topk(beam_size)
print(topv)
print(topi)

当我们取argmax(output_score)时，得到的下标就是我们要预测的那个token在output_lang.word2index中对应的下标

topv_zip=topv.split(1,dim=1)
topi_zip=topi.split(1,dim=1)
vi=0
tv=topv_zip[vi]
ti=topi_zip[vi]
print(tv,ti)

一共要做5路树搜索

current_node_stack = copy_list(b.node_stack)
current_left_childs = []
current_embeddings_stacks = copy_list(b.embedding_stack)
current_out = copy.deepcopy(b.out)

out_token = int(ti)
print("预测的token对应的id ",out_token)
print("预测的token是 : ",output_lang.index2word[out_token])
current_out.append(out_token)

#由于此时的output_token>num_start
current_num = current_nums_embeddings[0, out_token - num_start].unsqueeze(0)
#output_token是6，6-num_start=2，而current_num_embeddings的第三个元素正好是N0对应embedding
print(current_embeddings_stacks)#current_embeddings_stacks[0]==0
current_embeddings_stacks[0].append(TreeEmbedding(current_num, True))
if len(current_embeddings_stacks[0]) > 0 and current_embeddings_stacks[0][-1].terminal:
    current_left_childs.append(current_embeddings_stacks[0][-1].embedding)
current_beams.append(TreeBeam(b.score+float(tv), current_node_stack, current_embeddings_stacks,
                              current_left_childs, current_out))

按照上述流程走完一遍，我们知道：

current_embeddings_stacks存储的是子树嵌入
current_node_stacks存储的是目标向量
b.score记录的是每个时间步预测一个token对应的分数

计算前缀结果：

def out_expression_list(test,output_lang,num_list,num_stack):
    max_index=output_lang.n_words
    result=[]
    for i in test:
        if i<max_index-1:
            #也就是说i不是unk对应的
            token=output_lang.index2word[i]
            if token[0]=='N':
                #说明这个是问题中出现的数字，所以token[1:]这个数字对应的就是该数字在num_list中的位置，最后就可以根据num_list还原回这个数字
                if int(token[1:])>=len(num_list):
                    #说明此时预测的token虽然是数字，但是已经超出了该问题中出现数字的次数，
                    #这种情况主要是因为pad引起的，因为每一个问题中出现数字的次数显然不同
                    #所以在预测那些出现数字次数比较少的问题的表达式的时候，由于decoder端的词汇包含了当前batch中出现数字次数最多的
                    #那个次数，就会出现预测的数字对应的位置比实际问题中出现的数字次数还要大
                    return None
                
                result.append(num_list[int(token[1:])])
            else:
                result.append(token)#此时的token可能是加减乘除或者1和3.14，不需要替换
        else:
            #也就是说此时的i是对应着unk，那么说明出现了重复数字,num_stack必然不空
            assert len(num_stack)>1
            duplicated_number_position=num_stack.pop()
            #duplicated_number_position必然有两个数字，代表的是重复数字在num_list中的位置
            c=num_list[duplicated_number_position[0]]#0或者1无所谓，因为都是一样的
            result.append(c)#我们同样将预测的unk替换为了原来的真实的数字
    return result

#关于计算前缀表达式的代码参考原论文

def compute_prefix_tree_result(test_res,test_tar,output_lang,num_list,num_stack):
    '''
    num_list就是nums，也就是问题中所有出现的数字
    num_stack就是记录的问题中重复数字在num_list中的位置
    '''
    if len(num_stack)==0 and test_res==test_tar:
        #没有出现重复数字，而且预测的表达式的与真实的表达式完全一致
        return True,True
    test = out_expression_list(test_res, output_lang, num_list,copy.deepcopy(num_stack))
    print("预测的前缀表达式 : ",test)
    tar = out_expression_list(test_tar, output_lang, num_list, copy.deepcopy(num_stack))
    print("实际的前缀表达式 : ",tar)
    if test is None:
        return False,False
    if test==tar:
        return True,True
    
    try:
        if abs(compute_prefix_expression(test)-compute_prefix_expression(tar))<1e-4:
            return True,False
        else:
            return False,False
    except:
        return False,False

我们举个例子

demo_target=[1, 3, 0, 6, 1, 4, 7, 1, 4, 8, 6]
demo_predict=[0,1,6,4,7]
compute_prefix_tree_result(demo_predict,demo_target,output_lang,num_list=nums,num_stack=[])

其中out_expression_list的作用就是将预测的id替换成对应的token，

如果预测的id是0,1,2,3中的一个，那么直接替换为对应的加减乘除。
如果id是4或者5，那么替换为对应的1或者3.14。
如果id是6,7,…直到unk所在的前一个id，那么根据output_lang.index2word我们就可以得到对应的Ni，这个i取决于模型的预测，
- 如果模型预测的这个i值大于该问题中出现的数字的次数，那么直接返回None，因为此时模型预测的数字根本就不在问题中出现过
- 如果模型预测的这个i值小于该问题中出现的数字的次数，那么就可以还原这个预测的数字了，因为这个i值正好对应的是num_list中的下标索引，num_list[i]就是问题中的数字
另一方面，如果模型预测的id是unk，那么说明问题中出现了重复数字，此时需要num_stack来还愿，因为num_stack记录的是重复数字在num_list中的位置，所以根据num_stack和num_list就可以找到原数字

终于结束了

你可能感兴趣的:(NLP,深度学习,自然语言处理,机器学习,算法,nlp)

分类模型（BERT）训练全流程巴伦是只猫人工智能分类 bert 数据挖掘
使用BERT实现分类模型的完整训练流程BERT(BidirectionalEncoderRepresentationsfromTransformers)是一种强大的预训练语言模型，在各种NLP任务中表现出色。下面我将详细梳理使用BERT实现文本分类模型的完整训练过程。1.准备工作1.1环境配置pipinstalltransformerstorchtensorflowpandassklearn1.2
【加解密与C】Rot系列(四)Rot8000 阿捏利加解密与C c语言 Rot8000
Rot8000简介Rot8000是一种基于Unicode字符集的旋转加密算法，类似于经典的Rot13，但扩展到了更大的字符范围（通常是Unicode的基本多语言平面，即U+0000到U+FFFF）。Rot13仅适用于26个拉丁字母，而Rot8000通过覆盖更多字符（如中文、符号等），增强了加密的灵活性和趣味性。Rot8000加密原理Rot8000的核心思想是将每个Unicode字符的码点值加上0x
python排序算法之基数排序华强笔记 python数据结构和算法 python 算法
#代码如下：'''基数排序：1.把数据分为10个桶，以为数字有0-9这10个2.依次把数据的个位，十位，百位等等各个位数的数据进行分桶排序，放在这10个桶中3.最大的数有k位，则循环k次4.时间复杂度O(kn),空间复杂度O(k+n),其中k=log10(n)+1'''defradixs_sort(li):max_num=max(li)it=0while10**it<=max_num:bucket
python折半查找算法_python二分查找代码试用递归法编写python程序实现折半查找算法...
python二分查找算法函数bi_search(),该函数实现检回忆，很美却很伤；回忆只是回不到过去的记忆。输入格式:第一行为正整数n接下来若干行为待查找的数字，每行输入一个总是女人为了天长地久而烦恼，男人却可以洒脱地出乎意料。defprime(n):ifnend:return-1mid=(start+end)//2ifprimelist[mid]==prime:returnmidelifprim
开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-玩转ollama（一）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言在AI大模型百花齐放的时代，很多人都对新兴技术充满了热情，都想尝试一下。然而，实际上要入门AI技术的门槛非常高。除了需要高端设备，还需要面临复杂的部署和安装过程，这让很多人望而却步。在这样的背景下，Ollama的出现为广大开发者和爱好者提供了一条便捷的道路，极大地降低了应用机器学习的门槛。Ollama的优势在于其极致的简化。通过这个平台，用户可以轻松下载、运行和管理各种机器学习模型，而无需
机器学习之——认识机器学习 -睡到自然醒~ golang 重构开发语言
首先，什么是机器学习？参照百度百科的讲解，“机器学习是一门多领域交叉学科，设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习能力，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。”什么意思呢？也就是说，机器学习是一门跨领域的学科，是一种能够让机器模仿人类学习能力的一种学科。在Andrew的课程中，提到了几个机器学习的定义：1，A
Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
Python --- day 10 Opencv模块的使用 AnAn__kang python opencv 开发语言
系列文章目录前言今天博主带大家进入Opencv的学习，这是一个专门针对处理图像和视频的一个模块，大家以理解为主，增强自己的编程思维，再后续我们训练模型时会大批量的处理图片时会经常用到这个模块。1OpenCV介绍OpenCV（开放源代码计算机视觉库）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成，用于图像处理、计算机视觉领域的算法实现。1.1OpenCV优势**开源免费：**完全
时序数据库在数据库领域的行业应用数据库管理艺术数据库时序数据库 ai
时序数据库在数据库领域的行业应用关键词：时序数据库、数据库领域、行业应用、时间序列数据、实时分析摘要：本文深入探讨了时序数据库在数据库领域的行业应用。首先介绍了时序数据库的背景知识，包括其目的、适用读者、文档结构和相关术语。接着阐述了时序数据库的核心概念、架构和工作原理，通过Python代码详细讲解了核心算法。还介绍了相关的数学模型和公式，并举例说明。在项目实战部分，给出了开发环境搭建、源代码实现
Python --- Day3 推导式及常见语句和内置函数的学习！！！
系列文章目录前言相信各位伙伴们在前俩次的文章和Python的基础学习中大有收获，这次我们将进入推导式，常见语句和内置函数的学习！跟着博主一起成为一名Ai的算法工程师！一、推导式用更简洁的方式创建列表、字典和集合。是Python特有的一种表达式形式。1.1列表推导式a=[1,2,3,4]result=[x*2forxina]#创建一个新列表，元素是原列表每个元素的两倍1.2字典推导式a=['a','
深度学习图像分类数据集—百种病虫害分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：百种病虫害识别分类，训练集45095张，验证集7508张，测试集22619张具体类别为以下：insect_classes=["rice_leaf_roller","rice_leaf_caterpillar
机器学习数据预处理阶段为什么需要——归一化处理
参考：https://www.cnblogs.com/bjwu/p/8977141.html通常，在DataScience中，预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明，主要把各个标准化方法的应用场景以及优缺点总结概括，以来充当笔记。提升模型精度在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化)，许多学习算法中目标函数
48Days-Day03 | 删除公共字符，两个链表的第一个公共结点，mari和shiny TinaAmber 笔试训练48Days 链表 java 算法
删除公共字符删除公共字符_牛客题霸_牛客网算法思路直接哈希，把第二个字符塞集合里面，遍历第一个，只要在集合里面有的就跳过代码importjava.util.HashSet;importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannerscan=newScanner(System.in);Strin
李航老师-统计学习小三爷_df1b
三个准则1.作为入门选手，不要每章都看2.不要从零造轮子去实现算法，太浪费时间3.必须能手推公式章节目录##统计学习概论-统计学习的目的是对数据进行==预测与分析==-统计学习的前提是同类数据具有一定的统计规律性-统计学习的方法-监督学习(supervisedlearning)-非监督学习(unsupervisedlearning)-半监督学习(semi-supervisedlearning)-强
车辆云端威胁情报共享系统的多维解析与发展路径百态老人大数据人工智能
第一部分：内容本质提取原始内容描述了一个闭环网络安全体系：“车辆实时上传异常行为日志至安全运营中心（VSOC），云端通过机器学习分析攻击模式并下发全局防御策略”。其核心架构包含：数据采集层：车辆端持续收集异常行为日志数据，包含CAN总线通信模式、网络流量特征及驾驶行为数据传输层：通过V2X通信协议和OTA更新通道实现车云双向通信分析层：安全运营中心(VSOC)采用CNN-BiSRU等深度学习模型进
基于深度学习的语音识别：从音频信号到文本转录 Blossom.118 机器学习与人工智能深度学习语音识别音视频人工智能机器学习线性代数计算机视觉
前言语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域中一个极具挑战性和应用前景的研究方向。它通过将语音信号转换为文本，为人们提供了更加自然和便捷的人机交互方式。近年来，深度学习技术在语音识别领域取得了显著进展，极大地提高了语音识别的准确率和鲁棒性。本文将详细介绍如何使用深度学习技术构建一个语音识别系统，从音频信号的预处理到模型的训练与部署。一、语音识别的基本概
过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶 Ryan_sz1
1、过拟合、欠拟合及其解决方案过拟合、欠拟合机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题，但是，一开始我们的模型往往是欠拟合的，也正是因为如此才有了优化的空间，我们需要不断的调整算法来使得模型的表达能拿更强。但是优化到了一定程度就需要解决过拟合的问题了。也就是说欠拟合是模型表达能力不够，达不到很好的表达效果。而过拟合是在训练集的范围内表达能力过强，导致完全拟合了训练集。解决
InPixio Photo Maximizer(图片无损放大软件) v5.3.8625 便携版
InPixioPhotoMaximizer是一款用于放大和增强照片的软件。它提供了一系列功能和特点，使用户能够通过增大分辨率和细节来改善照片的质量和清晰度。软件功能图像放大：通过使用高级算法，可以将照片放大到原始分辨率的4倍，而保持良好的清晰度和细节。细节增强：通过增加图像的细节和锐度，可以改善照片的质量，并使图像更加清晰和逼真。手动调整：用户可以使用软件的手动调整工具，根据自己的需求进行尺寸和细
数字人系统：AI界的超级巨星，你准备好了吗？优秘智能UMI 数字人人工智能深度学习计算机视觉机器学习自然语言处理语言模型图像处理
在这个日新月异的科技时代，每一个创新的火花都可能点燃一场变革的燎原之火。今天，我们要聊的，正是那颗在AI领域熠熠生辉的璀璨新星——优秘数字人系统。它不仅仅是技术的飞跃，更是对未来生活方式的深刻重塑，一场关于人机交互、智能共生的美好预演。技术原理：深度解析与智能构建的奥秘1.深度学习：智能的基石数字人系统的核心技术之一在于深度学习。深度学习是一种模仿人脑神经网络结构和功能的机器学习技术，通过构建多层
“专属私有云”或“行业公有云（逻辑隔离的公共云专区）”两种主流部署模式到底有什么区别？政务云不就应该是专属的私有云么？政务云是不是不能混用？
一、安全合规性要求分层，驱动部署模式分化核心敏感系统需物理隔离（专属私有云）涉及公民隐私、国家安全（如公安、财政、医保核心数据库）的系统，必须通过物理隔离的专属私有云保障绝对控制权。例如：浦东新区公安局的涉密数据采用自建私有云，确保数据完全自主管控3。某省地市政务云要求核心业务部署在信创私有云，满足等保三级和国密算法评估要求5。非敏感公共服务适用逻辑隔离（行业公有云）面向公众的服务（如社保查询、线
AES加密算法简要介绍 ° 安如少年初如梦662 Java学习记录后端前端
前言项目中需要在接口中添加加密，简单了解关于AES的有关知识，低质低创见谅。什么是AESAES（AdvancedEncryptionStandard，高级加密标准）是一种对称加密算法，被广泛应用于数据加密领域。它是由美国国家标准与技术研究院（NIST）于2001年发布，作为一种公开标准，用于保护电子数据的安全。值得一提的是微信小程序的加密传输就是用这个加密算法基本原理和加解密过程由于站内有很详细，
聚焦基础研究突破，北电数智联合复旦大学等团队提出“AI安全”DDPA方法入选ICML CSDN资讯人工智能安全数据要素大数据
近日，由北电数智首席科学家窦德景教授牵头，联合复旦大学和美国奥本大学等科研团队共同研发，提出一种DDPA（DynamicDelayedPoisoningAttack）新型对抗性攻击方法，为机器学习领域的安全研究提供新视角与工具，相关论文已被国际机器学习大会（ICML2025）收录。ICML由国际机器学习学会（IMLS）主办，聚焦深度学习、强化学习、自然语言处理等机器学习前沿方向，是机器学习与人工智
格灵深瞳视觉算法面试30问全景精解机＿长算法面试职场和发展
格灵深瞳视觉算法面试30问全景精解——AI感知×智能安防×场景创新：格灵深瞳视觉算法面试核心考点全览前言格灵深瞳（GREATVISION）作为国内领先的人工智能与计算机视觉企业，专注于智慧安防、智能交通、智慧零售等领域，推动视觉算法在大规模城市级场景的落地。格灵深瞳视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在复杂场景下的创新能力与工程实践。本文精选30个高质量面试问题，涵盖基
商汤科技视觉算法面试30问全景精解
商汤科技视觉算法面试30问全景精解——AI赋能×智能视觉×产业创新：商汤科技视觉算法面试核心考点全览前言商汤科技（SenseTime）作为全球领先的人工智能平台公司，专注于计算机视觉、深度学习和智慧城市、智能汽车、智能医疗等领域，推动人脸识别、目标检测、视频分析、自动驾驶等前沿技术的产业化落地。商汤视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、自动驾驶、智慧医疗等复
旷视科技视觉算法面试30问全景精解机＿长科技算法面试深度学习 YOLO
旷视科技视觉算法面试30问全景精解——AI赋能×智能安防×视觉创新：旷视科技视觉算法面试核心考点全览前言旷视科技（Megvii）作为全球领先的人工智能公司，专注于计算机视觉、深度学习和智能安防等领域，推动人脸识别、目标检测、视频分析、工业视觉等前沿技术的产业化落地。旷视视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、工业检测、智慧城市等复杂场景下的创新与工程能力。本文
蔚来汽车视觉算法面试30问全景精解
蔚来汽车视觉算法面试30问全景精解——智能电动×高阶辅助驾驶×视觉创新：蔚来汽车视觉算法面试核心考点全览前言蔚来汽车作为全球领先的智能电动汽车品牌，致力于通过AI与高阶辅助驾驶技术推动智能出行的未来。蔚来视觉算法团队专注于自动驾驶感知、智能座舱、车路协同、3D重建等领域，强调算法的工程落地、系统安全与创新突破。蔚来视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在自动驾驶、智能感知
深入解析Hadoop中的推测执行：原理、算法与策略码字的字节 hadoop布道师 hadoop 算法推测执行
Hadoop推测执行概述在分布式计算环境中，任务执行速度的不均衡是一个普遍存在的挑战。Hadoop作为主流的大数据处理框架，通过引入推测执行（SpeculativeExecution）机制有效缓解了这一问题。该技术本质上是一种乐观的容错策略，当系统检测到某些任务执行明显落后于预期进度时，会自动在其它计算节点上启动相同任务的冗余副本，最终选择最先完成的任务结果作为输出。核心设计动机推测执行的诞生源于
阿里云态势感知和安骑士有什么区别？阿腾云
阿里云态势感知和安骑士均是阿里云云盾安全产品，态势感知属于安全管理类的产品，安骑士数据服务器安全类产品，阿里云百科网来详细说下阿里云态势感知和安骑士之间的区别：态势感知和安骑士的区别简单来说，安骑士是检测云服务器漏洞的，态势感知提供安全类的大数据分析服务。态势感知：安全大数据分析平台，通过机器学习和结合全网威胁情报，发现传统防御软件无法覆盖的网络威胁，溯源攻击手段、并且提供可行动的解决方案。安骑士
第六届研究所圆梦反击战分仓方案老姜（姜新宁）算力3.0虚假投资真实惨痛经历为大家揭开法律咨询维权
诈骗团伙成员根据“剧情需要”，扮演不同角色与股民聊天，“讲师”进行“炒股授课”，“水军”号假扮新手股民、资深股民在群内互动吹捧“老师”，诱导被害人在虚假平台投资。慈善投票网站买数字的等等都是骗局，广大市民对此要提高警惕，遇到此类情况一概不要相信。（注明：该文章出现名字为网上冒充行骗，跟当事人无关，如果涉及侵权，可以联系作者及时删除）Workplus六年级班云算力，云计算老姜，姜新宁云端算法骗局揭晓
深度强化学习 | 图文详细推导深度确定性策略梯度DDPG算法 Mr.Winter` 机器人人工智能数据挖掘深度学习神经网络强化学习具身智能
目录0专栏介绍1演员-评论家架构1.1Critic网络优化1.2Actor网络优化2深度确定性策略梯度算法0专栏介绍本专栏以贝尔曼最优方程等数学原理为根基，结合PyTorch框架逐层拆解DRL的核心算法(如DQN、PPO、SAC)逻辑。针对机器人运动规划场景，深入探讨如何将DRL与路径规划、动态避障等任务结合，包含仿真环境搭建、状态空间设计、奖励函数工程化调优等技术细节，旨在帮助读者掌握深度强化学
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟