xhsun1997

解读(Solving Math Word Problems with Multi-Encoders and Multi-DEcoders)的代码（数据处理部分）

导入必要的包

import os,json,time,re,copy,random
from collections import Counter
import numpy as np
import torch
import torch.nn as nn

加载数据的函数

def load_raw_data(filename):
    data=[]
    with open(filename,encoding='utf-8') as f:
        lines=f.readlines()#lines是一个列表，每一个元素是文件中的一行，文件中的每7行组成一条训练样本
        
    json_string=''
    #每7行是一个样本
    for line_id,line_str in enumerate(lines):
        json_string+=line_str
        line_id+=1
        if line_id%7==0:
            example=json.loads(json_string)#json.loads可以将字典形式的字符串转换成一个字典
            #example是一个字典,key值有'id','original_text','segmented_text','equation','ans'
            if '千米/小时' in example['equation']:
                example['equation']=example['equation'][:-5]#有些等式中含有（千米/小时）这个单位，把这个单位去掉
            data.append(example)
            json_string=''
    return data

构造输入数据和输出数据的形式

这个函数是数据处理部分的核心函数

def transfer_num(data):
    '''
    将数据集中的每一个样本对应的文本问题中的数字替换成NUM
    '''
    #正则表达式中： +表示出现一次或多次，*表示出现零次或多次
    #\d*\(\d+/\d+\)\d*  这个正则是为了匹配行如 (3/5)、2(3/5)、2(3/5)12 这类的数字（也就是带有括号的分数）
    #\d+\.\d+%? 这个正则是为了匹配行如 3.5 3.5% 这类的数字（也就是小数或者带有百分号的小数）
    #\d+%? 这个正则是为了匹配整数以及3%这类的带有百分号的整数
    
    pattern=re.compile("\d*\(\d+/\d+\)\d*|\d+\.\d+%?|\d+%?")#pattern用来匹配问题文本中的所有数字
    
    pairs,generate_nums,generate_nums_dict=[],[],{
     }
    copy_nums=0#copy_nums用来记录数据集中的所有问题中，哪一个问题中出现的数字次数最多，copy_nums用来记录这个次数
    #copy_nums的数值影响着decoder端的词汇空间
    
    for example in data:
        #example行如：{'id': '5001','original_text': '某电视机厂原来每天生产116台电视机，现在每天生产的台数是原来的12倍，现在每天能生产多少台电视机？',
        #'segmented_text': '某 电视机厂 原来 每天 生产 116 台 电视机 ， 现在 每天 生产 的 台数 是 原来 的 12 倍 ， 现在 每天 能 生产 多少 台 电视机 ？',
        #'equation': 'x=116*12','ans': '1392'}
        idx=example['id']
        nums=[]#nums用来记录根据pattern匹配出的问题文本中的所有数字
        input_seq=[]#input_seq用来将问题文本中的所有数字替换成NUM
        seg=example['segmented_text'].strip().split(' ')
        #seg行如: ['某', '电视机厂', '原来', '每天', '生产', '116', '台', '电视机', '，', '现在', '每天', '生产', '的', '台数', '是', '原来', '的', '12', '倍', '，', '现在', '每天', '能', '生产', '多少', '台', '电视机', '？']
        equation=example['equation'][2:]
        #equations的形式行如： x=(25+14)/(1-(1/5)-(1/5));x=(11-1)*2;x=116*12等
        for token in seg:
            pos=re.search(pattern=pattern,string=token)#如果token是数字，那么pos返回的不是None
            if pos and pos.start()==0:
                nums.append(token[pos.start():pos.end()])
                input_seq.append('NUM')#将所有数字替换成NUM
                if pos.end()<len(token):
                    #说明此时的token不仅仅含有数字，eg： 116千克，那么input_seq中要添加千克这个单词
                    input_seq.append(token[pos.end():])
            elif token!='':
                #此时的token中没有数字
                input_seq.append(token)
        if copy_nums<len(nums):
            copy_nums=len(nums)#copy_nums用来记录所有问题中出现数字次数最多的那个问题出现的数字的次数
            
        nums_fraction=[]#nums_fraction用来记录这个问题中出现的行如(2/5)这种带括号的分数数字
        for num in nums:
            if re.search('\d*\(\d+/\d+\)\d*',num):
                nums_fraction.append(num)#num行如 5(2/5) (2/5) 5(2/5)5 这种，
        nums_fraction=sorted(nums_fraction,key=lambda x:len(x),reverse=True)#将nums_fraction中的带括号的分数数字按照长度排序
        #实验表明，排序或者不排序一点关系没有
        def seg_and_tag(equation):
            '''
            seg_and_tag函数的作用是将equation，也就是表达式中的字符分割开，例如：equation='(25+14)/(1-(1/5)-(1/5))'
            那么返回的表达式应该是['(', '25', '+', '14', ')', '/', '(', '1', '-', '(1/5)', '-', '(1/5)', ')']
            同时要将各个数字替换成Ni，i代表这个数字在问题文本中出现的顺序
            这也是为什么前面要用nums_fraction专门保存带括号的分数，这样才能使得整个括号和分数看成一个整体
            '''
            res=[]
            for num in nums_fraction:
                #如果nums_fraction是空列表,也就是说当前问题没有带括号的分数,那么这个for循环自然不会执行
                if num in equation:
                    #从equation中找到这个带括号的分数的位置
                    p_start=equation.find(num)
                    p_end=p_start+len(num)
                    if p_start>0:
                        #以上面的equation为例子，显然此时num等于(1/5)，所以p_start>0，此时我们需要处理(25+14)/(1-
                        res+=seg_and_tag(equation[:p_start])
                    if nums.count(num)==1:
                        #也就是说这个数字仅在问题文本中出现过一次，那么此时就可以用Ni代替这个数字，
                        #i表示的是这个数字在文本中出现的顺序
                        res.append('N'+str(nums.index(num)))
                    else:
                        #说明这个数字在问题文本中出现了多次，那么此时直接记录这个数字，而不用Ni替代
                        res.append(num)
                    if p_end<len(equation):
                        res+=seg_and_tag(equation[p_end:])#递归右边的部分
                    return res
            #现在已经将这类括号带分数的数字处理完毕，接下来处理整数、小数、百分数
            number_position=re.search(pattern='\d+\.\d+%?|\d+%?',string=equation)
            if number_position:
                p_start=number_position.start()
                p_end=number_position.end()
                if p_start>0:
                    #类似的，递归左边
                    res+=seg_and_tag(equation[:p_start])
                number=equation[p_start:p_end]
                if nums.count(number)==1:
                    res.append('N'+str(nums.index(number)))
                else:
                    res.append(number)
                if p_end<len(equation):
                    res+=seg_and_tag(equation[p_end:])
                return res
            #上面的代码是用来处理数字的，如：带有括号的分数、小数、整数、百分数等
            #下面的for循环处理equation中的 括号和+-/*
            for rest_op in equation:
                #rest_op要么是括号()，要么是+-/*
                res.append(rest_op)
            return res
        
        output_seq=seg_and_tag(equation=equation)#output_seq就是decoder端要生成的表达式标签
        
        for token in output_seq:
            if token[0].isdigit() and token not in generate_nums and token not in nums:
                #说明此时这是一个数字，并且这个数字没有出现在问题中，这类数字包括1或者3.14这种常数
                generate_nums.append(token)
                generate_nums_dict[token]=1
            if token in generate_nums and token not in nums:
                generate_nums_dict[token]+=1
        
        num_pos=[]#num_pos用来记录每一个数字的位置将equation
        for i,j in enumerate(input_seq):
            #input_seq是将问题中的所有数字替换成NUM后的变量
            if j=='NUM':
                num_pos.append(i)
        assert len(nums)==len(num_pos)
        #nums记录的是每一个数字，num_pos记录的是每一个数字的位置
        pairs.append((idx,input_seq,output_seq,nums,num_pos))
        
    #结束for循环后，我们就已经处理了所有的问题，接下来统计数据集中频繁出现的常数
    temp_g=[]#用来记录数据集中频繁出现的常数，比如3.14
    for g in generate_nums:
        if generate_nums_dict[g]>=5:
            temp_g.append(g)
    return pairs,temp_g,copy_nums

我们通过几幅图片来看

提取词性标注和句法分析特征

这里用到了哈工大的pyltp工具包，我们通过两幅图来看

需要注意的是Root默认占用0，所以其它单词的索引是需要id-1的，这也是为什么源码中有arc.head-1这行代码，不过由于版本问题，此时的arc是一个元祖tuple，不过含义是一样的。

也就是说postagger用来标注每一个单词的词性(名词、动词等)，parser用来提取整个句子中各个单词的依存句法关系，关于上面的具体的细节以及ATT,SBV,WP这都是什么玩意，不在详细介绍。

中缀转前缀或者后缀表达式

关于原理，请参考中缀表达式转后缀表达式

首先设置两个栈，操作数栈和运算符栈

中缀转前缀

从右至左扫描表达式
如果是右括号,例如:)]},那么直接push进运算符栈
如果是左括号，例如:([{，那么由于我们是从右边扫描的，此时栈中一定有对应的右括号.做法就是一直弹出栈中的运算符(弹出的运算符放到操作数栈中),直到遇到对应的右括号,然后去掉这一对括号
如果是运算符,那么此时要比较优先级,如果栈顶运算符的优先级大,那么就弹出栈顶的运算符(弹出的运算符放到操作数栈中),这个操作是一直执行到栈顶运算符的优先级小于当前运算符的优先级,然后将当前运算符push到运算符栈中
如果是操作数，直接push到操作数栈中
重复上面的步骤,直到扫描完整个中缀表达式
将运算符栈中的所有元素push到操作数栈中,返回操作数栈

def from_infix_to_prefix(expression):
    operator_stack=[]#运算符栈
    operand_stack=[]#操作数栈
    operator_priority={
     '+':0,'-':0,'*':1,'/':1,'^':2}
    expression=deepcopy(expression)#deepcopy是深拷贝
    expression.reverse()#转前缀的过程是从右至左扫描
    for e in expression:
        if e in [')',']']:
            #当遇到右括号时，直接进栈
            operator_stack.append(e)
        elif e =='(':
            #弹出栈中的运算符，直到遇到)为止
            temp=operator_stack.pop()
            while temp!=')':
                operand_stack.append(temp)
                temp=operator_stack.pop()
        elif e=='[':
            #弹出栈中的运算符，直到遇到]为止
            temp=operator_stack.pop()
            while temp!=']':
                operand_stack.append(temp)
                temp=operator_stack.pop()
        elif e in operator_priority:
            #此时是运算符，需要比较优先级，当栈顶运算符的优先级大于e的优先级时，就一直弹栈
            #不过需要注意的是，如果栈顶是右括号，那么就不能再弹了，因为右括号要等到左括号来了才能弹栈
            while len(operator_stack)>0 and operator_stack[-1] not in [')',']'] and operator_priority[e]<operator_priority[operator_stack[-1]]:
                operand_stack.append(operator_stack.pop())
            operator_stack.append(e)
        else:
            #说明此时的e是操作数
            operand_stack.append(e)
    #将运算符栈中的剩余运算符全部弹出到操作数栈中
    while len(operator_stack)>0:
        operand_stack.append(operator_stack.pop())
    operand_stack.reverse()
    return operand_stack

中缀转后缀

思路是一样的，只不过有几个不同点：

从左至右扫描中缀表达式
由于是从左至右，所以遇到左括号直接压栈，遇到右括号弹栈

def from_infix_to_postfix(expression):
    operator_stack=[]
    operand_stack=[]
    expression=deepcopy(expression)
    operator_priority={
     '+':0,'-':0,'*':1,'/':1,'^':2}
    for e in expression:
        if e in ['(','[']:
            operator_stack.append(e)
        elif e ==')':
            temp=operator_stack.pop()
            while temp!='(':
                operand_stack.append(temp)
                temp=operator_stack.pop()
        elif e ==']':
            temp=operator_stack.pop()
            while temp!='[':
                operand_stack.append(temp)
                temp=operator_stack.pop()
        elif e in operator_priority:
            while len(operator_stack)>0 and operator_stack[-1] not in ['(','['] and operator_priority[e]<operator_priority[operator_stack[-1]]:
                operand_stack.append(operator_stack.pop())
            operator_stack.append(e)
        else:
            operand_stack.append(e)
    while len(operator_stack)>0:
        operand_stack.append(operator_stack.pop())
    return operand_stack

生成5折交叉验证的训练测试数据集

def generate_train_test(math23k_file):
    data=load_raw_data(math23k_file)#data的每一个元素是一个dict，字段有：id,original_text,segmented_text,equation,ans
    pairs,generate_nums,copy_nums=transfer_num(data)
    #pairs是将data的每一个数据里面的segmented_text中的数字转换成NUM，将equation中的数字转换成Ni，其中i
    #代表这个数字在问题中出现的顺序，pairs还有两个元素，分别记录问题对应的所有数字和数字的位置
    
    pre_temp_pairs=[]
    for p in pairs:
        #p[0]是id,p[1]是行如['新世纪', '百货', '开展', '“', '庆', 'NUM', '一', '”', '促销', '活动', '， '再', '降', 'NUM', '？'],
        #这样的问题
        postags=postagger.post(p[1])#也就是标注问题中的每一个单词的词性
        arcs=parser.parse(p[1],postags)#提取整个句子的句法
        parse_tree=[arc[0]-1 for arc in arcs]#其中arc是一个元祖(id,relation)，id代表的就是当前这个单词与哪一个单词有关联，
        #id表示的就是那个单词在整个句子中的索引，但是由于ROOT这个单词默认占据0，所以单词的实际位置需要-1
        #relation表示的就是句法关系
        
        pre_temp_pairs.append((p[0],p[1],postags,parse_tree,
                               from_infix_to_prefix(p[2]),from_infix_to_postfix(p[2]),p[3],p[4]))
        #其中p[3]和p[4]分别是nums和nums_pos，也就是这个问题中所有的数字和数字的位置
        #p[2]就是中缀表达式，现在已经转换成前缀和后缀了
    pairs=pre_temp_pairs
    #接下来构造5折交叉验证的数据集
    fold_size=int(len(pairs)*0.2)#fold_size也就是每一折的测试集合大小，在math23k上约等于4632
    fold_pairs=[]
    for split_fold in range(4):
        fold_start=fold_size*split_fold
        fold_end=fold_size*(split_fold+1)
        fold_pairs.append(pairs[fold_start:fold_end])
    #split_fold==0,1,2,3
    #fold_pairs==[pairs[0:4632],pairs[4632:9264],pairs[9264:13896],pairs[13896:18528]]
    fold_pairs.append(pairs[fold_size*4:])#fold_pairs==[pairs[0:4632],pairs[4632:9264],pairs[9264:13896],pairs[13896:18528],pairs[18528:23162]]
    
    for fold in range(5):
        pairs_tested=[]
        pairs_trained=[]
        for fold_t in range(5):
            if fold_t==fold:
                #当fold==0时，就用fold_pairs[0]作为测试集，其它四个作为训练集
                pairs_tested+=fold_pairs[fold_t]
            else:
                pairs_trained+=fold_pairs[fold_t]
        with open("data/train"+str(fold)+".json",'w') as f:
            json.dump(pairs_trained,f,ensure_ascii=False,indent=4)
        with open("data/test"+str(fold)+".json","w") as f:
            json.dump(pairs_tested,f,ensure_ascii=False,indent=4)

train_example=pairs_trained[10]
print("example id : ",train_example[0])
print("example input seq : ",train_example[1])
print("example question pos(pos指的是词性) : ",train_example[2])
print("example syntatic parser(句法分析) : ",train_example[3])
print("example prefix expression : ",train_example[4])
print("example postfix expression : ",train_example[5])
print("example question nums : ",train_example[6])
print("example question nums_pos : ",train_example[7])

我们已经清楚了pairs_trained中每一个数据的结构

构造encoder和decoder的词典类

PAD_token=0#默认pad位置用0填充
class Lang:
    def __init__(self):
        self.word2index={
     }#词到id的转换字典
        self.word2count={
     }#词到词频的转换字典
        self.index2word=[]
        self.n_words=0
        self.num_start=0
    
    def add_sen_to_vocab(self,sentence):
        #传进来的sentence有多种形式   第一种是问题文本，行如:['要', '修', '一段', '长', 'NUM', '千米', '的', '路', '，', '第一天', '修', '了', 'NUM', '千米', '，', '第', '二', '天', '修', '了', '余下', '的', 'NUM', '，', '还', '剩下', '多少', '千米', '没有', '修', '完', '？']
        #第二种是句子的标注词性，行如['v', 'v', 'm', 'a', 'ws', 'q', 'u', 'n', 'wp', 'nt', 'v', 'u', 'ws', 'q', 'wp', 'm', 'm', 'q', 'v', 'u', 'v', 'u', 'ws', 'wp', 'd', 'v', 'r', 'q', 'd', 'v', 'v', 'wp']
        #这是因为论文有两个encoder，之前的论文只有一个encoder，只需要问题文本作为输入
        #第三种是前缀表达式，行如['-', '-', 'N0', '*', '-', 'N0', 'N1', 'N2', 'N1']
        #第四种是后缀表达式，行如['N0', 'N0', 'N1', '-', 'N2', '*', '-', 'N1', '-']
        for word in sentence:
            if re.search(pattern='N\d+|NUM|\d+',string=word):
                continue#数字和特殊字符NUM不作为encoder端的词汇
            if word not in self.index2word:
                self.word2index[word]=self.n_words
                self.word2count[word]=1
                self.index2word.append(word)
                self.n_words+=1
            else:
                self.word2count[word]+=1
    def trim(self,min_count):
        '''
        根据min_count去除词典中的单词，缩小词典的空间
        '''
        keep_words=[]
        for word,freq in self.word2count.items():
            if freq>=min_count:
                #词频高的词保留
                keep_words.append(word)
        self.word2index={
     }
        self.word2count={
     }
        self.index2word=[]
        self.n_words=0
        
        for word in keep_words:
            self.word2index[word]=self.n_words
            self.index2word.append(word)
            self.n_words+=1
    
    def build_input_lang(self,trim_min_count):
        if trim_min_count>0:
            self.trim(min_count=trim_min_count)
            self.index2word=['PAD','NUM','UNK']+self.index2word#因为删除了一些单词后，在训练集中自然会出现一些没有见过的单词
        else:
            self.index2word=['PAD','NUM']+self.index2word
        #重置word2index，因为要考虑PAD和NUM以及UNK等特殊字符
        self.word2index={
     word:index for index,word in enumerate(self.index2word)}
    
    def build_input_lang_for_pos(self):
        #对于词性标注的输入，没有NUM需要考虑,而且不需要删除不常见单词
        self.index2word=['PAD','UNK']+self.index2word#需要注意的是，调用这个函数的对象一定是词性标注输入的对象
        self.n_words=len(self.index2word)
        self.word2index={
     word:index for index,word in enumerate(self.index2word)}
    
    def build_output_lang(self,generate_nums,copy_nums):
        '''
        generate_nums代表的是常数，如: 1,3.14
        copy_nums代表的是出现数字次数最多的那个问题出现的数字次数，copy_nums决定了decoder端最多可以预测多少个不同数字
        '''
        self.index2word+=['PAD','EOS']+generate_nums+['N'+str(i) for i in range(copy_nums)]+['SOS','UNK']
        self.n_words=len(self.index2word)
        self.word2index={
     word:index for index,word in enumerate(self.index2word)}
    def build_output_lang_for_tree(self,generate_nums,copy_nums):
        '''
        树形结构的decoder和sequence结构的decoder是不同的,因为tree结构不是序列式的生成表达式,所以不考虑PAD和EOS,SOS等
        '''
        self.num_start=len(self.index2word)
        self.index2word+=generate_nums+['N'+str(i) for i in range(copy_nums)]+['UNK']
        self.n_words=len(self.index2word)
        self.word2index={
     word:index for index,word in enumerate(self.index2word)}

验证一下

input1_lang = Lang()
input2_lang = Lang()
output1_lang = Lang()
output2_lang = Lang()

for pair in pairs_trained:
    if pair[-1]:
        input1_lang.add_sen_to_vocab(pair[1])#pair[1]是问题文本
        input2_lang.add_sen_to_vocab(pair[2])#pair[2]是问题句子的词性
        output1_lang.add_sen_to_vocab(pair[4])#pair[4]是前缀表达式
        output2_lang.add_sen_to_vocab(pair[5])#pair[5]是后缀表达式
        
trim_min_count=5
input1_lang.build_input_lang(trim_min_count)
input2_lang.build_input_lang_for_pos()
output1_lang.build_output_lang_for_tree(generate_nums, copy_nums)
output2_lang.build_output_lang(generate_nums, copy_nums)

将句子转为id序列

def indexes_from_sentence(lang,sentence,tree=False):
    '''
    根据lang中的word2index将sentence中的每一个token转为对应的id
    这里面的sentence不一定是句子，也可能是词性标注序列，或者输出的前缀后缀表达式
    '''
    res=[]
    unk_token=lang.word2index['UNK']
    for token in sentence:
        if len(token)==0:
            continue
        res.append(lang.word2index.get(token,unk_token))
    if 'EOS' in lang.index2word and not tree:
        #输出端有两个decoder，其中一个是sequence式结构，另一个是tree结构
        #sequence结构中需要有'EOS'
        res.append(lang.word2index['EOS'])
    return res

def texts_from_sentence(lang, sentence, tree=False):
    '''
    函数的目的是将sentence中出现的词汇如果不在lang.word2index中，那么就换成UNK
    '''
    res = []
    for word in sentence:
        if len(word) == 0:
            continue
        if word in lang.word2index:
            res.append(word)
        else:
            res.append("UNK")
    if "EOS" in lang.index2word and not tree:
        res.append(lang.word2index["EOS"])
    return res

def num_list_processed(num_list):
    '''
    num_list代表的是一个问题中所有的数字
    函数的目的是将num_list中的数字进一步换算成对应的值，同时将百分号等数字替换成对应的小数
    将分数也同样计算成对应的小数
    '''
    st = []
    for p in num_list:
        pos1 = re.search("\d+\(", p)
        pos2 = re.search("\)\d+", p)
        if pos1:
            st.append(eval(p[pos1.start(): pos1.end() - 1] + "+" + p[pos1.end() - 1:]))
        elif pos2:
            st.append(eval(p[:pos2.start() + 1] + "+" + p[pos2.start() + 1: pos2.end()]))
        elif p[-1] == "%":
            st.append(float(p[:-1]) / 100)
        else:
            st.append(eval(p))
    return st

def num_order_processed(num_list):
    '''
    由于论文中提出要比较一个问题中所有数字的大小，所以这个函数的作用就是用整数来表达一个数字在当前这个问题中的所有
    数字的大小，数值的大小代表的是这个数字大于多少个数字
    '''
    num_order = []
    num_array = np.asarray(num_list)
    for num in num_array:
        num_order.append(sum(num>num_array)+1)
    
    return num_order

准备传入模型的数据

def prepare_data(pairs_trained,pairs_tested,trim_min_count,generate_nums,copy_nums):
    '''
    pairs[0]-->id，问题样本id
    pairs[1]-->input seq，问题文本
    pairs[2]-->pos，问题单词的词性标注
    pairs[3]-->parser,句法分析的结果
    pairs[4]-->prefix expression
    pairs[5]-->postfix expression
    pairs[6]-->nums
    pairs[7]-->nums_pos
    '''
    input1_lang = Lang()
    input2_lang = Lang()
    output1_lang = Lang()
    output2_lang = Lang()
    train_pairs = []
    test_pairs = []

    print("Indexing words...")
    for pair in pairs_trained:
        if pair[-1]:
            input1_lang.add_sen_to_vocab(pair[1])
            input2_lang.add_sen_to_vocab(pair[2])
            output1_lang.add_sen_to_vocab(pair[4])
            output2_lang.add_sen_to_vocab(pair[5])
    
    input1_lang.build_input_lang(trim_min_count)
    input2_lang.build_input_lang_for_pos()
    output1_lang.build_output_lang_for_tree(generate_nums, copy_nums)
    output2_lang.build_output_lang(generate_nums, copy_nums)

    for pair in pairs_trained:
        num_stack = []
        for word in pair[4]:
            #pair[4]是前缀表达式,行如['/', '*', 'N1', 'N2', '5']
            temp_num = []
            flag_not = True
            #output1_lang是树形结构decoder的词空间
            if word not in output1_lang.index2word:
                #这种情况是因为前缀表达式中出现了数字，而我们知道，数字是不作为词空间中的元素的
                #表达式中按理说所有的数字都已经被转为对应的Ni了，出现数字的原因是这个数字在问题中出现了多次
                flag_not = False
                for i, j in enumerate(pair[6]):
                    #pair[6]是nums,也就是每一个数字,行如 ['5', '16.5', '2.1', '5']
                    if j == word:
                        temp_num.append(i)#temp==[0,3]，temp记录的是表达式中出现的重复的数字在nums中的位置

            if not flag_not and len(temp_num) != 0:
                num_stack.append(temp_num)
            if not flag_not and len(temp_num) == 0:
                num_stack.append([_ for _ in range(len(pair[6]))])

        #num_stack.reverse()#实验表明，这行代码没有用
        input1_cell = indexes_from_sentence(input1_lang, pair[1])#pair[1] is input_seq
        texts_cell = texts_from_sentence(input1_lang, pair[1])
        input2_cell = indexes_from_sentence(input2_lang, pair[2])#pair[2] is input seq pos
        output1_cell = indexes_from_sentence(output1_lang, pair[4], True)#pair[4] is prefix_expression, used for tree-decoder
        output2_cell = indexes_from_sentence(output2_lang, pair[5], False)#pair[5] is postfix expression, 
        num_list = num_list_processed(pair[6])#pair[6] is nums
        num_order = num_order_processed(num_list)
        train_pairs.append((pair[0], texts_cell, input1_cell, input2_cell, pair[3], len(input1_cell), 
                            output1_cell, len(output1_cell), output2_cell, len(output2_cell), 
                            pair[6], pair[7], num_stack, num_order))
    print('Indexed %d words in input language, %d words in output1, %d words in output2' % 
          (input1_lang.n_words, output1_lang.n_words, output2_lang.n_words))
    print('Number of training data %d' % (len(train_pairs)))
    for pair in pairs_tested:
        num_stack = []
        for word in pair[4]:
            temp_num = []
            flag_not = True
            if word not in output1_lang.index2word:
                flag_not = False
                for i, j in enumerate(pair[6]):
                    if j == word:
                        temp_num.append(i)

            if not flag_not and len(temp_num) != 0:
                num_stack.append(temp_num)
            if not flag_not and len(temp_num) == 0:
                num_stack.append([_ for _ in range(len(pair[6]))])

        num_stack.reverse()
        input1_cell = indexes_from_sentence(input1_lang, pair[1])
        texts_cell = texts_from_sentence(input1_lang, pair[1])
        input2_cell = indexes_from_sentence(input2_lang, pair[2])
        output1_cell = indexes_from_sentence(output1_lang, pair[4], True)
        output2_cell = indexes_from_sentence(output2_lang, pair[5], False)
        num_list = num_list_processed(pair[6])
        num_order = num_order_processed(num_list)
        test_pairs.append((pair[0], texts_cell, input1_cell, input2_cell, pair[3], len(input1_cell), 
                           output1_cell, len(output1_cell), output2_cell, len(output2_cell), 
                           pair[6], pair[7], num_stack, num_order))
    print('Number of testind data %d' % (len(test_pairs)))
    return input1_lang, input2_lang, output1_lang, output2_lang, train_pairs, test_pairs

input1_lang, input2_lang, output1_lang, output2_lang, train_pairs, test_pairs = prepare_data(pairs_trained, pairs_tested, 5, generate_nums, copy_nums)

train_example=train_pairs[500]
print("example id : ",train_example[0])
print("example input seq (词频少的单词已经被替换成UNK): ",train_example[1])
print("将所有的单词替换成对应的id : ",train_example[2])
print("将标注的词性替换成对应的id : ",train_example[3])
print("句法分析的结构: ",train_example[4])
print("句子长度 : ",train_example[5])
print("将前缀表达式中的运算符替换成对应的id : ",train_example[6])
print("前缀表达式的长度 : ",train_example[7])
print("将后缀表达式中的运算符替换成对应的id : ",train_example[8])
print("后缀表达式的长度(后缀表达式是作为sequence decoder的标签，所以包含EOS，长度要更长一些) : ",train_example[9])
print('这个问题对应的所有的数字 : ',train_example[10])
print('这个问题中数字的位置 : ',train_example[11])
print('这个问题是否包含有重复数字，如果有，重复数字出现的位置 : ',train_example[12])
print('这个问题中所有数字的大小关系 : ',train_example[13])

构造真正的输入数据

def prepare_train_batch(pairs_to_batch,batch_size):
    '''
    这个函数用来构造输入数据
    对于pairs_to_batch中的每一个元素example，都有14个字段，分别是
    example id;example input seq (词频少的单词已经被替换成UNK);
    example input_seq_id(所有的单词替换成对应的id);example pos_id(将标注的词性替换成对应的id);
    example parse(句法分析的结构);example_length(句子长度);
    example prefix_expression_id(将前缀表达式中的运算符替换成对应的id);prefix_expression length(前缀表达式的长度);
    example postfix_expression_id(将后缀表达式中的运算符替换成对应的id);postfix_expression length(后缀表达式的长度);
    example question nums(这个问题对应的所有的数字);example question nums_pos(这个问题中数字的位置);
    example question num_stack(这个问题是否包含有重复数字，如果有，重复数字出现的位置);example question num_order(这个问题中所有数字的大小关系)
    每一个example有14个字段
    '''
    
    pairs=deepcopy(pairs_to_batch)
    random.shuffle(pairs)#随机打乱训练数据，因为我们要保证各个数据样本之间是相互独立的，满足iid条件
    
    id_batches=[]#存储各个样本的id
    input1_batches=[]#存储各个样本中问题对应的id(将问题文本中的单词转成id)
    input2_batches=[]#存储各个样本中问题的每一个单词对应的词性标注对应的id
    #input1和input2都是sequence encoder的输入
    input_lengths=[]#存储各个样本中问题的长度
    output1_lengths=[]#存储各个样本中问题对应的前缀表达式的长度
    output2_lengths=[]#存储各个样本中问题对应的后缀表达式的长度
    nums_batches=[]#存储各个样本中问题中出现的数字个数，也就是len(nums)
    num_pos_batches=[]#对应的，存储各个样本中问题中出现的数字在问题中的索引
    num_order_batches=[]#存储每一个问题中各个数字之间的大小关系
    num_stack_batches=[]#如果问题中出现了重复数字，记录重复数字在nums中的位置，否则是[]
    num_size_batches=[]
    output1_batches = []
    output2_batches = []
    parse_graph_batches = []#存储句法解析
    
    batches=[]#按照批次来存储数据，每一批数据为一个单词
    num_of_batch=0
    print()
    print('一共有{}个训练数据样本，按照{}为批次大小，所以一共有{}个训练批次'.format(len(pairs),batch_size,len(pairs)//batch_size+1))
    while num_of_batch+batch_size<len(pairs):
        batches.append(pairs[num_of_batch:num_of_batch+batch_size])
        num_of_batch+=batch_size
    batches.append(pairs[num_of_batch:])
    
    for batch in batches:
        #在每一个批次中，按照这个批次的每一个句子的长度排序，句子长的放在前面，这样有助于后面的RNN编码
        batch=sorted(batch,key=lambda example:example[5],reverse=True)#example[5]是句子长度
        input_length=[]
        output1_length=[]
        output2_length=[]
        for id_,input_seq,seq_id,pos_id,parse,seq_len,prefix_id,prefix_len,postfix_id,postfix_len,nums,nums_pos,num_stack,num_order in batch:
            input_length.append(seq_len)
            output1_length.append(prefix_len)
            output2_length.append(postfix_len)
        input_lengths.append(input_length)
        output1_lengths.append(output1_length)
        output2_lengths.append(output2_length)
        input_len_max = input_length[0]#当前这个批次中所有问题长度的最大值
        output1_len_max = max(output1_length)
        output2_len_max = max(output2_length)
        
        id_batch = []
        input1_batch = []
        input2_batch = []
        output1_batch = []
        output2_batch = []
        num_batch = []
        num_stack_batch = []
        num_pos_batch = []
        num_order_batch = []
        num_size_batch = []
        parse_tree_batch = []
        
        for idx,input_seq,seq_id,pos_id,parse,seq_len,prefix_id,prefix_len,postfix_id,postfix_len,num,num_pos,num_stack,num_order in batch:
            id_batch.append(idx)
            seq_id+=[PAD_token for _ in range(input_len_max-seq_len)]#pad
            pos_id+=[PAD_token for _ in range(input_len_max-seq_len)]#pad
            input1_batch.append(seq_id)
            input2_batch.append(pos_id)
            prefix_id+=[PAD_token for _ in range(output1_len_max-prefix_len)]
            postfix_id+=[PAD_token for _ in range(output2_len_max-postfix_len)]
            #表达式同样需要pad
            output1_batch.append(prefix_id)
            output2_batch.append(postfix_id)
            num_batch.append(len(num))#这个问题出现了多少个数字
            num_stack_batch.append(num_stack)#是否有重复数字
            num_pos_batch.append(num_pos)#数字的位置
            num_order_batch.append(num_order)#数字之间的大小关系
            num_size_batch.append(len(num_pos))
            assert len(num)==len(num_pos)
            parse_tree_batch.append(parse)
            
        id_batches.append(id_batch)
        input1_batches.append(input1_batch)
        input2_batches.append(input2_batch)
        output1_batches.append(output1_batch)
        output2_batches.append(output2_batch)
        nums_batches.append(num_batch)
        num_stack_batches.append(num_stack_batch)
        num_pos_batches.append(num_pos_batch)
        num_order_batches.append(num_order_batch)
        num_size_batches.append(num_size_batch)
        
        parse_g=get_parse_graph_batch(input_length, parse_tree_batch)
        assert type(parse_g)==np.ndarray
        assert parse_g.shape==(len(batch),3,input_len_max,input_len_max)
        parse_graph_batches.append(parse_g)
        
    return id_batches, input1_batches, input2_batches, input_lengths, output1_batches, output1_lengths, output2_batches, output2_lengths, \
       nums_batches, num_stack_batches, num_pos_batches, num_order_batches, num_size_batches, parse_graph_batches

你可能感兴趣的:(#,NLP,python,正则表达式,自然语言处理,pytorch)

Python 正则表达式小结1 大收藏家 Python 正则表达式 python
[声明]：本文参考了白夜黑雨老师的网页讲解。如有侵权，请与我联系！！！Python正则表达式小结11.正则表达式验证2.特殊元字符及含义3匹配某种字符类型4.正则表达式举例大收藏家说1.正则表达式验证提供两个网站用于正则表达式的验证，可以敲入文本与正则表达式。通过该网站，验证正则表达式的正确性。非常好用！英文网站中文网站2.特殊元字符及含义元字符含义.表示要匹配除了换行符之外的任何单个字符*星号-
python离线语音转文本_使用Python将语音转换为文本的方法 weixin_39760619 python离线语音转文本
使用Python将语音转换为文本的方法,语音,转换为,文本,您的,麦克风使用Python将语音转换为文本的方法易采站长站，站长之家为您整理了使用Python将语音转换为文本的方法的相关内容。语音识别是计算机软件识别口语中的单词和短语，并将其转换为可读文本的能力。那么如何在Python中将语音转换为文本？如何使用SpeechRecognition库在Python中将语音转换为文本？我们不需要从头开始
Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！） y江江江江机器学习大模型 gpt chatgpt
HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是HuggingFace。HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G
Open-Sora - 为所有人实现高效的视频制作大众化小众AI AI开源音视频人工智能 AI编程
GitHub：https://github.com/hpcaitech/Open-Sora更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI这是一款开源的SOTA（State-of-the-Art）视频生成模型，仅用20万美元（224张GPU）就能训练出商业级11B参数的视频生成大模型。它采用Python语言和PyTorch深度学习框架开发，具有生成速度快、资源消
8、Python 字符串处理与正则表达式实战指南 wolf犭良 python python 正则表达式
Python字符串处理与正则表达式实战指南文章概述本文深入探讨Python字符串处理核心方法与正则表达式实战技巧，涵盖字符串编码转换、分割替换、正则表达式语法精髓，并通过日志解析、数据清洗等真实场景案例展示高阶应用。最后提供10道阶梯式练习题（附完整答案代码），助你从基础到进阶全面掌握文本处理技能。一、字符串处理核心三剑客1.1编码转换（encode/decode）text="中文文本"utf8_
deepseek api参数详解孽小倩大语言模型 python java 前端人工智能 deepseek
deepseek的参数与openai保持兼容，所以openai能用的参数deepseek都可以使用，以下是常用的参数介绍。在使用Deepseek/OpenAI的PythonAPI时，最常用的API端点是chat/completions，用于调用deepseek生成文本对话内容。以下是openai.ChatCompletion.create()方法的主要参数及其作用：1.model作用：指定使用的模
算法基础——蓝桥杯（python实现，实际上大多数用c++更明白易懂）（第一部分，共12个小题） New_Teen 算法蓝桥杯 python
1.成绩统计问题描述:编写一个程序，建立一个字典，每个字典包含姓名、学号、英语成绩、数学成绩和C++成绩，并通过字典操作平均分最高的学生和平均分最低的学生并且输出。输入格式：输入n+1行，第一行输入一个正整数n，表示学生数量；接下来的n行每行输入5个数据，分别表示姓名、学号、英语成绩、数学成绩和C++成绩。注意成绩有可能会有小数。输出格式：输出两行，第一行输出平均成绩最高的学生姓名。第二行输出平均
Python（正则表达式）羡江007 Python进阶 python 正则表达式开发语言
re模块#在Python中需要通过正则表达式对字符串进行匹配的时候，可以使用一个re模块'''re模块三步走#第一步：导入re模块importre#第二步：使用match方法进行匹配操作result=re.match(pattern正则表达式,string要匹配的字符串,flags=0)#第三步：如果数据匹配成功，使用group方法来提取数据result.group()re.match(patte
Ubuntu20.04安装并配置Pycharm2020.2.5 搬砖的打工人!!! ubuntu pycharm python
一.下载pycharm社区版1.下载地址：PyCharm:thePythonIDEfordatascienceandwebdevelopmentThePythonIDEfordatascienceandwebdevelopmentwithintelligentcodecompletion,on-the-flyerrorchecking,quick-fixes,andmuchmore.https:/
使用python中you-get库实现下载网抑云瞎老弟 python python 音视频爬虫
WYY音乐下载前言代码实现使用说明前言前几天，我做了b站视频的下载，有好兄弟表示，只下载视频，不能够让人满足，我还希望能够下载网易云的音乐。上一次在我发布的b站视频下载中，使用了you-get库作为下载方式，但是实际上，这个库也可以下载网易云音乐，因此，我们只需要参考我们上次的b站视频下载，简单的进行一下修改，就可以完成音乐的下载了。为了能够更加方便的批量下载音乐，这里采用了“按艺术家“的下载方式
Python用Pyqt5制作音乐播放器 Aix959 python 开发语言
具体效果如下需要实现的功能主要的几个有：1、搜索结果更新至当前音乐的列表，这样播放下一首是搜素结果的下一首2、自动播放3、滚动音乐文本4、音乐进度条5、根据实际情况生成音乐列表。我这里的是下面的情况，音乐文件的格式是歌名_歌手.mp3所以根据需求修改find_mp3_files方法，我这里返回的是[{"path":音乐文件路径,"music":歌名,"singer":歌手},{"path":音乐文
使用vscode远程连接linux运行项目报错解决方案大数据lsy 笔记 vscode linux python
报错：subprocess.CalledProcessError:Command'['/xxx/anaconda3/envs/graphinvent/bin/python','./graphinvent/main.py','--job-dir','/xxx/GraphINVENT/output_gdb13_1K/example/job_0/']'returnednon-zeroexitstatus
代码管理工具——SVN weixin_33728708 git 开发工具 python
2019独角兽企业重金招聘Python工程师标准>>>SVN版本控制的作用：记录若干文件内容变化，以便将来查阅特定版本修订情况。版本管理工具发展简史，cvs-->svn-->Git（参考：http://luckypoem14.github.io/test/2012/04/24/scm-history/）。svn全称subversion，是一个开源版本控制系统（C/S架构），始于2000年；git（
jieba库词频统计_jieba分词器（应用及字典的补充）及文档高频词提取实战袁圆园建建 jieba库词频统计
jieba分词器是Python中最好的中文分词组件，本文讲解一下jieba分词器及其应用。1、jieba分词器的分词模式jieba分词器提供了三种常用的分词模式1、精确模式：将句子按照最精确的方法进行切分，适合用于进行文本分析；2、全模式：将句子当中所有可以成词的词语都扫描出来，分词速度很快但容易产生歧义；3、搜索引擎模式：在精确模式分词的基础上，将长的句子再次进行切分，提高召回率，适用于搜索引擎
【LeetCode 热题 100】3. 无重复字符的最长子串 | python 【中等】一只小白跳起来 leetcode java 算法开发语言
美美超过管解题目：3.无重复字符的最长子串给定一个字符串s，请你找出其中不含有重复字符的最长的长度。示例1:输入:s="abcabcbb"输出:3解释:因为无重复字符的最长子串是"abc"，所以其长度为3。注意：考虑空字符串问题有重复之后要在重复的那个后面新建序列，减少时间，故需要列表储存（标准做法里用的集合捏）标准做法：把重复的set.remove（），a指针步进，没有重复的话，b指针一直步进怎
并发爬虫实战：多线程高效抓取王者荣耀全英雄皮肤 YiFoEr_Liu 爬虫案例实操爬虫部署 python 爬虫 python 大数据
一、场景与挑战在网络爬虫开发中，我们常常面临以下挑战：需要处理成百上千个页面的数据抓取目标服务器存在反爬机制和请求频率限制单线程模式下载效率低下，难以充分利用带宽本文以王者荣耀英雄皮肤下载为例（日访问量超过1亿的热门游戏），演示如何通过Python并发编程实现高效数据抓取。二、技术选型分析2.1为什么选择并发线程？I/O密集型场景：网络请求占比90%以上GIL限制：Python线程适合I/O密集型
深入理解正则表达式：语法全解析谢兴豪
本文还有配套的精品资源，点击获取简介：正则表达式是一种用于文本匹配的模式，广泛应用在文本处理、数据验证等领域。本文将全面探讨正则表达式的语法细节，包括字符匹配、元字符、字符类、量词、分组与反向引用、选择与否定、位置锚点、预定义字符集、模式修饰符、回溯控制以及正向先行断言和正向后行断言。掌握这些知识有助于提高编程效率和代码质量。1.正则表达式简介正则表达式是IT行业中的“瑞士军刀”，它们在文本处理、
使用提示词进行信息抽取的实用方法 scaFHIO windows python
在大规模语言模型（LLM）中进行信息抽取时，我们不一定需要工具调用功能。通过精心设计的提示词（prompt）可以指导模型输出特定格式的信息，然后对其进行解析以生成结构化数据。这种方法依赖于创建良好的提示词，并将LLM的输出解析为所需的Python对象。技术背景介绍大规模语言模型可以根据提示词生成特定格式的文本。例如，我们可以要求模型以JSON格式输出所需的信息。在信息抽取的场景中，设计良好的提示词
正则表达式：编程中的瑞士军刀，如何借助智能工具实现高效开发 inscode_039
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE正则表达式：编程中的瑞士军刀，如何借助智能工具实现高效开发正则表达式（RegularExpression，简称regex或regexp）是一种用于匹配字符串的模式描述语言。它广泛应用于文本处理、数据验证、搜索和替换等场景中。然而，正则表达式的复杂性和晦涩性常常让编程初学者望而却步。幸运的是，随着AI技术的进步，像InsCo
深入解析Python测试框架pytest 一休哥助手 python python pytest 开发语言
目录引言pytest简介安装与配置安装pytest配置pytest基础用法编写测试用例运行测试用例测试结果报告
正则表达式：文本处理的瑞士军刀六七_Shmily 数据结构与算法分析算法
正则表达式：文本处理的瑞士军刀正则表达式（RegularExpression，简称Regex）是一种用于匹配、查找和操作文本的强大工具。它通过定义一种特殊的字符串模式，可以快速地在文本中搜索、替换或提取符合特定规则的内容。正则表达式广泛应用于编程、文本编辑、数据处理等领域，是每个开发者必备的技能之一。一、正则表达式的核心概念1.模式（Pattern）正则表达式的核心是一个模式字符串，它定义了需要匹
怎么进入python 的venv文件夹_python虚拟环境模块venv使用及示例 weixin_39796140 怎么进入python 的venv文件夹
相信只要学习python的同学对于虚拟环境这个概念肯定不会太陌生，虚拟环境指的是一个个单独隔离的python开发环境。各个虚拟环境之间互不干扰，都有自己独立的开发包。就像是在电脑上装了很多个虚拟机，每个虚拟机里面你随便折腾，不会影响到物理机，也不会影响到其他虚拟机。既然这么有用，那么Python里面用来创建虚拟环境的模块virtualenv是怎么使用的呢？我们一起来看一下。virtualenv基本
python的离线安装包下载 Lake说科技 python 服务器 linux 开发语言运维
Python,安装相关视频讲解：python的or运算赋值用法用python编程Excel有没有用处？011_编程到底好玩在哪？查看python文件_输出py文件_cat_运行python文件_shel如何实现Python的离线安装包下载一、流程：步骤说明1确定需要下载的Python安装包版本2下载对应版本的离线安装包3将下载好的安装包传输至目标机器4在目标机器上进行安装二、具体步骤及代码：步骤1
Transformer与图神经网络的融合与应用 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Transformer与图神经网络的融合与应用关键词：Transformer,图神经网络,注意力机制,图结构数据,图表示学习,图分类,图生成1.背景介绍近年来，深度学习技术在各个领域取得了显著的进展。其中，Transformer模型和图神经网络（GraphNeuralNetworks,GNNs）是两个备受关注的研究方向。Transformer最初应用于自然语言处理领域，通过自注意力机制实现了并行计
python3+ffmpeg下载B站视频，附代码才华横溢吴道简爬虫 python windows
最近要去外面玩，旅途漫长，于是乎，就写了个代码，从B站上下载纪录片看，代码附后，请自取，如果觉得有用，麻烦点个赞，鼓励一下。感谢~~一、下载安装ffmpegFfmpeg是一款自由软件，用于视频和音频文件的处理，在本例中，我使用它进行视频文件和音频文件的合并。合并代码写在python脚本中，你只需下载好ffmpeg即可，而且因为合并代码中使用ffmpeg的绝对路径，所以也不用设置环境配置。Ffmpe
学习Python如何高效处理CSV文件的技巧！程序员总部 python python json
在Python中，处理CSV文件是一项非常常见的任务，特别是在数据分析和数据科学领域。CSV文件的全称是Comma-SeparatedValues，顾名思义，它以逗号为分隔符来存储表格数据。这种格式简单易读，也很方便进行数据的存储和交换。接下来就让我们一起探讨一下如何在Python中读取和写入CSV文件吧！CSV模块简介Python内置了一个非常强大的库，名为csv，这个库专门用于处理各种CSV文
PyCharm如何有效地添加源与库？程序员总部 python pycharm ide python
在使用PyCharm进行Python开发的时候，很多时候我们需要添加库或者设置源。这些操作可以帮助我们更方便地管理项目依赖，提升开发效率。接下来我会详细介绍如何在PyCharm中添加源和库，让你的开发环境更加灵活！第一步：安装PyCharm在开始之前，你得确保自己已经安装了PyCharm！如果还没有，可以前往JetBrains官网进行下载和安装。有个小贴士，最好选择社区版或者专业版，根据自己的需要
如何使用 Python 和 FFmpeg 下载 B站视频木觞清 7天熟练Python python ffmpeg 音视频
在这篇文章中，我们将讨论如何使用Python脚本结合FFmpeg下载并合并B站视频的流，生成一个完整的视频文件。具体来说，我们将通过B站的API获取视频的音频和视频流，然后使用FFmpeg下载并将它们合并成一个.mp4文件。前提条件Python：你需要安装Python，推荐使用Python3.6或更高版本。FFmpeg：确保你已经安装并配置好了FFmpeg。如果尚未安装，可以参考FFmpeg官方网
使用 OpenAI Chat 模型进行对话开发的入门指南 eahba python
技术背景介绍OpenAI的对话模型（ChatOpenAI）为开发者提供了强大的自然语言处理功能，可以实现高度交互的AI应用。这篇文章将帮助您快速入门，了解如何在您的应用中集成和使用这些模型，并探讨不同的功能特性。核心原理解析ChatOpenAI模型是基于OpenAI的GPT家族，能够理解上下文并产生对话式回应。最新版的模型不仅支持标准文本输入输出，还支持工具调用、结构化输出等高级特性，满足多种复杂
使用Python下载抖音短视频：完整教程与代码解析 cnh6070 短视频 python 音视频开发语言
抖音作为全球领先的短视频平台，拥有海量的优质内容。然而，抖音官方并未提供直接下载视频的功能，这给一些用户带来了不便。幸运的是，通过Python编程，我们可以实现抖音视频的下载。本文将详细介绍如何使用Python下载抖音短视频，并解析一个完整的代码示例。一、准备工作在开始之前，你需要确保已经安装了Python环境，并且安装了以下必要的Python库：requests：用于发送网络请求，获取网页内容或
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默