gaojiaming24

task_seq2seq_autotitle_csl代码解读

task_seq2seq_autotitle_csl.py代码解读

此文档是对bert4keras工具中seq2seq任务的示例代码的一个解读，尽可能看的细致是为了以后修改起来更加顺手。有些代码和操作的理解可能还会有一些错误，正在不断的完善当中。

0.主要部分

从主函数入口可以了解该程序主要包括以下三个部分:

evaluator = Evaluate()
train_generator = data_generator(train_data, batch_size)
model.fit_generator(train_generator.forfit(),steps_per_epoch=len(train_generator),
                            epochs=epochs, callbacks=[evaluator])

其中evaluator使用来评估模型和保存模型参数的; data_generator是用来生成训练数据的，将文本数据转换成对应的token_id，方便模型计算; model.fit_generator() 使用了使用训练数据训练模型。

所以，改程序可以概括为三个主要部分: 数据预处理，模型搭建与参数加载，训练模型并且评估模型。

1.数据预处理阶段

在执行data_generator() 之前，还需要做以下准备。通过load_data()将文本数据读取到列表中，并且加载bert模型文件中的中文字表，在调用Tokenizer()函数，返回tokenizer对象，为了下一步将输入文本转换为token：

# 加载数据集
train_data = load_data("train.data")
valid_data = load_data("valid.data")
test_data = load_data("test.data")
# 加载并精简词表，建立分词器
token_dict, keep_tokens = load_vocab(
    dict_path=dict_path,
    simplified=True,
    startwith=['[PAD]', '[UNK]', '[CLS]', '[SEP]'],
)
# 转换为token
tokenizer = Tokenizer(token_dict, do_lower_case=True)

接下来开始执行data_generator()，传入参数为train_data和batch_size:

class data_generator(DataGenerator):
    """数据生成器"""
    def __iter__(self, random=False):
        idxs = list(range(len(self.data)))
        if random:
            np.random.shuffle(idxs)
        batch_token_ids, batch_segment_ids = [], []
        for i in idxs:
            title, content = self.data[i]
            # 将数据转换成ID,将content和title转换成同一个token_ids
            token_ids, segment_ids = tokenizer.encode(content,title,max_length=maxlen)
            batch_token_ids.append(token_ids)
            batch_segment_ids.append(segment_ids)
            if len(batch_token_ids) == self.batch_size or i == idxs[-1]:
                batch_token_ids = sequence_padding(batch_token_ids)
                batch_segment_ids = sequence_padding(batch_segment_ids)
                yield [batch_token_ids, batch_segment_ids], None
                batch_token_ids, batch_segment_ids = [], []

将数据进行随机洗牌之后，调用tokenizer.encode()对数据进行转换，输入文本内容和标题内容，以及最大句子长度，这里要注意一个地方，本来读取的数据第一句是title，第二句是content，在调用tokenizer.encode()函数时，先输入的是content，其次才输入的title，转换完成之后返回token_ids和segment_ids，然后按照batch_size进行打包返回。这里最值得注意的地方是tokenizer.encode()中发生了什么?

def encode(self,first_text,second_text=None,max_length=None,first_length=None,
           second_length=None):
    """输出文本对应token id和segment id如果传入first_length，则强行padding第一个句子到指定长度；同理，如果传入second_length，则强行padding第二个句子到指定长度。"""
    if is_string(first_text):
        first_tokens = self.tokenize(first_text)
    else:
        first_tokens = first_text
    if second_text is None:
        second_tokens = None
    elif is_string(second_text):
        second_tokens = self.tokenize(second_text, add_cls=False)
    else:
        second_tokens = second_text
    if max_length is not None:
        self.truncate_sequence(max_length, first_tokens, second_tokens, -2)
    first_token_ids = self.tokens_to_ids(first_tokens)
    if first_length is not None:
        first_token_ids = first_token_ids[:first_length]
        first_token_ids.extend([self._token_pad_id] *
                               (first_length - len(first_token_ids)))
    first_segment_ids = [0] * len(first_token_ids)

    if second_text is not None:
        second_token_ids = self.tokens_to_ids(second_tokens)
        if second_length is not None:
            second_token_ids = second_token_ids[:second_length]
            second_token_ids.extend([self._token_pad_id] *
                (second_length - len(second_token_ids)))
        second_segment_ids = [1] * len(second_token_ids)
        first_token_ids.extend(second_token_ids)
        first_segment_ids.extend(second_segment_ids)
    return first_token_ids, first_segment_ids

前半部分都是对文本的token化和padding操作，由最后三句可以看到，程序将second_token_ids拼接到了first_token_ids后面，对应文本就是将训练数据的title拼接到了content之后，返回了first_token_ids，对于segment_ids，content部分的词标记为"0"，title部分的词标记为"1"，将title的segment_ids拼接到content的segment_ids之后，最后返回token_ids和segment_ids，所以segment_ids的数据就形如[0，0，0，0，1，1]。

接下来将数据按照batch_size打包到列表中，得到batch_token_ids和batch_segment_ids，至此，数据预处理部分执行完毕。

2.模型搭建与参数加载

2.1关于Bert针对seq2seq任务的代码修改部分

接下来对首先对bert模型进行加载，输入参数config_path表示bert模型参数的配置文件，checkpoint_path表示模型参数文件路径，application表示应用的任务类型。对于不同用途，要对bert模型进行不同的修改。

# 构建bert模型，并且加载模型参数
model = build_bert_model(
    config_path,
    checkpoint_path,
    application='seq2seq',
    keep_tokens=keep_tokens,  # 只保留keep_tokens中的字，精简原字表
)
# 此行代码输出模型各层的参数状况
model.summary()

application='seq2seq’参数表示: 对于seq2seq任务模型加载的是继承自BertModel父类的Bert4Seq2seq子类，对于这个Bert4Seq2seq子类，仅仅实现了不同的compute_attention_mask() 函数。

def compute_attention_mask(self, layer_id, segment_ids):
    """为seq2seq采用特定的attention mask """
    # segment_ids是2D张量 形如[[0, 0, 0, 0, 0, 1, 1, 1]] 这种，其中数值0，1表示词到底属于哪个句	子，0表示词属于content，1表示当前词输入title。
    # 这个函数被调用12次 其中seq2seq_attention_mask()函数被调用一次创建了a_mask张量，剩下11次的数据		应该都是使用第一次创建的a_mask,并没有产生新的张量
    # 这里的layer_id 表示的就是层数编号，在起初定义的时候，作者的想法是“定义每一层的Attention Mask，		来实现不同的功能”，但是在实际实现的时候，并没有用到层数编号这个参数。
    # 源码文件bert.py中第 139 行 开始调用此函数,并返回attention_mask,其中输入的参数为 层数编号i 和 		segment_ids(s_in)
    if self.attention_mask is None:
        def seq2seq_attention_mask(s):
            # 这个函数被调用一次
            import tensorflow as tf
            # 得到句子长度(first_seq_length + second_seq_length)
            seq_len = K.shape(s)[1]
            with K.name_scope('attention_mask'):
                # 生成数值为1的 4维张量
                ones = K.ones((1, 1, seq_len, seq_len))
            # 在这部操作以后，全为1的4为张量，变成了下三角为1 上三角为0的对角矩阵
            a_mask = tf.linalg.band_part(ones, -1, 0)
            # 将segment_ids变成 [batch_size, 1,1, seq_length] 形状的张量 数值大小不变
            s_ex12 = K.expand_dims(K.expand_dims(s, 1), 2)
            # 将segment_ids变成 [batch_size, 1,seq_length, 1] 形状的张量 数值大小不变
            s_ex13 = K.expand_dims(K.expand_dims(s, 1), 3)
            # 变成形状[batch_size, 1, seq_length, seq_length]的张量
            a_mask = (1 - s_ex13) * (1 - s_ex12) + s_ex13 * a_mask
            # a_mask 会进行0和1 反转，并且逐渐将整句都mask掉
            return a_mask
        # 经过Lambda()层转换输出
        self.attention_mask = Lambda(seq2seq_attention_mask,
            name='Attention-Mask')(segment_ids)
    # attention_mask 是4D张量 [batch_size, 1, seq_length, seq_length]
    return self.attention_mask

接下来演示一下**compute_attention_mask()**函数的执行效果, 输入为4x5的2D张量, 样例输入:

data = tf.constant([[1, 1, 1, 1, 1],
                    [0, 1, 1, 1, 1],
                    [0, 0, 1, 1, 1],
                    [0, 0, 0, 0, 1]], dtype=tf.float32)
segment_ids = Input(shape=(None,), name='Input-Segment', tensor=data)

经过**compute_attention_mask()**函数计算后得到 4x1x5x5的4D张量:

[[[1. 0. 0. 0. 0.]
   [1. 1. 0. 0. 0.]
   [1. 1. 1. 0. 0.]
   [1. 1. 1. 1. 0.]
   [1. 1. 1. 1. 1.]]]
 [[[1. 0. 0. 0. 0.]
   [1. 1. 0. 0. 0.]
   [1. 1. 1. 0. 0.]
   [1. 1. 1. 1. 0.]
   [1. 1. 1. 1. 1.]]]
 [[[1. 1. 0. 0. 0.]
   [1. 1. 0. 0. 0.]
   [1. 1. 1. 0. 0.]
   [1. 1. 1. 1. 0.]
   [1. 1. 1. 1. 1.]]]
 [[[1. 1. 1. 1. 0.]
   [1. 1. 1. 1. 0.]
   [1. 1. 1. 1. 0.]
   [1. 1. 1. 1. 0.]
   [1. 1. 1. 1. 1.]]]]

可以看出来最后生成的attention_mask张量应该就是从第一个句子的末尾开始, 把逐词地将第二个句子进行逐词遮蔽。

2.2从模型的整体结构来看

虽然compute_attention_mask()函数被调用了12次, 但是都是作为每一层的输入添加到transformer层中的。

然而在使用summary()函数打印模型结构时，在模型整体结构作为输入层仅仅出现了一次，并且是映射成Embedding-Segment输入Bert模型中。与原有的语言模型**(task_language_model.py)相比，在每一层中都添加了attention_mask**

关于修改attention_mask的四个问题

那么从这里就引申出四个问题:

1.为什么在**(task_language_model.py)**的模型结构文件中没有显示attention_mask?

2.原版的Bert源码对attention_mask进行了什么操作?

3.task_seq2seq_autotitle_cls.py模型在加入了attention_mask之后，究竟进行了什么操作?

4.为什么针对seq2seq任务要进行这样的修改?

关于第一个问题的原因，先看一下**(task_language_model.py)**的模型结构：
从这张图可以看出，除了上一层的输出，并没有其他数据信息输入到多头注意力层。虽然没有其他层的数据输入到多头注意层当中，但是这不代表这一层没有对attention_mask进行操作。在bert的谷歌源码中每一层都对attention_mask进行计算，只不过在原模型是作为参数（张量）在层与层之间进行传递的。还记得在compute_attention_mask()中曾经使用过这样一行代码吗？

self.attention_mask = Lambda(
							seq2seq_attention_mask,name='Attention-Mask')(segment_ids)

这里的Lambda层任务是对attention_mask进行重塑和转换，并没有引入新的训练参数，所以在原来的**(task_language_model.py)**文件中并没有对attention_mask张量进行什么操作，所以数据可以直接进行传递，在seq2seq任务中，需要对attention_mask进行重新的生成和重塑，这里使用Lambda层是方便这样的操作，因为引入了层一级的机构，所以会在模型结构图中有所体现。

关于第二个问题：原版的Bert源码对attention_mask进行了什么操作? 我们定位到Google原版的Bert源码中，在modeling文件中代码700行左右(由于我之前对源码加了很多注释，所以不确定哪一行)，可以看到对attention_mask的操作，在算完注意力头的attention_scores之后，根据attention_mask，也就是遮蔽的位置计算attention_scores。在未经变换的attention_mask中：1表示露出位置，0表示遮蔽位置 ，在进行 adder = (1.0 - tf.cast(attention_mask, tf.float32)) * -10000.0 操作后，露出位置变成了0，-10000表示遮蔽位置。接下来再把adder加到原来的attention_scores中。

attention_scores = tf.matmul(query_layer, key_layer, transpose_b=True)
attention_scores = tf.multiply(attention_scores,
                               1.0 / math.sqrt(float(size_per_head)))
if attention_mask is not None:
  attention_mask = tf.expand_dims(attention_mask, axis=[1])
  # Since attention_mask is 1.0 for positions we want to attend and 0.0 for
  # masked positions, this operation will create a tensor which is 0.0 for
  # positions we want to attend and -10000.0 for masked positions.
  adder = (1.0 - tf.cast(attention_mask, tf.float32)) * -10000.0
  # Since we are adding it to the raw scores before the softmax, this is
  # effectively the same as removing these entirely.
  attention_scores += adder

官方给出这么操作的解释是：由于是在进行柔性最大值(softmax)之前进行这写操作的，这样的效果跟完成删除的效果是相同的。实际上的目的就是把被被遮蔽的token的attention_socores删除调，以达到遮蔽的效果。由此可见，Mask Language Model在Bert的每一个attention层中都进行遮蔽了，而不是简单的对输入输出进行遮蔽。因此，第二个问题的答案可以概括为，源码对attention_mask的操作就是为了删除掉被遮蔽token的attention得分。

关于第三个问题，.task_seq2seq_autotitle_cls.py模型在加入了attention_mask之后，究竟进行了什么操作?task_seq2seq_autotitle_cls.py中为了使bert泛化更多的任务，对attention机制中的Q、V都进行了mask，我觉得这个是比较重要的一部分，应该可以都模型效果产生很大影响，而且在修改版本的keras版的bert中，可以使用相对位置编码来替代学习得到的position_embedding。

def call(self, inputs, q_mask=None, v_mask=None, a_mask=None):
    """实现多头注意力
    q_mask: 对输入的query序列的mask。
            主要是将输出结果的padding部分置0。
    v_mask: 对输入的value序列的mask。
            主要是防止attention读取到padding信息。
    a_mask: 对attention矩阵的mask。
            不同的attention mask对应不同的应用。
    """

对attention_mask的操作核心思想与Google原版的bert几乎一样，将被遮蔽的attention_score去掉。

a = a / self.key_size**0.5
a = sequence_masking(a, v_mask, 1, -1)
if a_mask is not None:
    if is_string(a_mask):
        ones = K.ones_like(a[:1, :1])
        a_mask = (ones - tf.linalg.band_part(ones, -1, 0)) * 1e12
        a = a - a_mask
    else:
        a = a - (1 - a_mask) * 1e12
a = K.softmax(a)

关于问题四：为什么针对seq2seq任务要进行这样的修改？由于原有的Bert的预训练任务是基于完形填空似的遮蔽语言模型任务，对于seq2seq任务这样的完型填空机制并不适用，更合适的mask机制，应该根据显示上文，而遮蔽下文，所以就有了compute_attention_mask()函数返回的逐词遮蔽的attention_mask，而且也属于连续遮蔽来预测下一个词，更加适合文本生成等任务。

2.3模型的输入输出设置

关于模型设定的输入输出部分，与语言模型(**task_language_model.py)**的设置原则基本一致。

task_seq2seq_autotitle_cls.py

# 交叉熵作为loss，并mask掉输入部分的预测
# 输入[cls] a, b, c [sep]的向量
y_in = model.input[0][:, 1:]  # 目标tokens 真实值 a, b, c, [sep]
y_mask = model.input[1][:, 1:]
y = model.output[:, :-1]  # 预测tokens，预测与目标错开一位 预测值 [cls] a, b, c
cross_entropy = K.sparse_categorical_crossentropy(y_in, y)
cross_entropy = K.sum(cross_entropy * y_mask) / K.sum(y_mask)

task_language_model.py

# 交叉熵作为loss，并mask掉输入部分的预测
y_true = model.input[0][:, 1:]  # 目标tokens 与task_seq2seq_autotitle_cls.py一样
y_mask = model.get_layer('Embedding-Token').output_mask[:, 1:]  # 目标mask 这里的mask应该从														layer中取的，取的也是从1开始到最后的位置
y_mask = K.cast(y_mask, K.floatx())  # 转为浮点型
y_pred = model.output[:, :-1]#预测tokens，预测与目标错开一位 与task_seq2seq_autotitle_cls一样
cross_entropy = K.sparse_categorical_crossentropy(y_true, y_pred)
cross_entropy = K.sum(cross_entropy * y_mask) / K.sum(y_mask)

在设置完模型的输入输出之后，配置模型训练参数和损失函数。

# 添加交叉熵作为损失函数
model.add_loss(cross_entropy)
# 设定Adam为参数优化器 compile()函数为了训练模型，可以配置模型各种参数
model.compile(optimizer=Adam(1e-5))
autotitle = AutoTitle(start_id=None,end_id=tokenizer._token_sep_id, maxlen=32)

至此模型配置工作基本完成

2.4 训练模型和评估模型

主函数中调用model.fit_generator(）函数进行训练模型，利用data_generator()函数，生成训练数据并进行训练，生成器与模型并行执行以提高工作效率。

再看一次主函数中的代码：

evaluator = Evaluate()
train_generator = data_generator(train_data, batch_size)
model.fit_generator(train_generator.forfit(),steps_per_epoch=len(train_generator),
                            epochs=epochs, callbacks=[evaluator])

model.fit_generator()函数中的第一个参数为generator，表示生成器函数，train_generator.forfit()表示

是一个shape=[inputs，targets]的元组。steps_per_epoch 表示每一个epoch的总步数，这里设置为训练数据元组的长度，epochs 就是迭代次数。

callbacks 表示回调函数，关于回调函数的具体解释，官方给出了如下解释：

A callback is a set of functions to be applied at given stages of the training procedure. You can use callbacks to get a view on internal states and statistics of the model during training. You can pass a list of callbacks (as the keyword argument callbacks) to the .fit() method of the Sequential or Model classes. The relevant methods of the callbacks will then be called at each stage of the training.

看起来很不容理解，那怎么办，那就直接看回传入的回调函数都执行了那些内容；

class Evaluate(keras.callbacks.Callback):
    # 继承自keras回调函数类
    def __init__(self):
        # Rouge()函数表示（Recall Oriented Understudy for Gisting Evaluation）是评估自动文摘以			及机器翻译的一组指标。说白了就是文本生成的一种评价指标，特指自动文摘评测
        self.rouge = Rouge()
        # 计算BLUE值的一种平滑方法
        self.smooth = SmoothingFunction().method1

    def on_epoch_end(self, epoch, logs=None):
        model.save_weights('./best_model.weights')  # 保存模型
        print('valid_data:', self.evaluate(valid_data))  # 评测模型

    def evaluate(self, data, topk=1):
        total = 0
        rouge_1, rouge_2, rouge_l, bleu = 0, 0, 0, 0
        for title, content in tqdm(data):
            total += 1
            title = ' '.join(title)
            # 调用autotitle.generate(content, topk)函数，看到这你就会发现 上面有一段代码还没有解				读，就是在配置完成模型参数之后的一行代码，这段代码的作用就是根据输入的文本，返回预测的文				本内容，然后接下来的程序根据预测的文本内容计算各种评价指标得分。
            pred_title = ' '.join(autotitle.generate(content, topk))
            if pred_title.strip():
                scores = self.rouge.get_scores(hyps=pred_title, refs=title)
                rouge_1 += scores[0]['rouge-1']['f']
                rouge_2 += scores[0]['rouge-2']['f']
                rouge_l += scores[0]['rouge-l']['f']
                bleu += sentence_bleu(references=[title.split(' ')],
                                      hypothesis=pred_title.split(' '),
                                      smoothing_function=self.smooth)
        rouge_1 /= total
        rouge_2 /= total
        rouge_l /= total
        bleu /= total
        return {'rouge-1': rouge_1,'rouge-2': rouge_2, 'rouge-l': rouge_l,'bleu': bleu,}

所以，到这里你就知道，在训练过程中加入回调函数是干什么用的了，目的就是为了在模型训练的过程中，观察模型的训练效果，以及各种评价指标得分，比如Rouge和BLUE。每执行一次epoch，回调函数就执行一次，所以，本程序中evaluate()回调函数执行了20次。

接下来程序会自动使用Adam优化算法对参数进行求解。具体模型求解过程，这里就不介绍了。

到这为止，整个计算过程包括两部分，一个是data_generator()，这个上面已经详细介绍过，另一个是上面提到的autotitle.generate(）函数。autotitle是AutoTitle()类的一个实例化。接下来就是深入研究AutoTitle()类，此类的父类是AutoRegressiveDecode()，通用自回归生成模型解码基类，其中包括两种包含beam search和random sample两种生成策略。AutoTitle调用关系如下提所示：
首先这里有一个问题，这里面为什么evaluate()函数被调用20次，AutoTitle：generate()被调用了200次，原因是generate()被调用的次数 = epochs * len(data) ，我运行程序的时候训练数据只有 10 条，所以 20 * 10 =200次。

但是predict() 函数为什么被调用了6400次，这里的函数调用时候有一个maxlen参数，这个参数运行时候被设置为32，循环执行的时候就是 200 * 32 = 6400。函数调用代码如下：

autotitle = AutoTitle(start_id=None,end_id=tokenizer._token_sep_id, maxlen=32)

接下来是generate() 函数和predict()函数：其中token_ids 就是一系列token_id的集合 [2, 710, 1792, 5496, 1367, 5402, 1663] ，在预测阶段segment_ids 都为0 [0, 0, 0, 0, 0, 0, 0] ，将token_ids和segment_ids打包成一个列表传入beam_search中。

class AutoTitle(AutoRegressiveDecoder):
    @AutoRegressiveDecoder.set_rtype('probas')
    def predict(self, inputs, output_ids, step):
        token_ids, segment_ids = inputs
        token_ids = np.concatenate([token_ids, output_ids], 1)
        segment_ids = np.concatenate([segment_ids, np.ones_like(output_ids)], 1)
        # model.predict()最终会返回一个3D张量，shape=[batch_size, seq_length, vocab_size]
        # 这里的vocab_size = 13584
        # model.predict()[:, -1]返回的形状是 shape = [batch_size, vocab_size], 输入的-1 			表示最后一个词对应的预测输出 
        # 举例说明 加入最后模型返回的预测结果是这样的张量[[[1.7, 3.5, 1.8, 1.8, 4.0],
  		#										[2.7, 9.86, 2.5, 5.5, 1.6],
        #   									[8.5, 1.17, 1.5, 1.7, 3.4]]]
        # 最后得到就是 [[8.5, 1.17, 1.5, 1.7, 3.4]] 而且在取完最后一行之后 还进行了取对数操作，			把很小的概率值都变成了 便于比较的负整数
        return model.predict([token_ids, segment_ids])[:, -1]

    def generate(self, text, topk=1):
        max_c_len = maxlen - self.maxlen
        # token_ids 就是一系列token_id的集合 [2, 710, 1792, 5496, 1367, 5402, 1663]
        # 在预测阶段segment_ids 都为0 [0, 0, 0, 0, 0, 0, 0]
        token_ids, segment_ids = tokenizer.encode(text, max_length=max_c_len)
        # 将token_ids和segment_ids打包成一个列表传入beam_search中
        output_ids = self.beam_search([token_ids, segment_ids], topk)  # 基于beam search
        return tokenizer.decode(output_ids)

由此可以看出，本程序最核心的函数就是beam_search() 函数，具体的beam_search的工作原理。参考知乎专栏：Seq2Seq中的beam search算法。

关于beam_search的解读

假设beam width设置为3 ，比如我们输入句子：你将是杜兰德号的驾驶人。
句子的 token_ids：[2, 770, 2097, 3119, 3234, 963, 2446, 1282, 4536, 7628, 7622, 680, 409, 3]，其中2和3都是占位符。
句子的segments_ids：[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

执行以下代码，将token_ids和segments_ids打包输入模型

inputs = [np.array([i]) for i in inputs]

此使inputs变成了：

[array([[2,  770, 2097, 3119, 3234, 963, 2446, 1282, 4536, 7628, 7622,680, 409, 3]]),  array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])]

接下来执行代码：

output_ids, output_scores = self.first_output_ids, np.zeros(1)

其中output_ids为一个空的列表，由于没有设置第一个应该输出的token，所以未空，output_scores表示只有一个零元素的列表 [0.]

接下来开始执行循环，循环次数为最大句子长度maxlen：

for step in range(self.maxlen):

循环中第一行，要调用模型开始预测，执行代码如下：

	scores = self.predict(inputs, output_ids, step, 'logits')  # 计算当前得分

我们继续追踪，看看predict()中都进行了什么操作：

def predict(self, inputs, output_ids, step):
    token_ids, segment_ids = inputs
    token_ids = np.concatenate([token_ids, output_ids], 1)
    segment_ids = np.concatenate([segment_ids, np.ones_like(output_ids)], 1)
    # predict返回值是数值，表示样本属于每一个类别的概率
    return model.predict([token_ids, segment_ids])[:, -1]

首先将得到已经被打包inputs的解包回 token_ids和segment_ids，还记得在生成代码的最初吗，刚刚将两个张量打包完，这里确实为方便书写和程序的封装，虽然看着麻烦了一点。这里执行了concatenate操作就是为了将预测得到的output_ids继续拼接到token_ids后面，作为模型输入，送到模型中继续预测下一个token。同样segment_ids也需要对segment进行延长，这里需要注意，原来的segment_ids都是0值，在拼接了预测得到连都token之后，segment_ids后面接的是1值。

接下来调用model.predict([token_ids, segment_ids])[:, -1] 得到预测输出，并且取输出的最后一行，这样原来的预测输出的shape=[1，14，13584]，其中14等于句子长度12 加上两个占位符。取模型输出的最后一行张量，也就是最后一个词的预测输出，然后对预测的概率值进行取对数操作，将数值转换成负整数得到：

[[-27.630606 -6.658234 -21.368036 ... -26.930357 -27.602684 -27.622435]]

此使的shape = [1,13584]，这就是scores的形状。预测数据如上所示。

现在可以继续回到循环的主题：

    scores = self.predict(inputs, output_ids, step, 'logits')  # 计算当前得分
    if step == 0:  # 第1步预测后将输入重复topk次
        inputs = [np.repeat(i, topk, axis=0) for i in inputs]

当执行步数为第0步的时候，需要将inputs[token_ids, segments_ids]扩展成**3(beam width)**倍，这里的inputs 在此时变成了这样：

[array([[   2,  770, 2097, 3119, 3234,  963, 2446, 1282, 4536, 7628, 7622,
         680,  409,    3],
       [   2,  770, 2097, 3119, 3234,  963, 2446, 1282, 4536, 7628, 7622,
         680,  409,    3],
       [   2,  770, 2097, 3119, 3234,  963, 2446, 1282, 4536, 7628, 7622,
         680,  409,    3]]), 
 array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])]

接下来开始执行这句：

	scores = output_scores.reshape((-1, 1)) + scores  # 综合累积得分

output_scores 初始为 [0.] ，scores就是就是模型的预测得分，每执行一次都会取最后一个词的模型预测输出。因此第零步的scores得分为：（与第一个预测词的得分完全一样）

[[-27.6306057   -6.65823412 -21.36803627 ... -26.93035698 -27.60268402  -27.62243462]]

接下来开始执行：

	indices = scores.argpartition(-topk, axis=None)[-topk:]  # 仅保留topk
    indices_1 = indices // scores.shape[1]  # 行索引
	indices_2 = (indices % scores.shape[1]).reshape((-1, 1))  # 列索引
	output_ids = np.concatenate([output_ids[indices_1], indices_2], 1)  # 更新输出

其中indices保存得分最大的三个token的ID，所以indices = [3234 2798 770]，这三个ID对应的分别是[杜，指，你]，三个中文汉字。从这里可以看预测还是很准的。我们输入的第一个字就是”你“，预测的也是”你“，接下来的三行代码是为了将预测得到的三个token存储到output_ids中，output_ids=[[3234]，[2798]，[ 770]]

此使的output_ids已经是一个2D的tensor。

接下来开始执行：

	output_scores = np.take_along_axis(scores, indices, axis=None)  # 更新得分
	best_one = output_scores.argmax()  # 得分最大的那个

此使的output_scores已经由原来的整个词表得分，变成了现在分数最高的三个token的得分，output_scores=[-5.34703016 -4.34406328 -0.0301327 ]，best_one表示得分最高的那个token下标，此时best_one=2

接下来开始进入到判断环节：end_id=3表示的是[SEP]句子终止符，当识别到[SEP]时，停止生成句子。

	if indices_2[best_one, 0] == self.end_id:  # 如果已经终止 返回best_one列的第0个元素
    	return output_ids[best_one]  # 直接输出
	else:  # 否则，只保留未完成部分
    	flag = (indices_2[:, 0] != self.end_id)  # 标记未完成序列
    	if not flag.all():  # 如果有已完成的
        	inputs = [i[flag] for i in inputs]  # 扔掉已完成序列
        	output_ids = output_ids[flag]  # 将output_ids重新赋值
        	output_scores = output_scores[flag]  # 扔掉已完成序列
        	topk = flag.sum()  # topk相应变化

到这里模型便可以生成第一个字，现在已经得到了”你“这个token，接下来执行第二次生成。此时要把上一次循环生成的”你“添加到输入序列，这次要把生成的topK个候选词分别拼接到最原始输入的句子后面，所以现在的模型输入如下所示：

[array([[2, 770, 2097, 3119, 3234,963, 2446, 1282, 4536, 7628, 7622,680,409,3,3234],		[2,770, 2097, 3119, 3234,  963, 2446, 1282, 4536, 7628, 7622,680,409,3,2798],	     [2,770, 2097, 3119, 3234,  963, 2446, 1282, 4536, 7628, 7622,680,409,3,770]], dtype=int64), 
 array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1]], dtype=int64)]

这里可以看到第一次生成的三个token已经添加到了[SEP]（3）的后面。所以这次模型预测返回的tensor的shape=[3, 15, 13584)]，取最有一个token的输出预测得分scores：

[[-27.631021  -27.610153  -27.631021  ... -27.631021  -27.631021  -27.631021 ]
 [-27.011091   -5.1853814 -19.943907  ... -22.983522  -27.11865   -27.588339 ]
 [-27.631021  -19.464876  -27.63091   ... -27.630976  -27.631021  -27.631021 ]]

与之前计算得到的output_scores=[-5.34703016 -4.34406328 -0.0301327 ]，相加得到新的scores：

[[-32.97805166 -32.95718336 -32.97805166 ... -32.97805166 -32.97805166  -32.97805166]
 [-31.35515451  -9.52944469 -24.28797007 ... -27.3275857  -31.46271372  -31.93240213]
 [-27.6611542  -19.49500887 -27.66104357 ... -27.66110842 -27.6611542   -27.6611542 ]]

然后返回每一行的概率最大的token_id，indices_2=[[3119] [963] [ 2097]]，对应汉字【是，兰，将】

此时的output_ids保存了三组候选序列：[[ 770 3119] [3234 963] [ 770 2097]]，接下来更新最高的三个token得分；output_scores= [-6.38893311 -5.34736949 -0.03293386]，则best_one = 2，最佳预测token为“将”，接下来不断重复这个步骤就行，将每次产生得分最高的三个token添加到输入序列中，在得到的三组得分中再次选择三个得分最高的三个token，不断循环。

你可能感兴趣的:(自然语言处理)

使用LangChain实现大规模语言模型自发现推理结构 VYSAHF langchain 语言模型人工智能 python
使用LangChain实现大规模语言模型自发现推理结构在现代自然语言处理(NLP)的研究中，大规模语言模型（LLMs）已经展示了强大的能力。然而，在应对复杂的推理问题时，传统的提示方法常常力不从心。这篇文章将带您了解SELF-DISCOVER，一种新兴的框架，如何通过LangChain来实现自动化、动态化的推理结构构建，以提高LLMs的性能。技术背景介绍大规模语言模型（如GPT-4和PaLM2）已
【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型打酱油的葫芦娃时序预测算法时序预测 PatchTST Transformer 预训练微调表征学习
《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch，发表在ICLR2023会议上。动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型
低代码平台未来发展趋势有哪些？低代码
低代码平台的未来发展趋势呈现出多维度的创新与深化，以下结合JNPF快速开发平台的特性，为您分析其未来的发展方向：1.智能化与AI深度融合低代码平台将与人工智能技术深度融合，实现开发流程的智能化升级。例如，JNPF平台有望通过自然语言处理技术，让开发者仅需用自然语言描述需求，平台即可自动生成初步的应用架构和代码逻辑。此外，AI技术还将用于智能推荐、代码自动生成、流程自动化等功能，进一步提升开发效率。
Dyn-VQA：含1452动态问题的视觉问答数据集，需灵活提供知识检索方案，查询、工具与检索时间皆可变。数据集
2024-11-05，由阿里巴巴集团创建Dyn-VQA数据集，它包含三种类型的“动态”问题，需要复杂的知识检索策略，这些问题的查询、工具和时间都是可变的。这个数据集的创建对于推动mRAG研究和解决现有VQA数据集无法充分反映启发式mRAGs在获取复杂知识方面的刚性问题具有重要意义。数据集地址：Dyn-VQA|多模态检索数据集|自然语言处理数据集一、研究背景：在多模态大型语言模型（MLLMs）中，解
统计机器学习 (Statistical Machine Learning) 原理与代码实例讲解 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
统计机器学习(StatisticalMachineLearning)原理与代码实例讲解1.背景介绍统计机器学习是现代人工智能和数据科学的核心领域之一。它结合了统计学和计算机科学的理论与方法，通过数据驱动的方式来构建预测模型和决策系统。统计机器学习不仅在学术研究中占据重要地位，还在工业界有广泛应用，如推荐系统、图像识别、自然语言处理等。2.核心概念与联系2.1统计学与机器学习的关系统计学关注数据的收
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
深度学习、模型架构、可拓展性、神经网络、机器学习1.背景介绍深度学习作为人工智能领域最前沿的技术之一，在图像识别、自然语言处理、语音识别等领域取得了突破性的进展。深度学习模型的成功离不开其强大的学习能力和可拓展性。本文将深入探讨深度学习算法的原理、模型架构设计以及可拓展性的关键要素，并通过代码实例和实际应用场景，帮助读者理解如何搭建可拓展的深度学习模型架构。2.核心概念与联系深度学习的核心概念是人
用 AI 提高开发效率：自动生成代码、优化 SQL 查询、写测试用例 Js_x 人工智能 sql 测试用例
引言人工智能（AI）正在深刻改变软件开发行业。从代码自动补全到SQL查询优化，再到自动化测试，AI工具已经成为开发者提高生产力的重要助手。本文将介绍ChatGPT、GitHubCopilot、Tabnine等AI编程工具的实际应用，帮助开发者更高效地编写代码、优化数据库查询，并自动生成测试用例。1.AI代码生成：提升开发效率1.1ChatGPT代码生成ChatGPT具备强大的自然语言处理能力，可以
RAG 在多模态数据处理中的应用探索：结合图像与文本生成 hy098543 AIGC
目录引言多模态数据处理的挑战与需求数据异质性与融合难题多样化应用场景的需求RAG在图像与文本生成中的应用架构图像检索与文本生成协同跨模态特征融合与生成关键技术与实现细节图像特征提取与表示文本检索与语义理解跨模态生成模型训练应用案例分析智能设计辅助医疗影像报告生成结论引言随着信息技术的飞速发展，数据呈现出多模态的特性，即包含文本、图像、音频、视频等多种形式。在自然语言处理（NLP）和计算机视觉（CV
理解深度学习1-简介 shangjg3 PyTorch深度学习实战深度学习人工智能
人工智能（AI）旨在打造模仿智能行为的系统。它覆盖了众多方法，涵盖了基于逻辑、搜索和概率推理的技术。机器学习是AI的一个分支，它通过对观测数据进行数学模型拟合来学习决策制定。这个领域近年来迅猛发展，现在几乎（虽不完全准确）与AI同义。深度神经网络是一类机器学习模型，将其应用到数据上的过程称为深度学习。目前，深度网络是最强大和最实用的机器学习模型之一，常见于日常生活中。我们常常用自然语言处理（Nat
李开复：AI 2.0 时代的价值 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
人工智能，AI2.0，价值创造，伦理挑战，未来趋势1.背景介绍人工智能（AI）技术近年来发展迅速，从语音识别、图像识别到自然语言处理，AI已经渗透到我们生活的方方面面。李开复，作为一位享誉全球的人工智能专家，在《AI2.0时代的价值》一文中，深刻地探讨了AI2.0时代带来的机遇与挑战，以及AI如何为人类创造价值。AI1.0时代主要集中在规则驱动的系统，例如围棋、象棋等游戏的AI。而AI2.0时代则
李开复：AI 2.0 时代的机遇 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
人工智能，深度学习，Transformer，大模型，通用人工智能，AI2.0，应用场景，未来趋势1.背景介绍人工智能（AI）技术近年来发展迅速，从语音识别、图像识别到自然语言处理等领域取得了突破性进展。其中，深度学习作为人工智能的核心技术之一，推动了AI技术的飞速发展。然而，深度学习模型的训练成本高、数据依赖性强、可解释性差等问题仍然制约着AI技术的进一步发展。李开复先生在《AI2.0时代的机遇》
llama.cpp 和 LLM（大语言模型）这个懒人 llama 语言模型人工智能
llama.cpp和LLM（大语言模型）的介绍，以及两者的关联与区别：1.LLM（LargeLanguageModel，大语言模型）定义：LLM是基于深度学习技术（如Transformer架构）构建的超大参数量的自然语言处理模型。它通过海量文本数据训练，能够生成连贯、语义丰富的文本，完成问答、创作、推理等任务。特点：参数规模大：如GPT-3（1750亿参数）、Llama-65B（650亿参数）等。
AI在项目中的应用酒江人工智能
AI大模型（如GPT-4、BERT、T5等）在各类项目中有广泛的应用，可以极大地提高项目效率、优化流程，并解决许多传统方法难以应对的问题。以下是AI大模型在不同类型项目中的一些具体应用：1.自然语言处理（NLP）文本生成和摘要：AI大模型可以生成高质量的文本内容，自动撰写文章、新闻报道、博客或技术文档，甚至可以进行文献摘要，帮助内容创作者提高效率。情感分析：在客户服务、社交媒体监控或市场研究项目中
AI API：快速集成智能化功能的开发利器桂花饼 AIGC AI API 人工智能 AIGC 语言模型 AI作画
AIAPI（ArtificialIntelligenceApplicationProgrammingInterface，人工智能应用程序接口）是应用程序接口的一种，专门用于提供人工智能相关功能的开发接口。它允许开发者利用现有的AI模型、工具或服务，将这些功能集成到自己的应用程序中，并为用户带来智能化的体验。AIAPI的核心功能主要与AI技术相关，比如自然语言处理（NLP）、计算机视觉、语音处理、机
大模型与自然语言理解（NLU）：差异与联系技术流 Gavin AIoT python 语言模型 ai
近年来，人工智能领域取得了显著进展，尤其是在自然语言处理（NLP）方面。大模型和自然语言理解（NLU）作为NLP的两个重要分支，常常被提及，但它们之间存在着本质区别。1.定义与目标大模型:通常指拥有庞大参数规模（数十亿甚至数千亿）的深度学习模型，例如GPT-3、LaMDA等。它们通过海量文本数据进行训练，旨在学习语言的统计规律，并能够生成流畅、连贯的文本。NLU:是NLP的一个子领域，专注于让机器
基于树莓派的轻量级AI数字人开发全流程指南 ——从硬件选型到语音视觉交互实战 zhz5214 AI ai 人工智能 AI写作 AI编程智能体
1.背景与目标AI数字人，像是虚拟助手、交互式角色，在当下数字化浪潮中扮演着越来越重要的角色。其核心在于整合语音识别、视觉感知、自然语言处理（NLP）和动态反馈四大关键功能。本文将以树莓派5开发板为核心，搭配AI加速硬件，结合开源框架，为大家详细阐述如何实现本地化轻量级数字人开发。这一方案特别适用于教育领域，帮助学生更直观地理解AI技术；在智能家居场景中，也能为用户带来更智能、便捷的交互体验。2.
RAG数据嵌入和重排序：如何选择合适的模型从零开始学习人工智能深度学习
RAG数据嵌入和重排序：如何选择合适的模型在自然语言处理（NLP）领域，Retrieval-AugmentedGeneration（RAG）模型已经成为一种强大的工具，用于结合检索和生成能力来处理复杂的语言任务。RAG模型的核心在于两个关键步骤：数据嵌入（Embedding）和重排序（Re-ranking）。这两个步骤的选择和优化对于模型的性能至关重要。本文将探讨如何选择合适的模型来实现高效的数据
自然语言处理领域CCF推荐的A类期刊冰蓝蓝自然语言处理人工智能
在自然语言处理（NLP）这一蓬勃发展的领域，研究人员和学者们致力于探索语言的深层含义和应用。中国计算机学会（CCF）推荐的A类期刊和会议是该领域内公认的高质量研究发表平台。这是我在学习时整理的一些顶刊并附上官网地址直达。1.ACL(AnnualMeetingoftheAssociationforComputationalLinguistics)ACL是自然语言处理领域的顶级会议之一，由Associ
机器学习中输入输出Tokens的概念详解爱吃土豆的程序员机器学习基础机器学习人工智能 Tokens
随着深度学习技术的快速发展，大语言模型（LargeLanguageModels,LLMs）已经成为自然语言处理（NLP）领域的一个热点研究方向。这些模型不仅能够生成高质量的文本，还能在多种任务中展现出卓越的表现，比如机器翻译、问答系统、文本摘要等。在大语言模型的工作流程中，Tokens的概念扮演着至关重要的角色。本文将详细介绍大语言模型如何使用Tokens，以及如何计算Tokens的数量。什么是T
情感分析任务的概述阿你不是 python 开发语言
一、情感分析的概述1、什么是情感分析情感分析，也称为情感分类，是一种自然语言处理的任务，用于分析文本、语音或其他形式的数据中所包含的情感倾向。其目标是判断数据表达的情感是积极的（Positive）、消极的（Negative）还是中立的（Neutral），或者进一步细化为更复杂的情感类别（如愤怒、喜悦、悲伤等）。2、情感分析的主要应用场景1）商业领域：情感分析主要进行产品评价分析，从客户和买家的评价
AI时代如何引流 alankuo 人工智能
AI时代引流可以从以下几个方面着手：利用AI精准定位与个性化营销精准客户画像：借助AI整合多维度数据，涵盖客户的年龄、性别、地理位置、消费习惯、浏览历史等，深度挖掘后绘制精准的客户画像，明确潜在客户特征与需求，让营销活动更具针对性。个性化内容创作：运用AI的自然语言处理功能，依据客户特点和需求生成个性化的营销内容，如广告文案、产品推荐等。以电商平台为例，可针对不同用户生成符合其喜好的商品推荐文案。
LLM-PowerHouse: 一站式大型语言模型定制训练与推理指南 Nifc666 语言模型人工智能自然语言处理 whisper langchain gpt 开源软件
LLM-PowerHouse:解锁大型语言模型的潜力在人工智能和自然语言处理领域,大型语言模型(LargeLanguageModels,LLMs)正在掀起一场革命。随着GPT、BERT等模型的出现,LLMs展现出了惊人的能力,可以执行各种复杂的语言任务。然而,如何有效地训练和使用这些强大的模型仍然是一个挑战。针对这一需求,GitHub上的LLM-PowerHouse项目应运而生,为开发者、研究人员
输入：0.5元/百万tokens（缓存命中）或2元（未命中）输出：8元/百万tokens 杏花春雨江南缓存
这句话描述了一种定价模型，通常用于云计算、API服务或数据处理服务中，根据资源使用情况（如缓存命中与否）来收费。以下是对这句话的详细解释：1.关键术语解释Tokens：在自然语言处理（NLP）或数据处理领域，Token通常指文本的最小单位（如一个单词或一个字符）。在这里，Tokens是计费的单位。缓存命中（CacheHit）：当请求的数据已经在缓存中时，称为缓存命中。缓存命中通常意味着更快的响应速
【人工智能基础2】Tramsformer架构、自然语言处理基础、计算机视觉总结 roman_日积跬步-终至千里人工智能习题人工智能自然语言处理计算机视觉
文章目录七、Transformer架构1.替代LSTM的原因2.Transformer架构：编码器-解码器架构3.Transformer架构原理八、自然语言处理基础1.语言模型基本概念2.向量语义3.预训练语言模型的基本原理与方法4.DeepSeek基本原理九、计算机视觉七、Transformer架构1.替代LSTM的原因处理极长序列时，效率下降：虽然LSTM设计的初衷是解决长期依赖问题，即让模型
AI人工智能中的概率论与统计学原理与Python实战：Python实现概率模型 AI天才研究院 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的不断发展，概率论与统计学在人工智能领域的应用越来越广泛。概率论与统计学是人工智能中的基础知识之一，它们在机器学习、深度学习、自然语言处理等领域都有着重要的作用。本文将介绍概率论与统计学的核心概念、算法原理、具体操作步骤以及Python实现方法，并通过具体代码实例进行详细解释。2.核心概念与联系2.1概率论与统计学的区别概率论是一门数学学科，它研究随机事件发生的可能性。
Collab-Overcooked:专注于多智能体协作的语言模型基准测试平台数据集
2025-02-27，由北京邮电大学和理想汽车公司联合创建。该平台基于《Overcooked-AI》游戏环境，设计了更具挑战性和实用性的交互任务，目的通过自然语言沟通促进多智能体协作。一、研究背景近年来，基于大型语言模型的智能体系统在复杂任务分解和规划方面展现出巨大潜力，成为自然语言处理领域的研究热点。然而，随着研究的深入，人们发现单个智能体在处理复杂任务时存在局限性，而多智能体系统通过协作能够显
Ollama 基本概念 Mr_One_Zhang 学习Ollama ai
Ollama是一个本地化的、支持多种自然语言处理（NLP）任务的机器学习框架，专注于模型加载、推理和生成任务。通过Ollama，用户能够方便地与本地部署的大型预训练模型进行交互。1.模型（Model）在Ollama中，模型是核心组成部分。它们是经过预训练的机器学习模型，能够执行不同的任务，例如文本生成、文本摘要、情感分析、对话生成等。Ollama支持多种流行的预训练模型，常见的模型有：deepse
AI 大模型应用数据中心建设：高性能计算与存储架构 AI智能涌现深度研究 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、高性能计算、存储架构、分布式训练、GPU加速、数据管理1.背景介绍近年来，人工智能（AI）技术取得了飞速发展，特别是深度学习模型的突破性进展，催生了一系列基于大规模数据训练的强大AI模型，例如GPT-3、BERT、DALL-E等。这些AI大模型在自然语言处理、计算机视觉、语音识别等领域展现出强大的应用潜力，但也对计算资源和数据存储提出了极高的要求。传统的计算架构难以满足AI大
CSDN社区，到底该不该用DeepSeek AI生成文章？ Small踢倒coffee_氕氘氚 python 经验分享
##引言在当今数字化时代，人工智能（AI）技术正以惊人的速度发展，逐渐渗透到各个行业和领域。作为AI技术的一个重要分支，自然语言处理（NLP）在内容创作、文本生成等方面展现出了巨大的潜力。DeepSeekAI作为一款先进的AI写作工具，能够自动生成高质量的文章，极大地提高了内容创作的效率。然而，随着AI生成内容的普及，CSDN社区中的开发者、技术爱好者和内容创作者们开始思考一个问题：我们到底该不该
AI大模型从入门到精通，2025终极指南！好卷啊，又不能躺平，只能悄悄卷你们了！大模型教程人工智能大模型训练 LLM 知识库大模型大模型入门大模型学习
什么是AI大模型？AI大模型是指使用大规模数据和强大的计算能力训练出来的人工智能模型。这些模型通常具有高度的准确性和泛化能力，可以应用于各种领域，如自然语言处理、图像识别、语音识别等。为什么要学AI大模型？2024人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s