常鸿宇

BERT+CRF命名实体识别的主动学习实现，支持中英文（基于Keras）

命名实体识别主动学习

1. 什么是主动学习
2. 主动学习的指标计算
3. 代码实现
- 3.1 环境
- 3.2 数据的格式
- 3.3 建立tokenizer和model
- 3.4 数据生成器和数据预处理
- 3.5 建立数据池
- 3.6 定义模型训练相关类和方法
- 3.7 开启主动学习的流程
4. 关于其它任务的主动学习

1. 什么是主动学习

在机器学习中，主动学习（active learning）一般指，在标注数据的过程中，采用一定的方法，使得模型能够自主分辨未标注的样本中哪些更值得标注，进而通过更少的标注样本量达到相同或近似质量的模型的目的，从而降低人工标注的成本。

经过多年的发展，主动学习的方法越来越多样，今天介绍的是最基础的一种方法，并通过keras实现主动学习的功能。我在设计和实现这一过程的时候有参考别人的总结介绍，也有加入自己的理解，其中可能有不准确的地方。如果有读者发现这篇文章有什么明显的错误或问题，还请联系我，或在评论区指出。

2. 主动学习的指标计算

这篇文章主要参考了http://www.woshipm.com/kol/1020880.html其中所述的论文。
其中将计算用于NER的主动学习的指标归为了以下4种。本文应用到了其中的前两种，LC置信度指标和MNLP置信度指标。感兴趣的同学可以去阅读原文。

第一种即 Least Confidence（简称 LC），计算预测中最大概率序列的对应概率值。

第二种，Maximum Normalized Log-Probality（MNLP），基于 LC 并且考虑到生成中的序列长度对于不确定性的影响，我们做一个 normalization（即除以每个句子的长度），概率则是用每一个点概率输出的 log 值求和来代替。

第三种是一个基于 Disagreement 的主动学习方法，主要利用 dropout 在深度学习中的另一个作用（dropout 本来的作用是在训练中为了让模型 generalize 得更好）。去年 Gal et al. 的一篇文章就告诉我们：如果在做 inference 的时候也用 dropout 实际上是等价于来计算模型的不确定性的。这里我们也就需要在做 inference 的过程中也要同时做 dropout，在得到的 M 种结果中计算有多少是不一致的。

第四种方法是基于每一个点是否具有代表性的采样方法，除去考虑每一个点的不确定性外，通过计算样本与样本之间的相似度，来进一步判断该选择那些样本更具有代表性。这样的方法在大量数据的情况下需要更加有效的计算方法。我们重新把它处理成一个 submodular maximization 的问题，并利用 streaming algorithm 得到近似最优解。

3. 代码实现

3.1 环境

这篇博客将介绍如何利用keras实现主动学习的功能。
建议使用notebook运行下面的代码，方便调试。
主要用到的工具是bert4keras。由于3090要求CUDA11.2以上，所以无奈将TensorFlow升级到了2以上。而我用的bert4keras还是旧版的，所以做了一点点修改，使之可以在tf2的环境下进行。

修改后的bert4keras的链接：
链接：pan
提取码：r0gk

下载之后放在当前目录，从当前目录import即可。

|--your_notebook.ipynb
|--bert4keras
	|--models.py
	|--xxxxxx.py

接下来打开创建的notebook，加载它

import os
import re
import json
import random
import copy
import math
import numpy as np
import unicodedata, re
from bert4keras.backend import keras, K, batch_gather
from bert4keras.layers import Loss
from bert4keras.layers import LayerNormalization
from bert4keras.tokenizers import Tokenizer
from bert4keras.models import build_transformer_model
from bert4keras.optimizers import Adam, extend_with_exponential_moving_average
from bert4keras.snippets import sequence_padding, DataGenerator
from bert4keras.snippets import ViterbiDecoder
from keras.layers import Input, Dense, Lambda, Reshape, Dropout
from keras.models import Model
from bert4keras.optimizers import Adam
from tqdm.notebook import tqdm
from bert4keras.layers import ConditionalRandomField

# 设置使用显卡0
os.environ["CUDA_VISIBLE_DEVICES"] = "0"

另外，接下来会用到的几个辅助函数提前写在这里。

def to_array(*args):
    """批量转numpy的array
    """
    results = [np.array(a) for a in args]
    if len(args) == 1:
        return results[0]
    else:
        return results

# 这个函数也是bert4keras中实现的
# 在英文的场景中用来匹配token和character
# 返回每个token对应哪些character
def rematch(text, tokens, do_lower_case=do_lower_case):
    if do_lower_case:
        text = text.lower()
        
    def is_control(ch):
        return unicodedata.category(ch) in ('Cc', 'Cf')
    
    def is_special(ch):
        return bool(ch) and (ch[0] == '[') and (ch[-1] == ']')
    
    def stem(token):
        if token[:2] == '##':
            return token[2:]
        else:
            return token
        
    normalized_text, char_mapping = '', []
    for i, ch in enumerate(text):
        if do_lower_case:
            ch = unicodedata.normalize('NFD', ch)
            ch = ''.join([c for c in ch if unicodedata.category(c) != 'mn'])
        ch = ''.join([c for c in ch if not (ord(c) == 0 or ord(c) == 0xfffd or is_control(c))])
        normalized_text += ch
        char_mapping.extend([i] * len(ch))
    text, token_mapping, offset = normalized_text, [], 0
    for token in tokens:
        if is_special(token):
            token_mapping.append([])
        else:
            token = stem(token)
            if do_lower_case:
                token = token.lower()
            start = text[offset:].index(token) + offset
            end = start + len(token)
            token_mapping.append(char_mapping[start: end])
            offset = end
    return token_mapping

3.2 数据的格式

在这里我将数据处理成了以下格式，如果想参考这篇博客的话，最好也将数据处理一下。由于我使用的数据集为ACE2005，是非公开的数据集，没有办法把数据分享出来。下面手写了一个例子来说明数据的格式。

# 所有数据组织在一个list中，每一条数据是一个dict
# dict有3个键值对，数据的id，原文内容，以及包含的实体
# 包含的实体是一个list，其中的每一条实体是一个dict
# 每一个实体包含了实体的id，实体的类型，实体的原文内容，以及起止位置
[
	{
		"id": 1,
		"text": 'ISIS宣称对爆炸负责。',
		"entities": [
							{
								"entity_id": 1,
								"entity_type": ORG,
								"words": 'ISIS',
								"start_pos": 0,
								"end_pos": 4,
							}
						],
	},
]

假设生成的数据（全部数据，还没有进行train和valid的划分）赋给变量data。

3.3 建立tokenizer和model

设置一下基本的参数。对于英文的情形，我采用的是cased model，中文的情形，采用的是全词掩码的wwm的模型。模型都可以在bert官方的GitHub上找到下载。

bert_layers = 12
learning_rate = 1e-5
crf_lr_multiplier = 1000
do_lower_case = True
maxlen = 512
train_batch_size = 16
# 场景是中文还是英文
lang = 'zh'

# 模型的本地路径
if lang == 'en':
    config_path = 'your_path_to/cased_L-12_H-768_A-12/bert_config.json'
    checkpoint_path = 'your_path_to/cased_L-12_H-768_A-12/bert_model.ckpt'
    dict_path = 'your_path_to/cased_L-12_H-768_A-12/vocab.txt'
elif lang == 'zh':
    config_path = 'your_path_to/bert_wwm_ext/bert_config.json'
    checkpoint_path = 'your_path_to/bert_wwm_ext/bert_model.ckpt'
    dict_path = 'your_path_to/bert_wwm_ext/vocab.txt'

分情况考虑中文和英文的情形，建立对应的tokenizer。

if lang == 'en':
    tokenizer = Tokenizer(dict_path, do_lower_case=do_lower_case)
    
elif lang == 'zh':
    class ZhTokenizer(Tokenizer):
        def _tokenize(self, text):
            """
            定义自己的分词器
            词典里的直接加入，空格用未经训练标识，其余标记为UNK
            :type text:
            """
            Res = []
            for c in text:
                if c == "?":
                    Res.append('[UNK]')
                elif c in self._token_dict:
                    Res.append(c)
                elif self._is_space(c):
                    Res.append('[unused1]')
                else:
                    Res.append('[UNK]')
            return Res
        
    tokenizer = ZhTokenizer(dict_path, do_lower_case=True)
    
else:
    print('Make sure language is "en" or "zh".')

然后建立模型。

# 由于我希望在每轮学习时，从初始参数开始训练，而不受之前标注结果训练的影响
# 所以给Model类增加了一个reset的方法，用来读取初始的权重
# 这里的Model是keras的Model类
class TrainModel(Model):
    def reset(self):
        self.load_weights('init_ckpt.h5')

def creat_model():
    """
    创建bert+crf的模型
    创建模型的同时在当前目录下的init_ckpt目录创建初始参数
    """
    bert_model = build_transformer_model(
        config_path,
        checkpoint_path,
    )
    num_labels = len(label2id)

    output_layer = 'Transformer-%s-FeedForward-Norm' % (bert_layers - 1)
    output = bert_model.get_layer(output_layer).output
    output = Dense(num_labels)(output)
    CRF = ConditionalRandomField(lr_multiplier=crf_lr_multiplier)
    output = CRF(output)
    train_model = TrainModel(bert_model.input, output)
    # train_model.summary()
    # 在创建模型的开始，把初始参数保存下来，用于后续的每一轮主动学习开始的时候加载
    train_model.save('init_ckpt.h5')
        
    train_model.compile(
        loss=CRF.sparse_loss,
        optimizer=Adam(learning_rate),
        metrics=[CRF.sparse_accuracy]
    )
        
    return train_model

3.4 数据生成器和数据预处理

熟悉keras的同学应该对keras的数据生成器不陌生，其作用是将数据组织起来，把tokenizer给出的特征和数据对应的label，批量地传给model。在这里我设计的generator比较简单，对应的也就要求传给generator的数据需要是提前处理好的。

class Data_Generator(DataGenerator):
    """
    数据生成器
    """
    def __iter__(self, random=False):
        batch_token_ids, batch_segment_ids, batch_labels = [], [], []
        for is_end, d in self.sample(random):
            if not d['text']:
                continue
            token_ids, segment_ids = tokenizer.encode(d['text'], maxlen=maxlen)
            labels = d['label']
            
            batch_token_ids.append(token_ids)
            batch_segment_ids.append(segment_ids)
            batch_labels.append(labels)
            
            if  len(batch_token_ids) >= self.batch_size or is_end:
                batch_token_ids = sequence_padding(batch_token_ids)
                batch_segment_ids = sequence_padding(batch_segment_ids)
                batch_labels = sequence_padding(batch_labels)
                batch_token_ids = batch_token_ids.astype('int64')
                batch_segment_ids = batch_segment_ids.astype('int64')
                batch_labels = batch_labels.astype('int64')
                
                yield [batch_token_ids, batch_segment_ids], batch_labels
                batch_token_ids, batch_segment_ids, batch_labels = [], [], []

传给generator的每一条数据只有两个字段，text是原文本，label是每个token对应的标签。这也就要求数据需要提前把label生成好，这里编写了一个预处理的方法。

① data是全部的数据集，数据集的格式参考3.2中的样例；
② lang表示是英文还是中文，对中英文有不同的处理方法，简单来说，就是中文每个字符就是一个token，所以无需做特殊的处理，而英文则涉及到token和char的相互转换的问题。因为主动学习是需要与对应的标注系统进行交互的，而标注系统的前端界面展示一般要求以字符为单位，模型训练和预测是的基本单位则是token，所以在拿到char-level的数据时，需要先将其转换成token-level才能传给模型；
③ split_val表示是否将数据data切分成训练集和验证集，如果设置为True，则会随机取20%的数据作为验证集；
④ generate_label2id表示是否生成label2id这个映射，该映射用于将实体的类型转换为实体类型id，如果设置为true，则会在执行preprocess_data的时候创建全局变量label2id和它的逆变换id2label，二者都是dict。label2id是BIO形式标注的，B和实体类型之间用双短线–分隔，例如B- -ORG。

def preprocess_data(data, lang='en', split_val=False, generate_label2id=True):
    """
    所有数据层的预处理工作
    1. 创建标签label2id
    2. 如果是英文，则需要做进一步的转换
    :param data: 标注后的数据
    :param lang: 语种，如果是英语则需要做span转换
    :param split_val: 是否从中分出一部分作为验证集
    :param generate_label2id: 是否生成全局的label2id
    ---------------
    ver: 2021-08-28
    by: changhongyu
    """
    if generate_label2id:
    	# 遍历整个数据集，统计出全部的实体类型
    	# 这个label2id是BIO形式的
        all_types = []
        for d in data:
            for ent in d['entities']:
                if ent['entity_type'] not in all_types:
                    all_types.append(ent['entity_type'])

        all_type_bi = []
        for ent_type in all_types:
            all_type_bi.append('B--' + ent_type)
            all_type_bi.append('I--' + ent_type)


        global label2id
        global id2label

        id2label = {
     }
        label2id = {
     }
        for i, label in enumerate(all_type_bi):
            id2label[i+1] = label
            label2id[label] = i+1

        label2id['O'] = 0
        id2label[0] = 'O'
    
    # 统计完之后切分
    if split_val:
        data = data[: round(len(data) * 0.8)]
        val_data = data[round(len(data) * 0.8)+1: ]
    
    else:
        val_data = None
    
    def _get_char_span(train_data):
        """
        从标准格式的训练数据中获取所有实体的char level格式
        """
        char_span = []
        for d in train_data:
            current = []
            for ent in d['entities']:
                current.append(([i for i in range(ent['start_pos'], ent['end_pos']+1)], ent['entity_type']))

            char_span.append(current)

        return char_span
    
    def _convert_char_span_to_input_label(char_span, tokenizer, train_data):
        """
        英文数据集时使用
        转化为用于训练的数据格式：
        {'text': 'xxx',  'label': 'xxx'}
        """
        final_res = []
        for i, d in enumerate(tqdm(train_data)):
            # 首先获取映射关系
            try:
                match_map = rematch(d['text'], tokenizer.tokenize(d['text'].lower()), do_lower_case=do_lower_case)
            except:
                labels = np.zeros(len(tokenizer.tokenize(d['text'].lower())))
                final_res.append({
     'text': d['text'], 'labels': labels})
                continue
            # print(match_map)

            # 然后生成label
            labels = np.zeros(len(tokenizer.tokenize(d['text'].lower())))
            for cs in char_span[i]:
                # 对每一个实体
                if not len(cs):
                    continue
                ent_span = cs[0]
                ent_label = cs[1]
                for char_idx, char_pos in enumerate(ent_span):
                    # 对每一个字符位置
                    for token_pos, token_map in enumerate(match_map):
                        # 对映射表中的每一个映射关系
                        if char_pos in token_map:
                            # 如果这个实体的字符存在于第token_pos个实体中
                            if ent_label in ['Sentence', 'Crime']:
                            	# ACE2005中的比较特殊的类型，可以无视这行
                                continue
                            # 把label转换成BIO
                            if ent_label[:3] not in ['B--']:
                                # 如果还没有转换成BIO，先统一转换成B
                                ent_label = 'B--' + ent_label

                            labels[token_pos] = label2id[ent_label]
                            # print(labels)
            # print(labels)
            # 在将BO格式的转换成BIO
            for i in range(1, len(labels)):
                if labels[i] == 0:
                    continue
                else:
                    if labels[i] % 2 == 1 and labels[i] == labels[i-1]:
                        # 1,1,1 变 1,2,1
                        labels[i] += 1
                    elif labels[i] % 2 == 1 and labels[i] == labels[i-1] - 1:
                        # 1,2,1 变 1,2,2
                        labels[i] += 1

            final_res.append({
     'text': d['text'], 'labels': labels})

        return final_res
    
    def _convert_data_to_input_label(train_data):
        """
        中文数据集时使用
        转化为用于训练的数据格式：
        {'text': 'xxx',  'label': 'xxx'}
        """
        final_res = []

        for i, d in enumerate(tqdm(train_data)):
            labels = np.zeros(len(tokenizer.tokenize(d['text'], maxlen=maxlen)))
            for ent in d['entities']:
                if ent['end_pos'] > 510:
                    continue
                try:
                    labels[ent['start_pos'] + 1] = label2id['B--'+ent['entity_type']]
                    for i in range(ent['start_pos'] + 1, ent['end_pos']):
                        labels[i + 1] = label2id['I--'+ent['entity_type']]
                except Exception as e:
                    print(e)
                    # print(ent)
                    # print(d['text'])

            final_res.append(
                {
     
                    "text": d['text'],
                    "labels": labels,
                }
            )

        return final_res
    
    # 如果是英文数据集，则转换成token level
    if lang == 'en':
        char_span = _get_char_span(data)
        
        converted_train = _convert_char_span_to_input_label(char_span=char_span,
                                                            tokenizer=tokenizer,
                                                            train_data=data)
        
        return converted_train, val_data
    
    elif lang == 'zh':
        converted_train = _convert_data_to_input_label(train_data=data)
        
        return converted_train, val_data
    
    else:
        raise ValueError("Make sure input attribute lang is either en or zh.")

然后执行它，生成训练集和验证集，以及label2id。

train_data, valid_data = preprocess_data(data, lang=lang, generate_label2id=True, split_val=True)

# 除了label2id，还生成一个id2type，更便捷地在预测的时候获取实体类型，不考虑BIO
id2type = {
     }
for i in id2label:
    id2type[i] = id2label[i].split('--')[-1]

3.5 建立数据池

有了数据集之后，需要把它放在一个池子里，每轮训练之后，对池子里的数据进行判断，找到最值得标注的数据，然后把这些数据推荐给标注员。

为了实现这个基本的功能，编写了一个数据池的类，用于存放数据，以及按照数据的index取数据。

class DataPool:
    """
    数据池
    ---------------
    ver: 2021-07-27
    by: changhongyu
    """
    def __init__(self, ori_data=None):
        if not ori_data:
            ori_data = []
        self.ori_data = ori_data
        self.labeled_data = []
        self.unlabeled_data = ori_data
        if not self.unlabeled_data:
            print("INFO: DataPool empty.")
        
    def __len__(self):
        return len(self.ori_data)
        
    def sample_rand(self, num, valid_percent=0.2):
        """
        随机采样num条，生成初始训练集和验证集
        :param num: int: 采样的数量
        :param valid_percent: float: 生成的验证集占比
        :return rand_train: list: 生成的训练集
        :return rand_valid: list: 生成的验证集
        """
        random.shuffle(self.unlabeled_data)
        rand_data = [self.unlabeled_data.pop(0) for i in range(num)]
        self.labeled_data += rand_data
        assert 0 <= valid_percent <= 1, "valid percent must in span [0, 1]."
        len_train = round(num * (1-valid_percent))
        rand_train = rand_data[: len_train]
        rand_valid = rand_data[len_train: ]
        
        return rand_train, rand_valid
    
    def sample_by_idx(self, idxes, valid_percent=0.2):
        """
        根据传入的序号采样
        :param idxes: 按照置信度升序排列的样本idx列表
        :return batch_train: list: 生成的训练集
        :return batch_valid: list: 生成的验证集
        """
        batch = []
        for i, idx in enumerate(idxes):
            for d in self.unlabeled_data:
                if d['id'] == idx:
                    batch.append(d)
                    self.labeled_data.append(d)
                    self.unlabeled_data.remove(d)
                    break
                
        assert 0 <= valid_percent <= 1, "valid percent must in span [0, 1]."
        len_train = round(len(idxes) * (1-valid_percent))
        batch_train = batch[: len_train]
        batch_valid = batch[len_train: ]
        
        return batch_train, batch_valid
    
    def upgrade(self):
        """
        更新已标注数据和未标注数据
        """
        pass
        
    def upload(self, new_data):
        """
        向池子里增加数据
        :param new_data: list: 新增的数据
        """
        self.unlabeled_data += new_data
    
    def clear(self):
        """
        清空数据池
        """
        self.ori_data = []
        self.labeled_data = []
        self.unlabeled_data = []

有了数据池之后，还编写了一个方法用来模拟人工标注的过程。因为正常情况下，主动学习应该是与标注系统交互的，将模型确定性不高的数据找到，然后推给标注系统进行人工标注。一开始拿到的数据也是没有标签的。
在这篇博客里，为了调试代码是否可以执行，拿到的数据都是有标签的。但是我们可以假设数据没有标签，然后经过了这个make_label方法之后，数据的标签才是可见的。简单来说就是这个方法假装有人在标注，这个方法出现在流程中的位置也就是用来说明人工标注在什么时候进行。

def make_label(data):
    """
    假设这是使用标注系统对数据标注的过程
    其实它什么也没有做
    :param data: 未标注数据
    :return labeled_data: 已标注数据
    """
    labeled_data = data
    
    return labeled_data

3.6 定义模型训练相关类和方法

在这里定义了三个组件，一个train方法，用于训练模型，一个evaluate方法，用于评估模型在验证集上的指标，还有一个命名实体识别器，用于从原文中获取实体。
首先来看命名实体识别器，我把主动学习的指标计算也放在了这里边。

简单介绍一下这个类：
① recognize方法用于计算每一个token的labels，以及判定为这些labels的“概率”；
② get_confidence方法用于计算置信度指标，包括了两个指标LC和MNLP；
③ get_entities，get_entities_with_text以及convert_token_to_char是利用labels，针对中英文获取实体的方法；
④ predict方法直接传入一段文本，然后从中获取实体。

关于置信度指标的计算，除了算LC和MNLP之外，我考虑了类别置信度，即每个类型的实体的总体置信度情况，如果某个类型的实体置信度低，则考虑在主动学习的过程中，优先以该类型的实体作为目标进行推荐。

class NamedEntityRecognizer(ViterbiDecoder):
    """
    命名实体识别器
    只区分start和end，不区分论元类型
    """

    def recognize(self, token_ids, segment_ids, return_labels=True):
        """
        实体识别
        返回label：
        [0, 0, 0, 1, 1 ,2]
        注意，模型返回的label是token level的
        ---------------
        ver: 2021-07-27
        by: changhongyu
        """
        while len(token_ids) > 512:
            token_ids.pop(-2)
            segment_ids.pop(-2)

        probs = train_model.predict([to_array([token_ids]), to_array([segment_ids])])[0]
        if return_labels:
            labels = self.decode(probs)
            # print(labels)
        else:
            labels = None
        
        return labels, probs

    @staticmethod
    def get_confidence(probs):
        """
        获取当前样本的置信度
        :param probs: model.predict的结果，shape: (l, num_labels)
        :return LC_confidence: LC置信度
        :return MNLP_confidence: MNLP置信度(对数归一化)
        ---------------
        ver: 2021-07-27
        by: changhongyu
        """
        probs = probs[1: ]

        # 当前样本的全局置信度
        # 等于所有位置上的置信度之和
        LC_confidence = 0
        MNLP_confidence = 0
        # 该样本中每一个类别的实体的置信度
        LC_confidence_by_cls = {
     }
        MNLP_confidence_by_cls = {
     }
        # 该样本中每一个类别的实体的累计概率
        prob_by_cls = {
     }

        for tok_probs in probs:
            # 对每一个位置的token，计算当前位置的置信度
            # 置信度越大则该位置的确定性就越高
            lc_conf = 1
            mnlp_conf = 1
            for labelid, prob in enumerate(tok_probs):
                # 当前样本下，计算一个类型实体的累计概率
                ent_type = id2type[labelid]
                if ent_type not in prob_by_cls:
                    prob_by_cls[ent_type] = prob
                else:
                    prob_by_cls[ent_type] += prob
            

            # 对每一种label，计算确信度，即差值绝对值
            abs_tok_probs = [1 - prob if prob < 0.5 else prob for prob in tok_probs]

            for labelid, prob in enumerate(abs_tok_probs):
                # 当前样本下，计算每一个类型实体的置信度
                ent_type = id2type[labelid]
                if ent_type not in LC_confidence_by_cls:
                    LC_confidence_by_cls[ent_type] = prob
                else:
                    LC_confidence_by_cls[ent_type] *= math.log(prob)
                if ent_type not in MNLP_confidence_by_cls:
                    MNLP_confidence_by_cls[ent_type] = prob
                else:
                    MNLP_confidence_by_cls[ent_type] += math.log(prob)
                
                # 当前样本下，计算所有类型的总的置信度
                lc_conf *= prob
                mnlp_conf += math.log(prob)

            LC_confidence += lc_conf
            MNLP_confidence += mnlp_conf

        MNLP_confidence /= len(probs)  # 序列长度归一化
        
        for k in LC_confidence_by_cls:
            MNLP_confidence_by_cls[k] /= len(probs)
            prob_by_cls[k] /= len(probs)

        return LC_confidence, MNLP_confidence, LC_confidence_by_cls, MNLP_confidence_by_cls, prob_by_cls

    @staticmethod
    def get_entities(labels, text, lang='en'):
        """
        获取不带text和ent_id的实体
        用于训练过程中的评估
        """
        entities = []
        ent = None
        prev_id = 0

        for pos, cur_id in enumerate(labels):
            if cur_id % 2 == 1:
                # 说明是实体的开始
                if ent:
                    # 添加旧的实体
                    entities.append(ent)
                    ent = None

                # 初始化新的实体
                ent_start = pos
                ent_end = pos
                ent_type = id2label[cur_id].split('--')[-1]
                ent = {
     'entity_type': ent_type,
                       'start_pos': ent_start,
                       'end_pos': ent_end}
                prev_id = cur_id

            elif cur_id != 0 and cur_id % 2 == 0:
                # 说明是实体的内部
                if cur_id != prev_id + 1:
                    continue
                # 更新end pos
                ent['end_pos'] = pos
                # 不更新prev_id

            else:
                # 说明是非实体
                if ent:
                    entities.append(ent)
                    ent = None
                prev_id = cur_id
                
        if lang == 'en':
            entities = self.get_entities_with_text(text, entities)
            
        elif lang == 'zh':
            for ent in entities:
                ent["words"] = text[ent['start_pos']: ent['end_pos']]

        return entities

    @staticmethod
    def get_entities_with_text(text, entities):
        """
        获取带text和id的实体
        用于测试
        :param text: 原文
        """
        token_res = tokenizer.tokenize(text)
        for i, ent in enumerate(entities):
            ent_start = ent['start_pos']
            ent_end = ent['end_pos']
            ent_text = text[ent_start: ent_end]
            ent['words'] = ent_text
            ent['entity_id'] = i

        return entities

    @staticmethod
    def convert_token_to_char(entities, text):
        """
        把token level的实体转化为char level
        对带实体text和不带text的实体都可以使用这个方法
        :param entities: 标准格式的实体
        :param text: 原文
        """
        # 先生成映射表
        tokens = tokenizer.tokenize(text)
        try:
            match_map = rematch(text, tokens, do_lower_case=do_lower_case)
        except Exception as e:
            print('error occurred while creating "match_map"')
            print(text)
            print(tokens)
            print(e)
            return []

        for ent in entities:
            char_spans = []
            for i in range(ent['start_pos'], ent['end_pos'] + 1):
                char_spans += match_map[i]
            if not char_spans:
                print(ent)
                print(match_map)
            ent['start_pos'] = char_spans[0]
            ent['end_pos'] = char_spans[-1]

        return entities

    def predict(self, text, lang='en'):
        """
        从输入文本中获取实体
        """
        token_ids, segment_ids = tokenizer.encode(text, maxlen=maxlen)
        
        while len(token_ids) > maxlen:
            token_ids.pop(-2)
            segment_ids.pop(-2)
            
        # 注意：此处修改，recognize方法改为两个返回值，labels是第一个
        labels = self.recognize(token_ids, segment_ids)[0]
        entities = self.get_entities(labels, text, lang)
        
        if lang == 'en':
            # 如果是英文，需要把token_level的实体转化为char_level
            entities = self.convert_token_to_char(entities, text)

        return entities

然后是评估方法，没有什么需要特别说明的。

def evaluate(valid_data, NER):
    """
    :param valid_data: 直接读取验证集，而非生成器
    :param NER: 实例化的NamedEntityRecognizer类
    """
    true_all, pred_all, pred_true = 1e-10, 1e-10, 1e-10
    
    for batch_num, d in enumerate(tqdm(valid_data)):
        # true_all += len(d['entities'])
        true_ents = []   # 生成一个不带text和id的真实实体集合
        for ent in d['entities']:
            if ent['end_pos'] > 510:
                continue
            true_ents.append({
     'entity_type': ent['entity_type'],
                              'start_pos': ent['start_pos'],
                              'words': ent['words'],
                              'end_pos': ent['end_pos']})
        true_all += len(true_ents)
        
        entities = NER.predict(d['text'], lang=lang)
        # if batch_num % 100 == 0:
        #     print(true_ents)
        #     print(entities)
        #     print('\n')
        
        pred_all += len(entities)
        for ent in entities:
            if ent in true_ents:
                pred_true += 1
                
    precision = pred_true / pred_all
    recall  = pred_true / true_all
    f1 = 2 * precision * recall / (precision + recall)
    
    return f1, precision, recall

最后是我们的训练方法，也没有什么需要特别注意的。训练过程中会把f1最高的参数保存在当前路径，名为’best_model.h5’。

def train(model, epoch, train_data, valid_data):
    """
    训练
    如果存在valid_data，则进行验证并保存最佳模型
    :param model: model
    :param epoch: epoch
    :param train_data: converted train
    :param valid_data: valid
    ---------------
    ver: 2021-07-27
    by: changhongyu
    """
    CRF = model.layers[-1]
    NER = NamedEntityRecognizer(trans=K.eval(CRF.trans), starts=[0], ends=[0])
    
    class Evaluator(keras.callbacks.Callback):
        def __init__(self, valid, NER):
            self.best_val_f1 = 0
            self.valid_data = valid
            self.NER = NER

        def on_epoch_end(self, epoch, logs=None):
            trans = K.eval(CRF.trans)
            NER.trans = trans
            # print(NER.trans)
            if self.valid_data:
                f1, precision, recall = evaluate(self.valid_data, self.NER)
                # 保存最优
                if f1 > self.best_val_f1:
                    self.best_val_f1 = f1
                    print('saving best weights......')
                    train_model.save_weights('best_model.h5')
                    print('done.')
                print(
                    'valid:  f1: %.5f, precision: %.5f, recall: %.5f, best f1: %.5f\n' %
                    (f1, precision, recall, self.best_val_f1)
                )
    
    call_back = Evaluator(valid_data, NER)
    train_generator = Data_Generator(train_data, batch_size=train_batch_size)
    
    model.fit(
        train_generator.forfit(),
        steps_per_epoch=len(train_generator),
        epochs=epoch,
        callbacks=[call_back]
    )
    
    return model

3.7 开启主动学习的流程

首先配置一下参数。

start_num = 100   # 初始标注数据
start_epoch = 5    # 初始标注数据训练多少轮
train_epoch = 5   # 主动学习过程中每次训练多少轮
ori_data = data    # 全部原始未标注数据
method = 'MNLP'       # 主动学习策略
nums_every_round = 40    # 主动学习每一轮推荐多少条数据
max_num_calcu_conf = 500  # 主动学习时在多少条样本中计算置信度并推荐
sort_by_cls = True  # 是否按照类别排序

为了帮助读者理解这段代码的流程，我画了一个简单的图：

第一步，先建立模型和数据池。
第二步，从池中随机取出一部分数据，标注并训练出初始的模型。
第三步，利用模型预测剩下的数据，计算各类指标，并推荐出最值得标注的数据。
第四步，按照计算的置信度结果，从池中采样最值得标注的数据。
然后重复第三四步的过程，直到满足某类条件，结束流程。

下面是整个流程的代码：

print("Creating Data Pool.")
data_pool = DataPool(ori_data)

# 冷启动采样
print("Sampling from Data Pool.")
start_train, start_valid = data_pool.sample_rand(num=start_num)
print("Labeling Data.")
start_train = make_label(start_train) # 假设这里是对数据进行标注
start_valid = make_label(start_valid)
print("Preprocessing Data.")
# print(start_train[0:3])
converted_train, _ = preprocess_data(start_train, lang=lang, generate_label2id=False)
train_data = converted_train
valid_data = start_valid
print(len(valid_data))

# 模型初始训练，先建立参数
print("Creating Train Model.")
train_model = creat_model()
print(train_model)
print("Training.")
train_model = train(train_model, start_epoch, train_data, valid_data)

print("对未标注数据进行排序")
# 对未标注数据进行排序
CRF = train_model.layers[-1]
NER = NamedEntityRecognizer(trans=K.eval(CRF.trans), starts=[0], ends=[0])
idxes = []

print("Calculating Confidence.")
random.shuffle(data_pool.unlabeled_data)

# 对每一篇未标注文档计算其置信度,然后重新排列
for d in tqdm(data_pool.unlabeled_data[: max_num_calcu_conf]):
    # 对每一篇未标注文档计算其置信度
    # 记录所有样本的各个类别的置信度
    global_LC_by_cls = {
     }
    global_MNLP_by_cls = {
     }
    token_ids, segment_ids = tokenizer.encode(d['text'])
    # print(token_ids, segment_ids)
    _, probs = NER.recognize(token_ids, segment_ids, return_labels=False)
    # print(_, probs)
    # print(NER.get_confidence(probs))
    LC_confidence, MNLP_confidence, LC_confidence_by_cls, MNLP_confidence_by_cls, prob_by_cls = NER.get_confidence(probs)
    
    # 更新各个类别的全局置信度
    for cls in LC_confidence_by_cls:
        if cls not in global_LC_by_cls:
            global_LC_by_cls[cls] = LC_confidence_by_cls[cls]
        else:
            global_LC_by_cls[cls] *= LC_confidence_by_cls[cls]
        if cls not in global_MNLP_by_cls:
            global_MNLP_by_cls[cls] = MNLP_confidence_by_cls[cls]
        else:
            global_MNLP_by_cls[cls] += math.log(MNLP_confidence_by_cls[cls])
            
    idxes.append((d['id'], LC_confidence, MNLP_confidence, LC_confidence_by_cls, MNLP_confidence_by_cls, prob_by_cls))

if sort_by_cls:
    # 如果按照不确定性最高的类别推荐
    if method == 'LC':
        # 先找到最不确信的类别
        min_lc_conf = 1e+5
        for cls in LC_confidence_by_cls:
            if LC_confidence_by_cls[cls] < min_lc_conf:
                uncertain_cls = cls
                min_lc_conf = LC_confidence_by_cls[cls]
        # 然后根据这个类别进行排序
        print("当前不确定性最高的实体类别是：{}，将按照该类实体进行推荐".format(uncertain_cls))
        idxes = sorted(idxes, key=lambda x: x[3][uncertain_cls] * x[5][uncertain_cls])
        
    else:
        min_mnlp_conf = 1.0
        for cls in MNLP_confidence_by_cls:
            if MNLP_confidence_by_cls[cls] < min_mnlp_conf:
                uncertain_cls = cls
                min_mnlp_conf = MNLP_confidence_by_cls[cls]
        idxes = sorted(idxes, key=lambda x: x[4][uncertain_cls] * x[5][uncertain_cls])
        print("当前不确定性最高的实体类别是：{}，将按照该类实体进行推荐".format(uncertain_cls))

else:
    if method == 'LC':
        idxes = sorted(idxes, key=lambda x: x[1])
    else:
        idxes = sorted(idxes, key=lambda x: x[2])
        
idxes = [i[0] for i in idxes][: nums_every_round]


# 开始主动学习
print("Start Active Learning.")
while True:
    new_train, new_valid = data_pool.sample_by_idx(idxes)
    # 标注数据
    cur_train = make_label(new_train)
    cur_valid = make_label(new_valid)
    cur_train, _ = preprocess_data(cur_train, lang='zh', generate_label2id=False)
    train_data += cur_train
    valid_data += cur_valid

    train_model.reset()
    print("Training")
    train_model = train(train_model, train_epoch, train_data, valid_data)

    CRF = train_model.layers[-1]
    NER = NamedEntityRecognizer(trans=K.eval(CRF.trans), starts=[0], ends=[0])
    idxes = []

    random.shuffle(data_pool.unlabeled_data)
    print("Calculating Confidence.")

    for d in tqdm(data_pool.unlabeled_data[: 1000]):
        # 对每一篇未标注文档计算其置信度
        global_LC_by_cls = {
     }
        global_MNLP_by_cls = {
     }
        token_ids, segment_ids = tokenizer.encode(d['text'])
        _, probs = NER.recognize(token_ids, segment_ids, return_labels=False)
        LC_confidence, MNLP_confidence, LC_confidence_by_cls, MNLP_confidence_by_cls, prob_by_cls = NER.get_confidence(probs)

        # 更新各个类别的全局置信度
        for cls in LC_confidence_by_cls:
            if cls not in global_LC_by_cls:
                global_LC_by_cls[cls] = LC_confidence_by_cls[cls]
            else:
                global_LC_by_cls[cls] *= LC_confidence_by_cls[cls]
            if cls not in global_MNLP_by_cls:
                global_MNLP_by_cls[cls] = MNLP_confidence_by_cls[cls]
            else:
                global_MNLP_by_cls[cls] += math.log(MNLP_confidence_by_cls[cls])

        idxes.append((d['id'], LC_confidence, MNLP_confidence, LC_confidence_by_cls, MNLP_confidence_by_cls, prob_by_cls))

    if sort_by_cls:
        if method == 'LC':
            # 先找到最不确信的类别
            min_lc_conf = 1e+5
            for cls in LC_confidence_by_cls:
                if LC_confidence_by_cls[cls] < min_lc_conf:
                    uncertain_cls = cls
                    min_lc_conf = LC_confidence_by_cls[cls]
            # 然后根据这个类别进行排序
            print("当前不确定性最高的实体类别是：{}，将按照该类实体进行推荐".format(uncertain_cls))
            idxes = sorted(idxes, key=lambda x: x[3][uncertain_cls] * x[5][uncertain_cls])

        else:
            min_mnlp_conf = 1.0
            for cls in MNLP_confidence_by_cls:
                if MNLP_confidence_by_cls[cls] < min_mnlp_conf:
                    uncertain_cls = cls
                    min_mnlp_conf = MNLP_confidence_by_cls[cls]
            print("当前不确定性最高的实体类别是：{}，将按照该类实体进行推荐".format(uncertain_cls))
            idxes = sorted(idxes, key=lambda x: x[4][uncertain_cls] * x[5][uncertain_cls])

    else:
        if method == 'LC':
            idxes = sorted(idxes, key=lambda x: x[1])
        else:
            idxes = sorted(idxes, key=lambda x: x[2])

    idxes = [i[0] for i in idxes][: nums_every_round]

	# 出口
	# 如果池中剩余数据量小于数据总量的30%，则停止标注
	# 也可以根据自己的实际情况设计其他各种样式的出口
    if len(data_pool.unlabeled_data) <= len(data_pool) * 0.3:
        break

4. 关于其它任务的主动学习

本篇博客主要介绍了命名实体识别任务的主动学习实现，对于其他任务，只需要做细微的调整即可。例如分类任务，需要对分类器计算的属于某一个类别的“概率”计算指标，即token分类的任务转为了sequence分类的任务，减少了len维度，在此代码的基础上稍作简化即可。至于关系抽取、事件抽取等任务，主要取决于模型的结构是怎样设计的，如果是pipeline的模型，则需要分别计算其中每一步（NER，分类等）的置信度，然后计算一个综合指标，如果是joint模型，则需要直接设计一个总体的置信度得分。

如果有任何相关的问题，欢迎在评论区留言交流讨论，我们下期再见。

你可能感兴趣的:(自然语言处理,bert,keras,自然语言处理)

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
100天持续行动—Day01 Richard_DL
今天开始站着学习，发现效率大幅提升。把fast.ai的Lesson1的后半部分和Lesson2看完了。由于Keras版本和视频中的不一致，运行notebook时经常出现莫名其妙的错误，导致自己只动手实践了视频中的一小部分内容。为了赶时间，我打算先把与CNN相关的视频过一遍。然后尽快开始做自己的项目。明天继续加油，争取把Lesson3和Lesson4看完。
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
go语言安装快速入门吉祥鸟hu
[TOC]go语言是什么Go是一个开源的编程语言，它能让构造简单、可靠且高效的软件变得容易。Go是从2007年末由RobertGriesemer,RobPike,KenThompson主持开发，后来还加入了IanLanceTaylor,RussCox等人，并最终于2009年11月开源，在2012年早些时候发布了Go1稳定版本。现在Go的开发已经是完全开放的，并且拥有一个活跃的社区如何安装环境笔者这
Humanize 项目教程尤嫒冰
Humanize项目教程humanizeAJSlibraryforaddinga“humantouch”todata.项目地址:https://gitcode.com/gh_mirrors/humani/humanize项目介绍Humanize是一个开源项目，旨在将机器生成的文本转换为更加自然、人性化的文本。该项目通过先进的算法和自然语言处理技术，使得AI生成的内容更加贴近人类的表达方式，从而提高
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
解决BERT模型bert-base-chinese报错（无法自动联网下载）搬砖修狗 bert 人工智能深度学习 python
一、下载问题hugging-face是访问BERT模型的最初网站，但是目前hugging-face在中国多地不可达，在代码中涉及到该网站的模型都会报错，本文我们就以bert-base-chinese报错为例，提供一个下载到本地的方法来解决问题。二、网站google-bert(BERTcommunity)Thisorganizationismaintainedbythetransformerstea
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式 m0_57781768 语言模型 json 人工智能
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式在现代自然语言处理（NLP）的应用中，大型语言模型（LLM）已经成为了重要的工具。这些模型能够生成丰富的自然语言文本，适用于各种应用场景。然而，在某些应用中，开发者不仅仅需要生成文本，还需要将这些生成的文本转换为结构化的数据格式，例如JSON。这种结构化的数据格式在数据传输、存储以及进一步处理时具有显著优势。本文将深
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
使用LangChain和OpenAI实现高效文本标注 aehrutktrjk langchain python
使用LangChain和OpenAI实现高效文本标注引言在自然语言处理(NLP)领域，文本标注是一项重要且常见的任务。它涉及为文本分配标签，如情感、语言、风格等。本文将介绍如何使用LangChain和OpenAI的API来实现高效的文本标注系统。我们将探讨如何设置环境、定义标注模式，以及如何使用OpenAI的模型来执行标注任务。环境准备首先，我们需要安装必要的库并设置API密钥：%pipinsta
数据分析-24-时间序列预测之基于keras的VMD-LSTM和VMD-CNN-LSTM预测风速皮皮冰燃数据分析数据分析
文章目录1普通的LSTM模型1.1数据重采样1.2数据标准化1.3切分窗口1.4划分数据集1.5建立模型1.6预测效果2VMD-LSTM模型2.1VMD分解时间序列2.2对每一个IMF建立LSTM模型2.2.1IMF1—LSTM2.2.2IMF2-LSTM2.2.3统一代码2.3评估效果3CNN-LSTM模型3.1数据预处理3.2建立模型3.3效果预测4VMD-CNN-LSTM模型4.1VMD分解
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
多模态Transformer之文本与图像联合建模 - Transformer教程 shandianfk_com ChatGPT Transformer transformer 深度学习人工智能
大家好，今天我们来聊聊一个既前沿又有趣的话题——多模态Transformer，特别是文本与图像的联合建模。对于很多小伙伴来说，Transformer这个词已经不陌生了，但它不仅仅应用于自然语言处理，还能在图像处理、甚至是多模态数据的处理上大显身手。接下来，我会带大家深入了解什么是多模态Transformer，以及它是如何实现文本与图像的联合建模的。Transformer简介首先，我们简单回顾一下T
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
ROS yaml参数文件的使用 Sun Shiteng ROS
举个例子，若在params.yaml文件中定义如下参数LidarImageFusion:points_src:"/hilbert_h/deskew/cloud_info"image_src:"/usb_cam0/image_raw"camera_info_src:"/home/hdj/fusion_slam/Color_SLAM_ws/src/hilbert_h/config/firefly_8s
英伟达（NVIDIA）B200架构解读 weixin_41205263 芯际争霸 GPGPU架构 gpu算力人工智能硬件架构
H100芯片是一款高性能AI芯片，其中的TransformerEngine是专门用于加速Transformer模型计算的核心部件。Transformer模型是一种自然语言处理（NLP）模型，广泛应用于机器翻译、文本生成等任务。TransformerEngine的电路设计原理主要包括以下几个方面：
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &