HELLO-Zhang先森

BERT+BiLSTM命名实体识别

这是第一次在CSDN上记录自己的学习过程，加油。

本文是记录b站博主“手写AI”的命名实体识别系列课程的学习笔记，构建五个py文件，直接运行即可。

一、前言

二、数据处理

数据案例

读取数据

构建label2index

三、数据迭代器

接下来看一下如何构建数据类

对三个函数进行一一解释：

四、模型

训练和验证

当label不为None的时候，就是训练：

当label为None的时候，就是验证：

五、训练

六、预测

六、完整代码

config.py

utils.py

model.py

train.py

predict.py

一、前言

文章比较简单，就是利用BERT+BiLSTM，然后后面直接连上Linear层进行分类，比较简单。

二、数据处理

数据案例

高 B-NAME 勇 E-NAME ： O 男 O ， O 中 B-CONT 国 I-CONT 国 I-CONT 籍 E-CONT ， O 无 O 境 O 外 O 居 O 留 O 权 O ， O

读取数据

def read_data(filename):
    with open(filename, 'r', encoding='utf8') as f:
        all_data = f.read().split('\n')

    all_text = []  # 用来保存所有的文本
    all_label = [] # 用来保存所有的标签
    text = []      # 用来保存一段文本
    labels = []    # 用来保存一段文本的标签
    for data in all_data:
        if data == '':
            all_text.append(text)
            all_label.append(labels)
            text = []
            labels = []
        else:
            t, l = data.split(' ')
            text.append(t)
            labels.append(l)
    return all_text, all_label

构建label2index

def build_label_2_index(all_label):
    label_2_index = {'PAD': 0, 'UNK': 1}
    for labels in all_label:
        for label in labels:
            if label not in label_2_index:
                label_2_index[label] = len(label_2_index)
    return label_2_index, list(label_2_index)

因为会设置模型输出的最大长度，所有，当句子不够长的时候，我们需要对标签进行填充[PAD],当遇到不认识的标签时[UNK].

返回值：

label_2_index：是字典，类似于{'PAD': 0, 'UNK': 1}

list(label_2_index)：是列表，['PAD', 'UNK']

三、数据迭代器

在pytorch里面，Dataset和DataLoader这两个类很重要，可以将数据处理好，然后就可以直接读取了。具体的操作流程都是固定的，主要是以下三个函数：

def __init__(self):  # 初始化函数
    pass
def __getitem__(self, item): # 读取一个数据
    pass
def __len__(self)    # 返回整个数据的长度
    pass

接下来看一下如何构建数据类

class Data(Dataset):
    def __init__(self, all_text, all_label, tokenizer, label2index, max_len):
        self.all_text = all_text
        self.all_label = all_label
        self.tokenizer = tokenizer
        self.label2index = label2index
        self.max_len = max_len

    def __getitem__(self, item):
        text = self.all_text[item]
        labels = self.all_label[item][:self.max_len]

        # 需要对text编码，让bert可以接受
        text_index = self.tokenizer.encode(text,
                                           add_special_tokens=True,
                                           max_length=self.max_len + 2,
                                           padding='max_length',
                                           truncation=True,
                                           return_tensors='pt',
                                           )
        # 也需要将label进行编码
        # 那么我们需要构建一个函数来传入label2index
        # labels_index = [self.label2index.get(label, 1) for label in labels]
        # 上面那个就仅仅是转化，我们需要将label和text对齐
        labels_index = [0] + [self.label2index.get(label, 1) for label in labels] + [0] + [0] * (
                self.max_len - len(text))

        # 这里需要注意text_index.squeeze()，squeeze()是默认去掉维度为1的那个维度
        # text_index的原始维度是：batch_size,1,seq_len
        # 在后续操作的过程中，将输入数据喂入模型时，如果不做处理，就会报错
        # 这里多输出一个len(text)！目的是在验证的时候，用的上，后面会介绍用处

        return text_index.squeeze(), torch.tensor(labels_index), len(text)

    def __len__(self):
        return len(self.all_text)

对三个函数进行一一解释：

1、 def __init__(self, all_text, all_label, tokenizer, label2index, max_len)

需要在初始化函数中传入需要的参数，比如：

all_text和all_label：你读取的所有文本和标签（数据处理部分）；

tokenizer：因为要将文本传入BERT模型中，直接传入肯定是不行的，需要将文本转成数字（这是transformers封装好的，直接调用就行）；

label2index：与上面的tokenizer相似，也需要将标签转成数字，这里直接编写代码即可（数据处理部分）

max_len：设置你想要的最大长度

四、模型

class MyModel(nn.Module):
    def __init__(self, class_num):
        super(MyModel, self).__init__()
        self.class_num = class_num

        self.bert = BertModel.from_pretrained(BERT_PATH)

        self.lstm = nn.LSTM(768,
                            768 // 2,
                            bidirectional=True,
                            batch_first=True)

        self.linear = nn.Linear(768, class_num)
        self.loss_fn = nn.CrossEntropyLoss()

    def forward(self, batch_text, batch_label=None):
        output = self.bert(batch_text)
        bert_out0, bert_out1 = output[0], output[1]
        output1, _ = self.lstm(bert_out0)
        pre = self.linear(output1)

        if batch_label is not None:
            loss = self.loss_fn(pre.reshape(-1, pre.shape[-1]), batch_label.reshape(-1))
            return loss
        else:
            return torch.argmax(pre, dim=-1)

将输入数据喂入模型，然后得到输出。

当模型有标签数据的时候，那么就会返回损失值，然后反向传播，更新，梯度清零；

当模型没有标签数据的时候，那么就是预测了，模型的输出应该就是标签类别，所以要在初始化函数中传入整个类别数（len(label2index)）

注意：此时，这个标签值，应该是数字，后续还需要将其转换为真是标签进行计算。

所以在初始化函数中：

def __init__(self, class_num)，设置了一class_num==整个类别数（len(label2index)）

训练和验证

当label不为None的时候，就是训练：

if batch_label is not None:
loss = self.loss_fn(pre.reshape(-1, pre.shape[-1]),batch_label.reshape(-1))
return loss
为什么要将pre和batch_label的维度进行改变？

首先，需要看pre的原始维度：

pre.shape == torch.Size([batch_size, max_len, class_num])

batch_label.shape == torch.Size([batch_size, max_len])

其次，loss_fn = nn.CrossEntropyLoss()，需要输入的向量维度是二维的，所以我们需要对维度进行改变！

最后，

pre.reshape(-1, pre.shape[-1]) == （batch_size*max_len， class_num）

batch_label.reshape(-1) == （batch_size*max_len)

当label为None的时候，就是验证：

直接返回：return torch.argmax(pre, dim=-1)。

五、训练

def train():
    
    # 读取训练文件夹
    train_filename = os.path.join('data', 'train.txt')
    # 返回训练数据的文本和标签
    train_text, train_label = read_data(train_filename)

    # 验证集
    dev_filename = os.path.join('data', 'dev.txt')
    dev_text, dev_label = read_data(dev_filename)
    # print(train_filename)
    
    # 得到label2index, index2label
    label2index, index2label = build_label_2_index(train_label)

    # 数据迭代器
    train_data = Data(train_text, train_label, tokenizer, label2index, MAX_LEN)
    train_loader = DataLoader(train_data, batch_size=32, shuffle=False)

    dev_data = Data(dev_text, dev_label, tokenizer, label2index, MAX_LEN)
    dev_loader = DataLoader(dev_data, batch_size=32, shuffle=False)

    # 模型
    model = MyModel(len(label2index)).to(DEVICE)
    optimizer = torch.optim.AdamW(model.parameters(), lr=LEARNING_RATE)

    # 训练

    for epoch in range(EPOCHS):
        model.train()
        for batch_idx, data in enumerate(train_loader):
            batch_text, batch_label, batch_len = data
            # 将数据放到GPU上
            loss = model(batch_text.to(DEVICE), batch_label.to(DEVICE))
            loss.backward()

            optimizer.step()
            optimizer.zero_grad()

            if batch_idx % 10 == 0:
                print(f'Epoch: {epoch}, BATCH: {batch_idx}, Training Loss:  {loss.item()}')
        # torch.save(model, MODEL_DIR + f'model_{epoch}.pth')

        model.eval()
        
        # 用来存放预测标签和真实标签
        all_pre = []
        all_tag = []
        
        for batch_text, batch_label, batch_len in dev_loader:
            
            # 因为是预测，所以在模型输入的地方，没有加入batch_label
            pre = model(batch_text.to(DEVICE))
            
            # 将pre从GPU上读下来，转成list
            pre = pre.cpu().numpy().tolist()
            batch_label = batch_label.cpu().numpy().tolist()

            # 还有一点要注意， from seqeval.metrics import f1_score
            # 在使用 f1_score的时候，所需要的标签应该是完整的，而不是经过填充过的
            # 所以我们需要将填充过的标签信息进行拆分怎么做呢？
            # 就需要将最开始没有填充过的文本长度记录下来，在__getitem__的返回量中增加一个长度量，那样我们就能知道文本真实长度
            # 然后就此进行切分，因为左边增加了一个开始符，需要去掉一个即可；右边按照长度来切分

            for p, t, l in zip(pre, batch_label, batch_len):
                p = p[1: l + 1]
                t = t[1: l + 1]

                pre = [index2label[j] for j in p]
                tag = [index2label[j] for j in t]
                all_pre.append(pre)
                all_tag.append(tag)
        f1_score_ = f1_score(all_pre, all_tag)
        p_score = precision_score(all_pre, all_tag)
        r_score = recall_score(all_pre, all_tag)
        # f1_score(batch_label_index, pre)
        print(f'p值={p_score}, r值={r_score}, f1={f1_score_}')

六、预测

就没有跑那么多了，直接保存模型，读取一条数据进行预测。

def predict():
    train_filename = os.path.join('data', 'train.txt')
    train_text, train_label = read_data(train_filename)

    test_filename = os.path.join('data', 'test.txt')
    test_text, _ = read_data(test_filename)
    text = test_text[1]

    print(text)

    inputs = tokenizer.encode(text,
                              return_tensors='pt')
    inputs = inputs.to(DEVICE)
    model = torch.load(MODEL_DIR + 'model_1.pth')
    y_pre = model(inputs).reshape(-1)  # 或者是y_pre[0]也行,因为y_pre是一个batch，需要进行reshape

    _, id2label = build_label_2_index(train_label)

    label = [id2label[l] for l in y_pre[1:-1]]
    print(text)
    print(label)


if __name__ == '__main__':
    predict()

六、完整代码

完整代码分为5部分：config.py, utils.py, model.py, train.py, predict.py

config.py

import torch
from transformers import BertModel, BertTokenizer
from torch.utils.data import DataLoader, Dataset
EPOCHS = 2
BATCH_SIZE = 64
LEARNING_RATE = 2e-5
MAX_LEN = 50
DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu'  # 调用GPU

BERT_PATH = r'BERT_MODEL\roberta'  # 你自己的bert模型地址

tokenizer = BertTokenizer.from_pretrained(BERT_PATH)
MODEL_DIR = 'model/'   # 这是保存模型的地址，建在你代码的同一级即可

utils.py

import torch
from torch.utils.data import DataLoader, Dataset


def read_data(filename):
    with open(filename, 'r', encoding='utf8') as f:
        all_data = f.read().split('\n')

    all_text = []
    all_label = []
    text = []
    labels = []
    for data in all_data:
        if data == '':
            all_text.append(text)
            all_label.append(labels)
            text = []
            labels = []
        else:
            t, l = data.split(' ')
            text.append(t)
            labels.append(l)
    return all_text, all_label


def build_label_2_index(all_label):
    label_2_index = {'PAD': 0, 'UNK': 1}
    for labels in all_label:
        for label in labels:
            if label not in label_2_index:
                label_2_index[label] = len(label_2_index)
    return label_2_index, list(label_2_index)


class Data(Dataset):
    def __init__(self, all_text, all_label, tokenizer, label2index, max_len):
        self.all_text = all_text
        self.all_label = all_label
        self.tokenizer = tokenizer
        self.label2index = label2index
        self.max_len = max_len

    def __getitem__(self, item):
        text = self.all_text[item]
        labels = self.all_label[item][:self.max_len]

        # 需要对text编码，让bert可以接受
        text_index = self.tokenizer.encode(text,
                                           add_special_tokens=True,
                                           max_length=self.max_len + 2,
                                           padding='max_length',
                                           truncation=True,
                                           return_tensors='pt',
                                           )
        # 也需要将label进行编码
        # 那么我们需要构建一个函数来传入label2index
        # labels_index = [self.label2index.get(label, 1) for label in labels]
        # 上面那个就仅仅是转化，我们需要将label和text对齐
        labels_index = [0] + [self.label2index.get(label, 1) for label in labels] + [0] + [0] * (
                self.max_len - len(text))

        return text_index.squeeze(), torch.tensor(labels_index), len(text)

    def __len__(self):
        return len(self.all_text)

model.py

import torch.nn as nn
from config import *


class MyModel(nn.Module):
    def __init__(self, class_num):
        super(MyModel, self).__init__()
        self.class_num = class_num

        self.bert = BertModel.from_pretrained(BERT_PATH)

        self.lstm = nn.LSTM(768,
                            768 // 2,
                            bidirectional=True,
                            batch_first=True)

        self.linear = nn.Linear(768, class_num)
        self.loss_fn = nn.CrossEntropyLoss()

    def forward(self, batch_text, batch_label=None):
        output = self.bert(batch_text)
        bert_out0, bert_out1 = output[0], output[1]
        output1, _ = self.lstm(bert_out0)
        pre = self.linear(output1)

        if batch_label is not None:
            loss = self.loss_fn(pre.reshape(-1, pre.shape[-1]), batch_label.reshape(-1))
            return loss
        else:
            return torch.argmax(pre, dim=-1)

train.py

from utils import *
from model import *
from config import *
from seqeval.metrics import f1_score, precision_score, recall_score
import os


def train():

    # 读取训练文件夹
    train_filename = os.path.join('data', 'train.txt')
    # 返回训练数据的文本和标签
    train_text, train_label = read_data(train_filename)

    # 验证集
    dev_filename = os.path.join('data', 'dev.txt')
    dev_text, dev_label = read_data(dev_filename)
    # print(train_filename)

    # 得到label2index, index2label
    label2index, index2label = build_label_2_index(train_label)

    # 数据迭代器
    train_data = Data(train_text, train_label, tokenizer, label2index, MAX_LEN)
    train_loader = DataLoader(train_data, batch_size=32, shuffle=False)

    dev_data = Data(dev_text, dev_label, tokenizer, label2index, MAX_LEN)
    dev_loader = DataLoader(dev_data, batch_size=32, shuffle=False)

    # 模型
    model = MyModel(len(label2index)).to(DEVICE)
    optimizer = torch.optim.AdamW(model.parameters(), lr=LEARNING_RATE)

    # 训练

    for epoch in range(EPOCHS):
        model.train()
        for batch_idx, data in enumerate(train_loader):
            batch_text, batch_label, batch_len = data
            # 将数据放到GPU上
            loss = model(batch_text.to(DEVICE), batch_label.to(DEVICE))
            loss.backward()

            optimizer.step()
            optimizer.zero_grad()

            if batch_idx % 10 == 0:
                print(f'Epoch: {epoch}, BATCH: {batch_idx}, Training Loss:  {loss.item()}')
        # torch.save(model, MODEL_DIR + f'model_{epoch}.pth')

        model.eval()

        # 用来存放预测标签和真实标签
        all_pre = []
        all_tag = []

        for batch_text, batch_label, batch_len in dev_loader:

            # 因为是预测，所以在模型输入的地方，没有加入batch_label
            pre = model(batch_text.to(DEVICE))

            # 将pre从GPU上读下来，转成list
            pre = pre.cpu().numpy().tolist()
            batch_label = batch_label.cpu().numpy().tolist()

            # 还有一点要注意， from seqeval.metrics import f1_score
            # 在使用 f1_score的时候，所需要的标签应该是完整的，而不是经过填充过的
            # 所以我们需要将填充过的标签信息进行拆分怎么做呢？
            # 就需要将最开始没有填充过的文本长度记录下来，在__getitem__的返回量中增加一个长度量，那样我们就能知道文本真实长度
            # 然后就此进行切分，因为左边增加了一个开始符，需要去掉一个即可；右边按照长度来切分

            for p, t, l in zip(pre, batch_label, batch_len):
                p = p[1: l + 1]
                t = t[1: l + 1]

                pre = [index2label[j] for j in p]
                tag = [index2label[j] for j in t]
                all_pre.append(pre)
                all_tag.append(tag)
        f1_score_ = f1_score(all_pre, all_tag)
        p_score = precision_score(all_pre, all_tag)
        r_score = recall_score(all_pre, all_tag)
        # f1_score(batch_label_index, pre)
        print(f'p值={p_score}, r值={r_score}, f1={f1_score_}')
        # print(2*p_score*r_score/(p_score+r_score))


if __name__ == '__main__':
    train()

predict.py

from utils import *
from model import *
from config import *
import os


def predict():
    train_filename = os.path.join('data', 'train.txt')
    train_text, train_label = read_data(train_filename)

    test_filename = os.path.join('data', 'test.txt')
    test_text, _ = read_data(test_filename)
    text = test_text[1]

    print(text)

    inputs = tokenizer.encode(text,
                              return_tensors='pt')
    inputs = inputs.to(DEVICE)
    model = torch.load(MODEL_DIR + 'model_1.pth')
    y_pre = model(inputs).reshape(-1)  # 或者是y_pre[0]也行,因为y_pre是一个batch，需要进行reshape

    _, id2label = build_label_2_index(train_label)

    label = [id2label[l] for l in y_pre[1:-1]]
    print(text)
    print(label)


if __name__ == '__main__':
    predict()

BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
go语言安装快速入门吉祥鸟hu
[TOC]go语言是什么Go是一个开源的编程语言，它能让构造简单、可靠且高效的软件变得容易。Go是从2007年末由RobertGriesemer,RobPike,KenThompson主持开发，后来还加入了IanLanceTaylor,RussCox等人，并最终于2009年11月开源，在2012年早些时候发布了Go1稳定版本。现在Go的开发已经是完全开放的，并且拥有一个活跃的社区如何安装环境笔者这
解决BERT模型bert-base-chinese报错（无法自动联网下载）搬砖修狗 bert 人工智能深度学习 python
一、下载问题hugging-face是访问BERT模型的最初网站，但是目前hugging-face在中国多地不可达，在代码中涉及到该网站的模型都会报错，本文我们就以bert-base-chinese报错为例，提供一个下载到本地的方法来解决问题。二、网站google-bert(BERTcommunity)Thisorganizationismaintainedbythetransformerstea
ROS yaml参数文件的使用 Sun Shiteng ROS
举个例子，若在params.yaml文件中定义如下参数LidarImageFusion:points_src:"/hilbert_h/deskew/cloud_info"image_src:"/usb_cam0/image_raw"camera_info_src:"/home/hdj/fusion_slam/Color_SLAM_ws/src/hilbert_h/config/firefly_8s
《昇思 25 天学习打卡营第 25 天 | 基于 MindSpore 实现 BERT 对话情绪识别》 Sam9029 Mindscope模型学习深度学习
《昇思25天学习打卡营第25天|基于MindSpore实现BERT对话情绪识别》活动地址：https://xihe.mindspore.cn/events/mindspore-training-camp签名：Sam9029环境配置确保安装了正确版本的MindSpore和MindNLP库。!pipuninstallmindspore-y!pipinstall-ihttps://pypi.mirror
Go的学习路线 JSU-YSJ Golang基础学习 golang 学习开发语言
Golang简介go语言Go（又称Golang）是Google的RobertGriesemer，RobPike及KenThompson开发的一种静态强类型、编译型语言。Go语言语法与C相近，但功能上有：内存安全，GC（垃圾回收），结构形态及CSP-style并发计算。为什么要学习Go现有的编程语言风格各异，不能完全的运动好电脑的硬件，不高效，及各种优势于一身的语言Golang(谷歌创建)兼容静态编
爱无常，恨无常，珍惜好时光爱博文学翻译社
爱无常，恨无常，珍惜好时光编辑:AlbertXu片尾曲《匆匆那年》很好听，看的过程中感觉美好、惊醒、奇妙、困惑和无常：1.美好的是青春，是逝去的时光，是那些已经改变又从未改变的人，也是那些深深刻在脑海中的爱的印记，甚至是后悔，那些证明我们存在于世的全部经历。当人们从一个原点出发，相逢又散去，投入到各自的生活洪流中时，片刻的驻足，怀念起过去，几乎很多人都在习惯性美化它们。长大后觉得甜蜜的回忆，在经历
大规模语言模型的书籍分享，从零基础入门到精通非常详细收藏我这一篇就够了黑客-雨语言模型人工智能自然语言处理学习大模型学习大模型入门大模型教程
在当今人工智能领域，大规模语言模型成为了研究和应用的热点之一。它们以其大规模的参数和强大的性能表现，推动着机器学习和深度学习技术的发展。对于GPT系列大规模语言模型的发展历程，有两点令人印象深刻。第一点是可拓展的训练架构与学习范式:Transformer架构能够拓展到百亿、千亿甚至万亿参数规模，并且将预训练任务统一为预测下一个词这一通用学习范式;第二点是对于数据质量与数据规模的重视:不同于BERT
【Tools】大模型中的BERT概念音乐学家方大刚工具 bert 人工智能深度学习
摇来摇去摇碎点点的金黄伸手牵来一片梦的霞光南方的小巷推开多情的门窗年轻和我们歌唱摇来摇去摇着温柔的阳光轻轻托起一件梦的衣裳古老的都市每天都改变模样方芳《摇太阳》BERT（BidirectionalEncoderRepresentationsfromTransformers）是一种基于Transformer的预训练语言模型，由Google于2018年发布。BERT的目标是通过大规模无监督预训练学习来
详述Python环境下配置AI大模型Qwen-72B的步骤 Play_Sai #Python开发 python AI大模型人工智能
随着人工智能技术的发展，大规模预训练模型如Qwen-72B等逐渐成为研究和应用的重点。本篇博客旨在提供一份详细的指南，帮助Python开发者们在自己的环境中顺利配置并使用Qwen-72B大模型。请注意：由于Qwen-72B这一模型目前并未公开存在，所以以下内容仅为假设性描述，实际上你需要替换为你想要配置的真实存在的大模型，例如GPT-3、BERT等。一、环境准备1.安装必要的库首先确保你已经安装了
突发奇想，玩家用《我的世界》重现美术大师画作，还原度很高爱游戏的萌博士
如果你喜欢绘画，在其中又特别钟情风景画的话，你可能听说过鲍伯·鲁斯（BobRoss）。这其实是罗伯特·诺曼·鲁斯（RobertNormanRoss）的艺名，他是位美国画家，同时也是一位艺术指导与电视节目主持人。鲁斯以他温柔且和乐的语气为特色，在他著名的电视节目“欢乐画室（TheJoyofPainting）”中担任即席教学画家兼主持人，这个节目活跃于上世纪八九十年代。博士为什么要提上面这位顶着爆炸头
大模型落地指南：从下载到本地化部署全流程解析网安猫叔人工智能自然语言处理语言模型 AIGC 深度学习
一、引言随着人工智能技术的迅猛发展，大规模预训练模型（如GPT-4、BERT等）在自然语言处理、图像识别等领域展现出了卓越的性能。然而，如何将这些强大的模型从理论落地到实际应用中，仍然是许多技术从业者面临的挑战。本篇文章旨在为读者提供一份详尽的大模型落地指南，从模型的下载、文件结构的解析，到本地化部署的具体步骤，全面覆盖整个流程。无论你是初次接触大模型的新手，还是希望深入了解部署细节的资深开发者，
解决Can‘t load tokenizer for ‘bert-base-chinese‘.问题 CSDNhdlg NLP bert 人工智能深度学习自然语言处理
报错提示：OSError:Can'tloadtokenizerfor'bert-base-chinese'.Ifyouweretryingtoloaditfrom'https://huggingface.co/models',makesureyoudon'thavealocaldirectorywiththesamename.Otherwise,makesure'bert-base-chinese
如何用RoBERTa高效提取事件文本结构特征：多层次上下文建模与特征融合大多_C 人工智能
基于RoBERTa-BASE的特征提取器，提取事件文本数据的结构特征（如段落和篇章结构）涉及多个步骤。RoBERTa作为一种预训练语言模型，可以很好地捕捉输入文本的上下文和依赖关系。具体步骤如下：1.文本预处理在提取事件文本的结构特征之前，需要对文本进行适当的预处理。这一步包括：分句和分段处理：将事件文本拆分为不同的句子或段落，并对每个句子/段落进行标记。每个段落可以视为一个独立的输入序列。Tok
这样的电影都骂烂，是我握不动刀还是有人太飘 Sir电影
年度最WTF电影来了！年度最争议电影来了！威尼斯电影节首映，有的观众起立鼓掌，有的观众恨不得朝屏幕丢鞋。观众这样，更别说影评人……迷之又迷的，比如《RogerEbert.com》：恐怖、勾人、迷惑……这是一部刷新你认知的电影。恨之入骨的，比如《纽约观察者报》——我不愿给它贴上“年度最差电影”标签，因为“世纪最差电影”更适合它。评分网站呢，一个比一个不给面子：IMDb7.0，烂番茄68%，豆瓣6.7
Transformer、BERT、GPT、T5、LLM（大语言模型），以及它们在实际行业中的运用 Funhpc_huachen transformer bert gpt 语言模型深度学习
作为AI智能大模型的专家训练师，我将从主流模型框架的角度来分析其核心技术特点及其在不同实际行业中的应用。我们重点讨论以下几个主流模型框架：Transformer、BERT、GPT、T5、LLM（大语言模型），以及它们在实际行业中的运用。1.Transformer框架Transformer是一种基础的深度学习模型架构，由Google于2017年提出。它引入了注意力机制（Self-Attention）
fpga图像处理实战-边缘检测（Roberts算子）梦梦梦梦子~ OV5640+图像处理图像处理计算机视觉人工智能
Roberts算子Roberts算子是一种用于边缘检测的算子，主要用于图像处理中检测图像的边缘。它是最早的边缘检测算法之一，以其计算简单、速度快而著称。Roberts算子通过计算图像像素在对角方向的梯度来检测边缘，从而突出图像中灰度变化最剧烈的部分。原理Roberts算子通过对图像应用两个2x2的卷积核（也称为掩模或滤波器）来计算图像在水平和垂直方向上的梯度。假设原始图像的像素值为I(x,y)，则
Rhinoceros 8 for Mac/Win：重塑三维建模边界的革新之作平安喜乐616 Rhinoceros 8 Rhino 8 三维建模软件犀牛8
Rhinoceros8（简称Rhino8），作为一款由RobertMcNeel&Assoc公司开发的顶尖三维建模软件，无论是对于Mac还是Windows用户而言，都是一款不可多得的高效工具。Rhino8以其强大的功能、广泛的应用领域以及卓越的性能，在建筑设计、工业设计、产品设计、三维动画制作、科学研究及机械设计等多个领域展现出了非凡的实力。强大的建模能力Rhino8支持多种建模技术，包括曲面建模、
预训练语言模型的前世今生 - 从Word Embedding到BERT 脚步的影子语言模型 embedding bert
目录一、预训练1.1图像领域的预训练1.2预训练的思想二、语言模型2.1统计语言模型2.2神经网络语言模型三、词向量3.1独热（Onehot）编码3.2WordEmbedding四、Word2Vec模型五、自然语言处理的预训练模型六、RNN和LSTM6.1RNN6.2RNN的梯度消失问题6.3LSTM6.4LSTM解决RNN的梯度消失问题七、ELMo模型7.1ELMo的预训练7.2ELMo的Fea
【大模型系列篇】预训练模型：BERT & GPT 木亦汐丫大模型 bert gpt 人工智能预训练模型大模型
2018年，Google首次推出BERT（BidirectionalEncoderRepresentationsfromTransformers）。该模型是在大量文本语料库上结合无监督和监督学习进行训练的。BERT的目标是创建一种语言模型，可以理解句子中单词的上下文和含义，同时考虑到它前后出现的单词。2018年，OpenAI首次推出GPT（GenerativePre-trainedTransfor
【人工智能】Transformers之Pipeline（十三）：填充蒙版（fill-mask） LDG_AGI Pipeline 人工智能机器学习计算机视觉 python 时序数据库大数据自然语言处理
目录一、引言二、填充蒙版（fill-mask）2.1概述2.2技术原理2.2.1BERT模型的基本概念2.2.2BERT模型的工作原理2.2.3BERT模型的结构2.2.4BERT模型的应用2.2.5BERT模型与Transformer的区别和联系2.3应用场景2.4pipeline参数2.4.1pipeline对象实例化参数2.4.2pipeline对象使用参数2.4.3pipeline返回参数
IT历史：互联网简史 weixin_34275734 网络操作系统 java
Hobbes的互联网大事记-权威的互联网发展史Hobbes’Internet大事记v4.2作者：RobertH’obbes’ZakonInternet福音传道者译者：郭力Internet大事记的版权归RobertHZakon所有(c)1993-9。只要保留版权说明，给出在一个在本文档最后的指向本大事记的连接地址，并且不是出于商业目的，均可以使用本文的部分或全部内容，但是使用者必须向作者提供一份使用
大模型--个人学习心得挚爱清&虚人工智能
大模型LLM定义大模型LLM，全称LargeLanguageModel，即大型语言模型LLM是一种基于Transformer架构模型，它通过驯良大量文本数据，学习语言的语法、语义和上下文信息，从而能够对自然语言文本进行建模这种模型在自然语言处理(NLP)领域具有广泛应用常见的13个大模型BERT、GPT系列、T5、Meta的Llama系列、华为盘古模型、阿里巴巴通义大模型、科大讯飞星火大模型、百度
基于Bert-base-chinese训练多分类文本模型(代码详解）一颗洋芋 bert 分类自然语言处理
目录一、简介二、模型训练三、模型推理一、简介BERT（BidirectionalEncoderRepresentationsfromTransformers）是基于深度学习在自然语言处理（NLP）领域近几年出现的、影响深远的创新模型之一。在BERT之前，已经有许多预训练语言模型，如ELMO和GPT，它们展示了预训练模型在NLP任务中的强大性能。然而，这些模型通常基于单向的上下文信息，即只考虑文本中
【深度学习 transformer】使用pytorch 训练transformer 模型,hugginface 来啦东华果汁哥深度学习-文本分类深度学习 transformer pytorch
HuggingFace是一个致力于开源自然语言处理（NLP）和机器学习项目的社区。它由几个关键组件组成：Transformers：这是一个基于PyTorch的库，提供了各种预训练的NLP模型，如BERT、GPT、RoBERTa、DistilBERT等。它还提供了一个简单易用的API来加载这些模型，并进行微调以适应特定的下游任务。Datasets：这是一个用于加载和预处理NLP数据集的库，与Tran
LLM大模型落地-从理论到实践 hhaiming_ 语言模型人工智能 ai 深度学习
简述按个人偏好和目标总结了学习目标和路径（可按需学习），后续将陆续整理出相应学习资料和资源。学习目标熟悉主流LLM（Llama,ChatGLM,Qwen）的技术架构和技术细节；有实际应用RAG、PEFT和SFT的项目经验较强的NLP基础，熟悉BERT、T5、Transformer和GPT的实现和差异，能快速掌握业界进展，有对话系统相关研发经验掌握TensorRT-LLM、vLLM等主流推理加速框架
AI 大模型在文本生成任务中的创新应用 AI_Guru人工智呢人工智能
概述随着人工智能技术的飞速发展，大模型在文本生成任务中的应用越来越广泛。这些模型通过深度学习技术，能够生成连贯、有意义的文本，甚至在某些情况下达到与人类写作难以区分的程度。本文将探讨AI大模型在文本生成任务中的创新应用，包括自动文摘、机器翻译、创意写作等领域。自动文摘自动文摘是指从给定文本中自动提取关键信息，生成简短摘要的过程。这对于处理大量文本数据、快速获取信息尤为重要。代码示例：基于BERT的
Bert系列：论文阅读Rethink Training of BERT Rerankers in Multi-Stage Retrieval Pipeline 凝眸伏笔 nlp 论文阅读 bert reranker retrieval
一句话总结：提出LocalizedContrastiveEstimation(LCE)，来优化检索排序。摘要预训练的深度语言模型(LM)在文本检索中表现出色。基于丰富的上下文匹配信息，深度LM微调重新排序器从候选集合中找出更为关联的内容。同时，深度lm也可以用来提高搜索索引，构建更好的召回。当前的reranker方法并不能完全探索到检索结果的效果。因此，本文提出了LocalizedContrast
大语言模型算力优化策略：基于并行化技术的算力共享平台研究 ZhangJiQun&MXP 2024算力共享 2021 论文语言模型人工智能自然语言处理
目录大语言模型算力优化策略：基于并行化技术的算力共享平台研究摘要引言算力共享平台的设计1.平台架构2.并行化计算技术模型并行化流水线并行化3.资源管理和调度实验与结果分析结论与展望首先，大语言模型（如GPT系列、BERT等）和算力共享的结合是近年来人工智能领域的研究热点。算力共享旨在通过分布式计算技术，将大规模计算任务分配给多个计算节点，以提高计算效率、降低资源成本并加速模型训练和推理过程。其次，
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

BERT+BiLSTM命名实体识别

一、前言

二、数据处理

数据案例

读取数据

构建label2index

三、数据迭代器

接下来看一下如何构建数据类

对三个函数进行一一解释：

四、模型

训练和验证

当label不为None的时候，就是训练：

当label为None的时候，就是验证：

五、训练

六、预测

六、完整代码

config.py

utils.py

model.py

train.py

predict.py

你可能感兴趣的:(bert)