一颗洋芋

基于Bert-base-chinese训练多分类文本模型(代码详解）

一、简介

二、模型训练

三、模型推理

一、简介

BERT（Bidirectional Encoder Representations from Transformers）是基于深度学习在自然语言处理（NLP）领域近几年出现的、影响深远的创新模型之一。在BERT之前，已经有许多预训练语言模型，如ELMO和GPT，它们展示了预训练模型在NLP任务中的强大性能。然而，这些模型通常基于单向的上下文信息，即只考虑文本中的前向或后向信息，这限制了它们对文本的全局理解。BERT旨在通过引入双向上下文信息来解决这一问题，从而更准确地表示文本中的语义信息。

与传统的单向语言模型相比，BERT 的核心优势在于：

双向性：BERT通过使用Transformer的编码器结构，能够同时从文本的左右两个方向学习上下文信息，使模型能够更好地理解句子中的每个词的语义。
预训练与微调：通过预训练任务，BERT 可以在多种下游任务上进行快速微调。

其中，Bert-base-chinese模型是一个在简体和繁体中文文本上训练得到的预训练模型。

二、模型训练

数据示例如下，现在有一个data.csv文件，包含两列分别是特征(feature)和标签(label)。其中，标签可能是多个分类。

第一步：读取数据并提取出特征和标签

data = pd.read_csv('./data/data.csv', encoding='utf-8')   # 如果表格数据是gbk格式，则修改encoding='gbk'
X = data['feature']   # 特征列
y = data['label'].values   # 标签列

第二步：对标签数据进行编码转换

label_encoder = LabelEncoder()  # 初始化
y_encoded = label_encoder.fit_transform(y)
joblib.dump(label_encoder, './data/encoder.joblib') # 保存 label_encoder 以便以后使用
print(f'分类数：{len(label_encoder.classes_)} \n')  # 标签的类别数量

第三步：划分训练数据集和测试数据集

X_train, X_val, y_train, y_val = train_test_split(X, y_encoded, test_size=0.1,random_state=42)  # test_size=0.1表示训练集和测试集划分比例是9:1 
# random_state=42表示固定随机种子为42，保证每一次分割数据集都是一样的结果

第四步：加载BERT分词器

local_model_path = './bert-base-chinese'   # 模型地址
tokenizer = BertTokenizer.from_pretrained(local_model_path)
tokenizer.save_pretrained(best_model_path)

第五步：将文本数据转换成BERT模型能够理解的格式

def preprocess_for_bert(data, labels):
    input_ids = []
    attention_masks = []

    for sent in data:  # 对每个句子（sent）进行编码处理
        encoded_sent = tokenizer.encode_plus(
            text=sent,  # 要处理的句子
            add_special_tokens=True,  # 添加特殊标记，如句子的起始标记和结束标记
            max_length=256,  # 句子的最大长度为256个标记，超出部分将被截断，不足部分将被填充
            padding='max_length',  # 将句子填充到固定长度（256），不足部分会用0补齐
            return_attention_mask=True,  # 返回注意力掩码，用于标记哪些位置是填充部分，哪些位置是实际的句子内容
            truncation=True  # 如果句子超过了最大长度，进行截断
        )

        input_ids.append(encoded_sent.get('input_ids'))
        attention_masks.append(encoded_sent.get('attention_mask'))

    # 转换为PyTorch张量（tensor），以便后续可以输入到模型中进行训练或推理
    input_ids = torch.tensor(input_ids)
    attention_masks = torch.tensor(attention_masks)
    labels = torch.tensor(labels)

    return input_ids, attention_masks, labels


train_inputs, train_masks, train_labels = preprocess_for_bert(X_train, y_train)
val_inputs, val_masks, val_labels = preprocess_for_bert(X_val, y_val)

第六步：创建训练集DataLoader和测试集DataLoader

train_data = TensorDataset(train_inputs, train_masks, train_labels)
train_sampler = RandomSampler(train_data)
train_dataloader = DataLoader(train_data, sampler=train_sampler, batch_size=8)

validation_data = TensorDataset(val_inputs, val_masks, val_labels)
validation_sampler = SequentialSampler(validation_data)
validation_dataloader = DataLoader(validation_data, sampler=validation_sampler, batch_size=8)

第七步：加载BERT模型

model = BertForSequenceClassification.from_pretrained(local_model_path, num_labels=len(label_encoder.classes_),ignore_mismatched_sizes=True)
model.cuda()  # 默认使用第一张显卡，如果没有显卡，则可以注释改行代码

第八步：设置优化器和调度器

EPOCHS = 5   # 训练次数，可以自定义修改
optimizer = AdamW(model.parameters(), lr=2e-5, eps=1e-8)   # 优化器
total_steps = len(train_dataloader) * EPOCHS   # 训练步数
scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps=0, num_training_steps=total_steps)  # 调度器

第九步：设置精确度的计算方式

def flat_accuracy(preds, labels):
    pred_flat = np.argmax(preds, axis=1).flatten()
    labels_flat = labels.flatten()
    return np.sum(pred_flat == labels_flat) / len(labels_flat)  # 通过比较预测类别和实际标签的相同之处，计算出预测正确的比例

第十步：训练和评估

best_model_path = './model' # 最优模型训练结果的保存路径
best_val_accuracy = 0  # 初始化最优精确度
for epoch in range(EPOCHS):
    model.train()  # 第一步：将模型设置为训练模式
    total_train_loss = 0  # 初始化训练总损失为0

    for step, batch in enumerate(train_dataloader):  # 第二步：加载训练集DataLoader
        b_input_ids = batch[0].cuda()  # 如果没有显卡，则可以将.cuda给删除了
        b_input_mask = batch[1].cuda()  # 如果没有显卡，则可以将.cuda给删除了
        b_labels = batch[2].cuda().long()  # 如果没有显卡，则可以将.cuda给删除了

        model.zero_grad() # 清除模型的梯度

        outputs = model(b_input_ids, token_type_ids=None, attention_mask=b_input_mask, labels=b_labels)  # 第三步：将输入数据传递给模型，得到模型的输出
        loss = outputs.loss # 第四步：提取出损失值，用于后续的反向传播
        total_train_loss += loss.item()
        loss.backward() # 第五步：进行反向传播，计算梯度
        torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
        optimizer.step()
        scheduler.step()

    avg_train_loss = total_train_loss / len(train_dataloader)  # 第六步：更新学习率

    torch.cuda.empty_cache()  # 训练一轮就清空一次显卡缓存,如果没有显卡，则注释

    # 第七步：模型测试，计算准确度，处理逻辑和训练差不多

    model.eval()
    total_eval_accuracy = 0
    total_eval_loss = 0

    for batch in validation_dataloader:  # 加载测试集DataLoader
        b_input_ids = batch[0].cuda()
        b_input_mask = batch[1].cuda()
        b_labels = batch[2].cuda().long()

        with torch.no_grad():
            outputs = model(b_input_ids, token_type_ids=None, attention_mask=b_input_mask, labels=b_labels)

        loss = outputs.loss
        total_eval_loss += loss.item()
        logits = outputs.logits
        logits = logits.detach().cpu().numpy()
        label_ids = b_labels.to('cpu').numpy()
        total_eval_accuracy += flat_accuracy(logits, label_ids)

    avg_val_accuracy = total_eval_accuracy / len(validation_dataloader)
    avg_val_loss = total_eval_loss / len(validation_dataloader)

    torch.cuda.empty_cache() # 验证一轮就清空一次显卡缓存,如果没有显卡，则注释

    print(f'Training loss: {avg_train_loss}')
    print(f'Validation loss: {avg_val_loss}')
    print(f'Validation Accuracy: {avg_val_accuracy}')   # 主要看这个精度，一般准确率90%以上就可以投入实际生产环境中

    # 在验证集上计算准确率
    if avg_val_accuracy > best_val_accuracy:
        best_val_accuracy = avg_val_accuracy
        # 保存模型
        model.save_pretrained(best_model_path)   # 根据训练次数，保存最优的一个模型结果

完整代码如下：

import pandas as pd
import numpy as np
import joblib
import torch
import time

from transformers import BertTokenizer, BertForSequenceClassification
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from torch.utils.data import DataLoader, RandomSampler, SequentialSampler, TensorDataset, random_split
from torch.optim import AdamW
from transformers import get_linear_schedule_with_warmup

# 读取数据
data = pd.read_csv('./data/data.csv', encoding='utf-8')   # 如果表格数据是gbk，则修改encoding='gbk'

# 最优模型训练结果的保存路径
best_model_path = './model'

X = data['feature']   # 特征列
y = data['label'].values   # 标签列

# 对标签数据进行编码转换
print("1、开始编码转换啦~")
label_encoder = LabelEncoder()  # 初始化
#label_encoder = joblib.load('./data/encoder.joblib')   # 当你使用同样的data第二次运行脚本时，就可以直接加载上一次保存的编码结果，而不需要重复编码（除非两次加载的数据有变动）
y_encoded = label_encoder.fit_transform(y)
print(f'分类数：{len(label_encoder.classes_)} \n')  # 标签的类别数量

# 保存 label_encoder 以便以后使用
joblib.dump(label_encoder, './data/encoder.joblib')

# 分割数据集
X_train, X_val, y_train, y_val = train_test_split(X, y_encoded, test_size=0.1,random_state=42)  # 这里训练和测试数据集比例是9:1，test_size=0.2或者0.3  固定随机种子42，保证每一次分割数据集都是一样的

# 加载BERT分词器
local_model_path = './bert-base-chinese'
tokenizer = BertTokenizer.from_pretrained(local_model_path)
tokenizer.save_pretrained(best_model_path)

# BERT预处理 -- 将文本数据转换成BERT模型能够理解的格式
def preprocess_for_bert(data, labels):
    input_ids = []
    attention_masks = []

    for sent in data:  # 对每个句子（sent）进行编码处理
        encoded_sent = tokenizer.encode_plus(
            text=sent,  # 要处理的句子
            add_special_tokens=True,  # 添加特殊标记，如句子的起始标记和结束标记
            max_length=256,  # 句子的最大长度为256个标记，超出部分将被截断，不足部分将被填充
            padding='max_length',  # 将句子填充到固定长度（256），不足部分会用0补齐
            return_attention_mask=True,  # 返回注意力掩码，用于标记哪些位置是填充部分，哪些位置是实际的句子内容
            truncation=True  # 如果句子超过了最大长度，进行截断
        )

        input_ids.append(encoded_sent.get('input_ids'))
        attention_masks.append(encoded_sent.get('attention_mask'))

    # 转换为PyTorch张量（tensor），以便后续可以输入到模型中进行训练或推理
    input_ids = torch.tensor(input_ids)
    attention_masks = torch.tensor(attention_masks)
    labels = torch.tensor(labels)

    return input_ids, attention_masks, labels


# 预处理数据
print("2、开始预处理数据啦~")
train_inputs, train_masks, train_labels = preprocess_for_bert(X_train, y_train)
val_inputs, val_masks, val_labels = preprocess_for_bert(X_val, y_val)

# 创建DataLoader
train_data = TensorDataset(train_inputs, train_masks, train_labels)
train_sampler = RandomSampler(train_data)
train_dataloader = DataLoader(train_data, sampler=train_sampler, batch_size=8)

validation_data = TensorDataset(val_inputs, val_masks, val_labels)
validation_sampler = SequentialSampler(validation_data)
validation_dataloader = DataLoader(validation_data, sampler=validation_sampler, batch_size=8)

# 加载BERT模型
print("3、开始预加载模型啦~")
model = BertForSequenceClassification.from_pretrained(local_model_path, num_labels=len(label_encoder.classes_),ignore_mismatched_sizes=True)
model.cuda()  # 默认使用第一张显卡

# 设置优化器和调度器
EPOCHS = 5   # 训练次数，可以先训练5次看看效果，可以自定义修改
optimizer = AdamW(model.parameters(), lr=2e-5, eps=1e-8)   # 优化器
total_steps = len(train_dataloader) * EPOCHS
scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps=0, num_training_steps=total_steps)

# 计算精确度 -- 通过比较预测类别和实际标签的相同之处，计算出预测正确的比例
def flat_accuracy(preds, labels):
    pred_flat = np.argmax(preds, axis=1).flatten()
    labels_flat = labels.flatten()
    return np.sum(pred_flat == labels_flat) / len(labels_flat)

# 训练和评估
print("4、开始训练啦~")
best_val_accuracy = 0
for epoch in range(EPOCHS):
    print(f'Epoch {epoch + 1}')
    now_time = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime())   # 记录每一轮的训练开始时间和结束时间
    print("start time:", now_time)

    model.train()  # 模型设置为训练模式
    total_train_loss = 0  # 初始化训练总损失为0

    for step, batch in enumerate(train_dataloader):
        b_input_ids = batch[0].cuda()
        b_input_mask = batch[1].cuda()
        b_labels = batch[2].cuda().long()

        model.zero_grad() # 清除模型的梯度

        outputs = model(b_input_ids, token_type_ids=None, attention_mask=b_input_mask, labels=b_labels)  # 将输入数据传递给模型，得到模型的输出
        loss = outputs.loss # 提取出损失值，用于后续的反向传播
        total_train_loss += loss.item()
        loss.backward() # 进行反向传播，计算梯度
        torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
        optimizer.step()
        scheduler.step()

    avg_train_loss = total_train_loss / len(train_dataloader)  # 更新学习率

    torch.cuda.empty_cache()  # 训练一轮就清空一次显卡缓存
    # 模型测试，计算准确度
    model.eval()
    total_eval_accuracy = 0
    total_eval_loss = 0

    for batch in validation_dataloader:
        b_input_ids = batch[0].cuda()
        b_input_mask = batch[1].cuda()
        b_labels = batch[2].cuda().long()

        with torch.no_grad():
            outputs = model(b_input_ids, token_type_ids=None, attention_mask=b_input_mask, labels=b_labels)

        loss = outputs.loss
        total_eval_loss += loss.item()
        logits = outputs.logits
        logits = logits.detach().cpu().numpy()
        label_ids = b_labels.to('cpu').numpy()
        total_eval_accuracy += flat_accuracy(logits, label_ids)

    avg_val_accuracy = total_eval_accuracy / len(validation_dataloader)
    avg_val_loss = total_eval_loss / len(validation_dataloader)

    torch.cuda.empty_cache() # 验证一轮就清空一次显卡缓存

    print(f'Training loss: {avg_train_loss}')
    print(f'Validation loss: {avg_val_loss}')
    print(f'Validation Accuracy: {avg_val_accuracy}')   # 主要看这个精度，一般准确率90%以上就可以投入实际生产环境中

    # 在验证集上计算准确率
    if avg_val_accuracy > best_val_accuracy:
        best_val_accuracy = avg_val_accuracy
        # 保存模型
        model.save_pretrained(best_model_path)   # 根据训练次数，保存最优的一个模型结果

    now_time = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime())
    print("end time:",now_time)
    print("-------------------")

三、模型推理

模型训练完成后，现在有一批新数据，你想要使用训练好的模型预测该文本数据的分类结果，则可以使用下面的推理代码，详解看注释。

import pandas as pd
import time
import torch
import joblib
from transformers import BertTokenizer, BertForSequenceClassification
import torch.nn.functional as F

# 第一步：加载数据
file_path = './data/detect.csv'  # 要推理的数据路径
df = pd.read_csv(file_path, encoding='utf-8')

# 第二步：加载训练好的模型
best_model_path = './model'
model = BertForSequenceClassification.from_pretrained(best_model_path)
tokenizer = BertTokenizer.from_pretrained(best_model_path)

# 第三步：加载编码（训练时保存的结果）
label_encoder = joblib.load('./data/encoder.joblib')

predictions = []  # 预测值
confidence_scores = []  # 可信度，一般可信度大于0.9说明效果比较准确

# 第四步：遍历推理数据
for row in df.iterrows():
    content = row[1]['feature']  # 特征列（推理样本）
    inputs = tokenizer(content, return_tensors="pt", padding=True, truncation=True, max_length=256)
    outputs = model(**inputs)
    probs = F.softmax(outputs.logits, dim=1)
    pred = torch.argmax(probs, dim=1)
    confidence = torch.max(probs, dim=1)   # 获取置信度的值

    predictions.append(pred.item())
    confidence_scores.append(confidence.values.item())

# 第五步：将预测结果解码为类别标签
decoded_categories = label_encoder.inverse_transform(predictions)

# 第六步：创建一个空的DataFrame来存储推理结果
df['pred'] = decoded_categories
df['confidence_score'] = confidence_scores

# 将结果保存到本地
output_file_path = './data/detect_pred.csv'  # 保存推理结果的路径
df.to_csv(output_file_path, index=False)

参考文章链接：https://blog.csdn.net/yihong23/article/details/138543746

【漫话机器学习系列】054.极值（Extrema） IT古董漫话机器学习系列专辑机器学习人工智能
极值（Extrema）定义极值是数学分析和优化问题中的一个核心概念，指函数在某个定义域内取得的最大值或最小值。根据极值的性质，可以将其分为两类：局部极值（LocalExtrema）：函数在某点附近的最大值或最小值。全局极值（GlobalExtrema）：函数在整个定义域内的最大值或最小值。分类局部极大值（LocalMaximum）：若在点x=a附近存在某邻域，使得对任意x在该邻域内，满足f(x)≤
torch.nn.RNN: PyTorch 中的循环神经网络（RNN）模块彬彬侠自然语言处理 RNN PyTorch Python 循环神经网络 NLP 自然语言处理
torch.nn.RNN:PyTorch中的循环神经网络（RNN）模块1.概述在PyTorch中，torch.nn.RNN是一个用于构建循环神经网络（RNN）的模块。它提供了一个可以进行训练的RNN层，广泛应用于序列数据的建模，如自然语言处理、时间序列分析等。这个模块可以处理各种类型的序列数据，并支持多种功能和配置。2.主要功能torch.nn.RNN可以：处理序列数据，捕捉时间上的依赖关系。支持
使用numpy自定义数据集，使用scikit-learn中SVM的包实现SVM分类辞落山 numpy scikit-learn 支持向量机
概述：支持向量机（SVM）是一种强大的分类算法，适用于线性和非线性分类问题。本博客将展示如何使用numpy自定义一个数据集，并利用scikit-learn中的SVM实现分类。1.导入必要的库importnumpyasnpfromsklearn.svmimportSVCfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metri
AI学习指南HuggingFace篇-高级优化技巧俞兆鹏 AI学习指南 ai
一、引言在深度学习和自然语言处理（NLP）中，模型训练的效率和性能至关重要。HuggingFace提供了多种高级优化技巧，帮助开发者提升模型训练的效率和效果。本文将介绍混合精度训练、分布式训练等高级优化技巧，并探讨如何通过这些方法提升模型训练效率。二、混合精度训练（一）混合精度训练的原理混合精度训练利用自动混合精度（AMP）技术，高效管理FP16和FP32之间的转换。通过在前向传播中使用FP16加
鸿蒙NEXT实践（二）：公共事件通信实践-智能节电案例纯爱掌门人 harmonyos 华为鸿蒙前端 typescript
在鸿蒙操作系统中，公共事件通信是一种强大的进程间通信（IPC）机制，允许应用动态订阅和发布事件。本文将以一个智能节电应用为例，展示如何使用公共事件通信机制来实现应用间的动态交互。公共事件分类公共事件从系统角度可分为：系统公共事件和自定义公共事件。系统公共事件：CES内部定义的公共事件，当前仅支持系统应用和系统服务发布，例如HAP安装、更新、卸载等公共事件。目前支持的系统公共事件请参见系统公共事件列
《计算机网络基础》(第二章：计算机网络体系结构 ) 请向我看齐网络安全计算机网络网络
OSI（OpenSystemInterconnection）参考模型OSI参考模型七层模型TCP/IP模型一、概念二、过程三、原理四、示例五、分类六、发展七、功能两种模型的对比OSI参考模型概念定义：OSI（OpenSystemInterconnection）参考模型是国际标准化组织（ISO）制定的一个用于计算机网络通信的分层架构模型。它将网络通信的功能划分为七个不同的层次，从下到上依次为物理层、
postgresql 查看数据库,表,索引,表空间以及大小神域梦醒
客户要求用pgsql，所在服务器装了一下pgsql，我出了一个pgsql的分类，看这篇文章前，把这个分类下的文章都可以看一下，这是我熟悉pgsql的一套流程。以前搞过一次pgsql，很早了。1,查看数据库查看复制打印?playboy=>\l//\加上字母l,相当于mysql的，mysql>showdatabases;ListofdatabasesName|Owner|Encoding-------
LlamaIndex架构设计：大模型长期记忆模块竟暗藏图数据库玄机威哥说编程数据库 llama
随着人工智能技术的不断发展，大型语言模型（LLM）已经在自然语言处理、文本生成、对话系统等领域取得了显著的进展。然而，尽管这些模型在理解和生成语言方面表现出色，它们却面临着一个重要问题——长期记忆的缺失。传统的语言模型通常只依赖于当前输入的信息，并且无法记住过去的上下文或从历史中积累的知识。这使得它们在需要长期记忆或复杂知识推理的任务中表现不佳。为了解决这一问题，越来越多的研究开始探索如何为大模型
mongodb/mysql 查看数据占用磁盘空间大小 IT_狂奔者 #MongoDB MySQL mysql mongodb
一、mongodb1、查看整个数据库登录进入数据库Bertram:PRIMARY>useBertramBertram:PRIMARY>db.stats();{"db":"Bertram",//当前数据库名<
转： C#操作SQL Server数据库 chaojifeifeima
C#操作SQLServer数据库2008-07-1811:17:18分类：在c#程序开发中经常需要和SQLServer数据库打交道，下面我们就了解一下c#操作SQLServer数据库的方法：1.概述首先是为我们的程序添加必要的引用以及一些数据成员。因为我们的程序涉及到数据库的访问操作，所以必须要运用到数据提供者（DataProvider）的对象。在.Net框架下，我们主要运用的数据提供者分为两类，
自定义数据集使用paddlepaddle框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预测辞落山逻辑回归
1.引言在这篇博客中，我们将使用PaddlePaddle框架实现一个逻辑回归模型，利用NumPy自定义数据集进行训练，并保存模型。最后，我们将演示如何加载保存的模型并进行预测。2.环境设置首先，确保已安装PaddlePaddle和NumPy：pipinstallpaddlepaddlenumpy3.数据集准备我们使用NumPy自定义一个简单的二分类数据集：importnumpyasnp#生成简单数
自定义数据集，使用朴素贝叶斯对其进行分类〖是♂我〗 python numpy 开发语言
代码：#导入必要的库importnumpyasnpimportmatplotlib.pyplotasplt#定义类1的数据点，每个数据点是二维的坐标class1_points=np.array([[1.9,1.2],[1.5,2.1],[1.9,0.5],[1.5,0.9],[0.9,1.2],[1.1,1.7],[1.4,1.1]])#定义类2的数据点，每个数据点是二维的坐标class2_poi
自定义数据集使用scikit-learn中svm的包实现svm分类 Z211613347 python
importnumpyasnpimportmatplotlib.pyplotasplt#定义数据class1_points=np.array([[1.9,1.2],[1.5,2.1],[1.9,0.5],[1.5,0.9],[0.9,1.2],[1.1,1.7],[1.4,1.1]])class2_points=np.array([[3.2,3.2],[3.7,2.9],[3.2,2.6],[1.
每日 Java 面试题分享【第 16 天】一只蜘猪【2025最新版】Java 基础面试题 java 开发语言面试
欢迎来到每日Java面试题分享栏目！订阅专栏，不错过每一天的练习今日分享3道面试题目！评论区复述一遍印象更深刻噢~目录问题一：Java运行时异常和编译时异常之间的区别是什么？问题二：什么是Java中的继承机制？问题三：什么是Java的封装特性？问题：Java运行时异常和编译时异常之间的区别是什么？面试官考察点异常分类理解：对Java异常体系（Throwable、Error、Exception、Ru
PyTorch 训练一个分类器亚里平台工具类 pytorch训练网络
文章目录0前言1加载和规范化CIFAR102定义一个卷积网络3定义损失函数和优化器4训练网络5测试网络6在GPU上训练模型参考资料0前言 TRAINGINGACLASSIFIER这篇教程很清楚的描述了如何使用PyTorch训练一个用于图像分类的卷积网络模型。这里记录一下，学习一波写法，供以后查阅，自己跑的项目在github上，稍微修改了一下训练策略，能使分类精度从53%提升到65%；并且增加了训
开源模型应用落地-DeepSeek-R1-Distill-Qwen-7B与vllm实现推理加速的正确姿势（一）开源技术探险家开源模型-实际应用落地 #人工智能自然语言处理语言模型深度学习
一、前言在当今人工智能技术迅猛发展的时代，各类人工智能模型如雨后春笋般不断涌现，其性能的优劣直接影响着应用的广度与深度。从自然语言处理到计算机视觉，从智能安防到医疗诊断，AI模型广泛应用于各个领域，人们对其准确性、稳定性和高效性的期望也与日俱增。在此背景下，DeepSeek模型的出现为行业带来了新的曙光。DeepSeek团队开发的DeepSeek-R1-Distill-Qwen-7B模型，利用蒸馏
自定义数据集，使用朴素贝叶斯对其进行分类 Z211613347 python
importnumpyasnpimportmatplotlib.pyplotasplt#1.散点输入class1_points=np.array([[1.9,1.2],[1.5,2.1],[1.9,0.5],[1.5,0.9],[0.9,1.2],[1.1,1.7],[1.4,1.1]])class2_points=np.array([[3.2,3.2],[3.7,2.9],[3.2,2.6],[
机器学习--学习计划 kyle~ 机器学习机器学习学习人工智能
3周机器学习速成计划基于「28原则」，聚焦机器学习20%的核心概念，覆盖80%的常见应用场景。计划分为理论学习+项目实战，每周学习后通过5个递进项目巩固知识。第1周：数据与监督学习基础学习目标：掌握数据预处理、线性模型与分类任务的基础流程。核心概念（20%关键内容）：数据预处理缺失值处理（均值填充、删除）特征缩放（标准化、归一化）分类变量编码（独热编码、标签编码）监督学习基础线性回归（原理、损失函
基于BiGRU的预测模型及其Python和MATLAB实现追蜻蜓追累了机器学习深度学习 cnn lstm 神经网络 gru 回归算法
##一、背景在当今快速发展的数据驱动的时代，尤其是在自然语言处理（NLP）、时间序列预测、语音识别等任务中，深度学习技术的应用已经变得越来越普遍。传统的机器学习算法往往无法很好地捕捉数据中的时序信息和上下文关系，因此深度学习中的循环神经网络（RNN）逐渐成为解决这一问题的重要工具。RNN能够处理序列数据，但它们在长序列数据的学习中存在梯度消失和梯度爆炸的问题。为了解决这些问题，长短期记忆网络（LS
Transformer预测模型及其Python和MATLAB实现追蜻蜓追累了 transformer 深度学习人工智能机器学习算法回归算法神经网络
###一、背景在自然语言处理（NLP）领域，传统的序列到序列（Seq2Seq）模型大多依赖于循环神经网络（RNN）和长短期记忆（LSTM）网络。这些模型虽然在许多任务中取得了成功，但由于其计算效率低下以及长距离依赖关系处理的不足，导致模型训练时间漫长，并在处理较长文本时效果不佳。2017年，Vaswani等人提出的Transformer模型在《AttentionisAllYouNeed》一文中引起
随机森林（Random Forest）预测模型及其特征分析（Python和MATLAB实现）追蜻蜓追累了深度学习机器学习 python 随机森林大数据回归算法算法
##一、背景在大数据和机器学习的快速发展时代，数据的处理和分析变得尤为重要。随着多个领域积累了海量数据，传统的统计分析方法常常无法满足复杂问题的需求。在这种背景下，机器学习方法开始广泛应用。随机森林（RandomForest）作为一种强大的集成学习方法，因其高效性和较强的泛化能力而备受关注。随机森林最初由LeoBreiman在2001年提出，基于决策树这一基本分类模型。其基本思想是通过构建多个决策
动手学PyTorch建模与应用：从深度学习到大模型王国平 pytorch 人工智能数据分析 python 数据挖掘
在人工智能时代，机器学习技术日新月异，深度学习是机器学习领域中一个全新的研究方向和应用热点，它是机器学习的一种，也是实现人工智能的必由之路。深度学习的出现不仅推动了机器学习的发展，而且促进了人工智能技术的革新，已经被成功应用在语音识别、图像分类识别、地球物理、大语言模型等领域，具有巨大的发展潜力和价值。本书是一本带领读者快速学习PyTorch并将其运用于深度学习建模方向的入门指南，重点介绍了基于P
Vue和Vue-Element-Admin（十）：HTML和CSS快速学习笔记 A叶子叶 #Vue与Web开发 vue.js html css
目录html标签分类网页布局盒子模型浮动定位css标签选择flex布局transform转换Vue开发tipsless和scssVScode常用插件后端语言框架很多，Java适合企业级应用（规范且稳定），Go适合高并发场景（比如云上产品），Python框架（bottle，tornado，django）简单且快速，也天然适合数据分析场景，PHP适合快速建站，前端变化小，所见即所得，因此抽空记录下学习
AI浪潮下程序员的职业转型与技术进阶之路 nbsaas-boot 人工智能
一、引言1.1研究背景与意义在科技飞速发展的当今时代，人工智能（AI）无疑是最为耀眼的技术领域之一。从早期简单的专家系统到如今复杂的深度学习模型，AI技术经历了从理论探索到广泛应用的巨大跨越，正以前所未有的速度改变着我们的生活和工作方式。近年来，AI技术取得了一系列突破性进展。以GPT系列为代表的大型语言模型，展现出强大的自然语言处理能力，能够实现文本生成、对话交互、代码编写等多种任务。根据《20
DeepSeek的出现对全球GPT产业产生的冲击不要em0啦机器学习 gpt
引言近年来，人工智能技术的迅猛发展推动了自然语言处理（NLP）领域的革命性进步。特别是以GPT（GenerativePre-trainedTransformer）系列模型为代表的大规模预训练语言模型，已经在全球范围内引发了广泛关注和应用。然而，随着技术的不断演进，新兴的GPT模型如DeepSeek的出现，正在对全球GPT产业产生深远的影响。本文将从技术、市场、应用场景和产业生态等多个维度，深入探讨
【机器学习BDT】python代码实现(下) mcoc132 Python 机器学习机器学习 python 人工智能
文章目录BDT(BootstrapDecisionTree)python实现导入库分类树主体代码回归树主体代码输出函数完整代码后续可能添加的功能BDT(BootstrapDecisionTree)python实现代码仅供参考导入库importCART树_自己写importnumpy其中一个库之前写的分类树主体代码在原始数据权重基础上使用更新的数据权重以更新BDT模型.def分类树(self,BDT
python 图像特征提取_python实现LBP方法提取图像纹理特征实现分类的步骤 weixin_39969060 python 图像特征提取
题目描述这篇博文是数字图像处理的大作业.题目描述:给定40张不同风格的纹理图片,大小为512*512,要求将每张图片分为大小相同的9块,利用其中的5块作为训练集,剩余的4块作为测试集,构建适当的模型实现图片的分类.图片如下图所示:分析:由于数据集太小,所以神经网络模型并不适合此类的图像处理.就需要寻找方法提取图像的纹理信息.本文采用LBP的方法提取图像的纹理信息,然后转化成直方图作为图像的特征,然
【基础教程】Python整数类型（int）详解 SAPmatinal Python
整数就是没有小数部分的数字，Python中的整数包括正整数、0和负整数。有些强类型的编程语言会提供多种整数类型，每种类型的长度都不同，能容纳的整数的大小也不同，开发者要根据实际数字的大小选用不同的类型。例如C语言提供了short、int、long、longlong四种类型的整数，它们的长度依次递增，初学者在选择整数类型时往往比较迷惑，有时候还会导致数值溢出。而Python则不同，它的整数不分类型，
Python 图像处理进阶：特征提取与图像分类极客代码玩转Python 玩转AI 开发语言 python 图像处理人工智能
特征提取特征提取是计算机视觉中的一个重要环节，它可以从图像中提取出有助于后续处理的特征，比如用于识别和分类的关键点、纹理等。常见的特征提取方法包括SIFT、SURF和ORB等。SIFT（尺度不变特征变换）SIFT是一种用于检测图像中的关键点及其描述符的方法。SIFT特征具有尺度不变性和旋转不变性，适用于图像匹配和识别。原理：SIFT通过在不同尺度的空间内寻找极值点来检测关键点，并利用梯度方向的直方
1、PyTorch 简介找个栗子 PyTorch开始到sci pytorch 人工智能 python
PyTorch是什么？首先，我们讲PyTorch，我们先讲它的前身--torch。1、torchTorch是PyTorch的前身，Torch是一个有着悠久历史的机器学习框架，最初由RonanCollobert、SoumithChintala和KorayKavukcuoglu等人开发。Torch是以Lua语言为基础，在2002年左右就开始逐渐发展起来，在计算机视觉、自然语言处理等领域有一定的应用。o
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默

基于Bert-base-chinese训练多分类文本模型(代码详解）

一、简介

二、模型训练

第一步：读取数据并提取出特征和标签

第二步：对标签数据进行编码转换

第三步：划分训练数据集和测试数据集

第四步：加载BERT分词器

第五步：将文本数据转换成BERT模型能够理解的格式

第六步：创建训练集DataLoader和测试集DataLoader

第七步：加载BERT模型

第八步：设置优化器和调度器

第九步：设置精确度的计算方式

第十步：训练和评估

完整代码如下：

三、模型推理

你可能感兴趣的:(bert,分类,自然语言处理)