mwcxz

【转载】【NLP】使用 PyTorch 通过 Hugging Face 使用 BERT 和 Transformers 进行情感分析

参考

https://blog.csdn.net/sikh_0529/article/details/127950840

目的：

用transformers加载自己的数据进行训练，然后做预测

知识点补充

什么是BERT？

BERT（在本文中介绍）代表来自 Transformers 的双向编码器表示。如果您不知道其中大部分是什么意思 - 您来对地方了！让我们解开主要思想：

双向 - 要理解您正在查看的文本，您必须向后看（在前面的单词）和向前看（在下一个单词）
Transformers - The Attention Is All You Need论文介绍了 Transformer 模型。Transformer 一次读取整个令牌序列。从某种意义上说，该模型是非定向的，而 LSTM 是按顺序读取的（从左到右或从右到左）。注意机制允许学习单词之间的上下文关系（例如his，在一个句子中指的是吉姆）。
（预训练的）上下文词嵌入——ELMO 论文介绍了一种根据词义/上下文对词进行编码的方法。指甲有多重含义——手指甲和金属钉。
————————————————

BERT 通过屏蔽 15% 的标记进行训练，目的是猜测它们。另一个目标是预测下一句话。让我们看一下这些任务的示例：

掩码语言建模（Masked LM）

此任务的目的是猜测掩码标记。让我们看一个例子，尽量不要让它变得比它必须的更难：

That’s [mask] she [mask] -> That’s what she said

下一句预测（NSP）

给定一对两个句子，任务是判断第二个是否跟在第一个之后（二元分类）。让我们继续这个例子：

Input = [CLS] That’s [mask] she [mask]. [SEP] Hahaha, nice! [SEP]

Label = IsNext

Input = [CLS] That’s [mask] she [mask]. [SEP] Dwight, you ignorant [mask]! [SEP]

Label = NotNext

训练语料库由两个条目组成：多伦多图书语料库（800M 词）和英语维基百科（2,500M 词）。原始的 Transformer 有一个编码器（用于读取输入）和一个解码器（进行预测），而 BERT 只使用解码器。

BERT 只是一组预训练的 Transformer 编码器。多少个编码器？我们有两个版本——12（BERT base）和 24（BERT Large）。
————————————————

这东西在实践中有用吗？

BERT 论文与源代码和预训练模型一起发布。

最好的部分是，您可以使用 BERT 进行迁移学习（得益于 OpenAI Transformer 的想法）以完成许多 NLP 任务——分类、问答、实体识别等。您可以使用少量数据进行训练并获得出色的性能！

数据准备

数据来自于kaggle上面情感分析的数据，地址为：
https://www.kaggle.com/lava18/google-play-store-apps?select=googleplaystore_user_reviews.csv

①导入函数

# 导入函数
import transformers
# get_linear_schedule_with_warmup
from torch.utils.tensorboard import SummaryWriter
from transformers import BertModel, BertTokenizer, AdamW, get_linear_schedule_with_warmup
# from transformer
import torch
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, classification_report
from collections import defaultdict
from textwrap import wrap

from torch import nn, optim
from torch.utils.data import Dataset, DataLoader
import torch.nn.functional as F
import matplotlib.pyplot as plt
RANDOM_SEED = 42
np.random.seed(RANDOM_SEED)  # 设置随机数生成种子
torch.manual_seed(RANDOM_SEED) # 在 PyTorch 中设置一个全局的随机数种子，确保每次运行的随机数序列都是一样的
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") # 设备选择

②加载数据，预处理★★

您可能已经知道机器学习模型不适用于原始文本。您需要将文本转换为数字（某种）。BERT 需要更多的关注（好的，对吧？）。以下是要求：

添加特殊标记来分隔句子并进行分类

传递恒定长度的序列（引入填充）

创建 0s（pad token）和 1s（real token）的数组，称为注意力掩码

Transformers 库提供（您已经猜到了）各种各样的 Transformer 模型（包括 BERT。它适用于 TensorFlow 和 PyTorch！它还包括为我们完成繁重工作的预构建分词器！ PRE_TRAINED_MODEL_NAME= ‘bert-base-cased’

让我们加载一个预训练的BertTokenizer：
tokenizer = BertTokenizer.from_pretrained(PRE_TRAINED_MODEL_NAME)
我们将使用此文本来了解标记化过程：
sample_txt = 'When was I last outside? I am stuck at home for 2 weeks.'
一些基本操作可以将文本转换为标记，并将标记转换为唯一的整数 (ids)：
tokens = tokenizer.tokenize(sample_txt)
token_ids = tokenizer.convert_tokens_to_ids(tokens)

print(f' Sentence: {sample_txt}')
print(f'   Tokens: {tokens}')
print(f'Token IDs: {token_ids}')
Sentence: When was I last outside? I am stuck at home for 2 weeks.
Tokens: [‘When’, ‘was’, ‘I’, ‘last’, ‘outside’, ‘?’, ‘I’, ‘am’, ‘stuck’, ‘at’, ‘home’, ‘for’, ‘2’, ‘weeks’, ‘.’]
Token IDs: [1332, 1108, 146, 1314, 1796, 136, 146, 1821, 5342, 1120, 1313, 1111, 123, 2277, 119]

Special Tokens

[SEP]- 句子结束标记

tokenizer.sep_token, tokenizer.sep_token_id

(‘[SEP]’, 102)

[CLS]- 我们必须将此标记添加到每个句子的开头，以便 BERT 知道我们在进行分类

tokenizer.cls_token, tokenizer.cls_token_id

(‘[CLS]’, 101)

还有一个用于填充的特殊标记：

tokenizer.pad_token, tokenizer.pad_token_id

(‘[PAD]’, 0)

BERT 理解训练集中的标记。其他一切都可以使用[UNK]（未知）令牌进行编码：

tokenizer.unk_token, tokenizer.unk_token_id

(‘[UNK]’, 100)

encode_plus()

所有这些工作都可以使用以下encode_plus()方法完成：

 # encode_plus()是Hugging Face Transformers库中一个用于将文本编码为模型输入的函数，它可以将原始文本转换为tokens，并且为每个token创建对应的编号（即token ID）和注意力掩码（即attention mask）。
        # 返回一个字典，其中包含编码后文本的整数表示（input_ids）以及对应的attention mask（attention_mask）。
        #eg:{'input_ids': [101, 1045, 2293, 3019, 2653, 19387, 999, 102, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 0, 0, 0, 0]}
        encoding = self.tokenizer.encode_plus(  # 将文本数据转换为模型可以处理的输入格式(它将文本分解为单词或者子词，并将它们转换为对应的整数表示)。
            review,                  # 输入的评论文本数据
            add_special_tokens=True,  # Add '[CLS]' and '[SEP]'【添加特殊标记来分隔句子并进行分类】
            max_length=self.max_len,  # 我们希望结果的数字向量最多包含元素个数 【传递恒定长度的序列（引入填充）】
            return_token_type_ids=False,  # 每个标记都会对应一个id值（eg:('[CLS]', 101)）
            pad_to_max_length=True,  # 对文本进行padding  【传递恒定长度的序列（引入填充）】
            return_attention_mask=True,     # 函数会计算出注意力掩码和token类型ID信息，并将它们包含在返回结果中
            return_tensors='pt',        # 返回pytorch张量
        )

# 加载数据，预处理
df = pd.read_csv("archive/googleplaystore_user_reviews.csv")
df = df.dropna()  # 用于删除具有缺失值的行或列
def to_sentiment(rating):
    if rating == 'Positive':
        return 2
    elif rating == 'Neutral':
        return 1
    return 0
df['sentiment'] = df.Sentiment.apply(to_sentiment)
class_names=["Negative","Neutral","Positive"]
# 划分数据集（df_train、df_test、df_val）
df_train, df_test = train_test_split(df, test_size=0.1, random_state=RANDOM_SEED)  # 将原始数据集划分成训练集和测试集（函数的参数包括原始数据集、测试集占比、随机数种子等）
df_val, df_test = train_test_split(df_test, test_size=0.5, random _state=RANDOM_SEED)

③创建dataset和dataloader

使得我们的输入数据符合模型的要求。主要是通过self.tokenizer.encode_plus()

# 创建dataset和dataloader
class GPReviewDataset(Dataset):
    def __init__(self, reviews, targets, tokenizer, max_len):
        self.reviews = reviews   #
        self.targets = targets
        self.tokenizer = tokenizer  # 分词器；将文本数据转换为机器学习算法可以理解的数字表示，例如整数或向量
        # 通常，tokenizer会将文本拆分成一个个token，然后将这些token转换为数字或其他形式的向量，以便计算机可以更容易地理解和处理这些数据
        self.max_len = max_len

    def __len__(self):
        return len(self.reviews)

    def __getitem__(self, item):
        review = str(self.reviews[item])  # 得到特定的一条评论
        target = self.targets[item]     # 得到特定的一条评论情感值
        # encode_plus()是Hugging Face Transformers库中一个用于将文本编码为模型输入的函数，它可以将原始文本转换为tokens，并且为每个token创建对应的编号（即token ID）和注意力掩码（即attention mask）。
        # 返回一个字典，其中包含编码后文本的整数表示（input_ids）以及对应的attention mask（attention_mask）。
        #eg:{'input_ids': [101, 1045, 2293, 3019, 2653, 19387, 999, 102, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 0, 0, 0, 0]}
        encoding = self.tokenizer.encode_plus(  # 将文本数据转换为模型可以处理的输入格式(它将文本分解为单词或者子词，并将它们转换为对应的整数表示)。
            review,                  # 输入的评论文本数据
            add_special_tokens=True,  # Add '[CLS]' and '[SEP]'【添加特殊标记来分隔句子并进行分类】
            max_length=self.max_len,  # 我们希望结果的数字向量最多包含元素个数 【传递恒定长度的序列（引入填充）】
            return_token_type_ids=False,  # 每个标记都会对应一个id值（eg:('[CLS]', 101)）
            pad_to_max_length=True,  # 对文本进行padding  【传递恒定长度的序列（引入填充）】
            return_attention_mask=True,     # 函数会计算出注意力掩码和token类型ID信息，并将它们包含在返回结果中
            return_tensors='pt',        # 返回pytorch张量
        )
        #         print(target)
        return {
            'review_text': review,
            'input_ids': encoding['input_ids'].flatten(),
            'attention_mask': encoding['attention_mask'].flatten(),
            'targets': torch.tensor(target, dtype=torch.long)
        }


def create_data_loader(df, tokenizer, max_len, batch_size):
    ds = GPReviewDataset(
        reviews=df.Translated_Review.to_numpy(), # 将数据集转换为Numpy数组
        targets=df.sentiment.to_numpy(),
        tokenizer=tokenizer,
        max_len=max_len
    )

    return DataLoader(   # 创建数据加载器
        ds,
        batch_size=batch_size,  # 批量大小
        num_workers=4   # 4个进程加载数据
    )

BATCH_SIZE = 16
MAX_LEN = 160  # 根据数据集中评论的标记数目分布来确定的
PRE_TRAINED_MODEL_NAME = 'bert-base-uncased'    # 加载预训练的分词器需要下载相应的模型文件，本地没有这个模型的文件，Hugging Face Transformers库会自动下载并缓存它们
tokenizer = BertTokenizer.from_pretrained(PRE_TRAINED_MODEL_NAME) #用于加载预训练的BERT模型的分词器（tokenizer），Hugging Face Transformers库中的一个方法
# 创建三个数据集所对应的数据加载器
train_data_loader = create_data_loader(df_train, tokenizer, MAX_LEN, BATCH_SIZE)
val_data_loader = create_data_loader(df_val, tokenizer, MAX_LEN, BATCH_SIZE)
test_data_loader = create_data_loader(df_test, tokenizer, MAX_LEN, BATCH_SIZE)

④创建基于BERT的情感分析模型

通过前面对文本数据进行处理得到对应的数字向量之后（1），将其输入到这里的模型中进行处理。

（1）过程得到一个

return DataLoader(   # 创建数据加载器
    ds,
    batch_size=batch_size,  # 批量大小
    num_workers=4   # 4个进程加载数据
)

在训练过程中通过模型调用ds中的input_ids,attention_mask

for d in data_loader:
    input_ids = d["input_ids"].to(device) # 模型的输入数据进行GPU加速
    attention_mask = d["attention_mask"].to(device)
    targets = d["targets"].to(device)

    outputs = model(
        input_ids=input_ids,
        attention_mask=attention_mask
    )

得到各种分类的预测概率。

# 创建基于BERT的情感分析模型(创建一个使用 BERT 模型的分类器)
'''
分类器将大部分繁重的工作委托给了 BertModel。我们使用 dropout 层进行正则化，使用全连接层进行输出。
▲▲▲请注意，我们要返回最后一层的原始输出，因为 PyTorch 中的交叉熵损失函数需要它才能工作（梯度下降，优化参数）。
'''
class SentimentClassifier(nn.Module):
    def __init__(self, n_classes):
        super(SentimentClassifier, self).__init__()
        self.bert = BertModel.from_pretrained(PRE_TRAINED_MODEL_NAME) # 加载预训练的 BERT 模型（该对象包含预训练模型的权重和配置信息）
        self.drop = nn.Dropout(p=0.3)  # 防止过拟合，以概率P来丢掉特征
        self.out = nn.Linear(self.bert.config.hidden_size, n_classes) # 全连接层（线性层）
        '''
        ①输入大小为self.bert.config.hidden_size，输出大小为n_classes。
        ②在自然语言处理任务中，通常使用预训练的语言模型作为特征提取器，然后在其之上添加一些额外的层来执行具体的任务，例如文本分类、命名实体识别等。
        在这种情况下，self.bert.config.hidden_size是预训练语言模型的隐藏层大小，代表了语言模型生成的特征的维度。
        n_classes代表了我们要执行的具体任务中的分类数目，例如在文本分类任务中，n_classes可以代表分类的标签数量。
        ③这一行代码的作用是构建一个线性层，该层将预训练语言模型的隐藏层特征作为输入，输出大小为n_classes的向量。
        这个向量通常会进一步送入softmax层来进行归一化处理，以得到每个类别的概率分布。
        这个过程也可以通过在PyTorch中定义一个nn.Sequential模型来完成。
        '''

    def forward(self, input_ids, attention_mask):
        _, pooled_output = self.bert(
            input_ids=input_ids,
            attention_mask=attention_mask,
            return_dict = False   # 报错“dropout(): argument 'input' (position 1) must be Tensor, not str” 修改
        )
        # pooled_output：形状为 [batch_size, hidden_size] 的张量(将其视为内容摘要)，表示整个序列的池化向量，它是通过对last_hidden_state取第一个token（即[CLS]）的隐藏状态进行线性变换和tanh激活得到的。
        '''
        这里的原型是：
        last_hidden_state, pooled_output = bert_model(
            input_ids=encoding['input_ids'],
            attention_mask=encoding['attention_mask']
        )
        ①last_hidden_state是模型最后一层的last_hidden_state一系列隐藏状态。获取pooled_output是通过在 上应用BertPooler来完成的last_hidden_state： 
        last_hidden_state.shape
        >>>torch.Size([1, 32, 768])   # 有 32 个标记（示例序列的长度）中每一个的隐藏状态、768是前馈网络中隐藏单元的数量，可以通过检查配置来验证：bert_model.config.hidden_size
        ②pooled_output根据 BERT，您可以将其视为内容摘要。输出的形状：
        pooled_output.shape
        >>>torch.Size([1, 768]) 
        '''
        output = self.drop(pooled_output) # 将BERT模型的编码结果随机失活，并将结果作为下一层神经网络的输入
        return self.out(output) # 将dropout后的BERT模型的编码结果作为输入，并将结果映射到一个n_classes维的向量，代表了不同类别的分数或概率【可以通过对输出结果进行softmax归一化进一步来获得预测的类型】

⑤训练和验证

# 训练和验证
'''
我们如何提出所有超参数？BERT 作者有一些微调建议：
        批量大小：16、32
        学习率（Adam）：5e-5、3e-5、2e-5
        epochs数：2、3、4
我们将忽略 epochs 推荐的数量，但坚持使用其余的。请注意，增加批量大小会显着减少训练时间，但会降低准确性。
'''

# 创建一个实例并将其移动到 GPU
model = SentimentClassifier(len(class_names))  # 三分类问题：["Negative","Neutral","Positive"]
model = model.to(device) # 选择设备
EPOCHS = 10  # 训练迭代10轮

# 其中AdamW是一种基于Adam优化算法的变种，它是为了解决Adam优化算法在权重衰减上的问题而提出的，具有更好的性能表现
# correct_bias=False表示是否进行偏差校正
optimizer = AdamW(model.parameters(), lr=2e-5, correct_bias=False)  # 优化器
total_steps = len(train_data_loader) * EPOCHS  # 训练的总步数=训练集的大小*迭代轮数

'''
定义学习率调度器的函数（这里使用没有预热步骤的线性调度程序）:
①它将学习率与训练步数关联起来，使得在训练的早期，学习率逐渐增加，而在训练的后期，学习率逐渐降低。
这样的学习率调整策略可以帮助模型更快地收敛并达到更好的性能。
②
'''
scheduler = get_linear_schedule_with_warmup(  # 定义一个线性调度器
  optimizer,
  num_warmup_steps=0, # 学习率逐渐增加的步数，在这些步数内，学习率将从初始值逐渐增加到设定的最大值
  num_training_steps=total_steps # 表示总的训练步数
)

loss_fn = nn.CrossEntropyLoss().to(device) # 损失函数（交叉熵）

训练函数

# 训练函数（编写一个辅助函数来训练我们的模型一个时期）
def train_epoch(
        model,
        data_loader,
        loss_fn,
        optimizer,
        device,
        scheduler,
        n_examples
):
    model = model.train() # 使得模型处于训练模式
    '''
    在深度学习中，通常需要通过反向传播算法来优化神经网络的参数，以最小化损失函数。
    在 PyTorch 中，可以通过调用 train() 方法来将模型设置为训练模式，以便进行反向传播和参数优化。
    ①调用 model.train() 将使得模型处于训练模式，并开启 Batch Normalization 和 Dropout 等层的运行模式，以及允许梯度计算。
    '''
    losses = []  # 用于记录每次迭代后的损失值
    correct_predictions = 0

    for d in data_loader:
        '''
        将训练数据的示例批次移动到 GPU
        print(input_ids.shape) # batch size x seq length
        print(attention_mask.shape) # batch size x seq length
        >>>torch.Size([16, 160])
           torch.Size([16, 160])
        批处理训练数据，一次处理batch_size组数据，每组数据有seq_length个。
        '''
        input_ids = d["input_ids"].to(device) # 模型的输入数据进行GPU加速
        attention_mask = d["attention_mask"].to(device)
        targets = d["targets"].to(device)

        outputs = model(
            input_ids=input_ids,
            attention_mask=attention_mask
        )

        _, preds = torch.max(outputs, dim=1) # 类属于argmax()函数，将概率映射到具体的分类类型值
        loss = loss_fn(outputs, targets) # 用损失函数计算模型预测结果与真实值之间的差距，得到对应的损失值

        correct_predictions += torch.sum(preds == targets) # 模型预测的准确数
        '''
        这段代码的作用是记录模型训练过程中每次迭代的损失值，并将它们存储在一个列表中。
        最终，我们可以通过分析这些损失值，来评估模型训练的效果。
        通常情况下，损失值应该随着训练的进行而逐渐减小，如果损失值一直保持不变或者增大，则可能需要调整模型结构、参数或者训练过程中的超参数等。
        '''
        losses.append(loss.item())

        # 优化器优化模型
        loss.backward()  # 反向传播， 这里要注意不能使用定义损失函数那里的 loss，而要使用 调用损失函数之后的 result_loss【反向传播 得到每个需要更新参数对应的梯度】
        '''
        一个梯度裁剪操作，用于限制梯度的大小。
        这个操作可以防止梯度爆炸的情况发生，即当梯度的范数超过一个阈值时，将梯度向量的大小缩小到这个阈值之内，防止模型参数更新过大。
        '''
        nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
        optimizer.step() # 根据当前迭代的梯度值，更新模型参数(会自动更新各个参数的值)
        scheduler.step() # 对学习率进行调整(会根据预先设定的学习率调整策略，动态地调整学习率的大小，以提高训练效果)
        optimizer.zero_grad() # 清空模型参数的梯度的操作。在进行下一次迭代前，需要将模型参数的梯度归零，以免与上一次迭代的梯度混淆

    return correct_predictions.double() / n_examples, np.mean(losses) # 返回一轮迭代之后总的预测准确率和loss均值

验证函数：

# 验证函数（同理训练模型，主要的区别就是验证函数就不需要在进行更新参数，更不需要梯度进行优化）：
def eval_model(model, data_loader, loss_fn, device, n_examples):
    model = model.eval()
    '''
    ②调用 model.eval() 可以将模型设置为评估模式，使得在前向传播过程中禁止 Dropout 层的操作，
    并将 Batch Normalization 层固定为使用训练时计算出来的均值和方差，而不是在当前 batch 上重新计算。
    ③在模型完成训练后，需要调用 model.eval() 来将模型设置为评估模式，以便进行测试或推理操作。
    '''
    losses = []
    correct_predictions = 0

    '''
    ①with torch.no_grad() 是一个上下文管理器（Context Manager），用于在 PyTorch 中禁止梯度计算的情况下执行代码块。
    ②在使用 PyTorch 进行深度学习训练时，需要计算每个变量的梯度以更新参数。
    然而，在某些情况下，我们不希望计算梯度，例如在模型评估或推理阶段，或者在对模型进行微调时，我们希望固定预训练模型的参数而不更新它们。
    这时就可以使用 torch.no_grad() 来暂时禁止梯度计算。
    ③当进入 with torch.no_grad() 上下文管理器时，PyTorch 将禁止自动求导，即不会记录变量的操作历史和计算梯度信息。
    这可以提高代码的执行效率，因为不需要为每个操作计算梯度，同时也可以节省显存空间。
    '''
    with torch.no_grad(): # 这样后面就没有梯度了，测试的过程中，不需要更新参数，更不需要梯度进行优化
        for d in data_loader:
            input_ids = d["input_ids"].to(device)
            attention_mask = d["attention_mask"].to(device)
            targets = d["targets"].to(device)
            outputs = model(
            input_ids=input_ids,
            attention_mask=attention_mask
          )
            _, preds = torch.max(outputs, dim=1)

            loss = loss_fn(outputs, targets)

            correct_predictions += torch.sum(preds == targets)
            losses.append(loss.item())

    return correct_predictions.double() / n_examples, np.mean(losses)

调用他们来进行训练：

# 调用他们来进行训练：
'''
①使用 defaultdict(list) 声明一个字典时，如果访问一个不存在的键，它会自动将这个键的值初始化为空列表，这使得在向字典中添加值时更加方便。
②可以使用 defaultdict(list) 来实现一个字典，用于存储一系列事件的历史记录，其中每个事件由一个时间戳和一些相关的数据组成。
在这个字典中，每个键对应一个时间戳，每个值都是一个列表，其中存储了该时间戳下的所有事件的数据。

'''
history = defaultdict(list) #
best_accuracy = 0
# 添加tensorboard
writer = SummaryWriter("./logs")

for epoch in range(EPOCHS):
    print(f'Epoch {epoch + 1}/{EPOCHS}')
    print('-' * 10)
    train_acc, train_loss = train_epoch(  # 训练模型
        model,
        train_data_loader,
        loss_fn,
        optimizer,
        device,
        scheduler,
        len(df_train)
      )
    print(f'Train loss {train_loss} accuracy {train_acc}')

    val_acc, val_loss = eval_model(  # 预测模型
        model,
        val_data_loader,
        loss_fn,
        device,
        len(df_val)
      )
    print(f'Val   loss {val_loss} accuracy {val_acc}')
    print()

    # 添加多个scalar值到同一个图表中
    # scalar_dict = {'train_loss': train_loss, 'val_loss': val_loss, 'train_acc': train_acc, 'val_acc': val_acc}
    # writer.add_scalars('Loss/Accuracy', scalar_dict=scalar_dict, global_step=epoch)
    writer.add_scalar("train_correct_predictions", train_acc, epoch)
    writer.add_scalar("train_loss", train_loss, epoch)
    writer.add_scalar("val_correct_predictions", val_acc, epoch)
    writer.add_scalar("val_loss", val_loss, epoch)

    history['train_acc'].append(train_acc)
    history['train_loss'].append(train_loss)
    history['val_acc'].append(val_acc)
    history['val_loss'].append(val_loss)

    if val_acc > best_accuracy: # 存储最佳模型的状态，以最高验证准确度表示
        torch.save(model.state_dict(), 'best_model_state.bin')  # 实现原理就是如果出现一个比当前预测准确率更高的模型就重写保存的文件。
        # torch.save(model.state_dict(), 'model{}_state(train_loss:{},train_acc:{}).pth'.format(epoch,train_loss,train_acc)) #网络模型的保存(只保存训练模型的参数，不保存其结构)
        '''
        保存：torch.save（model.state_dict，“abc.pth”）
        调用：
        model = torchvision.models.vgg16(pretrained=False)
        model.load_state_dict（torch.load（“abc.pth”））
        '''
        '''
        ①在 PyTorch 中，模型通常由两个主要部分组成：模型的结构和模型的参数。
        模型的结构通常由代码定义，而模型的参数则存储在模型状态字典中。
        状态字典是一个 Python 字典，其中包含了模型中所有可学习参数的名称和对应的张量值。
        ②通过执行 model.state_dict()，我们可以获得模型的状态字典。
        这个字典可以用于将模型的参数保存到磁盘上，以便后续加载模型时使用。
        
        '''
        best_accuracy = val_acc

# 关闭SummaryWriter对象
writer.close()


# 调用已经存储的训练历史文件，看看训练与验证的准确性：
plt.plot(history['train_acc'], label='train accuracy')
plt.plot(history['val_acc'], label='validation accuracy')

plt.title('Training history')
plt.ylabel('Accuracy')
plt.xlabel('Epoch')
plt.legend()
plt.ylim([0, 1])

做预测

主要一点就是如何加载自己已经训练好的模型(三步走)
# 加载已经训练好的模型
model = SentimentClassifier(len(class_names))
model.load_state_dict(torch.load("/home/qk/code/model9_state(train_loss:0.012110426034161507,train_acc:0.9976546728417053).pth"))
model = model.to(device)
然后就是同上面训练模型的步骤一致：

①对待预测的文本review_text使用分词器对文本进行编码tokenizer.encode_plus(）

②从编码后的encoded_review 取出模型需要的参数

③将参数喂入模型得到预测结果

'''
做预测
'''

# 导入函数
import transformers
# get_linear_schedule_with_warmup
from torch.utils.tensorboard import SummaryWriter
from transformers import BertModel, BertTokenizer, AdamW, get_linear_schedule_with_warmup
# from transformer
import torch
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, classification_report
from collections import defaultdict
from textwrap import wrap

from torch import nn, optim
from torch.utils.data import Dataset, DataLoader
import torch.nn.functional as F

RANDOM_SEED = 42
np.random.seed(RANDOM_SEED)  # 设置随机数生成种子
torch.manual_seed(RANDOM_SEED)  # 在 PyTorch 中设置一个全局的随机数种子，确保每次运行的随机数序列都是一样的
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")  # 设备选择

# 加载数据，预处理

class_names = ["Negative", "Neutral", "Positive"]




BATCH_SIZE = 16
MAX_LEN = 160
PRE_TRAINED_MODEL_NAME = 'bert-base-uncased'  # 加载预训练的分词器需要下载相应的模型文件，本地没有这个模型的文件，Hugging Face Transformers库会自动下载并缓存它们
tokenizer = BertTokenizer.from_pretrained(
    PRE_TRAINED_MODEL_NAME)  # 用于加载预训练的BERT模型的分词器（tokenizer），Hugging Face Transformers库中的一个方法


# 创建基于BERT的情感分析模型
class SentimentClassifier(nn.Module):
    def __init__(self, n_classes):
        super(SentimentClassifier, self).__init__()
        self.bert = BertModel.from_pretrained(PRE_TRAINED_MODEL_NAME)  # 加载预训练的 BERT 模型（该对象包含预训练模型的权重和配置信息）
        self.drop = nn.Dropout(p=0.3)  # 防止过拟合，以概率P来丢掉特征
        self.out = nn.Linear(self.bert.config.hidden_size, n_classes)  # 全连接层（线性层）
        '''
        ①输入大小为self.bert.config.hidden_size，输出大小为n_classes。
        ②在自然语言处理任务中，通常使用预训练的语言模型作为特征提取器，然后在其之上添加一些额外的层来执行具体的任务，例如文本分类、命名实体识别等。
        在这种情况下，self.bert.config.hidden_size是预训练语言模型的隐藏层大小，代表了语言模型生成的特征的维度。
        n_classes代表了我们要执行的具体任务中的分类数目，例如在文本分类任务中，n_classes可以代表分类的标签数量。
        ③这一行代码的作用是构建一个线性层，该层将预训练语言模型的隐藏层特征作为输入，输出大小为n_classes的向量。
        这个向量通常会进一步送入softmax层来进行归一化处理，以得到每个类别的概率分布。
        这个过程也可以通过在PyTorch中定义一个nn.Sequential模型来完成。
        '''

    def forward(self, input_ids, attention_mask):
        _, pooled_output = self.bert(
            input_ids=input_ids,
            attention_mask=attention_mask,
            return_dict=False  # 报错“dropout(): argument 'input' (position 1) must be Tensor, not str” 修改
        )
        # pooled_output：形状为 [batch_size, hidden_size] 的张量，表示整个序列的池化向量，它是通过对last_hidden_state取第一个token（即[CLS]）的隐藏状态进行线性变换和tanh激活得到的。
        output = self.drop(pooled_output)  # 将BERT模型的编码结果随机失活，并将结果作为下一层神经网络的输入
        return self.out(
            output)  # 将dropout后的BERT模型的编码结果作为输入，并将结果映射到一个n_classes维的向量，代表了不同类别的分数或概率【可以通过对输出结果进行softmax归一化进一步来获得预测的类型】


# 预测
# 加载已经训练好的模型
model = SentimentClassifier(len(class_names))
model.load_state_dict(torch.load("/home/qk/code/model9_state(train_loss:0.012110426034161507,train_acc:0.9976546728417053).pth"))
model = model.to(device)
# print(model)

# model = SentimentClassifier(len(class_names))  # 三分类问题：["Negative","Neutral","Positive"]
# model = model.to(device)  # 选择设备
while 1:
    review_text = input("请输入一段文本：")
    # review_text = "I love completing my todos! Best app ever!!!"
    # ②使用分词器对文本进行编码
    encoded_review = tokenizer.encode_plus(
        review_text,
        max_length=MAX_LEN,
        add_special_tokens=True,
        return_token_type_ids=False,
        pad_to_max_length=True,
        return_attention_mask=True,
        return_tensors='pt',
    )
    input_ids = encoded_review['input_ids'].to(device)
    #print(input_ids)
    attention_mask = encoded_review['attention_mask'].to(device)
    #print(attention_mask)

    #③从我们的模型中得到预测
    model = model.eval()
    with torch.no_grad():
        output = model(input_ids, attention_mask)
        _, prediction = torch.max(output, dim=1)

    print(f'Review text: {review_text}')
    print(f'Sentiment  : {class_names[prediction]}')

做评估

同在模型训练中的预测过程，主要是定义一个辅助函数来从我们的模型中获取预测，得到我们评估所需要的指标并查看其分类报告:
精确度（Precision）：预测为正类别的样本中，实际为正类别的比例。
召回率（Recall）：实际为正类别的样本中，预测为正类别的比例。
F1值（F1-score）：精确度和召回率的调和平均值，是精确度和召回率的综合指标。
支持度（Support）：真实标签中每个类别的样本数量。

'''
评估
那么我们的模型在预测情绪方面有多好？让我们从计算测试数据的准确性开始：
'''

# 导入函数
import transformers
# get_linear_schedule_with_warmup
from torch.utils.tensorboard import SummaryWriter
from transformers import BertModel, BertTokenizer, AdamW, get_linear_schedule_with_warmup
# from transformer
import torch
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, classification_report
from collections import defaultdict
from textwrap import wrap

from torch import nn, optim
from torch.utils.data import Dataset, DataLoader
import torch.nn.functional as F
import seaborn as sns
import matplotlib.pyplot as plt

RANDOM_SEED = 42
np.random.seed(RANDOM_SEED)  # 设置随机数生成种子
torch.manual_seed(RANDOM_SEED)  # 在 PyTorch 中设置一个全局的随机数种子，确保每次运行的随机数序列都是一样的
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")  # 设备选择

# 加载数据，预处理
# 加载数据，预处理
df = pd.read_csv("archive/googleplaystore_user_reviews.csv")
df=df.dropna()  # 用于删除具有缺失值的行或列
def to_sentiment(rating):
    if rating == 'Positive':
        return 2
    elif rating == 'Neutral':
        return 1
    return 0
df['sentiment'] = df.Sentiment.apply(to_sentiment)
class_names=["Negative","Neutral","Positive"]
# 划分数据集（df_train、df_test、df_val）
df_train, df_test = train_test_split(df, test_size=0.1, random_state=RANDOM_SEED)  # 将原始数据集划分成训练集和测试集（函数的参数包括原始数据集、测试集占比、随机数种子等）
df_val, df_test = train_test_split(df_test, test_size=0.5, random_state=RANDOM_SEED)

# 创建dataset和dataloader
class GPReviewDataset(Dataset):
    def __init__(self, reviews, targets, tokenizer, max_len):
        self.reviews = reviews   #
        self.targets = targets
        self.tokenizer = tokenizer  # 分词器；将文本数据转换为机器学习算法可以理解的数字表示，例如整数或向量
        # 通常，tokenizer会将文本拆分成一个个token，然后将这些token转换为数字或其他形式的向量，以便计算机可以更容易地理解和处理这些数据
        self.max_len = max_len

    def __len__(self):
        return len(self.reviews)

    def __getitem__(self, item):
        review = str(self.reviews[item])  # 得到特定的一条评论
        target = self.targets[item]     # 得到特定的一条评论情感值
        # encode_plus()是Hugging Face Transformers库中一个用于将文本编码为模型输入的函数，它可以将原始文本转换为tokens，并且为每个token创建对应的编号（即token ID）和注意力掩码（即attention mask）。
        # 返回一个字典，其中包含编码后文本的整数表示（input_ids）以及对应的attention mask（attention_mask）。
        #eg:{'input_ids': [101, 1045, 2293, 3019, 2653, 19387, 999, 102, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 0, 0, 0, 0]}
        encoding = self.tokenizer.encode_plus(  # 将文本数据转换为模型可以处理的输入格式(它将文本分解为单词或者子词，并将它们转换为对应的整数表示)。
            review,                  # 输入的评论文本数据
            add_special_tokens=True,  # Add '[CLS]' and '[SEP]'【添加特殊标记来分隔句子并进行分类】
            max_length=self.max_len,  # 我们希望结果的数字向量最多包含元素个数 【传递恒定长度的序列（引入填充）】
            return_token_type_ids=False,  # 每个标记都会对应一个id值（eg:('[CLS]', 101)）
            pad_to_max_length=True,  # 对文本进行padding  【传递恒定长度的序列（引入填充）】
            return_attention_mask=True,     # 函数会计算出注意力掩码和token类型ID信息，并将它们包含在返回结果中
            return_tensors='pt',        # 返回pytorch张量
        )
        #         print(target)
        return {
            'review_text': review,
            'input_ids': encoding['input_ids'].flatten(),
            'attention_mask': encoding['attention_mask'].flatten(),
            'targets': torch.tensor(target, dtype=torch.long)
        }


def create_data_loader(df, tokenizer, max_len, batch_size):
    ds = GPReviewDataset(
        reviews=df.Translated_Review.to_numpy(), # 将数据集转换为Numpy数组
        targets=df.sentiment.to_numpy(),
        tokenizer=tokenizer,
        max_len=max_len
    )

    return DataLoader(   # 创建数据加载器
        ds,
        batch_size=batch_size,  # 批量大小
        num_workers=4   # 4个进程加载数据
    )



BATCH_SIZE = 16
MAX_LEN = 160
PRE_TRAINED_MODEL_NAME = 'bert-base-uncased'  # 加载预训练的分词器需要下载相应的模型文件，本地没有这个模型的文件，Hugging Face Transformers库会自动下载并缓存它们
tokenizer = BertTokenizer.from_pretrained(
    PRE_TRAINED_MODEL_NAME)  # 用于加载预训练的BERT模型的分词器（tokenizer），Hugging Face Transformers库中的一个方法
# 创建三个数据集所对应的数据加载器
train_data_loader = create_data_loader(df_train, tokenizer, MAX_LEN, BATCH_SIZE)
val_data_loader = create_data_loader(df_val, tokenizer, MAX_LEN, BATCH_SIZE)
test_data_loader = create_data_loader(df_test, tokenizer, MAX_LEN, BATCH_SIZE)


# 创建基于BERT的情感分析模型
class SentimentClassifier(nn.Module):
    def __init__(self, n_classes):
        super(SentimentClassifier, self).__init__()
        self.bert = BertModel.from_pretrained(PRE_TRAINED_MODEL_NAME)  # 加载预训练的 BERT 模型（该对象包含预训练模型的权重和配置信息）
        self.drop = nn.Dropout(p=0.3)  # 防止过拟合，以概率P来丢掉特征
        self.out = nn.Linear(self.bert.config.hidden_size, n_classes)  # 全连接层（线性层）
        '''
        ①输入大小为self.bert.config.hidden_size，输出大小为n_classes。
        ②在自然语言处理任务中，通常使用预训练的语言模型作为特征提取器，然后在其之上添加一些额外的层来执行具体的任务，例如文本分类、命名实体识别等。
        在这种情况下，self.bert.config.hidden_size是预训练语言模型的隐藏层大小，代表了语言模型生成的特征的维度。
        n_classes代表了我们要执行的具体任务中的分类数目，例如在文本分类任务中，n_classes可以代表分类的标签数量。
        ③这一行代码的作用是构建一个线性层，该层将预训练语言模型的隐藏层特征作为输入，输出大小为n_classes的向量。
        这个向量通常会进一步送入softmax层来进行归一化处理，以得到每个类别的概率分布。
        这个过程也可以通过在PyTorch中定义一个nn.Sequential模型来完成。
        '''

    def forward(self, input_ids, attention_mask):
        _, pooled_output = self.bert(
            input_ids=input_ids,
            attention_mask=attention_mask,
            return_dict=False  # 报错“dropout(): argument 'input' (position 1) must be Tensor, not str” 修改
        )
        # pooled_output：形状为 [batch_size, hidden_size] 的张量，表示整个序列的池化向量，它是通过对last_hidden_state取第一个token（即[CLS]）的隐藏状态进行线性变换和tanh激活得到的。
        output = self.drop(pooled_output)  # 将BERT模型的编码结果随机失活，并将结果作为下一层神经网络的输入
        return self.out(
            output)  # 将dropout后的BERT模型的编码结果作为输入，并将结果映射到一个n_classes维的向量，代表了不同类别的分数或概率【可以通过对输出结果进行softmax归一化进一步来获得预测的类型】


# 评估
# 加载已经训练好的模型
model = SentimentClassifier(len(class_names))
model.load_state_dict(torch.load("/home/qk/code/model9_state(train_loss:0.012110426034161507,train_acc:0.9976546728417053).pth"))
model = model.to(device)

# test_acc, _ = eval_model(
#     model,
#     test_data_loader,
#     loss_fn,
#     device,
#     len(df_test)
# )
# test_acc.item()


# 定义一个辅助函数来从我们的模型中获取预测：
def get_predictions(model, data_loader):
    model = model.eval()

    review_texts = []
    predictions = []
    prediction_probs = []
    real_values = []

    with torch.no_grad():
        for d in data_loader:
            texts = d["review_text"]
            input_ids = d["input_ids"].to(device)
            attention_mask = d["attention_mask"].to(device)
            targets = d["targets"].to(device)

            outputs = model(
                input_ids=input_ids,
                attention_mask=attention_mask
            )
            _, preds = torch.max(outputs, dim=1)

            review_texts.extend(texts)
            predictions.extend(preds)
            prediction_probs.extend(outputs)
            real_values.extend(targets)
    '''
    ①具体来说，假设模型的预测结果以Python列表形式存储在变量 predictions 中，每个预测结果都是一个PyTorch张量。
    要将这些张量合并成一个张量并将其转移到CPU上，可以使用torch.stack函数和cpu()方法
    '''
    predictions = torch.stack(predictions).cpu()  # 用于将模型预测结果存储在一个张量中并将其转移到CPU上
    prediction_probs = torch.stack(prediction_probs).cpu()
    real_values = torch.stack(real_values).cpu()
    return review_texts, predictions, prediction_probs, real_values


# 类似于评估函数，除了我们存储评论文本和预测概率：
y_review_texts, y_pred, y_pred_probs, y_test = get_predictions(
    model,
    test_data_loader
)

# 看分类报告
'''
①classification_report 是 sklearn.metrics 模块中的一个函数，生成分类模型的分类报告，该报告包含关于分类模型性能的各种度量指标;
②该函数接受两个必需参数 y_test 和 y_pred，分别代表真实标签和预测标签。函数会将这两个参数传递给分类模型的评估方法，并计算以下几个度量指标：
    精确度（Precision）：预测为正类别的样本中，实际为正类别的比例。
    召回率（Recall）：实际为正类别的样本中，预测为正类别的比例。
    F1值（F1-score）：精确度和召回率的调和平均值，是精确度和召回率的综合指标。
    支持度（Support）：真实标签中每个类别的样本数量。
③除此之外，classification_report 函数还可以为每个类别生成单独的报告，包括每个类别的精确度、召回率、F1值和支持度。
要生成每个类别的报告，可以通过 target_names 参数将类别名称传递给函数；
调用 classification_report(y_test, y_pred, target_names=class_names) 函数，可以获取分类模型的分类报告，并了解模型在每个类别上的性能。
'''
print(classification_report(y_test, y_pred, target_names=class_names))


# 混淆矩阵
def show_confusion_matrix(confusion_matrix):
    hmap = sns.heatmap(confusion_matrix, annot=True, fmt="d", cmap="Blues")
    hmap.yaxis.set_ticklabels(hmap.yaxis.get_ticklabels(), rotation=0, ha='right')
    hmap.xaxis.set_ticklabels(hmap.xaxis.get_ticklabels(), rotation=30, ha='right')
    plt.ylabel('True sentiment')
    plt.xlabel('Predicted sentiment')


cm = confusion_matrix(y_test, y_pred)
df_cm = pd.DataFrame(cm, index=class_names, columns=class_names)
show_confusion_matrix(df_cm)

# 看一下测试数据中的一个例子：
idx = 2

review_text = y_review_texts[idx]
true_sentiment = y_test[idx]
pred_df = pd.DataFrame({
    'class_names': class_names,
    'values': y_pred_probs[idx]
})

print("\n".join(wrap(review_text)))
print()
print(f'True sentiment: {class_names[true_sentiment]}')



# 查看模型中每种情绪的置信度：
sns.barplot(x='values', y='class_names', data=pred_df, orient='h')
plt.ylabel('sentiment')
plt.xlabel('probability')
plt.xlim([0, 1])

你可能感兴趣的:(自然语言处理,pytorch,bert)

用 AI 提高开发效率：自动生成代码、优化 SQL 查询、写测试用例 Js_x 人工智能 sql 测试用例
引言人工智能（AI）正在深刻改变软件开发行业。从代码自动补全到SQL查询优化，再到自动化测试，AI工具已经成为开发者提高生产力的重要助手。本文将介绍ChatGPT、GitHubCopilot、Tabnine等AI编程工具的实际应用，帮助开发者更高效地编写代码、优化数据库查询，并自动生成测试用例。1.AI代码生成：提升开发效率1.1ChatGPT代码生成ChatGPT具备强大的自然语言处理能力，可以
RAG 在多模态数据处理中的应用探索：结合图像与文本生成 hy098543 AIGC
目录引言多模态数据处理的挑战与需求数据异质性与融合难题多样化应用场景的需求RAG在图像与文本生成中的应用架构图像检索与文本生成协同跨模态特征融合与生成关键技术与实现细节图像特征提取与表示文本检索与语义理解跨模态生成模型训练应用案例分析智能设计辅助医疗影像报告生成结论引言随着信息技术的飞速发展，数据呈现出多模态的特性，即包含文本、图像、音频、视频等多种形式。在自然语言处理（NLP）和计算机视觉（CV
理解深度学习1-简介 shangjg3 PyTorch深度学习实战深度学习人工智能
人工智能（AI）旨在打造模仿智能行为的系统。它覆盖了众多方法，涵盖了基于逻辑、搜索和概率推理的技术。机器学习是AI的一个分支，它通过对观测数据进行数学模型拟合来学习决策制定。这个领域近年来迅猛发展，现在几乎（虽不完全准确）与AI同义。深度神经网络是一类机器学习模型，将其应用到数据上的过程称为深度学习。目前，深度网络是最强大和最实用的机器学习模型之一，常见于日常生活中。我们常常用自然语言处理（Nat
python，squeeze的详细解释，代码并进行解释资源存储库笔记算法 python 开发语言
目录python，squeeze的详细解释，代码并进行解释Python中的squeeze操作主要作用：PyTorch中的squeeze示例1：去除所有单维度示例2：指定去除维度NumPy中的squeeze示例1：去除所有单维度示例2：指定去除维度何时使用squeeze？总结python，squeeze的详细解释，代码并进行解释Python中的squeeze操作Squeeze是一个用于去除张量或数组
PyTorch 深度学习实战（12）：Actor-Critic 算法与策略优化进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们介绍了强化学习的基本概念，并使用深度Q网络（DQN）解决了CartPole问题。本文将深入探讨Actor-Critic算法，这是一种结合了策略梯度（PolicyGradient）和值函数（ValueFunction）的强化学习方法。我们将使用PyTorch实现Actor-Critic算法，并应用于经典的CartPole问题。一、Actor-Critic算法基础Actor-Cri
PyTorch 深度学习实战（17）：Asynchronous Advantage Actor-Critic (A3C) 算法与并行训练进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们深入探讨了SoftActor-Critic(SAC)算法及其在平衡探索与利用方面的优势。本文将介绍强化学习领域的重要里程碑——AsynchronousAdvantageActor-Critic(A3C)算法，并展示如何利用PyTorch实现并行化训练来加速学习过程。一、A3C算法原理A3C算法由DeepMind于2016年提出，通过异步并行的多个智能体（Worker）与环境交互
【pytorch(cuda)】基于DQN算法的无人机三维城市空间航线规划（Python代码实现） wlz249 python pytorch 算法
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述一、研究背景与意义二、DQN算法概述三、基于DQN的无人机三维航线规划方法1.环境建模2.状态与动作定义3.奖励函数设计4.深度神经网络训练5.航线规划四、研究挑战与展望2运行结果3参考文献4Python代码实现⛳️赠与读者‍做科研，涉及到一个深在的
李开复：AI 2.0 时代的价值 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
人工智能，AI2.0，价值创造，伦理挑战，未来趋势1.背景介绍人工智能（AI）技术近年来发展迅速，从语音识别、图像识别到自然语言处理，AI已经渗透到我们生活的方方面面。李开复，作为一位享誉全球的人工智能专家，在《AI2.0时代的价值》一文中，深刻地探讨了AI2.0时代带来的机遇与挑战，以及AI如何为人类创造价值。AI1.0时代主要集中在规则驱动的系统，例如围棋、象棋等游戏的AI。而AI2.0时代则
李开复：AI 2.0 时代的机遇 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
人工智能，深度学习，Transformer，大模型，通用人工智能，AI2.0，应用场景，未来趋势1.背景介绍人工智能（AI）技术近年来发展迅速，从语音识别、图像识别到自然语言处理等领域取得了突破性进展。其中，深度学习作为人工智能的核心技术之一，推动了AI技术的飞速发展。然而，深度学习模型的训练成本高、数据依赖性强、可解释性差等问题仍然制约着AI技术的进一步发展。李开复先生在《AI2.0时代的机遇》
llama.cpp 和 LLM（大语言模型）这个懒人 llama 语言模型人工智能
llama.cpp和LLM（大语言模型）的介绍，以及两者的关联与区别：1.LLM（LargeLanguageModel，大语言模型）定义：LLM是基于深度学习技术（如Transformer架构）构建的超大参数量的自然语言处理模型。它通过海量文本数据训练，能够生成连贯、语义丰富的文本，完成问答、创作、推理等任务。特点：参数规模大：如GPT-3（1750亿参数）、Llama-65B（650亿参数）等。
AI在项目中的应用酒江人工智能
AI大模型（如GPT-4、BERT、T5等）在各类项目中有广泛的应用，可以极大地提高项目效率、优化流程，并解决许多传统方法难以应对的问题。以下是AI大模型在不同类型项目中的一些具体应用：1.自然语言处理（NLP）文本生成和摘要：AI大模型可以生成高质量的文本内容，自动撰写文章、新闻报道、博客或技术文档，甚至可以进行文献摘要，帮助内容创作者提高效率。情感分析：在客户服务、社交媒体监控或市场研究项目中
llama-factory微调 AI Echoes 深度学习人工智能机器学习 deepseek
大模型微调实操--llama-factoryllama-factory环境安装前置准备英伟达显卡驱动更新地址下载NVIDIA官方驱动|NVIDIAcuda下载安装地址CUDAToolkit12.2Downloads|NVIDIADeveloperpytorch下载安装地址PreviousPyTorchVersions|PyTorchllama-factory项目和文档地址https://githu
AI API：快速集成智能化功能的开发利器桂花饼 AIGC AI API 人工智能 AIGC 语言模型 AI作画
AIAPI（ArtificialIntelligenceApplicationProgrammingInterface，人工智能应用程序接口）是应用程序接口的一种，专门用于提供人工智能相关功能的开发接口。它允许开发者利用现有的AI模型、工具或服务，将这些功能集成到自己的应用程序中，并为用户带来智能化的体验。AIAPI的核心功能主要与AI技术相关，比如自然语言处理（NLP）、计算机视觉、语音处理、机
TorchServe详解和应用易之阴阳机器学习人工智能深度学习 python Torchserver
TorchServer是PyTorch的一个组件，它是一个轻量级的服务框架，用于部署和管理PyTorch模型，以便在生产环境中提供高效、可扩展的推理服务。TorchServer提供了RESTfulAPI，可以方便地与其他系统集成，支持模型热加载和热更新，确保模型的快速部署和更新。以下是TorchServer的一些关键特性：模型注册和管理：用户可以通过API注册模型，指定模型的路径、输入输出规范和所
大模型与自然语言理解（NLU）：差异与联系技术流 Gavin AIoT python 语言模型 ai
近年来，人工智能领域取得了显著进展，尤其是在自然语言处理（NLP）方面。大模型和自然语言理解（NLU）作为NLP的两个重要分支，常常被提及，但它们之间存在着本质区别。1.定义与目标大模型:通常指拥有庞大参数规模（数十亿甚至数千亿）的深度学习模型，例如GPT-3、LaMDA等。它们通过海量文本数据进行训练，旨在学习语言的统计规律，并能够生成流畅、连贯的文本。NLU:是NLP的一个子领域，专注于让机器
PyTorch 生态概览：为什么选择动态计算图框架？小诸葛IT课堂 pytorch 人工智能 python
一、PyTorch的核心价值PyTorch作为深度学习框架的后起之秀，通过动态计算图技术革新了传统的静态图模式。其核心优势体现在：动态灵活性：代码即模型，支持即时调试Python原生支持：无缝衔接Python生态高效的GPU加速：通过CUDA实现透明的硬件加速活跃的社区生态：GitHub贡献者超1.8万人，日均更新100+次二、动态计算图VS静态计算图对比#动态计算图示例（PyTorch）impo
学习pytorch 阿什么名字不会重复呢学习 pytorch 人工智能
学习PyTorch是一个很好的选择，尤其是如果你对深度学习和机器学习感兴趣。以下是一个详细的学习计划，可以帮助你系统地掌握PyTorch的基本概念和应用。学习计划概览学习周期：8周（每周约4-5小时）目标：掌握PyTorch基础，能够实现简单的深度学习模型。第1周：基础知识目标：了解深度学习的基础知识，掌握Python和NumPy基础。任务：学习Python基础（数据类型、控制流、函数、类）。资源
基于树莓派的轻量级AI数字人开发全流程指南 ——从硬件选型到语音视觉交互实战 zhz5214 AI ai 人工智能 AI写作 AI编程智能体
1.背景与目标AI数字人，像是虚拟助手、交互式角色，在当下数字化浪潮中扮演着越来越重要的角色。其核心在于整合语音识别、视觉感知、自然语言处理（NLP）和动态反馈四大关键功能。本文将以树莓派5开发板为核心，搭配AI加速硬件，结合开源框架，为大家详细阐述如何实现本地化轻量级数字人开发。这一方案特别适用于教育领域，帮助学生更直观地理解AI技术；在智能家居场景中，也能为用户带来更智能、便捷的交互体验。2.
Pytorch 小记第八回：GoogleNet卷积神经网络模型代码 Start_Present pytorch cnn 神经网络分类 python 深度学习
本次小记，提供了一份基于pytorch的GoogleNet卷积神经网络模型的代码。除此之外，对代码中不容易理解的部分进行了讲解。本代码的平台是PyCharm2024.1.3，python版本3.11numpy版本是1.26.4，pytorch版本2.0.0+cu118，d2l的版本是1.0.3importnumpyasnpimporttorchfromtorchimportnnfromtorchv
RAG数据嵌入和重排序：如何选择合适的模型从零开始学习人工智能深度学习
RAG数据嵌入和重排序：如何选择合适的模型在自然语言处理（NLP）领域，Retrieval-AugmentedGeneration（RAG）模型已经成为一种强大的工具，用于结合检索和生成能力来处理复杂的语言任务。RAG模型的核心在于两个关键步骤：数据嵌入（Embedding）和重排序（Re-ranking）。这两个步骤的选择和优化对于模型的性能至关重要。本文将探讨如何选择合适的模型来实现高效的数据
pytorch的使用：卷积神经网络模块樱花的浪漫 pytorch cnn pytorch 深度学习计算机视觉
1.读取数据分别构建训练集和测试集（验证集）DataLoader来迭代取数据使用transforms将数据转换为tensor格式#定义超参数input_size=28#图像的总尺寸28*28num_classes=10#标签的种类数num_epochs=3#训练的总循环周期batch_size=64#一个撮（批次）的大小，64张图片#训练集train_dataset=datasets.MNIST(
PyTorch 模型剪枝实例教程一、非结构化剪枝小风_ 模型压缩与加速 pytorch pytorch 深度学习人工智能
目录1.导包&定义一个简单的网络2.获取网络需要剪枝的模块3.模块剪枝（核心）4.总结目前大部分最先进的（SOTA）深度学习技术虽然效果好，但由于其模型参数量和计算量过高，难以用于实际部署。而众所周知，生物神经网络使用高效的稀疏连接（生物大脑神经网络balabala啥的都是稀疏连接的），考虑到这一点，为了减少内存、容量和硬件消耗，同时又不牺牲模型预测的精度，在设备上部署轻量级模型，并通过私有的设备
YOLOv8n-seg.pt的使用（实例分割，训练自己制作的数据集）再坚持一下！！！ YOLO
Ubuntu+python3一、YOLOV8源码下载参考：GitHub-ultralytics/ultralytics:NEW-YOLOv8inPyTorch>ONNX>OpenVINO>CoreML>TFLite二、数据集制作1.labelme下载：pip3installlabelme2.终端输入labelme,打开labelme。界面“打开目录”，打开图片目录images，进行多边形标注（右键
优化深度学习模型：PyTorch中的模型剪枝技术详解代码之光_1980 深度学习 pytorch 剪枝
标题：优化深度学习模型：PyTorch中的模型剪枝技术详解在深度学习领域，模型剪枝是一种提高模型效率和性能的技术。通过剪枝，我们可以去除模型中的冗余权重，从而减少模型的复杂度和提高运算速度，同时保持或甚至提升模型的准确率。本文将详细介绍如何在PyTorch框架中实现模型剪枝，并提供相应的代码示例。1.模型剪枝的基本概念模型剪枝主要分为两种类型：结构化剪枝和非结构化剪枝。结构化剪枝通常指的是剪除整个
模型保存与加载：PyTorch中的实践指南冰蓝蓝自然语言处理 pytorch 人工智能 python
在深度学习项目中，模型的保存和加载是一个至关重要的步骤。它不仅有助于在训练过程中保存进度，还可以在训练完成后部署模型。PyTorch提供了灵活的方式来保存和加载模型，本文将详细介绍这些方法。模型保存在PyTorch中，有两种主要的模型保存方法：保存整个模型和仅保存模型参数。保存整个模型保存整个模型意味着保存模型的结构和参数。这种方法简单直接，但文件体积较大，且依赖于模型的具体实现。importto
torch.unsqueeze：灵活调整张量维度的利器冰蓝蓝 transformer transformer 深度学习
在深度学习框架PyTorch中，张量（Tensor）是最基本的数据结构，它类似于NumPy中的数组，但可以在GPU上运行。在日常的深度学习编程中，我们经常需要调整张量的维度以适应不同的操作和层。torch.unsqueeze函数就是PyTorch提供的一个非常有用的工具，用于在指定位置增加张量的维度。本文将详细介绍torch.unsqueeze的用法和一些实际应用场景。什么是torch.unsqu
自然语言处理领域CCF推荐的A类期刊冰蓝蓝自然语言处理人工智能
在自然语言处理（NLP）这一蓬勃发展的领域，研究人员和学者们致力于探索语言的深层含义和应用。中国计算机学会（CCF）推荐的A类期刊和会议是该领域内公认的高质量研究发表平台。这是我在学习时整理的一些顶刊并附上官网地址直达。1.ACL(AnnualMeetingoftheAssociationforComputationalLinguistics)ACL是自然语言处理领域的顶级会议之一，由Associ
pytorch中的DataLoader 朋也透william pytorch 人工智能 python
在PyTorch中，DataLoader是一个工具类，用于高效地加载数据并准备数据输入到模型中。它支持数据的批量加载、随机打乱、并行加载和迭代操作，是训练深度学习模型的关键组件之一。1.基本功能DataLoader的主要职责是从数据集中提取样本，并根据设置返回一个批次的数据。它与Dataset类结合使用：Dataset：定义数据集的来源、结构以及如何获取单个数据样本。DataLoader：负责从D
机器学习中输入输出Tokens的概念详解爱吃土豆的程序员机器学习基础机器学习人工智能 Tokens
随着深度学习技术的快速发展，大语言模型（LargeLanguageModels,LLMs）已经成为自然语言处理（NLP）领域的一个热点研究方向。这些模型不仅能够生成高质量的文本，还能在多种任务中展现出卓越的表现，比如机器翻译、问答系统、文本摘要等。在大语言模型的工作流程中，Tokens的概念扮演着至关重要的角色。本文将详细介绍大语言模型如何使用Tokens，以及如何计算Tokens的数量。什么是T
pytorch 天花板级别的知识点你可以不会用但是不能不知道小赖同学啊人工智能 pytorch 人工智能 python
PyTorch的高级知识涵盖了从模型优化到分布式训练的广泛内容，适合已经掌握基础知识的开发者进一步提升技能。以下是PyTorch的高级知识点，详细且全面：1.模型优化与加速1.1混合精度训练定义：使用半精度（FP16）和单精度（FP32）混合训练，减少内存占用并加速计算。实现：使用torch.cuda.amp模块。示例：fromtorch.cuda.ampimportautocast,GradSc
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam