名字填充中

深入Bert实战(Pytorch)----fine-Tuning 1

https://www.bilibili.com/video/BV1K5411t7MD?p=5
https://www.youtube.com/channel/UCoRX98PLOsaN8PtekB9kWrw/videos
深入BERT实战(PyTorch) by ChrisMcCormickAI
这是ChrisMcCormickAI在油管bert，8集系列第三篇fine-Tuning的pytorch的讲解的代码，在油管视频下有cloab地址，如果不能的可以留下邮箱我全部看完整理后发给你。但是在fine-tuning最好还是在cloab上运行

文章目录

深入Bert实战(Pytorch)----fine-Tuning 1
BERT Fine-Tuning Tutorial with PyTorch
Contents 目录
Introduction
- Bert的历史
- 什么是BERT ？
- Fine-Tuning的优点
- - 自然语言处理的转变
1. Setup 安装
- 1.1. 用Colab的GPU训练
- 1.2. 安装Hugging Face库
2. 加载CoLA数据集
- 2.1. 加载和抽取
- 2.2. 解析数据
3. 标记化和输入格式
- 3.1. BERT Tokenizer
- 3.2. 格式要求
- - 特别的Tokens
  - 句长和Attention Mask
- 3.3. Tokenize Dataset
- 3.4. 训练集和验证集的划分
总结

BERT Fine-Tuning Tutorial with PyTorch

By Chris McCormick and Nick Ryan 翻译：名字填充中

并不是完全翻译，只是针对读英文比较累的同学，英文好的可以直接在Cloab看原文。

这个教程，展示如何使用BERT和huggingface PyTorch库来快速有效地fine-tune模型，以获得接近最先进的句子分类性能(sentence classification)。更广泛地说，我描述了迁移学习在自然语言处理中的实际应用，最小的努力创建高性能模型。

这篇文章有两种形式——原文bloghere，和cloab Notebookhere。（我在这里是进行大致翻译，有增减）

两者的内容相同，但:

这篇博客文章包括一个讨论的评论部分。
Cloab Notebook可以运行代码

作者视频的油管地址为 Part 1 和 Part 2

Contents 目录

在cloab左侧有显示，也可以在我上面的目录看

示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。

Introduction

Bert的历史

2018年是NLP的突破之年。迁移学习例如 AILEN AL的ELMO, OpenAI’s Open-GPT, 和Google’s BERT，都提供了预训练模型，这些预训练模型在多种特定任务上进行fine-tuning 就可以取得非常好的结果，使用更少的数据和计算时间。不幸的是，对于许多刚开始从事自然语言处理的人，甚至是一些经验丰富的从业人员来说，这些强大模型的理论和实际应用仍然没有得到很好的理解。(不重要，随便翻的 ^_)

什么是BERT ？

BERT(Bidirectional Encoder Representations from Transformers, 基于Transformers的双向编码表示)，发布于2018年，这个教程使用的模型，为读者提供更好的理解和在自然语言处理中使用迁移学习模型的实际指导。BERT是一种预训练模型，可以免费下载。可以用BERT从文本中提取更好的语言特征，也可以直接用到某种特殊任务（分类、实体识别、问题回答等），在自己的数据上微调后获得非常好的结果

这个大佬将会教你修改和微调BERT，创建一个强大的NLP模型，快速得到最先进的结果。（如果你愿意给他花钱可以学到更多，大佬的课程链接）

Fine-Tuning的优点

这教程训练了BERT的文本分类，具体来说，我们将采用预训练的BERT模型，在最后添加一层未训练的神经元，训练新的模型来完成分类任务。为什么这样做，而不是训练一个特定的深度学习模型(CNN, BiLSTM，等等)，使这个模型非常适合你需要的特定的NLP任务?

更更更快

预训练好的模型中已经对语言中大量信息进行编码。所以在微调的时候时间短。就像是训练好了大量底层网络，然后微调BERT作为分类任务的输出就可以了 ! 实际上，这个作者推荐在特定任务上使用2-4个训练epoch进行微调BERT（对比训练BERT或者LSTM在GPU上几百个小时真的很牛逼！）

更更更少

在BERT已经预训练好的模型中，由于预先训练的权重，这种方法允许我们在一个比从头构建的模型更小的数据集上微调我们的任务。（BERT训练的模型很大）。从零开始构建的NLP模型的一个主要缺点是，为了训练我们的网络达到合理的精度，我们经常需要一个非常大的数据集，这意味着必须在数据集创建上投入大量的时间和精力。微调BERT可以在少量数据集上训练特别好的效果。

更更更好

在特定任务上简单的微调，加上几个全连接层，并训练几个epochs，就能达到最好：分类、语言推理、语义相似、问答等。。。。

自然语言处理的转变

这种转移学习的转变与几年前发生在计算机视觉领域的转变是相似的。为计算机视觉任务创建一个良好的深度学习网络需要数百万个参数，而且训练成本非常高。研究人员发现，深度网络可以学习层次特征表示(简单的特征，如最低层的边缘，逐渐复杂的特征在更高层)。而不是每次从头开始训练一个新的网络，一个训练过的具有广义图像特征的网络的下层可以被复制和转移到另一个具有不同任务的网络中使用。下载一个预训练过的深层网络，然后快速地为新的任务重新训练它，或者在上面添加额外的层，这很快成为一种普遍的做法——这比从头训练一个网络的昂贵过程要好得多。对于许多人来说，2018年引入的深度预训练语言模型(ELMO、BERT、ULMFIT、Open-GPT等)标志着NLP中迁移学习的转变，与计算机视觉看到的转变是一样的。

ok! 前面的都扯完了，从概念上已经学会BERT了，四舍五入已经完成了99%，现在开始最后的1% ！胜利就在眼前！

BERT eBook Display Ad

他们的广告，在这个地方充钱，你将变得更强

1. Setup 安装

1.1. 用Colab的GPU训练

Google Colab有免费的GPU和TPU！因为我们将训练一个大型的神经网络，所以最好利用这一点(在这种情况下，我们将附加一个GPU)，否则训练将花费很长时间。

GPU可以添加到菜单中并选择:
Edit Notebook Settings Hardware accelerator (GPU)
然后运行以下单元，确认检测到GPU。

这里建议直接搭个梯子在Cloab上跑，这个教程重点是学怎么微调BERT，不要再去自己配环境了！

# tensorflow测试GPU
import tensorflow as tf

# Get the GPU device name.
device_name = tf.test.gpu_device_name()

# The device name should look like the following:
if device_name == '/device:GPU:0':
    print('Found GPU at: {}'.format(device_name))
else:
    raise SystemError('GPU device not found')

为了在torch上使用GPU，将device指定为gpu

import torch

# If there's a GPU available...
if torch.cuda.is_available():    

    # Tell PyTorch to use the GPU.    
    device = torch.device("cuda")

    print('There are %d GPU(s) available.' % torch.cuda.device_count())

    print('We will use the GPU:', torch.cuda.get_device_name(0))

# If not...
else:
    print('No GPU available, using the CPU instead.')
    device = torch.device("cpu")

这里我得到了一块Tesla T4

1.2. 安装Hugging Face库

安装Hugging Face用Pytorcch的transformers包，提供一个BERT的接口。(也包括像OpenAI’s GPT and GPT-2.的其他预训练模型的接口)，这里用pytorch的高级api接口(容易使用，可以忽略细节)和tensorflow的代码之间取得了很好的平衡。(包含很多细节，经常会偏离到关于tensorflow的课程，而这里的重点是BERT!)

目前，Hugging Face的库是最被强大与广泛接受的BERT的pytorch接口。除了支持各种不同预训练的transformer模型，针对特定任务进行的模型修改。这里用BertForSequenceClassification.

该库还包括token classification, question answering, next sentence prediciton等的特定任务类。使用这些预构建的类，可以简化自己修改BERT的过程。

!pip install transformers

这里用的教程代码是huggingface简化的脚本run_glue.py

run_glue.py很有用！你可以选GLUE里你想要的基准任务来测试，以及你想要使用的预训练过的模型(具体就看这里)，有CPU，多GPU和单GPU。进一步加速还支持16位精度(代码里面都是32位)

就是这些可配置性都是牺牲了可读性做代价，在这个教程就简化了代码，添加的特别多注释(简单的注释就不翻译了）

2. 加载CoLA数据集

用The Corpus of Linguistic Acceptability (CoLA)做做单句子分类。它是一组标记为语法正确或错误的句子。它首次于2018年5月发布，是包括BERT等模型竞争的“GLUE Benchmark”测试之一。

2.1. 加载和抽取

用wget下载数据集到Cloab

!pip install wget

数据集在github的地址：https://nyu-mll.github.io/CoLA/

import wget
import os

print('Downloading dataset...')

# The URL for the dataset zip file.
url = 'https://nyu-mll.github.io/CoLA/cola_public_1.1.zip'

# Download the file (if we haven't already)
if not os.path.exists('./cola_public_1.1.zip'):
    wget.download(url, './cola_public_1.1.zip')

下载解压，可以在Cloab左侧文件系统浏览

# Unzip the dataset (if we haven't already)
if not os.path.exists('./cola_public/'):
    !unzip cola_public_1.1.zip

2.2. 解析数据

我们可以从文件名中看到数据的tokenized和raw版本都是可用的。我们不能使用tokenized版本，因为为了应用pre-trained的BERT，我们必须使用模型提供的tokenizer。这是因为

(1)模型有一个特定的、固定的词汇表
(2)BERT的tokenizer有一个特定的方法来处理词汇表外的单词(OOV)。

用pandas来解析“in-domain”训练集，并查看它的一些属性和数据点。

import pandas as pd

# Load the dataset into a pandas dataframe.
df = pd.read_csv("./cola_public/raw/in_domain_train.tsv", delimiter='\t', header=None, names=['sentence_source', 'label', 'label_notes', 'sentence'])

# Report the number of sentences.
print('Number of training sentences: {:,}\n'.format(df.shape[0]))

# Display 10 random rows from the data.
df.sample(10)

sentence 和对应的label，"acceptibility judgment"称为可接受度(0=unacceptable, 1=acceptable)

下面有五个被认为在语法上不可接受的句子。请注意，这个任务比情绪分析之类的事情要困难得多!(采用随机采样)

df.loc[df.label == 0].sample(5)[['sentence', 'label']]

提取句子和标签

# Get the lists of sentences and their labels.
sentences = df.sentence.values
labels = df.label.values

3. 标记化和输入格式

数据预处理，转换为BERT训练格式

3.1. BERT Tokenizer

将给BERT传输的文本，首先要分割标记，然后建立索引和tokenizer词汇表的映射。

tokenization必须用BERT的tokenizer，下面下载的是bert-base-uncased版本的

from transformers import BertTokenizer

# Load the BERT tokenizer.
print('Loading BERT tokenizer...')
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased', do_lower_case=True)

下面是应用到一个句子中的实例

# Print the original sentence.
print(' Original: ', sentences[0])

# Print the sentence split into tokens.
print('Tokenized: ', tokenizer.tokenize(sentences[0]))

# Print the sentence mapped to token ids.
print('Token IDs: ', tokenizer.convert_tokens_to_ids(tokenizer.tokenize(sentences[0])))

转换所有句子时，使用 tokenize.encode函数对每一步进行处理，并不是用tokenize 和 convert_tokens_to_ids分开处理

不过，在此之前，我们需要讨论一下BERT的一些格式要求。

3.2. 格式要求

上面的代码省略了格式化步骤。

*Side Note:在作者看来，要求BERT格式输入是"over-specified" …我们被要求向它提供一些似乎多余的信息，或者它们可以很容易地从数据中推断出来，而不需要我们明确提供。但事实就是如此，而且我怀疑，一旦我对BERT的内在原理有了更深的理解，它就会变得更有意义。

被输入数据要求：

在每个句子的开头和结尾添加特殊的标记。
将所有句子填充和截断为一个固定长度。
明确地区分使用"attention mask"的真实tokens和和oadding tokens。

特别的Tokens

[SEP]

在每个句子的末尾，都需要添加特殊的[SEP]标记。

这个token是two-sentence任务的产物，其中BERT被给予两个独立的句子，并被要求确定一些事情例如，句子A中的问题的答案可以在句子B中找到吗?)

我还不确定当我们只有单句输入时为什么仍然需要标记，但它是!

[CLS]

For classification tasks, we must prepend the special [CLS] token to the beginning of every sentence.

This token has special significance. BERT consists of 12 Transformer layers. Each transformer takes in a list of token embeddings, and produces the same number of embeddings on the output (but with the feature values changed, of course!).

对于分类任务，我们必须在每个句子的开头添加特殊的[CLS]标记。

这个标志有特殊的意义。BERT有12个Transformer layers。每个transformer接受一个token embeddings列表，并在输出上生成相同数量的embeddings(当然，特征值发生了变化!)

在第12个transformer的输出，仅仅第一个embedding是用到classifier(对应的[CLS]token)

“The first token of every sequence is always a special classification token ([CLS]).The final hidden state corresponding to this token is used as the aggregate sequence representation for classification tasks.”(from the BERT paper)

上面是原论文

你可能会想去在最后一层加入pooling策略，但是，这是不需要的。因为BERT被训练为只使用这个[CLS]tokens进行分类，我们知道模型已经被激励将分类步骤所需的一切编码到每个的768个值的嵌入向量中。它已经帮我们搞定了!

句长和Attention Mask

我们数据集中的句子显然有不同的长度，那么BERT如何处理这个问题呢?

两个约束条件：

所有的句子必须被填充或截断为一个固定的长度。
最大的句子长度是512个标记。

填充是用[PAD]字符，在BERT的词汇表索引为0。下图演示了填充到8个令牌的“MAX_LEN”。

“Attention Mask” 只是一个由1和0组成的数组，表示哪些标记是填充，哪些不是(看起来有点多余，不是吗?!)这个mask机制告诉BERT的“Self-Attention”机制，不要把这些PAD符号合并到它对句子的解释中。

然而，最大长度确实影响训练和评估速度。

For example, with a Tesla K80:

MAX_LEN = 128 --> Training epochs take ~5:28 each

MAX_LEN = 64 --> Training epochs take ~2:57 each

3.3. Tokenize Dataset

transformers库提供了encode函数，它将为我们处理大多数解析和数据准备步骤。

在我们准备编码我们的文本之前，我们需要决定填充/截断的最大句子长度。

下面的单元格将对数据集执行一次标记化传递(tokenization pass)，以测量最大句子长度。

max_len = 0

# For every sentence...
for sent in sentences:

    # Tokenize the text and add `[CLS]` and `[SEP]` tokens.  对每个单词加上[CLS]和[SEP]
    input_ids = tokenizer.encode(sent, add_special_tokens=True)

    # Update the maximum sentence length.
    max_len = max(max_len, len(input_ids))

print('Max sentence length: ', max_len)
# 总共有8551个句子，这些最长47

为了防止出现更长的测试句子，最大长度设置为64。

现在进行tokenization

tokenizer.encode_plus函数会组合多个步骤

split每个句子成tokens
加上[CLS]和 [SEP]
map每个tokens成对应的IDs
把所有的句子填空或截断成相同的长度。
创建attention masks，明确区分真正的tokens和[PAD]tokens。

前四个特性在tokenizer.encode中，但是，我使用了tokenizer.encode_plus来获得第五个(attention masks)。文档地址here.

# Tokenize all of the sentences and map the tokens to thier word IDs.
input_ids = []
attention_masks = []

# For every sentence...
for sent in sentences:
    # `encode_plus` will:
    #   (1) Tokenize the sentence.
    #   (2) Prepend the `[CLS]` token to the start.
    #   (3) Append the `[SEP]` token to the end. 开头末尾添加
    #   (4) Map tokens to their IDs.
    #   (5) Pad or truncate the sentence to `max_length`
    #   (6) Create attention masks for [PAD] tokens.
    encoded_dict = tokenizer.encode_plus(
                        sent,                      # Sentence to encode.
                        add_special_tokens = True, # Add '[CLS]' and '[SEP]'
                        max_length = 64,           # Pad & truncate all sentences.
                        pad_to_max_length = True,
                        return_attention_mask = True,   # Construct attn. masks.
                        return_tensors = 'pt',     # Return pytorch tensors.
                   )
    # encoded_dict字典形式返回有三类 input_ids，attention_mask，token_type_ids
    # 分别加入到列表input_ids和attention_mask中
    
    # Add the encoded sentence to the list.    
    input_ids.append(encoded_dict['input_ids'])
    
    # And its attention mask (simply differentiates padding from non-padding).
    attention_masks.append(encoded_dict['attention_mask'])

# Convert the lists into tensors.
input_ids = torch.cat(input_ids, dim=0)
attention_masks = torch.cat(attention_masks, dim=0)
labels = torch.tensor(labels)

# Print sentence 0, now as a list of IDs.
print('Original: ', sentences[0])
print('Token IDs:', input_ids[0])

3.4. 训练集和验证集的划分

9/1划分

from torch.utils.data import TensorDataset, random_split

# Combine the training inputs into a TensorDataset.
dataset = TensorDataset(input_ids, attention_masks, labels)

# Create a 90-10 train-validation split.

# Calculate the number of samples to include in each set.
train_size = int(0.9 * len(dataset))
val_size = len(dataset) - train_size

# Divide the dataset by randomly selecting samples.
train_dataset, val_dataset = random_split(dataset, [train_size, val_size])

print('{:>5,} training samples'.format(train_size))
print('{:>5,} validation samples'.format(val_size))

#7,695 training samples
#856 validation samples

我们还将使用torch DataLoader类为数据集创建一个迭代器。这有助于在训练期间节省内存，因为与for循环不同，使用迭代器时，整个数据集不需要加载到内存中。DataLoader

from torch.utils.data import DataLoader, RandomSampler, SequentialSampler

# The DataLoader needs to know our batch size for training, so we specify it 
# here. For fine-tuning BERT on a specific task, the authors recommend a batch 
# size of 16 or 32.

# DataLoader要指定batch_size大小 推荐16或者32
batch_size = 32

# Create the DataLoaders for our training and validation sets.
# We'll take training samples in random order.   # 随机采样训练集
train_dataloader = DataLoader(
            train_dataset,  # The training samples.
            sampler = RandomSampler(train_dataset), # Select batches randomly
            batch_size = batch_size # Trains with this batch size.
        )

# For validation the order doesn't matter, so we'll just read them sequentially. 验证集不用管顺序
validation_dataloader = DataLoader(
            val_dataset, # The validation samples.
            sampler = SequentialSampler(val_dataset), # Pull out batches sequentially.
            batch_size = batch_size # Evaluate with this batch size.
        )

总结

这是第三课的在Cloab代码，我再这里算是做一个个人笔记，后半部分的争取明天中午前弄完，不能的可以留邮箱，我把notebook发过去，全部整完后我再传百度云。

认识软件测试中的黑天鹅 Alan_Wdd 测试专题测试黑天鹅
1、软件测试中的“黑天鹅”几年前，我带领的一个测试小组遗漏了一个严重的bug到网上，当用户反馈这个bug后，我们对它进行了深入的分析和重现，最终所有人一致认为，这个bug能够发生实在是机缘巧合，因为它需要多个条件同时发生才有可能触发，比如“XX算法开关必须打开、XX算法开关又必须关闭、XX参数必须取某个特定值、用户的使用环境必须是XX个场景、硬件必须是使用XX接口板、软件必须是XX版本、XX的带宽
【Java】TCP网络编程：从可靠传输到Socket实战郑州吴彦祖772 【Java】网络原理 java 并发编程 tcp/ip
活动发起人@小虚竹想对你说：这是一个以写作博客为目的的创作活动，旨在鼓励大学生博主们挖掘自己的创作潜能，展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴，那么，快来参加吧！我们一起发掘写作的魅力，书写出属于我们的故事。我们诚挚邀请你参加为期14天的创作挑战赛！提醒：在发布作品前，请将不需要的内容删除。各位看官，大家早安午安晚安呀~~~如果您觉得这篇文章对您有帮助的话欢迎您一
MySQL性能优化实战笔记 - 通俗易懂版泥潭硬拔 mysql 性能优化笔记
1.存储引擎选择-到底选哪个？InnoDBvsMyISAM通俗对比想象你开了一家银行：InnoDB就像是有保险柜的银行支持事务：比如转账，要么都成功，要么都失败行级锁：小明在存钱时，小红还能同时取钱缺点：需要更多内存和CPUMyISAM就像是简易储物柜不支持事务：操作简单直接表级锁：一个人在用时，其他人要等待优点：读取速度快，占用资源少2.实战案例：常见性能问题及解决方案案例1：查询特别慢--糟糕
ALO蚁狮优化算法：从背景到实战的全面解析 der丸子吱吱吱智能优化算法 ALO算法
目录引言背景2.1蚁狮优化算法的起源2.2自然启发式算法的背景2.3ALO的发展与应用原理3.1蚁狮的生物行为3.2ALO的数学建模3.3算法流程与关键步骤实战应用4.1函数优化问题4.2工程优化案例4.3组合优化与约束优化代码实现与结果分析5.1Python代码实现5.2实验设计与结果分析5.3性能评估与优化建议学习资源6.1工具推荐6.2网站与文献资源6.3ALO与AI结合的方法结论1.引言在
Java Web开发技术解析：从基础到实践的全栈指南以恒1 java 前端开发语言
JavaWeb开发技术解析：从基础到实践的全栈指南在互联网技术演进中，JavaWeb凭借其跨平台特性、成熟的生态系统和强大的企业级服务能力，成为构建动态Web应用的核心技术栈。本文从技术组成、开发工具、实战应用三个维度，全面解析JavaWeb的完整技术体系，并结合最新行业实践探讨其演进方向。一、JavaWeb的核心技术组成JavaWeb开发以Servlet和JSP为基石，通过分层架构实现动态网页生
全面掌握Python：从安装到基础再到进阶的系统学习之路（附代码，建议新手收藏） der丸子吱吱吱 python 学习开发语言新手入门代码
Python，作为一种现代化的高级编程语言，因其简洁易懂的语法和强大的功能，成为了数据科学、人工智能、Web开发等多个领域的首选语言。在这篇文章中，我们将从大学课本的结构来详细介绍Python，帮助大家从零基础开始，逐步深入掌握Python的各个方面。目录第一章：Python简介与安装1.1Python语言概述1.2安装Python1.3Python的开发环境1.4第一个Python程序第二章：基
yum install locate出现Error: Unable to find match: locate解决方案爱编程的喵喵 Linux解决方案 linux locate yum 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了yuminstalllocate出现
中高级开发必看！MySQL 面试秘籍助你飞升七七知享数据库 mysql 面试数据库程序人生职场和发展学习方法 github
中高级开发必看！MySQL面试秘籍助你飞升想要晋升中高级开发岗位？MySQL面试攻略来助力！这篇CSDN文章堪称你进阶路上的“秘密武器”，从基础概念到高阶优化，全方位覆盖MySQL面试要点，无论是索引原理、查询优化，还是事务处理、主从复制，都有深入解读，助你轻松应对面试官的各类难题，稳稳拿下心仪Offer，向着中高级开发岗位大步迈进！
第三十篇维度建模：从理论到落地的企业级实践随缘而动，随遇而安数据库 sql 数据仓库大数据数据库架构
目录一、维度建模核心理论体系1.1Kimball方法论四大支柱1.2关键概念对比矩阵二、四步建模法全流程解析2.1选择业务过程（以电商为例）2.2声明原子粒度（订单案例）2.3维度设计规范时间维度（含财年逻辑）SCDType2完整实现（Hudi）2.4事实表类型与设计三、企业级建模实战：电商用户分析3.1业务矩阵分析3.2模型实现代码四、高级建模技巧4.1多星型模式关联4.2大数据场景优化五、性能
【人工智能机器学习基础篇】——深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理猿享天开人工智能数学基础专讲人工智能机器学习无监督学习降维
深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理在当今数据驱动的世界中，数据维度的增多带来了计算复杂性和存储挑战，同时也可能导致模型性能下降，这一现象被称为“维度诅咒”（CurseofDimensionality）。降维作为一种重要的特征提取和数据预处理技术，旨在通过减少数据的维度，保留其主要信息，从而简化数据处理过程，并提升模型的性能。本文将深入探讨两种广泛应用于无监督学习中的降
开发实战｜commons-lang3库的字符串工具类join方法六月暴雪飞梨花 commons-lang3 StringUtils String join
作者简介：「六月暴雪飞梨花」，专注于研究Java，就职于科技型公司后端工程师近期荣誉：华为云云享专家、阿里云专家博主、腾讯云优秀创作者、腾讯云TDP-KOL、ACDU成员、墨天轮技术专家博主三连支持：欢迎❤️关注、点赞、收藏三连，支持一下博主~文章目录引言来源StringUtils.joinString.join功能对比StringUtils.join支持原生数组支持集合支持迭代器Iterator
[解决] PDF转图片,中文乱码或显示方框的解决方案 DazedMen 开发遇到的问题 pdf java pdf转图片
在Java开发中，将PDF文件转换为图片是一项常见的需求，但过程中可能会遇到中文乱码或显示方框的问题。本文将深入探讨这一问题，并提供详细的解决方案，帮助开发者顺利地完成PDF到图片的转换。一、问题现象在使用Java库（如ApachePDFBox）将PDF转换为图片时，如果PDF文件中包含中文字符，转换后的图片中可能会出现中文乱码或显示为方框的情况。控制台日志可能会显示类似以下信息：noglyphf
模型上下文协议 (MCP)是什么？Model Context Protocol 需要你了解一下同学小张学习 AIGC AI-native agi gpt 开源协议
大家好，我是同学小张，+v:jasper_8017一起交流，持续学习AI大模型应用实战案例，持续分享，欢迎大家点赞+关注，订阅我的大模型专栏，共同学习和进步。在人工智能领域，ModelContextProtocol（MCP）正逐渐成为连接AI模型与各类数据源及工具的重要标准。MCP究竟为何物？它又将如何改变AI应用的开发与使用？文章目录0.概念1.MCP的总体架构2.为何使用MCP？3.我的理解4
MCP服务器：AI智能体的新时代连接标准真挺乐人工智能
在AI技术的不断发展中，MCP（ModelContextProtocol，模型上下文协议）正成为AI智能体与外部系统交互的新标准。MCP的目标是提供一个统一的方法，让AI智能体能够安全、高效地访问各种数据源、API接口和系统工具，从而扩展其能力，提升智能化水平。本文将深入探讨MCP服务器的架构、优势及其在现实世界中的应用。什么是MCP服务器？MCP服务器是MCP架构中的关键组件，它们充当AI智能体
生成式对抗网络在人工智能艺术创作中的应用与创新研究辛迎蕌人工智能
摘要本文深入探究生成式对抗网络（GAN）在人工智能艺术创作领域的应用与创新。通过剖析GAN核心原理，阐述其在图像、音乐、文学等艺术创作中的实践，分析面临的挑战与创新方向，呈现GAN对艺术创作模式的变革，为理解人工智能与艺术融合发展提供全面视角。一、引言在人工智能与艺术深度融合的时代浪潮中，生成式对抗网络（GAN）作为一项突破性技术，为艺术创作带来了全新的可能性。它打破传统创作边界，以独特的对抗学习
知识图谱在人工智能语义理解与推理中的关键作用及发展研究 @王威& 人工智能
摘要本文聚焦知识图谱，深入剖析其在人工智能语义理解与推理中的核心作用。阐述知识图谱的构建原理、表示方法，分析其在自然语言处理、智能问答系统、推荐系统等多领域助力语义理解与推理的应用，探讨面临的挑战并展望未来发展方向，全面呈现知识图谱对人工智能发展的重要价值与深远影响。一、引言在人工智能追求更精准理解和处理人类语言与知识的进程中，知识图谱成为关键技术。它以结构化形式组织海量知识，揭示实体间复杂关系，
HarmonyOS实战开发-如何打造购物商城APP。码牛程序猿鸿蒙工程师 HarmonyOS 鸿蒙 harmonyos OpenHarmony 鸿蒙鸿蒙应用开发华为鸿蒙开发 HarmonyOS
今天给大家分享一个非常好的实战项目，购物商城，购物商城是一个集购物、娱乐、服务于一体的综合性平台，致力于为消费者提供一站式的购物体验。各种功能都有涉及，最适合实现学习。做好商城项目，肯定会把开发中遇到的百分之60的技术得到实战的经验。下面介绍一下商城的主要模块：首页1，搜索框，点击进入搜索页面2，顶部分类，通过不同分类查询对应信息3，广告轮播，自动切换图片，可以进行点击进入4，商品列表，展示每个项
使用Nginx实现后端负载均衡海上彼尚 node.js nginx 负载均衡运维 node.js
目录引言一、负载均衡的核心作用二、基础配置三步曲1.定义后端服务器组（upstream）2.配置代理转发规则3.重载配置生效三、六大负载均衡算法详解四、高级配置技巧1.健康检查机制2.会话保持方案3.SSL终止优化五、实战场景配置案例案例1：WebSocket负载均衡案例2：多级地域分发案例3：连接池优化六、最佳实践与陷阱规避结语引言在现代高并发场景下，单一服务器难以支撑海量请求的处理。Nginx
kubernetes高级实战云原生的爱好者 kubernetes 容器云原生
一、模拟企业环境进行一个实战部署[root@masternode]#kubectlapply-fpod-tomcat.yamlpod/tomcat-testcreated[root@masternode]#kubectlgetpodsNAMEREADYSTATUSRESTARTSAGEtomcat-test2/2Running02s[root@masternode]#kubectlgetpods-
c语言中longjmp()函数,C语言的反人类函数:setjmp和longjmp的详细剖析 weixin_39822629 c语言中longjmp()函数
我希望看这篇文章的你对C++的传统异常处理，即try...catch...throw有了解(不是WindowsSEH)，这样才能方便你最深入的理解这2个C语言的反人类函数。当然如果不了解就先看下面的“C++式的异常处理”，如果感觉自己了解了，可以直接skip看到“C语言中的模拟”。【C++式的异常处理】首先，我们写一个类，请不要想这个类有什么特别的地方，其只是为了打印出来构造和析构。classCF
【工具】gdb使用详细介绍努力努力再努力～～ linux疑难问题排查实战 gdb linux 问题调试
linux问题排查实战专栏，分享了作为公司专家，在解决内存、性能、各类死机等疑难问题的排查经验，认真学习可以让你在日后工作中大放光彩。前言在工作中，无论是学习代码流程还是问题的定位，GDB都显得尤为重要，多掌握一些命令可以提升我们的效率和解决问题的能力；按照我的理解，对GDB的掌握程度可以分为三种人：基础命令，大家都知道相对高阶一点的，少数人了解，掌握之后可以提升调试解决问题的效率需要结合反汇编、
RTSP协议规范与SmartMediaKit播放器技术解析音视频牛哥 RTSP播放器轻量级RTSP服务大牛直播SDK 音视频机器视觉人工智能 rtsp播放器 python rtsp播放器 rtsp player 大牛直播SDK
在实时流媒体传输领域，RTSP（Real-TimeStreamingProtocol）协议作为标准规范，为音视频数据的高效传输提供了坚实基础。而大牛直播SDK的rtsp播放器，则是在此基础上构建的高性能解决方案，广泛应用于多种场景，如安防监控、远程教学、直播互动等。本文将深入探讨RTSP协议规范，并结合大牛直播SDK的rtsp播放器，剖析其技术细节与优势。RTSP协议规范概述RTSP协议是一种用于
API item_get 在电商平台的核心作用以及如何测试 index_all 数据供应商京东api java 大数据开发语言
在电商行业蓬勃发展的今天，跨平台运营已成为众多商家的必然选择。然而，随之而来的数据孤岛问题却成为了制约电商企业进一步发展的瓶颈。为了解决这一问题，电商大数据平台应运而生，而item_getAPI作为获取商品详情的关键接口，在其中扮演着至关重要的角色。本文将深入探讨item_getAPI在跨平台电商数据整合中的应用与优势，为电商企业在数据驱动的道路上提供有力支持。一、跨平台电商数据整合的挑战在跨平台
《深度剖析：BERT与GPT——自然语言处理架构的璀璨双星》人工智能深度学习
在自然语言处理（NLP）的广袤星空中，BERT（BidirectionalEncoderRepresentationsfromTransformers）与GPT（GenerativePretrainedTransformer）系列模型宛如两颗最为耀眼的星辰，引领着NLP技术不断迈向新的高度。它们基于独特的架构设计，以强大的语言理解与生成能力，彻底革新了NLP的研究与应用范式，成为学界和业界竞相探索
拼多多根据ID取商品详情原数据API接口的开发、运用与收益前端后端运维数据挖掘api
拼多多作为中国电商市场的重要参与者，通过开放平台提供了丰富的API接口，其中根据ID取商品详情原数据的API接口尤为重要。该接口允许开发者通过编程方式获取商品的详细信息，为电商数据分析、竞品分析、价格监测、商品推荐等多个领域带来了丰富的应用场景和显著的收益。本文将深入解析拼多多根据ID取商品详情原数据API接口的开发、运用与收益，并提供相关的代码示例。一、拼多多商品详情API接口的开发拼多多开放平
深入分析串口使用rs485功能的内部机制之使用gpio控制传输方向读取rs485温湿度传感器数据（第一期） @曙光， linux 网络嵌入式
前言首先这是一篇涉及内核分析的，学习这篇文章最好是打开内核源码跟着我的分析去看，我参考的内核源码是linux5.4内核，也可以辅助ai去分析。ModbusRTU读取rs485温湿度传感器使用ModbusRTU读取rs485温湿度传感器有俩种方法，第一种采用gpio控制数据的传输方向：高电平表示主发从收，低电平表示主收从发。第二种采用硬件流控的方法使用串口的rts引脚和cts引脚自动控制收发方向，接
RabbitMQ 与 Kafka：消息中间件的终极对比与选型指南海上彼尚 node.js rabbitmq kafka 分布式 node.js
引言在分布式系统架构中，消息中间件是异步通信的核心组件。RabbitMQ和Kafka作为两大主流技术，常被开发者拿来比较。本文深入解析两者的设计哲学、性能差异和典型场景，助你做出精准技术选型。目录引言一、核心设计差异1.定位与数据模型二、性能与架构对比1.吞吐量与延迟2.集群与扩展三、功能特性对决1.消息可靠性2.消息路由四、典型场景与选型决策1.优先选择Kafka的场景2.优先选择RabbitM
基于FPGA的DDS连续FFT 仿真验证 toonyhe FPGA开发 fpga开发 DDS FFT IFFT
基于FPGA的DDS连续FFT仿真验证1摘要本文聚焦AMDLogiCOREIPFastFourierTransform(FFT)核心，深入剖析其在FPGA设计中的应用。该FFT核心基于Cooley-Tukey算法，具备丰富特性，如支持多种数据精度、算术类型及灵活的运行时配置。文中详细介绍了其架构选项、端口设计、理论运算原理，以及在不同场景下的动态范围特性。同时，结合VivadoDesignSuit
外贸英语报价单制作步骤分享，可在线编辑财务管理系统财务软件进销存系统
在国际贸易中，一份专业、清晰的外贸英语报价单是赢得客户信任的关键工具。它不仅需要准确传递产品信息与价格条款，还需符合国际商务规范。本文将深入解析外贸英语报价单的核心要素，并介绍如何通过ZohoBooks快速制作标准化模板，提升业务效率与竞争力。一、外贸英语报价单模板的核心要素一份完整的报价单需涵盖以下关键内容：1、基础信息标题与编号：明确标注“Quotation”或“ProformaInvoice
常见FUZZ姿势与工具实战：从未知目录到备份文件漏洞挖掘 w2361734601 web安全安全
本文仅供学习交流使用，严禁用于非法用途。未经授权，禁止对任何网站或系统进行未授权的测试或攻击。因使用本文所述技术造成的任何后果，由使用者自行承担。请严格遵守《网络安全法》及相关法律法规！目录本文仅供学习交流使用，严禁用于非法用途。未经授权，禁止对任何网站或系统进行未授权的测试或攻击。因使用本文所述技术造成的任何后果，由使用者自行承担。请严格遵守《网络安全法》及相关法律法规！一、FUZZ技术概述二、
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交

深入Bert实战(Pytorch)----fine-Tuning 1

深入Bert实战(Pytorch)----fine-Tuning 1

文章目录

BERT Fine-Tuning Tutorial with PyTorch

Contents 目录

Introduction

Bert的历史

什么是BERT ？

Fine-Tuning的优点

自然语言处理的转变

1. Setup 安装

1.1. 用Colab的GPU训练

1.2. 安装Hugging Face库

2. 加载CoLA数据集

2.1. 加载和抽取

2.2. 解析数据

3. 标记化和输入格式

3.1. BERT Tokenizer

3.2. 格式要求

特别的Tokens

句长和Attention Mask

3.3. Tokenize Dataset

3.4. 训练集和验证集的划分

总结

你可能感兴趣的:(深入BERT实战Pytorch,nlp)