Evan-yzh

BERT模型超酷炫，上手又太难？请查收这份BERT快速入门指南！

点击上方“AI遇见机器学习”，选择“星标”公众号

重磅干货，第一时间送达

来自 | GitHub 作者 | Jay Alammar

转自 | 机器之心

如果你是一名自然语言处理从业者，那你一定听说过最近大火的 BERT 模型。本文是一份使用简化版的 BERT 模型——DisTillBERT 完成句子情感分类任务的详细教程，是一份不可多得的 BERT 快速入门指南。

在过去的几年中，用于处理语言的机器学习模型取得了突飞猛进的进展。这些进展已经走出了实验室，开始为一些先进的数字产品赋能。最近成为 Google 搜索背后主要力量的 BERT 就是一个很好的例子。Google 认为这一进步（或者说在搜索中应用自然语言理解技术的进步）代表着「过去五年中最大的飞跃，也是搜索历史上最大的飞跃之一」。

本文是一篇简单的教程，介绍如何使用不同的 BERT 对句子进行分类。本文中的例子深入浅出，也足以展示 BERT 使用过程中所涉及的关键概念。

除了这篇博文，我还准备了一份对应的 notebook 代码，链接如下：

https://github.com/jalammar/jalammar.github.io/blob/master/notebooks/bert/A_Visual_Notebook_to_Using_BERT_for_the_First_Time.ipynb。

你也可以在 colab 中运行这份代码：

https://colab.research.google.com/github/jalammar/jalammar.github.io/blob/master/notebooks/bert/A_Visual_Notebook_to_Using_BERT_for_the_First_Time.ipynb

数据集：SST2

本文示例中使用的数据集为「SST2」，该数据集收集了一些影评中的句子，每个句子都有标注，好评被标注为 1，差评标注为 0。

sentence	label
a stirring , funny and finally transporting re imagining of beauty and the beast and 1930s horror films	1
apparently reassembled from the cutting room floor of any given daytime soap	0
they presume their audience won t sit still for a sociology lesson	0
this is a visually stunning rumination on love , memory , history and the war between art and commerce	1
jonathan parker s bartleby should have been the be all end all of the modern office anomie films	1

模型：句子情感分类

我们的目标是创建一个分类器，它的输入是一句话（即类似于数据集中的句子），并输出一个 1（表示这句话体现出了积极的情感）或是 0（表示这句话体现出了消极的情感）。整体的框架如下图所示：

实际上，整个模型由两个子模型组成：

DistilBERT 先对句子进行处理，并将它提取到的信息传给下个模型。DistilBERT 是 BERT 的缩小版，它是由 HuggingFace 的一个团队开发并开源的。它是一种更轻量级并且运行速度更快的模型，同时基本达到了 BERT 原有的性能。
另外一个模型，是 scikit learn 中的 Logistic 回归模型，它会接收 DistilBERT 处理后的结果，并将句子分类为积极或消极（0 或 1）。

我们在两个模型之间传递的数据是 768 维的向量。我们可以把这个向量看做能够用于分类任务的句子嵌入。

如果你读过我以前写的关于 Iluustrated BERT 的文章（https://jalammar.github.io/illustrated-bert/），这个向量其实就是以词 [CLS] 为输入的第一个位置上的结果。

模型训练

尽管整个模型包含了两个子模型，但是我们只需要训练 logistic 回归模型。至于 DistillBERT，我们会直接使用已经在英文上预训练好的模型。然而，这个模型不需要被训练，也不需要微调，就可以进行句子分类。BERT 训练时的一般目标让我们已经有一定的句子分类能力了，尤其是 BERT 对于第一个位置的输出（也就是与 [CLS] 对应的输出）。我觉得这主要得益于 BERT 的第二个训练目标——次句预测（Next sentence classification）。该目标似乎使得它第一个位置的输出封装了句子级的信息。Transformers 库给我们提供了 DistilBERT 的一种实现以及预训练好的模型。

教程概览

这篇教程的计划如下：我们首先用预训练好的 distilBERT 来生成 2,000 个句子的嵌入。

后面我们就不会再涉及 distilBERT 了。剩下的都是 Scikit Learn 的工作了，我们接下来要做的就是将数据集分成训练集和测试集。

将 distilBert（模型 #1）的输出划分为训练集和测试集后，就得到了我们训练和评估 logistic 回归（模型 #2）的数据集了。请注意，在现实中，sklearn 在将数据划分为训练集和测试集之前，会将样本打乱，而不是直接按照数据原来的顺序取前 75%。

接下来，我们要在训练集上训练逻辑 logistic 回归模型了：

每个预测值是怎么计算出来的？

在我们深入研究训练模型的代码前，让我们先看一下训练好的模型是如何计算出其预测值的。假设我们正在对句子「a visually stunning rumination on love」进行分类。第一步要做的就是用 BERT 分词器（tokenizer）将这些单词（word）划分成词（token）。然后，我们再加入句子分类所需的特殊词（在句子开始加入 [CLS]，末端加入 [SEP]）。

分词器要做的第三步就是查表，将这些词（token）替换为嵌入表中对应的编号，我们可以从预训练模型中得到这张嵌入表。如果对词嵌入不太了解，请参阅「The Illustrated Word2vec」：

https://jalammar.github.io/illustrated-word2vec/。

注意，只需要一行代码就可以完成分词器的所有工作：

tokenizer.encode("a visually stunning rumination on love", add_special_tokens=True)

现在，我们输入的句子是可以传递给 DistilBERT 的形式。

如果你读过「Illustrated BERT」（https://jalammar.github.io/illustrated-bert/），这一步也可以被可视化为下图：

DistilBERT 的数据流

将输入向量传递给 DistilBert 之后的工作方式就跟在 BERT 中一样，每个输入的词都会得到一个由 768 个浮点数组成的输出向量。

由于这是个句子分类任务，我们只关心第一个向量（与 [CLS] 对应的向量）。

该向量就是我们输入给 logistic 回归模型的向量。

从这一步开始，logistic 回归模型的任务就是：根据它在训练阶段学到的经验，对这个向量进行分类。我们可以把整个预测过程想象成这样：

我们将在下一节中讨论整个训练过程及其相关代码。

代码

在本节中，我们重点介绍训练这个句子分类模型的代码。读者可以从 colab 和 github 上获取完成本任务所需的所有 notebook 代码（链接见本文第二段）。

首先，我们需要导入相关的程序包。

import numpy as np
import pandas as pd
import torch
import transformers as ppb # pytorch transformers
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split

数据集的链接如下：https://github.com/clairett/pytorch-sentiment-classification/。我们可以直接将其导入为一个 pandas 数据帧。

df = pd.read_csv( https://github.com/clairett/pytorch-sentiment-classification/raw/master/data/SST2/train.tsv , delimiter= 	 , header=None)

我们可以通过「df.head()」查看前五行数据帧的内容：

df.head()

输出如下：

导入预训练好的 DistilBERT 模型与分词器

model_class, tokenizer_class, pretrained_weights = (ppb.DistilBertModel, ppb.DistilBertTokenizer,  distilbert-base-uncased )

## Want BERT instead of distilBERT? Uncomment the following line:
#model_class, tokenizer_class, pretrained_weights = (ppb.BertModel, ppb.BertTokenizer,  bert-base-uncased )# 

Load pretrained model/tokenizertokenizer = tokenizer_class.from_pretrained(pretrained_weights)
model = model_class.from_pretrained(pretrained_weights)

现在，我们可以对数据集进行分词操作了。请注意，我们这里要做的事情跟上文中的示例不太一样。上文中的例子只对一个句子进行了分词和处理。在这里，我们要将所有句子作为同一批进行分词和处理。在 notebook 中，考虑到算力的问题，我们只用了 2000 个句子。

分词

tokenized = df[0].apply((*lambda* x: tokenizer.encode(x, add_special_tokens=True)))

T

上面的代码将所有句子转化为了编号的列表。

现在，数据集变成了一个包含很多列表结构（或是 Pandas 的数组和数据帧）的列表。在 DistilBERT 可以将它们作为输入数据处理之前，我们需要把这些向量整理成相同的维度（在较短的句子后面填充上编号「0」）。你可以在 notebook 中看到「填充」操作对应的代码，它们就是 python 字符串和数组的简单操作。

完成「填充」操作后，我们就得到了 BERT 可以接收的矩阵/张量了。

DistilBERT 的处理

现在，我们根据填充后的词（token）矩阵创建一个输入张量，并将其传递给 DistilBERT

input_ids = torch.tensor(np.array(padded))

with torch.no_grad():

last_hidden_states = model(input_ids)

这一步完成后，会将 DistilBERT 的输出赋给「last_hidden_states」。这是一个维度为（句子数，序列中的最大词数，DistilBERT 模型中的隐藏层数）的元组。在本例中，这个维度就是（2000，66，768），因为我们有 2000 个句子，2000 个句子中最长的序列长度为 66，DistilBERT 模型中有 768 个隐藏层。

展开 BERT 的输出张量

接下来我们要把这个三维的输出张量展开。我们可以先分析一下它的维度：

回顾这些句子的「一生」

每一行代表数据集中的一个句子。第一个句子的处理过程如下图所示：

切片得到重要的部分

对于句子分类任务来说，我们只对 BERT 得到的 [CLS] 对应的输出感兴趣，所以我们只保留「立方体」中 [CLS] 对应的切片，删掉了其它内容。

这就是从三维张量中获取我们需要的二维张量的方法：

 # Slice the output for the first position for all the sequences, take all hidden unit outputs
 features = last_hidden_states[0][:,0,:].numpy()

现在，「features」是一个二维的 numpy 数组，它包含了我们数据集中所有句子的嵌入。

我们从 BERT 输出中切片得到的张量。

Logistic 回归中的数据集

现在我们已经得到了 BERT 的输出，并且把训练 logistic 回归模型的数据集组装好了。这 768 列是特征，我们还给出了原始数据集中的标签。

我们用于训练 logistic 回归的有标签数据集。这些特征就是 BERT 中对应 [CLS]（位置 #0）的部分，也就是我们前一张图中切片得到的部分。每一行对应着数据集中的一个句子，每一列对应着 BERT/DistilBERT 模型中顶层 transformer 模块中前馈神经网络的隐藏单元。

在完成了机器学习传统的训练集/测试集划分操作后，我们就可以创建我们自己的 logistic 回归模型，并用我们的数据集进行训练了。

labels = df[1]
train_features, test_features, train_labels, test_labels = train_test_split(features, labels)

上面的代码把数据集分成了训练集和测试集：

接下来，我们要在训练集上训练 logistic 回归模型。

lr_clf = LogisticRegression()
lr_clf.fit(train_features, train_labels)

现在模型已经训练好了，我们可以用测试集对其进行评估。

lr_clf.score(test_features, test_labels)

上面一段代码的输出告诉我们这个模型获得了 81% 的准确率。

评分标准

作为参照，在这个数据集上所能达到的最高的准确率是 96.8。在这个任务中，我们同样可以训练 DistilBERT 来提高其得分，也就是通常所说的调优过程，该过程可以更新 BERT 的权重参数，并让其在句子分类任务中（通常被称为「下游任务」）获得更好的性能。经过调优后的 DistilBERT 可以达到 90.7 的准确率，而完整的 BERT 可以达到 94.9。

Notebook 代码

本文开头给出了相关 notebook 代码的链接，自己去探索一下吧！

这就是本文的全部内容了，这些内容对于第一次接触 BERT 的人来说应该是非常适用的。而下一步就是查看文档并试着进行调优了。你也可以回过头来把代码中的 DistilBERT 转换成 BERT，看看它又是如何工作的。

—— 完 ——
推荐阅读
干货|学术论文怎么写
资源|NLP书籍及课程推荐（附资料下载）

干货|全面理解N-Gram语言模型
资源|《Machine Learning for OpenCV》书籍推荐

欢迎关注我们，看通俗干货！

LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混一个处女座的程序猿 NLP/LLMs CaseCode transformer minimind 预训练
LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混合精度优化/梯度累积/梯度裁剪/定期保存模型目录minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/
EasySwoole热加载龏皚觻髾檃 PHP EasySwoole php
文件热加载由于swoole常驻内存的特性，修改文件后需要重启worker进程才能将被修改的文件重新载入内存中解决：Process的方式实现文件变动自动进行服务重载1.安装inotify扩展peclinstallinotify2.操作成功后，修改php.ini，加入extension=inotify.so新建文件App/Process/HotReload.php并添加如下内容，也可以放在其他位置，请
windows使用ssh-copy-id命令的解决方案爱编程的喵喵 Windows实用技巧 windows ssh ssh-copy-id 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了windows使用ssh-copy-
模型部署后的版本回滚策略，如何确保服务降级的平滑性？百态老人 neo4j
模型部署版本回滚策略与平滑服务降级技术体系（2025版）一、核心设计原则与架构模型部署回滚的平滑性需建立在版本隔离性、流量可控性、数据兼容性三大支柱上，结合2025年前沿技术实现多维保障：
easyswoole学习记录司江龙 swoole PHP easyswoole swoole
php-fpm的工作方式php-fpm就是php-fastcgi进程管理器主要工作的就是mastr进程，主要和linux进行一个协调，当请求从nginx到fpm的时候，master会把请求交给自己下面管理的子进程一个池模型，问题：一个work进程内只会处理一个请求，也就是说这个进程内在同一时刻只会处理一个request请求，不会处理多个，所以一台服务器的并发数就取决于服务器开启了多少个work进程
通过swoole协程实现并发编程韩淼燃 php7面试架构师 swoole协程实现并发编程
目前的Swoole内置了丰富的协程组件供开发者直接调用以便快速实现异步非阻塞的并发编程，省去了开发者自己实现相应底层代码的麻烦：TCP/UDPClient：Swoole\Coroutine\ClientTCP/UDPServer：Swoole\Coroutine\ServerHTTP/WebSocketClient：Swoole\Coroutine\HTTP\ClientHTTP/WebSocke
Elasticsearch + Docker：实现容器化部署指南 IT成长日记 elasticsearch docker 容器化部署
Elasticsearch是一款强大的分布式搜索和分析引擎，广泛应用于日志分析、全文检索、实时数据分析等场景。而Docker作为一种轻量级的容器化技术，能够帮助开发者快速部署和管理应用。将Elasticsearch与Docker结合，不仅可以简化部署流程，还能提高资源利用率和系统可维护性。1环境准备1.1安装Docker安装操作请参考：Docker入门指南：1分钟搞定安装+常用命令，轻松入门容器化
从零到一：Redis Cluster部署配置全流程详解，轻松搞定高可用分布式缓存！ IT成长日记 #数据库技术解析与应用实践 Redis Cluster redis 缓存集群
RedisCluster是Redis官方提供的分布式解决方案，它通过数据分片（Sharding）和主从复制（Replication）来实现高可用性和横向扩展。RedisCluster能够在多个节点之间自动分配数据，并且在节点故障时自动进行故障转移，确保系统的高可用性。本文将详细介绍RedisCluster的部署和配置全流程，帮助读者快速搭建一个高可用的Redis集群。1RedisCluster概述
ARM架构薄记小记1——ARM架构的快速介绍 charlie114514191 嵌入式面试笔记整理计算机架构学习从0开始的学习ARMv7a IMX6ULL芯片 arm开发架构
ARM架构薄记小记1——ARM架构的快速介绍笔者最近正在简单的了解一下ARM架构，特别是ARMCortexA架构的部分，这里，笔者想要薄记的问题有这样一些，也算是简单记录一下自己学习ARM架构的记录。问题1：ARM架构的历史是如何的，以此我们可以洞察ARM架构设计的一些动机问题2：我们知道，ARM架构中常见的架构是ARMv7到ARMv9，这些架构有发生怎样的变化？每一个架构的一些纲领性的东西是什么
Django系列教程（15）——上传文件 l软件定制开发工作室 Django教程 django okhttp python
目录Django文件上传需要考虑的重要事项Django文件上传的3种常见方式项目创建与设置创建模型URLConf配置使用一般表单上传文件使用ModelForm上传文件Django文件上传需要考虑的重要事项文件或图片一般通过表单进行。用户在前端点击文件上传，然后以POST方式将数据和文件提交到服务器。服务器在接收到POST请求后需要将其存储在服务器上的某个地方。Django默认的存储地址是相对于根目
Windows 11 24H2 中文版、英文版 (x64、ARM64) 下载 (2025 年 3 月更新) windows
Windows1124H2中文版、英文版(x64、ARM64)下载(2025年3月更新)Windows11,version24H2EnterpriseArm64x64(updatedMar2025)请访问原文链接：https://sysin.org/blog/windows-11/查看最新版。原创作品，转载请保留出处。作者主页：sysin.org全新Windows体验，让您与热爱的人和事物离得更近
C# 的选择语句 visual-studio
选择就是程序分支。即利用某个条件，选择程序进行的方向。ifif是分支里面最复杂的、最常用的。它会测试其后的括号内的表达式（通常返回值是bool），并转换为bool，已确定括号内为true它要做点什么。它可以包括另外的关键字else，即当括号内为false它又要做点什么。最简单的ifConsole.WriteLine("请输入一个字符串（不输入或者全是空格将显示警告）：");string?zfc输入
python大赛对名_用100行Python爬虫代码抓取公开的足球数据玩（一）司马各 python大赛对名
在《用Python模拟2018世界杯夺冠之路》一文中，我选择从公开的足球网站用爬虫抓取数据，从而建模并模拟比赛，但是略过了爬虫的实施细节。虽然爬虫并不难做，但希望可以让更多感兴趣的朋友自己动手抓数据下来玩，提供便利，今天就把我抓取球探网的方法和Python源码拿出来分享给大家，不超过100行代码。希望球友们能快速get爬虫的技能。#-*-coding:utf-8-*-from__future__i
DeepSpeed-Chat：Reward Model【奖励模型】 u013250861 #LLM/训练 RL/强化学习排序强化学习
第二阶段：奖励模型微调奖励模型(RM)微调类似于第一阶段有监督微调(SFT)。但是，RM和SFT微调之间存在几个关键差异：训练数据差异：对于SFT微调，数据是查询（query）和答案（answer）拼接在一起。然而，对于RM微调，每批数据由两个查询-答案对组成，即具有高分答案和低分答案的相同查询。这也导致了如下所述的第二个差异。训练目标差异：对于RW，训练目标是pairwiserankingsco
从入门到进阶：Python数据可视化实战技巧 Blossom.118 分布式系统与高性能计算领域信息可视化 python 开发语言网络协议 spring boot java 后端
在数据分析和数据科学领域，数据可视化是将复杂数据以直观图形展示的重要手段。Python作为数据科学领域的首选语言之一，提供了强大的数据可视化库，如Matplotlib、Seaborn、Plotly等。本文将从入门到进阶，逐步介绍Python数据可视化的实战技巧，帮助读者快速提升数据可视化能力。一、入门：Matplotlib基础Matplotlib是Python中最基础、最强大的数据可视化库之一。它
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
服务器运维---服务器假死 johnrui Java
在线上环境中，经常会出现服务卡顿，造成数据无法更新、获取的现象。对于这种现象现，个人一自身的工作经历总结如下：一、定时任务时间间隔短，造成服务卡顿，线程池爆满，线程锁无法释放，进而服务崩溃：设定的时间间隔内，程序未执行完成，又开始进行下一轮的程序执行，这样的幂等性执行最终造成线程池爆满，服务崩溃；解决办法：根据业务量计算程序执行一次耗时，科学合理设定时间间隔；二、定时任务，程序中存在HTTP请求，
高效利用AI处理大型编程任务大囚长大模型人工智能
在大型编程任务中，通过将任务细分为适合AI上下文处理能力的子任务并整合生成目标应用，已成为当前AI辅助开发的主流方法。一、任务分解的核心策略模块化功能拆分通过分层架构设计将系统拆分为独立模块（如用户认证、支付接口、数据存储），每个模块的代码量控制在AI模型的上下文窗口内（如ClaudeMax的200k窗口可处理约2万行代码）。例如开发电商系统时，可分解为「购物车逻辑」「库存管理」「订单流水」等子模
基于Spring Boot的分布式任务调度实践 Blossom.118 分布式系统与高性能计算领域 wpf spring boot java 后端分布式 spring 开发语言
在现代的分布式系统中，任务调度是一个常见的需求。无论是定时任务的执行，还是根据业务逻辑动态触发的任务，都需要一个高效、可靠的调度框架来管理。SpringBoot作为目前最流行的Java开发框架之一，提供了强大的依赖管理和快速开发的能力，结合分布式任务调度框架，可以极大地提升开发效率和系统的可维护性。本文将介绍如何基于SpringBoot实现一个分布式任务调度系统，主要涉及Elastic-Job框架
黑客攻击deepseek服务原理解析大囚长大模型机器学习黑客帝国人工智能
黑客可通过操纵大模型的连续对话上下文回顾机制，构造恶意请求以触发模型进入无限思考循环或超长上下文处理，从而形成对对话服务的DoS攻击（拒绝服务攻击）。这一攻击方式的核心在于利用大模型对上下文处理机制的脆弱性，通过极低的攻击成本实现资源耗尽。一、攻击原理与实现路径无限推理循环攻击通过输入特定构造的提示词（如“树中两条路径之间的距离”），诱导模型陷入无限思考链（Chain-of-Thought,CoT
ESP32 智能猫喂水开发日志（RICE/MoSCoW/Kano三种产品路线规划）天瑜创客猫喂水项目单片机 c++c语言数据结构 visual studio code harmonyos
RICE/MoSCoW/Kano三种产品路线的差异分析一、核心定位与适用场景差异1.RICE模型-核心逻辑：通过量化指标（Reach接触量、Impact影响程度、Confidence信心指数、Effort投入精力）计算需求优先级，聚焦资源投入与收益最大化。-适用场景：适用于需要平衡开发成本与预期收益的项目，例如新产品功能迭代或市场推广策略优化。2.MoSCoW模型-核心逻辑：将需求分为四类——Mu
动漫短剧小程序源码|动漫短剧app源码交付 weixin_707762673 小程序 php
系统全部开源可二次开发，包部署上线上架，专业的售后团队以及技术服务公司，不转包不外包，完全自研技术团队。今天给大家带来一个超级给力的项目——动漫短剧小程序源码|动漫短剧app源码交付！这不仅是一套完整的解决方案，而且是针对那些想要进入火爆市场领域的朋友们的一把金钥匙！首先说一下背景吧。近年来随着短视频行业的爆发式增长，特别是微短剧、国漫等细分市场的快速崛起，让很多企业和个人看到了新的机会窗口。然而
从零搭建Pytorch模型教程（七）单机多卡和多机多卡训练 AI大模型探索者 pytorch 人工智能 python transformer 深度学习 ai 机器学习
前言本文主要介绍单机多卡训练和多机多卡训练的实现方法和一些注意事项。其中单机多卡训练介绍两种实现方式，一种是DP方式，一种是DDP方式。多机多卡训练主要介绍两种实现方式，一种是通过horovod库，一种是DDP方式。单机单卡训练前面我们已经介绍了一个完整的训练流程，但这里由于要介绍单机多卡和多机多卡训练的代码，为了能更好地理解它们之间的区别，这里先放一个单机单卡也就是一般情况下的代码流程。impo
PyTorch基础知识讲解（一）完整训练流程示例苏雨流丰机器学习 pytorch 人工智能 python 机器学习深度学习
文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型。本教程向你介绍一个用PyTorch实现的完整的ML工作流程，并提供链接来了解这些概念中的每一个。我们将使用FashionMNIST数据集来训练一个神经网络，预测输入图像是否属于以下
GPU计算的历史与CUDA编程入门己见明 GPU计算 CUDA C 数据并行性 CUDA程序结构向量加法内核
GPU计算的历史与CUDA编程入门背景简介GPU计算的历史可以追溯到早期的并行计算研究，如今已发展成为计算机科学中的一个重要分支。本文将探讨GPU计算的发展史，重点分析《ComputerGraphics:PrinciplesandPractice》等关键文献，以及CUDAC编程模型的引入及其对现代软件开发的影响。历史回顾回顾历史，GPU计算的发展始于1986年Hillis与Steele在《Comm
机器学习中的贝叶斯网络：如何构建高效的风险预测模型 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术文章目录机器学习中的贝叶斯网络：如何构建高效的风险预测模型1.背景介绍2.基本概念术语说明2.1马尔科夫随机场（MarkovRandomField）2.2条件随机场（ConditionalRandomField，CRF）2.3变量elimination算法2.4贝叶斯网络3.核心算法原理和具体操作步骤以及数学公式讲解3.1原理介绍1.贝叶斯网络基础2.贝叶斯网络构建风险
yolov8实战第七天——pyqt5-yolov8实现车牌识别系统（参考论文（约7000字）+环境配置+完整部署代码+代码使用说明+训练好的模型）学术菜鸟小晨 yolov8实战100天 python YOLO pyqt5 车牌识别毕业设计论文
基于pyqt5-yolov8实现车牌识别系统，包括图片车牌识别，视频车牌识别，视频流车牌识别。效果展示（图片检测，检测到的内容添加到历史记录）：效果展示（视频检测，视频车辆只会添加一条记录，下文更多实际应用中的优化策略）：新增功能：批量图片检测（2024/5/7更新代码）
MATLAB程序代编液压系统电机非线性滑膜伺服模糊控制simulink仿真 matlabgoodboy matlab 开发语言
在MATLAB中设计和仿真一个液压系统电机的非线性滑模伺服模糊控制系统，可以通过Simulink来实现。以下是一个大致的步骤指南，帮助你完成这个任务。由于这是一个复杂的系统，我们需要逐步分解问题并构建模型。1.系统描述假设我们有一个液压系统，其电机通过某种方式（例如泵）控制液压缸。目标是设计一个控制器，使得液压缸的位置或速度能够跟踪期望的轨迹。我们将使用滑模控制（SlidingModeContro
在Ubuntu 20.04离线环境中轻松部署RabbitMQ 贡驰赞Powerful
在Ubuntu20.04离线环境中轻松部署RabbitMQ【下载地址】Ubuntu20.04离线安装RabbitMQ指南Ubuntu20.04离线安装RabbitMQ指南欢迎来到Ubuntu20.04系统下离线安装RabbitMQ的教程项目地址:https://gitcode.com/open-source-toolkit/2b1f7在当今快速发展的技术世界里，离线安装开源软件仍然是某些特定场景下
【广告架构day1】爱奇艺广告系统的演进之路：实践中的一些经验软件真理与光业务技术架构后端
本文来自爱奇艺的分享孙立伟。近年来爱奇艺快速发展，优质内容层出不穷，爱奇艺广告也随之发展和壮大，广告在线服务同时服务于品牌、中小、DSP等不同客户，形成了可以满足不同需求类型的较为完善的商业广告变现布局，广告库存涵盖视频、信息流、泡泡社交（爱奇艺的社交平台）和开机屏等多种场景。爱奇艺效果广告是2015年开始全新搭建的一个广告投放平台，随着信息流业务的增长，整个投放平台也经历了一次大的架构调整和多次
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的

BERT模型超酷炫，上手又太难？请查收这份BERT快速入门指南！

你可能感兴趣的:(BERT模型超酷炫，上手又太难？请查收这份BERT快速入门指南！)