BERT蒸馏第3页

【深度学习pytorch-88】BERT

BERT（BidirectionalEncoderRepresentationsfromTransformers）简介BERT是一种基于Transformer架构的预训练语言表示模型，旨在通过大规模无监督学习来提升下游自然语言处理

超华东算法王·2025-06-20 15:46

ROCm上来自Transformers的双向编码器表示（BERT）

14.8.来自Transformers的双向编码器表示（BERT）—动手学深度学习2.0.0documentation(d2l.ai)代码importtorchfromtorchimportnnfromd2limporttorchasd2l

109702008·2025-06-20 15:46

69 BERT预训练_BERT代码_by《李沐：动手学深度学习v2》pytorch版

系列文章目录文章目录系列文章目录BidirectionalEncoderRepresentationsfromTransformers(BERT)输入表示预训练任务掩蔽语言模型（MaskedLanguageModeling

醒了就刷牙·2025-06-20 15:45

[AI]怎么计算中文被bert模型切分的tokens数量

目录1.中文BERT的Tokenization原理2.使用HuggingFace库计算Token数3.特殊情况处理4.注意事项在BERT模型中，计算中文文本的Token数需要根据具体的中文BERT分词器

just-do-it-zzj·2025-06-20 14:10

TensorFlow深度学习实战——Transformer变体模型

TensorFlow深度学习实战——Transformer变体模型0.前言1.BERT2.GPT-23.GPT-34.Reformer5.BigBird6.Transformer-XL7.XLNet8.

盼小辉丶·2025-06-20 06:36

词编码模型有哪些

词编码模型有哪些词编码模型在高维向量空间的关系解析与实例说明如Word2Vec、BERT、Qwen等一、高维向量空间的基础概念词编码模型（如Word2Vec、BERT、Qwen等）的核心是将自然语言符号映射为稠密的高维向量

ZhangJiQun&MXP·2025-06-20 05:04

资深Java工程师的面试题目（八）AI大模型

解析：Encoder-Only（如BERT）：用于理解型任务（如文本分类、问答系统）。原理：通过

刘一说·2025-06-18 18:31

Mozilla 开源 llamafile:大语言模型分发与部署新范式

引言随着ChatGPT、BERT等大型语言模型(LargeLanguageModel,LLM)在自然语言处理领域掀起巨大波澜,AI技术正以前所未有的速度走近大众生活。

codebat_raymond·2025-06-16 05:33

2025年大模型学习路线图：史上最全、最新的大模型学习指南！非常详细收藏这一篇就够了！

如果要深入学习，建议再按以下步骤，从更基础的GPT和BERT学起，因为底层是相通的，而且实际落地到一个系统中，应该也是大模型结合小模型（大模型在做判别性的任务上，比BERT优势不是特别大

大模型教程·2025-06-15 16:42

大模型解密之---模型蒸馏

模型蒸馏：知识的传承艺术想象一下，你有一位学识渊博、经验丰富但年事已高、行动缓慢的“老教授”，也有一位年轻、敏捷、学习能力强的“研究生”。

forever0827·2025-06-15 10:00

红黑树（RBT）

后来，在1978年被LeoJ.Guibas和RobertSedgewick修改为如今的“红黑树”。红黑树是一种特化的AVL树（平衡二叉树），都

天使Di María·2025-06-13 09:56

大模型笔记_模型微调

1.大模型微调的概念大模型微调（Fine-tuning）是指在预训练大语言模型（如GPT、BERT、LLaMA等）的基础上，针对特定任务或领域，使用小量的目标领域数据对模型进行进一步训练，使其更好地适配具体应用场景的过程

饕餮争锋·2025-06-13 02:12

向量数据库简介

在机器学习中，我们通常使用向量数据库来存储来自BERT或OpenAI等模型的嵌入文本数据；图像数据（来自CNN或CLIP的嵌入）以及音频/视频/基因组数据。

Morpheon·2025-06-12 23:16

RoBERTa相比BERT的改进

继BERT、XLNet之后，Facebook提出的RoBERTa（aRobustlyOptimizedBERTPretrainingApproach）。

火云明月·2025-06-12 22:07

BERT情感分类

参考B站BigC_666：微调BERT模型做情感分类实战，代码逐行讲解，100%可以跑通!!!

alasnot·2025-06-12 18:42

基于bert预训练模型transformer架构的中文文本多标签分类的双向语义理解。

基于bert预训练模型transformer架构的中文文本多标签分类的双向语义理解。

·2025-06-12 14:14

大模型全景解析：从技术突破到行业变革

大模型发展历史与技术演进1.早期探索期（2015-2017）：从"人工智障"到初具规模RNN/LSTM架构时代（2013-2017）Transformer革命（2017）2.预训练模型崛起（2018-2020）：范式转变BERT

敲键盘的小夜猫·2025-06-12 07:45

【C++ 真题】P1216 [IOI 1994] 数字三角形 Number Triangles

P1216[IOI1994]数字三角形NumberTriangles题目描述观察下面的数字金字塔。写一个程序来查找从最高点到底部任意处结束的路径，使路径经过数字的和最大。

QuantumStack·2025-06-12 06:13

[USACO1.5][IOI1994]数字三角形 Number Triangles

[USACO1.5][IOI1994]数字三角形NumberTriangles题目描述观察下面的数字金字塔。写一个程序来查找从最高点到底部任意处结束的路径，使路径经过数字的和最大。

Dou_Huanmin·2025-06-12 06:12

BERT

BERT简介BERT，全称是“双向编码器表示来自变换器”（BidirectionalEncoderRepresentationsfromTransformers），听起来可能有点复杂，但其实它就像一个超级聪明的

D11PMINDER·2025-06-11 22:54

ibert loopback回环

ibertloopback回环1.nearpcs2.nearpma3.farpcs4.farpma5.none其中nearpcs和nearpma是对光模块自己进行内部回环，没有出光模块farpcs和farpma

hahaha6016·2025-06-11 19:32

【深度学习解惑】结合神经网络结构剪枝或知识蒸馏，能否把 Inception 精剪到 mobile‑friendly 仍保持精度？

Inception系列模型移动端压缩研究报告摘要Inception系列卷积神经网络（如GoogLeNet/Inceptionv1、v3等）通过模型剪枝和知识蒸馏等压缩技术可以显著减小模型规模，使其更适合移动端部署

云博士的AI课堂·2025-06-11 16:12

处理长文本输入的 Transformer 模型优化策略在 Android 端的应用：性能瓶颈剖析与滑窗分段推理实战指南

模型优化策略在Android端的应用：性能瓶颈剖析与滑窗分段推理实战指南关键词Android推理优化、Transformer长文本、滑动窗口、分段处理、轻量模型部署、边缘设备内存管理、移动端NLP推理、TinyBERT

观熵·2025-06-11 15:01

多模态核心实现技术

1.单模态编码技术文本表示：采用词嵌入模型（如Word2Vec、GloVe）或预训练语言模型（如BERT、RoBERTa），通过Transformer层提取上下文特征，生成动态词向量。

charles666666·2025-06-11 14:59

BERT 模型微调与传统机器学习的对比

BERT微调与传统机器学习的区别和联系：传统机器学习流程传统机器学习处理文本分类通常包含以下步骤：特征工程：手动设计特征（如TF-IDF、词袋模型）模型训练：使用分类器（如SVM、随机森林、逻辑回归）特征和模型调优

MYH516·2025-06-11 11:05

传统机器学习与大模型 + Prompt 的对比示例

传统机器学习方法（使用BERT微调）traditional-ml-text-classification传统机器学习文本分类实现importtorchfromtorch.utils.dataimportDataset

MYH516·2025-06-11 11:05

大模型系列——大模型核心技术解析：参数量、量化、Zero版本与模型蒸馏

文章目录大模型系列——大模型核心技术解析：参数量、量化、Zero版本与模型蒸馏一、大模型的参数量：智能的"神经元"基础1.1参数量的定义与表示1.2参数量与模型性能的关系1.3参数量爆炸带来的挑战二、大模型量化技术

猫猫姐·2025-06-11 08:42

DeepSeek全域智能革命：从量子纠缠到星际文明的认知跃迁引言：认知边界的坍缩与重构

一、认知架构的技术基石1.1混合专家系统的流形蒸馏DeepSeek-R2的MoE架构采用微分流形蒸馏技术，将6710亿参数的教师模型（如DeepSeek-Prover-V2）的知识嵌入到动态路由网络中。

feng99520·2025-06-11 07:05

从零实现基于BERT的中文文本情感分析的任务

✨不使用BERT预训练模型，从零开始训练！

AlexandrMisko·2025-06-10 22:28

【大模型入门】2025年大模型学习路线图：史上最全、最新的学习指南，助你成为AI领域的佼佼者！

如果要深入学习，建议再按以下步骤，从更基础的GPT和BERT学起，因为底层是相通的，而且实际落地到一个系统中，应该也是大模型结合小模型（大模型在做判别性的任务上，比BERT优势不是特别大

·2025-06-10 12:15

DeepSeek-R1-0528实测：小版本更新带来大进步，前端能力惊艳、幻觉降低，能力更强！

（一个喜欢古诗词和编程的Coder）目录一、技术架构革新：从Base到Beast的华丽转身1.核心架构升级2.思维深度的量化突破二、性能表现深度解析：全方位能力跃升1.数学推理能力的巅峰表现2.小模型蒸馏的技术突破

Code_流苏·2025-06-10 10:36

自然语言处理之语言模型：BERT：BERT模型的数学基础

自然语言处理之语言模型：BERT：BERT模型的数学基础绪论自然语言处理的挑战自然语言处理（NLPÿ

zhubeibei168·2025-06-10 04:21

自然语言处理之语言模型：BERT：BERT模型架构详解

自然语言处理之语言模型：BERT：BERT模型架构详解自然语言处理之语言模型：BERT模型架构详解1.引言

zhubeibei168·2025-06-10 04:21

自然语言处理之语言模型：BERT：BERT模型架构详解

自然语言处理之语言模型：BERT：BERT模型架构详解自然语言处理之语言模型：BERT模型架构详解1.引言

zhubeibei168·2025-06-10 03:17

什么是知识蒸馏？如何做模型蒸馏？结合案例说明

一、什么是蒸馏？核心概念：在机器学习中，“蒸馏”指的是知识蒸馏。

·2025-06-09 22:39

BERT：让AI真正“读懂”语言的革命

BERT：让AI真正“读懂”语言的革命——图解谷歌神作《BERT:Pre-trainingofDeepBidirectionalTransformers》2018年，谷歌AI团队扔出一篇核弹级论文，引爆了整个

摘取一颗天上星️·2025-06-09 12:02

深度｜Google首席科学家Jeff Dean最新分享：AI核心壁垒不是参数量，而是系统、算法与部署全链能力，关键在于能否嵌入真实任务流与硬件终端

强化学习曾小健·2025-06-09 08:07

神经网络-Day46

的训练2.2特征图可视化三、通道注意力3.1通道注意力的定义3.2模型的重新定义（通道注意力的插入）一、什么是注意力注意力机制，本质从onehot-elmo-selfattention-encoder-bert

红衣小蛇妖·2025-06-09 04:02

linux系统fuser命令,Linux系统使用Fuser命令的方法

安装如果你的精简版运行fuser提示如下信息：-bash:fuser:commandnotfound请执行如下命令安装：[winbert@winbert-server~]$sud

山岚出岫·2025-06-09 01:46

HARDTESTS: Synthesizing High-Quality Test Cases for LLM Coding

实验表明，高质量测试用例对强化学习和自蒸馏等LLM后期训练过程

UnknownBody·2025-06-08 13:20

【医疗影像】THE BEER-LAMBERT LAW

吸光度A=log10(I0I)A=log_{10}(\frac{I_0}I)A=log10(II0)如果您了解光谱仪如何工作，您就会知道它使一系列波长的光穿过物质溶液（样品cell），同样地，也会穿过溶剂（参考cell）对于穿过光谱仪的每个波长的光，测量穿过参考cell的光的强度。这通常被称为I0I_0I0还可以测量该波长穿过样品池的光强度-给出符号III。如果I小于Io，则显然样品吸收了一些光。

qq_42725437·2025-06-08 10:54

基于 Transformer 的模型（BERT、GPT）深度解析

目录基于Transformer的模型（BERT、GPT）深度解析1.Transformer架构简介1.1Transformer的起源1.2Transformer架构的结构图1.3TensorFlow中的

一碗黄焖鸡三碗米饭·2025-06-08 06:57

【人工智能】Transformer、BERT、GPT：区别与联系

Transformer、BERT、GPT：区别与联系近年来，Transformer、BERT、GPT等模型在自然语言处理领域取得了巨大成功，深刻改变了我们对语言理解和生成的认识。

若北辰·2025-06-08 06:24

BERT, GPT, Transformer之间的关系

1.Transformer是什么？简单介绍1.1通俗理解想象你是一个翻译员，要把一句话从中文翻译成英文。你需要同时看句子里的每个词，理解它们之间的关系。Transformer就像一个超级翻译助手，它用“自注意力机制”（Attention）一次处理所有词，快速找出重要联系，比老式的翻译机（RNN）更快更聪明。1.2技术定义Transformer是2017年由Vaswani等人提出的神经网络架构（论文

D11PMINDER·2025-06-08 05:24

MIT线性代数笔记03-矩阵乘法和逆矩阵

LinearAlgebra-Lecture03矩阵乘法和逆矩阵GilbertStrang矩阵乘法对于矩阵乘法AB=C\bold{AB=C}AB=C主要有5种方法可用于计算：【前提条件】：A,B\bold

loneux·2025-06-07 21:58

【AI】大语言模型引擎全解析：Transformers、vLLM、Llama.cpp、SGLang、MLX 和 Ollama，最佳选择？

近年来，大语言模型（LLMs）如GPT、LLaMA、BERT等已经成为人工智能领域的核心驱动力。然而，如何高效地运行和优化这些模型，成为了开发者和研究者面临的重要挑战。

厦门德仔·2025-06-07 12:02

ubuntu20.04使用docker部署ubuntu16.04环境

docker创建ubuntu16.04环境3.查看镜像4.启动镜像的一个容器5.进入容器并查看环境使用docker起因刚开始学习机器学习、深度学习都是使用的笔记本(只有集显)；后来做NLP项目需要训练bert

NUAA1703·2025-06-06 23:32

昇思25天学习打卡营第十五天|基于 MindSpore 实现 BERT 对话情绪识别

明志刘明·2025-06-06 16:10

HRI-2025 | 大模型驱动的个性化可解释机器人人机交互研究

作者：FerranGebelli1^{1}1,LaviniaHriscu2^{2}2,RaquelRos1^{1}1,SéverinLemaignan1^{1}1,AlbertoSanfeliu2^{2

·2025-06-06 15:35

matlab实现求解兰伯特问题

求解兰伯特问题的matlab代码，非常好用solve_lambertLYP.m,1899StumpffC.m,136StumpffdF.m,294StumpffF.m,151StumpffS.m,167Stumpffy.m

t19875128·2025-06-04 18:45

推荐频道

BERT蒸馏

【深度学习pytorch-88】BERT

ROCm上来自Transformers的双向编码器表示（BERT）

69 BERT预训练_BERT代码_by《李沐：动手学深度学习v2》pytorch版

[AI]怎么计算中文被bert模型切分的tokens数量

TensorFlow深度学习实战——Transformer变体模型

词编码模型有哪些

资深Java工程师的面试题目（八）AI大模型

Mozilla 开源 llamafile:大语言模型分发与部署新范式

2025年大模型学习路线图：史上最全、最新的大模型学习指南！非常详细收藏这一篇就够了！

大模型解密之---模型蒸馏

红黑树（RBT）

大模型笔记_模型微调

向量数据库简介

RoBERTa相比BERT的改进

BERT情感分类

基于bert预训练模型transformer架构的中文文本多标签分类的双向语义理解。

大模型全景解析：从技术突破到行业变革

【C++ 真题】P1216 [IOI 1994] 数字三角形 Number Triangles

[USACO1.5][IOI1994]数字三角形 Number Triangles

BERT

ibert loopback回环

【深度学习解惑】结合神经网络结构剪枝或知识蒸馏，能否把 Inception 精剪到 mobile‑friendly 仍保持精度？

处理长文本输入的 Transformer 模型优化策略在 Android 端的应用：性能瓶颈剖析与滑窗分段推理实战指南

多模态核心实现技术

BERT 模型微调与传统机器学习的对比

传统机器学习与大模型 + Prompt 的对比示例

大模型系列——大模型核心技术解析：参数量、量化、Zero版本与模型蒸馏

DeepSeek全域智能革命：从量子纠缠到星际文明的认知跃迁引言：认知边界的坍缩与重构

从零实现基于BERT的中文文本情感分析的任务

【大模型入门】2025年大模型学习路线图：史上最全、最新的学习指南，助你成为AI领域的佼佼者！

DeepSeek-R1-0528实测：小版本更新带来大进步，前端能力惊艳、幻觉降低，能力更强！

自然语言处理之语言模型：BERT：BERT模型的数学基础

自然语言处理之语言模型：BERT：BERT模型架构详解

自然语言处理之语言模型：BERT：BERT模型架构详解

什么是知识蒸馏？如何做模型蒸馏？结合案例说明

BERT：让AI真正“读懂”语言的革命

深度｜Google首席科学家Jeff Dean最新分享：AI核心壁垒不是参数量，而是系统、算法与部署全链能力，关键在于能否嵌入真实任务流与硬件终端

神经网络-Day46

linux系统fuser命令,Linux系统使用Fuser命令的方法

HARDTESTS: Synthesizing High-Quality Test Cases for LLM Coding

【医疗影像】THE BEER-LAMBERT LAW

基于 Transformer 的模型（BERT、GPT）深度解析

【人工智能】Transformer、BERT、GPT：区别与联系

BERT, GPT, Transformer之间的关系

MIT线性代数笔记03-矩阵乘法和逆矩阵

【AI】大语言模型引擎全解析：Transformers、vLLM、Llama.cpp、SGLang、MLX 和 Ollama，最佳选择？

ubuntu20.04使用docker部署ubuntu16.04环境

昇思25天学习打卡营第十五天|基于 MindSpore 实现 BERT 对话情绪识别

HRI-2025 | 大模型驱动的个性化可解释机器人人机交互研究

matlab实现求解兰伯特问题