BERT蒸馏第6页

基于Transformer模型的音-字转换及代码实现

Transformer是Google的团队在2017年提出的一种NLP经典模型，现在比较火热的Bert、GPT也都是基于Transformer。

bullnfresh·2025-05-08 07:03

大规模语言模型从理论到实践实践思考

从2018年的BERT,到2019年的GPT-2,再到2020年的GPT-3,大规模语言模型在自然语言处理(NLP)领域取得了一系列突破性进展,展现出了强大的语言理解和生成能力。1.2大规模语言

AI天才研究院·2025-05-08 01:25

大模型之大模型压缩（量化、剪枝、蒸馏、低秩分解），推理（vllm）

目录前言一、模型量化（quantization）1.量化概念2.模型量化优点3.什么情况下应该/不应该使用模型量化4.落地挑战5.量化方法5.1量化训练(QuantAwareTraining,QAT)原理[伪量化节点（fakequant）](https://blog.csdn.net/qq_51175703/article/details/138320834?spm=1001.2014.3001.

大模型八哥·2025-05-08 01:22

大模型转行攻略：零基础到精通，必备知识与技能全解析_转行AI大模型

引言随着人工智能和大模型（如GPT-4、BERT等）技术的快速发展，越来越多的专业人士希望转行进入这一领域。大模型开发涉及复杂的技术体系和多样的应用场景，对从业者的知识和能力提出了较高要求。

大模型入门教程·2025-05-07 21:27

入选 CVPR 2025，哈工大团队提出分层蒸馏多示例学习框架 HDMIL，快速处理千兆像素病理全切片图像

病理图像包含了丰富的表型信息，依据病理图像进行病理诊断被广泛视为癌症诊断的「黄金标准」。其中，全视野切片图像(WholeSlideImage,WSI)是一种高分辨率的数字病理图像，利用全切片数字扫描技术将病理组织切片转换为高达10亿像素级别的数字图像，具有高分辨率、全景展示、数据量大等特点，是当前医学诊断、医学研究的主流方法。多示例学习(Multi-InstanceLearning,MIL)是当前

·2025-05-07 20:38

大模型如何理解人类语言？——从Transformer架构到逻辑推理的局限

引言人工智能的浪潮正以前所未有的速度席卷全球，尤其是以GPT、BERT、ERNIE等为代表的大语言模型（LLM），已成为自然语言处理（NLP）领域的核心驱动力。它们不仅在文本生成、问答

天枢InterGTP·2025-05-07 18:44

Jetson × Qwen 实时边缘蒸馏与推理优化实战：轻量部署、动态蒸馏与性能加速全流程解析

Jetson×Qwen实时边缘蒸馏与推理优化实战：轻量部署、动态蒸馏与性能加速全流程解析关键词Jetson、Qwen、大模型蒸馏、边缘推理优化、动态蒸馏、TensorRT、边缘部署、轻量模型压缩、性能加速

观熵·2025-05-07 07:32

HuggingFace常用加载模型方法

模型加载类适用任务描述适用类型AutoModelEmbedding、Transformer架构模型用于加载基础的transformer模型（如BERT、RoBERTa、DistilBERT等），适合提取文本的

一只Rookie炒菜机·2025-05-07 01:01

当前人工智能领域的主流高级技术及其核心方向

代表模型：BERT（NLP理解）、GPT（生成式对话）、ViT（视觉Transformer）。应用场景：机器翻译、文本生成、蛋白质结构预测（AlphaFold）。神经辐射场（NeR

小赖同学啊·2025-05-06 10:26

【人工智能数学基础】——卷积神经网络数学原理：从像素到智慧的视觉之旅

视觉的"显微镜"一、卷积运算：空间特征的数学捕手1.1二维卷积的数学解剖1.2卷积的三大核心特性二、从零实现卷积层：代码透视数学本质2.1纯Python实现二维卷积2.2卷积核的可视化实验三、池化层：信息蒸馏的数学艺术

Sonal_Lynn·2025-05-06 07:02

一文读懂AIGC中的Transformer架构：从BERT到GPT

一文读懂AIGC中的Transformer架构：从BERT到GPT关键词：AIGC、Transformer架构、BERT、GPT、自然语言处理摘要：本文旨在深入解析AIGC领域中至关重要的Transformer

AI原生应用开发·2025-05-06 06:56

基于PyTorch和BERT的电商情感多分类任务

在本文中，我们将使用PyTorch和BERT（BidirectionalEncoderRepresentationsfromTransformers）来实现一个电商情感多分类任务。

bug_code702·2025-05-04 16:19

模型蒸馏：让大模型的智慧“浓缩”给小模型

模型蒸馏是什么简单来说，模型蒸馏就是让大模型将其“技能”通过“填鸭式”或“浓缩”的方式传授给小模型的过程。这样做的目的是在保持一定精度的同时，大幅降低运算成本和硬件成本。

银行金融科技·2025-05-04 03:30

工程师视角下的 AI 知识蒸馏 - 小模型变强的秘密全解析 (AI Knowledge Distillation from an Engineer‘s Perspective)

订阅：https://rengongzhineng.io/点击收看【工程师视角下的AI知识蒸馏-小模型变强的秘密全解析】https://www.b

新加坡内哥谈技术·2025-05-04 00:08

大模型压缩技术详解（2025最新进展）

本文将深入探讨两种主流的模型压缩技术——量化(Quantization)和蒸馏(Distillation)，揭示如何以低成本部署高性能模型。

一切皆有可能！！·2025-05-03 18:28

Transformer：颠覆深度学习的架构革命与技术演进

它不仅解决了传统循环神经网络（RNN）的长期依赖和并行化难题，更催生了BERT、GPT等划时代模型，成为深度学习领域的核心基石。

源滚滚编程·2025-05-03 06:06

基于自然语言处理的情感对话系统设计

方法上，结合了深度学习中的循环神经网络（RNN）及其变体长短期记忆网络（LSTM），对大量的情感文本数据进行训练，构建情感分类模型，同时利用预训练语言模型如BERT

赵谨言·2025-05-03 00:57

智能体-CyberTask Orchestrator设计概要（V4.1超长版）

智能体-CyberTaskOrchestrator设计概要（V4.0超长版）一、深度演进背景与战略定位（核心篇幅拓展至2187字）（本段新增行业趋势与技术必要性论证）1.1全球网络安全威胁态势分析（2023

大霸王龙·2025-05-02 09:49

自然语言处理入门：BERT情感分析实战（附完整代码+原理详解）

自然语言处理入门：BERT情感分析实战（附完整代码+原理详解）摘要：本文为零基础读者系统讲解自然语言处理(NLP)核心原理，基于BERT模型实现电影评论情感分析实战项目。

全息架构师·2025-05-01 21:01

OpenAI Embedding 和密集检索（如 BERT/DPR）进行语义相似度搜索有什么区别和联系

OpenAIEmbedding和密集检索（如BERT/DPR）其实是“同一种思想的不同实现”，它们都属于DenseRetrieval（密集向量检索），只不过使用的模型、部署方式和调用方式不同。

背太阳的牧羊人·2025-05-01 05:12

数据蒸馏技术介绍-与deepSeek、GPT4等主流大模型的关系

数据蒸馏技术介绍1.什么是数据蒸馏？1.1数据蒸馏与"给AI投喂数据"的关系2.数据蒸馏与主流AI大模型的关系2.1数据蒸馏如何赋能大模型？2.2大模型如何助力数据蒸馏？

BXCQ_xuan·2025-05-01 02:26

免费体验100度算力包，极速部署不蒸馏满血版DeepSeek-R1！

1.背景介绍DeepSeek-R1：你的智能新伙伴DeepSeek-R1不仅仅是一个拥有6710亿参数的大模型，它更是一个在数学、编程和复杂推理任务中表现卓越的智能助手。无论是解决复杂的算法难题，还是编写高效的代码，DeepSeek-R1都能助你一臂之力，其性能已经可以与市面上那些顶级的闭源大模型平分秋色。开启分布式推理的新时代为了让每个团队和个人都能享受到DeepSeek-R1带来的无限可能，我

九章云极DataCanvas·2025-04-30 22:30

大模型转型宝典：从零基础到精通，必备知识与技能全面解析，转行大模型必看的一篇文章

引言随着人工智能和大模型（如GPT-4、BERT等）技术的快速发展，越来越多的专业人士希望转行进入这一领域。大模型开发涉及复杂的技术体系和多样的应用场景，对从业者的知识和能力提出了较高要求。

大模型入门学习·2025-04-30 17:54

【记录】Python调用大模型（以Deepseek和Qwen为例）

代码包importrequestsimportjsonfromopenaiimportOpenAI预备（以BERTopic聚合主题为例）prompt="""Ihaveatopicthatisdescribedbythefollowingkeywords

桥苯环萘我老婆·2025-04-30 10:10

波士顿动力创始人购入宇树机器人还称DeepSeek创新仅是开端

在近日举行的达索系统3DEXPERIENCEWorld峰会上，波士顿动力（BostonDynamics）创始人马克·雷伯特（MarcRaibert）在美国休斯顿接受了第一财经记者的专访。

倒骑蜗牛·2025-04-30 09:35

Ubuntu深度学习革命：NVIDIA-Docker终极指南与创新实践

一、GPU容器化：开启算力新纪元在斯坦福大学AI实验室，研究员Sarah通过一行Docker命令同时启动20个BERT模型训练任务，每个容器精确分配0.5个GPU核心——这背后正是NVIDIA-Docker

芯作者·2025-04-29 23:49

【大模型应用开发动手做AI Agent】LangChain和Agent开发

ZenandtheArtofComputerProgramming关键词：LangChain,AIAgent,大模型,编程式AI,自然语言处理1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型（LargeLanguageModels，LLMs）如BERT

AI天才研究院·2025-04-29 21:05

大模型（LLMs）加速篇

算法层面：蒸馏、量化软件层面：计算图优化、模型编译硬件层面：FP8（NVIDIAH系列GPU开始支持FP8，兼有fp16的稳定性和int8的速度）推理加速框架有哪一些？都有什么特点？

AI Echoes·2025-04-29 17:59

【机器学习】使用BART技术自动提取文章内容摘要

-编码器像BERT那样，利用掩膜机制建立双向语言模型，从而可以从两个方向对输入

MUKAMO·2025-04-29 12:51

Input输入数字自动转千分位进行展示（拿来即用的完美组件）

一、前言实际的页面开发中，需要输入金额类型的输入框比较常见，这类输入框根据实际的业务场景都是要进行个性化的组件封装，本文借助自己封装的一个输入框组件NumberToAmount.vue来讲述el-input

【金融科技蚂蚁】·2025-04-29 06:16

智能推荐系统性能优化：模型压缩与加速

AIGC应用创新大全·2025-04-29 05:38

探索大语言模型（LLM）：语言模型从海量文本中无师自通

文章目录引言：当语言模型学会“自己教自己”一、自监督学习：从“无标签”中挖掘“有监督”信号二、语言模型的自监督训练范式：两大经典路径1.掩码语言模型（MaskedLanguageModeling,MLM）——以BERT

艾醒(AiXing-w)·2025-04-29 04:27

跨越边界的 AI 变革：揭秘 Gemini 2.5 Pro 如何颠覆传统智能应用

推理能力、多任务处理4.新增功能与应用：多模态输入处理与跨模态任务4.1图像和文本的联合推理：4.2音频与文本的联合推理：5.评测结果与对比分析：与其他大模型的横向比较6.代码优化与性能提升：6.1模型蒸馏

云边有个稻草人·2025-04-28 19:31

语言的魔法与代码的博弈：自然语言处理如何重构人类文明底层代码

一、语言的炼金术：从象形符号到语义向量在甲骨文的龟甲裂纹与BERT模型的词向量之间，存在着惊

duolapig·2025-04-28 19:31

一键本地推理，DeepSeek-R1 蒸馏模型 + llama.cpp 部署教程！

本文将详细介绍如何使用llama.cpp在本地运行DeepSeek-R1蒸馏模型（1.5B-GGUF），帮助您在消费级硬件上实现高效推理。一、环境准备在开始之前，需要确保开发环境已经准备好。

AI大模型入门·2025-04-28 16:40

1024 Palindromic Number

1024PalindromicNumber分数25全屏浏览切换布局作者CHEN,Yue单位浙江大学AnumberthatwillbethesamewhenitiswrittenforwardsorbackwardsisknownasaPalindromicNumber.Forexample

理智的灰太狼·2025-04-28 15:34

智慧的疆界：从图灵机到人工智能

1948年，诺伯特·维纳（NorbertWiener,1896—1964）和克劳德·香农（ClaudeShannon,1916—2001）

wacpguo·2025-04-28 08:21

Golang 遇见 Kubernetes：云原生开发的完美结合

Go由RobertGriesemer、RobPike和KenThompson设计，于2009年首次发布，此后在各个领域都获得了广泛的关注，尤其是在服务器端应用程序、云计算和微服务领域。

云攀登者-望正茂·2025-04-28 04:27

JAVA也能做大模型蒸馏了？——浅析JBoltAI在大模型的应用

一、首先，什么是知识蒸馏？

细胞派·2025-04-28 01:07

BERT BERT BERT

BERT*****2020年3月11日更新：更小的BERT模型*****这是在《深阅读的学生学得更好：预训练紧凑模型的重要性》（arXiv:1908.08962）中提到的24种较小规模的英文未分词BERT

thesky123456·2025-04-28 01:35

Python Transformers 库介绍

该库具有以下特点和功能：主要特点丰富的预训练模型：Transformers库包含了大量的预训练模型，如BERT、GPT-2、RoBERTa、XLNet等。

qq_27390023·2025-04-27 23:51

DeepSeek量化训练核心技术：从原理到工业级部署的完整实践方案

与知识蒸馏、剪枝等技术

燃灯工作室·2025-04-27 17:45

【大模型应用开发动手做AI Agent】Assistants API的简单示例

1.2大语言模型的崛起2018年,随着GPT、BERT等预训练大模型的

AI天才研究院·2025-04-27 05:56

追风DeepSeek 人工智能巨头竞相打造低成本模型

据英国《金融时报》网站3月2日报道，美国开放人工智能研究中心(OpenAI)、微软公司和元宇宙平台公司(Meta)等领先的人工智能(AI)公司正在全球竞争中转向一种被称为“蒸馏”的过程，以创建较便宜的AI

焦点链创研究所·2025-04-26 23:54

论文笔记--Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

论文笔记--Sentence-BERT:SentenceEmbeddingsusingSiameseBERT-Networks1.文章简介2.文章导读2.1概括2.2文章重点技术2.2.1池化层2.2.2

Isawany·2025-04-26 10:56

【NLP 69、KG-BERT】

目录一、KG-BERT：基于BERT的知识图谱补全模型1.模型结构与设计Ⅰ、核心思想：Ⅱ、输入设计：①三元组序列化：②实体表示灵活性：Ⅲ、任务模块：①三元组分类：②关系预测：③链接预测：2.计算方式与训练策略

L_cl·2025-04-26 10:55

BERT BERT