知识蒸馏论文阅读第2页

模型轻量化

影响神经网络推理速度主要有4个因素：FLOPs、MAC、计算并行度、硬件平台架构与特性（算力、GPU内存带宽）模型压缩工业界主流的模型压缩方法有：知识蒸馏（KnowledgeDistillation，KD

莱茶荼菜·2025-02-11 22:10

【论文阅读笔记|EMNLP2023】DemoSG: Demonstration-enhanced Schema-guided Generation for Low-resource Event Ext

论文题目：DemoSG:Demonstration-enhancedSchema-guidedGenerationforLow-resourceEventExtraction论文来源：EMNLP2023论文链接：2023.findings-emnlp.121.pdf(aclanthology.org)代码链接：https://github.com/GangZhao98/DemoSG0摘要当前大多数

Rose sait·2025-02-10 03:57

如何蒸馏 Deepseek-R1：全面指南

目录引言知识蒸馏基础知识蒸馏的起源与发展知识蒸馏的核心原理深入剖析常见的知识蒸馏方法分类详解Deepseek-R1模型概述

zhangjiaofa·2025-02-09 11:30

蒸馏：让DeepSeek用“移魂大法”增强你的小模型

蒸馏：让DeepSeek用“移魂大法”增强你的小模型原创格知致能寒武纪人工智能2025年02月06日00:48北京前言在大型语言模型（LLMs）时代，知识蒸馏成为一种重要方法，用于将能力强大的、参数规模庞大的

AI生成曾小健·2025-02-09 11:58

深度学习论文阅读路线图

https://www.toutiao.com/a6703859415763649031/作者：floodsun编译：ronghuaiyang这是作者一年前整理的东西，有些最新的论文没有包含进去，但是对于新手来说，入门足够了！如果你是深度学习领域的新人，你的第一个问题可能是“我该从哪些论文开始读起呢？”这就是深度学习论文的阅读路线图！这个路线图是根据下面几个规则构建的：从概要到细节从老的到最新的业

喜欢打酱油的老鸟·2025-02-09 09:49

Deepseek成功启示：从 TRPO 到 GRPO训练LLM

本文将深入探讨LLMs的训练过程，特别是强化学习（ReinforcementLearning，RL）（深度解析DeepSeekR1：强化学习与知识蒸馏的协同力量）在这一领域的应用，从TRP

大模型之路·2025-02-08 20:03

DeepSeek蒸馏模型：轻量化AI的演进与突破

目录引言一、知识蒸馏的技术逻辑与DeepSeek的实践1.1知识蒸馏的核心思想1.2DeepSeek的蒸馏架构设计二、DeepSeek蒸馏模型的性能优势2.1效率与成本的革命性提升2.2性能保留的突破2.3

张3蜂·2025-02-08 14:56

【DeepSeek】DeepSeek小模型蒸馏与本地部署深度解析DeepSeek小模型蒸馏与本地部署深度解析

为了克服这些挑战，DeepSeek引入了知识蒸馏技术，通过将大型模型的知识转移到小型模型中，实现了模型的轻量化。本文将深入探讨DeepSeek小模型蒸馏的原理，并提供详细的本地部署步

后端研发Marion·2025-02-08 14:24

神经网络压缩实验-Deep-compression

首发于个人博客，结合论文阅读笔记更佳实验准备基础网络搭建为了实现神经网络的deepcompression，首先要训练一个深度神经网络，为了方便实现，这里实现一个两层卷积+两层MLP的神经网络classnet

无用技术研究所·2025-02-08 11:06

【论文阅读】DeepSeek-R1：通过强化学习激励LLMs的推理能力 | DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL

DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearningDeepSeek-R1：通过强化学习激励LLMs的推理能力[email protected]目录DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcem

AI天才研究院·2025-02-07 22:05

LLM知识蒸馏代码讲解及训练实验

LLM知识蒸馏代码讲解及训练实验知识蒸馏简单讲即使用大规模参数的模型对小规模参数模型进行蒸馏，且不是简单的只使用答案，是需要两个模型的logprob进行交互的，故两个模型的vocabsize必须是一样的

淡水，·2025-02-06 18:33

大语言模型轻量化：知识蒸馏的范式迁移与工程实践

大语言模型轻量化：知识蒸馏的范式迁移与工程实践嗨，我是LucianaiB！总有人间一两风，填我十万八千梦。路漫漫其修远兮，吾将上下而求索。

LucianaiB·2025-02-06 02:04

DeepSeek R1技术报告关键解析(5/10)：知识蒸馏：如何让小模型也能具备强推理能力？

1.什么是知识蒸馏？知识蒸馏（KnowledgeDistillation）是一种让小模型从大模型学习的技术，类似于一位资深老师将自己的知识浓缩后，传授给学生。

董董灿是个攻城狮·2025-02-05 19:43

知识蒸馏教程 Knowledge Distillation Tutorial

来自于：KnowledgeDistillationTutorial将大模型蒸馏为小模型，可以节省计算资源，加快推理过程，更高效的运行。使用CIFAR-10数据集importtorchimporttorch.nnasnnimporttorch.optimasoptimimporttorchvision.transformsastransformsimporttorchvision.datasetsa

Qiming_v·2025-02-05 17:03

【声音场景分类--论文阅读】

1.基于小波时频图特征在声音场景分类基于小波时频图特征在声音场景分类任务中的表现2.增强增强高效音频分类网络https://arxiv.org/pdf/2204.11479v5https://github.com/Alibaba-MIIL/AudioClassfication音频分类网络如图4所示。在此阶段，主要重点是建立一个神经网络具有较大的感受野，同时保持较低的复杂性。可以将网络分解为两个主块

繁华落尽，寻一世真情·2025-02-04 12:21

浅谈知识蒸馏技术

最近爆火的DeepSeek技术，将知识蒸馏技术运用推到我们面前。今天就简单介绍一下知识蒸馏技术并附上python示例代码。

eso1983·2025-02-04 02:07

大型语言模型（LLM）压缩技术：如何让庞然大物更轻巧？

让我们从几个关键技术开始讲解：剪枝（Pruning）、知识蒸馏（KnowledgeDistillation）

空间机器人·2025-02-03 12:09

课程内容摘要生成：基于知识蒸馏与事实增强的深度学习模型实践

文章目录引言一、核心技术：知识蒸馏与事实三元组融合二、模型架构设计与优化三、Python实现与关键代码解析四、业务价值与效果分析五、挑战与优化方向引言在教育内容数字化进程中，课程内容摘要生成技术能够从海量教学资源中提炼核心知识点

二进制独立开发·2025-02-03 04:04

什么是“知识蒸馏”

为了解决这一问题，知识蒸馏技术应运而生，成为模型压缩和性能优化的重要手段。本节将详细介绍知识蒸馏的基本概念、工作原理和知识迁移机制。

清风AI·2025-02-02 19:55

聊聊AI中的“蒸馏”技术

一、什么是“蒸馏”技术“蒸馏”技术实际上是指知识蒸馏（KnowledgeDistillation），这是一种用于压缩和优化大模型的机器学习方法。

自由鬼·2025-02-01 09:15

什么是知识蒸馏技术？

知识蒸馏（KnowledgeDistillation）是一种模型压缩和加速技术，旨在将大型模型（通常称为教师模型）所学到的知识迁移到小型模型（通常称为学生模型）中，从而让小型模型在减少计算资源消耗和推理时间的同时

deepdata_cn·2025-02-01 09:41

利用去雾算法实现低光增强

[论文阅读](11)ACE算法和暗通道先验图像去雾算法（Rizzi|何恺明老师）_暗通道去雾算法-CSDN博客//https://zhuanlan.zhihu.com/p/500023711?

mytzs123·2025-01-31 14:32

我把DeepSeek-R1推理能力知识蒸馏到Qwen2，效果真的炸裂！！！

我把DeepSeek-R1推理能力知识蒸馏到Qwen2，效果真的炸裂！！！

AI生成曾小健·2025-01-31 03:00

论文阅读【CVPR-2022】3D Shape Variational Autoencoder Latent Disentanglement via Mini-Batch Feature Swappi

3DShapeVariationalAutoencoderLatentDisentanglementviaMini-BatchFeatureSwappingforBodiesandFaces通过小批量特征互换实现身体和脸部的三维形状变异自动编码器潜移默化studyai.com搜索论文:3DShapeVariationalAutoencoderLatentDisentanglementviaMini

智尊宝人工智能社区·2025-01-27 06:19

论文阅读笔记（9）——《A Practical Survey on Faster and Lighter Transformers》

1Abstract2Introductionrecurrentneuralnetworks(RNNs)longshort-termmemory(LSTM)networksequencetosequenceframeworkinter-attentionrelativeeffectivecontextlength(RECL)Transformer3TransformerA.EncoderB.Deco

StriveQueen·2025-01-26 08:32

【OTFS与信号处理：论文阅读1】：考虑分数多普勒的OTFS系统有效信道估计（24.01.16更新）

【OTFS与信号处理：论文阅读1】EfficientChannelEstimationforOTFSSystemsinthePresenceofFractionalDoppler前言一、摘要及背景摘要分数多普勒的引入估计分数多普勒的意义研究现状二

Cuby!·2025-01-25 20:59

论文阅读：DeepFake-Adapter: Dual-Level Adapter for DeepFake Detection（Deepfake模型快速调参）

一、论文信息论文名称：DeepFake-Adapter:Dual-LevelAdapterforDeepFakeDetection作者团队：项目主页：https://github.com/rshaojimmy/DeepFake-Adapter（代码暂未开源）二、动机与创新动机：目前的deepfake检测模型泛化能力差，将其归因于过拟合于低级的伪造模式，现有的deepfake检测方法仅关注低级别的伪

海拉鲁的小厨娘·2025-01-25 16:52

大模型GUI系列论文阅读 DAY4：《PREDICT: Multi-Agent-based Debate Simulation for Generalized Hate Speech Detecti》

摘要虽然已经提出了一些公共基准用于训练仇恨言论检测模型，但这些基准之间的标注标准差异为模型的泛化学习带来了挑战，限制了其适用性。先前的研究提出了通过数据整合或扩充来泛化模型的方法，但在克服数据集之间的标注标准差异方面仍然存在局限性。为了解决这些挑战，我们提出了PREDICT，一种基于多代理（multi-agent）概念的仇恨言论检测新框架。PREDICT包括两个阶段：（1）PRE（基于视角的推理）

feifeikon·2025-01-25 15:50

图神经网络系列论文阅读DAY1：《Predicting Tweet Engagement with Graph Neural Networks》

摘要翻译：社交网络是全球范围内分享内容的重要在线渠道之一。在这种背景下，预测一篇帖子在互动方面是否会产生影响，对于推动这些媒体的盈利利用至关重要。在现有研究中，许多方法通过利用帖子的直接特征来解决这一问题，这些特征通常与文本内容以及发布该帖子的用户相关。在本文中，我们认为互动的增加还与另一个关键因素相关，即社交媒体用户发布的帖子之间的语义关联。因此，我们提出了一种基于图神经网络（GraphNeur

feifeikon·2025-01-25 15:18

大模型GUI系列论文阅读 DAY2续2：《使用指令微调基础模型的多模态网页导航》

摘要自主网页导航的进展一直受到以下因素的阻碍：依赖于数十亿次的探索性交互（通常采用在线强化学习），依赖于特定领域的模型设计，难以利用丰富的跨领域数据进行泛化。在本研究中，我们探讨了基于视觉-语言基础模型的数据驱动离线训练方法，以改进网页代理的性能。我们提出了一种名为WebGUM的指令跟随多模态代理，该代理能够同时观察网页截图和HTML页面，并输出网页导航操作，例如点击和输入文本等。WebGUM通过

feifeikon·2025-01-24 02:33

大模型GUI系列论文阅读 DAY3：《GPT-4V(ision) is a Generalist Web Agent, if Grounded》

摘要近年来，大型多模态模型（LMMs）的发展，特别是GPT-4V(ision)和Gemini，迅速扩展了多模态模型的能力边界，不再局限于传统任务如图像描述和视觉问答。在本研究中，我们探讨了LMMs（如GPT-4V）作为通用网页代理的潜力，这类代理能够根据自然语言指令完成任意网站上的任务。我们提出了SEEACT，这是一种通用网页代理，利用LMMs的视觉理解能力，实现网页上的操作。我们在最新的MIND

feifeikon·2025-01-24 01:58

大型语言模型高效预训练策略的比较研究

2.2扩展LLM的挑战3.高效预训练策略3.1增量训练3.1.1理论基础3.1.2实际实现3.1.3实验结果3.2混合优化3.2.1理论基础3.2.2实际实现3.2.3实验结果3.3其他新兴技术3.3.1知识蒸馏

二进制独立开发·2025-01-22 21:27

《论文阅读》用于产生移情反应的迭代联想记忆模型 ACL2024

《论文阅读》用于产生移情反应的迭代联想记忆模型ACL2024前言简介任务定义模型架构EncodingDialogueInformationCapturingAssociatedInformationPredictingEmotionandGeneratingResponse

365JHWZGo·2025-01-22 17:28

论文阅读--Qwen2&2.5技术报告

Qwen21引言所有模型都是在超过7trilliontoken（7万亿）的高质量、大规模数据集上预训练的2Tokenizer&Model2.1Tokenizer沿用Qwen（Bai等人，2023a）的做法，我们采用了基于字节级字节对编码的相同Tokenizer所有大小的模型都采用一个共有词汇表，包含151,643个常规词元和3个控制词元2.2模型架构基于Transformer架构的大型语言模型，具

__如果·2025-01-22 17:55

大模型GUI系列论文阅读 DAY3续4：《TREE SEARCH FOR LANGUAGE MODEL AGENTS》

摘要自主代理由语言模型（LMs）驱动，已在执行诸如网页自动化等决策任务方面展示出良好前景。然而，语言模型的一个主要局限在于：它们主要针对自然语言理解和生成进行了优化，在解决现实世界的计算机任务时，难以应对多步推理、规划以及环境反馈的利用。为了解决这一问题，我们提出了一种推理时搜索算法，使语言模型代理能够在交互式网页环境中执行显式的探索和多步规划。我们的方法是一种基于最佳优先（best-first）

feifeikon·2025-01-22 17:23

DETRs with Collaborative Hybrid Assignments Training论文阅读与代码

关键词：协作混合分配训练【目标检测】Co-DETR：ATSS+FasterRCNN+DETR协作的先进检测器（ICCV2023）-CSDN博客摘要：在这篇论文中，作者观察到在DETR中将过少的Query分配为正样本，采用一对一的集合匹配，会导致对编码器输出的监督稀疏，严重损害编码器的区分特征学习，反之亦然，也会影响解码器中的注意力学习。为了缓解这个问题，作者提出了一种新颖的协同混合分配训练方案，名

分享总结快乐·2025-01-22 04:38

大模型GUI系列论文阅读 DAY2续：《一个具备规划、长上下文理解和程序合成能力的真实世界Web代理》

摘要预训练的大语言模型（LLMs）近年来在自主网页自动化方面实现了更好的泛化能力和样本效率。然而，在真实世界的网站上，其性能仍然受到以下问题的影响：(1)开放领域的复杂性，(2)有限的上下文长度，(3)在HTML结构上的归纳偏差不足。我们提出WebAgent，一个由LLM驱动的智能代理，能够通过自我学习的方式，在真实网站上按照自然语言指令完成任务。WebAgent通过将指令提前规划，将其分解为子指

feifeikon·2025-01-21 15:19

论文阅读笔记：AI+RPA

文章目录论文题目下载地址论文摘要论文题目Challengesandopportunities:ImplementingRPAandAIinfrauddetectioninthebankingsector下载地址点击这里下载论文摘要在银行业中，将机器人流程自动化（RPA）和人工智能（AI）集成用于欺诈检测是一项重大变革，既带来了挑战，也带来了机遇。随着金融机构面临日益复杂的欺诈企图，RPA和AI成为

几道之旅·2025-01-21 07:06

YOLOv10改进，YOLOv10改进主干网络为GhostNetV3(2024年华为的轻量化架构，全网首发)，助力涨点

我们发现，适当的重参数化和知识蒸馏设计对

挂科边缘·2025-01-20 23:19

论文阅读：Deep Bilateral Learning for Real-Time Image Enhancement-google-hdrnet-slicing

项目地址:https://gitcode.com/google/hdrnethdrnet作为超分领域的经典文章，由google提出主要用来用轻量化的方法来实现高分辨率的图像生成，hdrnet结合cnn可以让更高分辨率的图像部署在板端。如图所示，原始图像比如4k图像，首先分为两个主要模块：grid和guide。grid就是对应图上面的那一条特征提取网络，具体来说，原始图像经过下采样之后，默认256分

SetMaker·2025-01-20 22:47

知识蒸馏和剪枝

知识蒸馏（KnowledgeDistillation）和模型剪枝（ModelPruning）是两种常用的模型压缩和加速技术，它们被广泛用于提高模型的推理效率，尤其是在边缘设备和资源受限的环境中。

我叫罗泽南·2025-01-20 12:02

PenGymy论文阅读

这里发现idea被人家先发了，没办法，资料收集的不够全面，现在来学习一下这个项目这篇论文的贡献如下：总的来说，他的主要工作是构建逼真的仿真环境，然后根据这个仿真环境生成真实的靶场，使得这个智能体能够在这个真实的环境去互动。下面来逐渐解析他的工作，我尽量详细一点1、背景和动机这种项目是在网络攻防中，攻防双方攻击者处于暗面，防御者处于明面，这时候受到攻击后应急处理多少会造成损失，那么要是可以提前预测攻

亚里士多没有德775·2025-01-18 05:50

《互联网时代教师自主成长的模式研究》论文阅读与思考2

2.第二部分教师自主成长的模式建构，实质上是对新网师底层逻辑的描述。你认为，新网师的培训模式与传统常见的培训模式有哪些区别？这些区别有什么意义或价值？读完第二部分后，你对新网师有哪些新的认识或理解？你认为新网师目前哪些方面做得好，哪些方面做得还不够？答：我认为新网师的培训模式与传统常见的培训模式有以下区别：（1）培训对象的参与动机不同。新网师学员的参与是自觉自愿、积极主动，而传统培训更多是被迫参与

宁超群·2024-09-14 03:01

【定位系列论文阅读】-Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition（一）

这里写目录标题概述研究内容Abstract第一段（介绍本文算法大致结构与优点）1.Introduction介绍第一段（介绍视觉位置识别的重要性）第二段（VPR的两种常见方法，本文方法结合了两种方法）第三段（本文贡献）第四段（为证明本文方法优越性，进行的测试以及比较）2.RelatedWork相关工作第一段（介绍早期与深度学习的全局图像描述符）第二段（介绍局部关键点描述符）第三段（局部描述符可以进一

醉酒柴柴·2024-09-11 21:32

论文阅读笔记（十九）：YOLO9000: Better, Faster, Stronger

WeintroduceYOLO9000,astate-of-the-art,real-timeobjectdetectionsystemthatcandetectover9000objectcategories.FirstweproposevariousimprovementstotheYOLOdetectionmethod,bothnovelanddrawnfrompriorwork.Theim

__Sunshine__·2024-09-11 21:59

论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision

DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无

小夏refresh·2024-09-11 20:50

周四 2020-01-09 08:00 - 24:30 多云 02h10m

二〇二〇年一月九日基本科研[1]:1.论文阅读论文--二小时十分2.论文实现实验--小时3.数学SINS推导回顾--O分4.科研参考书【】1)的《》看0/0页-5.科研文档1)组织工作[1]:例会--英语能力

么得感情的日更机器·2024-09-08 23:58

【论文阅读】Mamba:选择状态空间模型的线性时间序列建模（二）

文章目录3.4一个简化的SSM结构3.5选择机制的性质3.5.1和门控机制的联系3.5.2选择机制的解释3.6额外的模型细节A讨论：选择机制C选择SSM的机制Mamba论文第一部分Mamba:选择状态空间模型的线性时间序列建模(一)3.4一个简化的SSM结构如同结构SSM，选择SSM是单独序列变换可以灵活地整合进神经网络。H3结构式最知名SSM结构地基础，其通常包括受线性注意力启发的和MLP交替地

syugyou·2024-09-08 15:52

SAFEFL: MPC-friendly Framework for Private and Robust Federated Learning论文阅读笔记

SAFEFL:MPC-friendlyFrameworkforPrivateandRobustFederatedLearning适用于私有和鲁棒联邦学习的MPC友好框架SAFEFL，这是一个利用安全多方计算(MPC)来评估联邦学习(FL)技术在防止隐私推断和中毒攻击方面的有效性和性能的框架。概述传统机器学习（ML）：集中收集数据->隐私保护问题privacy-preservingML(PPML)采

慘綠青年627·2024-09-06 10:44

MixMAE(MixMIM):用于分层视觉变压器有效预训练的混合和掩码自编码器论文阅读

论文:MixMAE(arxiv.org)代码:Sense-X/MixMIM:MixMIM:MixedandMaskedImageModelingforEfficientVisualRepresentationLearning(github.com)摘要:本文提出MixMAE(MixedandmaskAutoEncoder)，这是一种简单而有效的预训练方法，适用于各种层次视觉变压器。现有的分层视觉变

皮卡丘ZPC·2024-09-06 08:04

推荐频道

知识蒸馏论文阅读