怎么全是重名

ScaleKD: Distilling Scale-Aware Knowledge in Small Object Detector（CVPR2023）

文章目录

Abstract
Introduction
KD
Scale-aware Knowledge Distillation
- Scale-Decoupled Feature Distillation
- - Preliminary
  - Motivation
  - Methodology
- Cross-Scale Assistant
- - Preliminary
  - Motivation
  - Methodology
Experiment
- Results
- Ablation Study
Discussion

hh

Abstract

先指出虽然通用目标检测取得了显著成功，但小目标检测的性能和效率并不能令人满意。与现有的平衡推理速度和（SOD）性能之间的权衡不同，作者提出了一种新的尺度感知知识蒸馏(ScaleKD)，它将复杂的教师模型中的知识转移到紧凑的学生模型中。
为了提高SOD精馏过程中的知识转移质量，作者设计了两个新的模块：
1)尺度解耦的特征蒸馏模块：将教师的特征表示分解成多尺度嵌入，从而可以在小目标上对学生模型进行显式特征模拟。
2)提出了一种跨尺度的辅助方法来改进有噪声和无信息的边界框预测学生模型，因为这些边界框会误导学生模型，影响知识蒸馏的效果
并建立多尺度交叉注意层来捕获多尺度语义信息，以改进学生模型。

在COCO和VisDrone数据集上进行了不同类型模型(即两级和一级检测器)的实验，以评估所提出的方法

ScaleKD在一般检测性能上取得了优异的成绩，在SOD性能上取得了惊人的进步

Introduction

在SOD中使用知识蒸馏需要克服两个挑战
1)SOD通常受到噪声特征表示的影响。由于小物体的性质，通常在整个图像中占据一个小区域，这些小物体的特征表示可能会被背景和其他相对较大的实例所污染。
2)目标检测器对小物体上的噪声边界盒容忍度较低。教师模型做出不正确的预测是不可避免的。通常，学生模型可以从老师的不完美预测中提取出信息丰富的暗知识[14,28]。然而，在SOD中，教师边界上的小扰动会显著损害SOD在学生检测器上的表现。

基于此，作者提出了ScaleKD，它由两个模块组成，一个尺度解耦特征(SDF)蒸馏模块和一个跨尺度辅助(CSA)模块，以相应解决上述两个挑战

总的来说，作者提出了一种新的知识蒸馏框架ScaleKD (Scale-Aware Knowledge Distillation)，它可以在不增加额外计算成本的情况下提高通用检测和SOD的性能。

KD

知识蒸馏已经成为模型压缩最有效的技术之一，它首先训练一个笨重的教师模型，然后将其知识转移到一个轻量级的学生模型中。常用的知识蒸馏方法包括对输出，logits[14]，bounding box[16]和feature的蒸馏

Scale-aware Knowledge Distillation

(1)一个尺度解耦的特征蒸馏模块，显式地将不同尺度的表示传递给学生检测器。(2)跨尺度助手细化了复杂教师和紧凑学生之间的对象大小知识。

考虑一个对象检测器G S: R d→R k作为学生，另一个预测器G T: R d→R k作为教师，其中d和k是两个特征维度。前者是计算效率高但检测性能相对较低的网络，后者相反。给定一个训练数据集S = {(x i,y i) n i =1} ~ P n，用于分布P在一组实例x上。高分辨率输入图像作为教师模型、标准分辨率图像作为学生模型

Scale-Decoupled Feature Distillation

Preliminary

Ft和Fs是师生模型中对应的特征层。f(·)是一个映射函数，用于将学生与教师的特征映射的维度对齐，l(·)是任意有界损失，即l2范数距离。

Motivation

以往的蒸馏方法在蒸馏过程中平等地对待所有大小不同的目标，小对象的特征表示可能会受到大区域背景和其他相对较大尺寸实例的影响。

Methodology

我们的目标是将教师对象检测器的整个特征表示分解成多个部分，其中每个部分只处理相似的对象大小。据推测，这样的操作可以迫使学生检测器不仅要理解整个图像的全局知识，还要理解特定尺度的知识。

具体来说，我们在骨干的最后一阶段为老师和学生网络都获得了一个特征嵌入Zt 和 Zs。

我们打算在不同的输入尺度上充分利用特征表示。因此，我们采用多分支结构，其中每个分支使用具有不同扩张速率的卷积层。值得注意的是，该模型倾向于以较小的膨胀率关注内核的小对象，反之亦然。

通常，可以通过任意距离最小化损失，将教师模型的知识在指定的分支，即扩展率为1的3x3 Conv层，匹配到学生模型中相应的特征分支。一个缺点是这些操作可能会占用大量内存。因此，我们从神经结构搜索中的权值共享网络中汲取灵感[25,34]，采用权值共享尺度解耦特征。这是基于所有三个分支都有相同的操作符这一事实。在实践中，我们只为三个分支保存了一组权值，大大降低了训练内存成本。

我们还注意到，使用三个单独的损失来匹配教师和学生模型之间的三个平行分支可能会导致练习者在超参数调谐上花费不必要的精力。因此，对于每个分支，我们使用一个平坦层，即多层感知器，并将三个平坦层连接在一起。在蒸馏过程中，我们采用单一的l2损失(在后面的部分中表示为L feat)来最小化教师和学生模型之间这个连接的扁平层的距离。提出的整体模块如图2。值得注意的是，学生的尺度解耦特征模块和教师的对应模块相同。

Cross-Scale Assistant

Preliminary

除了特征蒸馏之外，另一种实用的方法是基于输出的KD，它将教师对分类和定位的预测转移给学生作为辅助监督的来源。我们的工作主要集中在边界盒蒸馏，这可以被认为是一个回归问题。一般来说，回归蒸馏如下:

R S为学生网络的回归输出，R T是对教师网络的预测，l(·)与方程1相同，其中可以应用任何有界损失。这个有界损失可以是l1、平滑l1或l2损失，这取决于我们对学生预测和教师输出之间的误差进行加权的惩罚程度

Motivation

小目标检测与一般目标检测的一个关键区别是SOD对噪声边界框很敏感。显然，教师探测器无法对每个物体做出完美的预测。在一般的目标检测中，尽管不准确，但学生模型仍然可以从教师对边界框的预测中检索到有信息的知识。然而，对于小目标，教师模型中的噪声边界盒预测可能会混淆学生模型，从而降低SOD的性能。

作为概念证明，作者故意添加了一个轻微的偏差(沿着对角线方向6和12像素)，并比较了一个vanilla老师和一个稍微受干扰的老师在小尺度物体上的mAP。如表1所示，在RetinaNet基线上，学生的小物体AP (AP S)随着扰动的增加而持续下降，说明学生检测器对教师SOD边界框预测的敏感性。因此，要构建一个值得信赖的SOD回归蒸馏模块，需要将教师毒框知识的不利影响降到最低。这并不意味着老师的预测必须是完美的——否则，我们可以直接用基本的事实来监督学生——我们只需要改进老师的输出，以确保他们的知识对学生有帮助

来自老师的嘈杂和缺乏信息的束缚盒会严重影响学生的表现。扰动由若干像素测量，并沿对角线方向添加

Methodology

为了解决上述问题，作者提出了一种跨尺度助手(Cross-Scale Assistant, CSA)，它可以提炼教师的知识，使学生模型能够获取不同尺度对象上的指导性知识

方法很简单，通过一个交叉注意模块来建立CSA。在交叉关注过程中，在计算教师知识范围内的KQ-注意力时生成一系列键和查询令牌，然后与学生模型的输出值张量进行映射，从而通过每个相应的查询获得特征中的关注区域。该过程在每个学生金字塔尺度上执行，以检索基于区域的信息特征。

一种天真的选择是使用简单的交叉注意[8]。然而，先前的研究[43]发现，标准的交叉注意可以重复地集中在不同头部的显著区域。因此，当图像中出现较大的物体时，交叉注意会将注意力转移到这些较大的物体上，而忽略较小的物体。为此，与纯的交叉注意相比，我们开发了一个多尺度交叉注意层，如图3所示。

跨尺度助手(CSA)模块。我们采用多尺度查询键对对学生模型进行特征嵌入交叉关注。CSA中的可学习权值通过两个独立的分类和回归分支进行更新，这些分支由基础真值标签监督。

注意，交叉注意提取全局信息—对于每个查询键对，生成一个值以突出显示响应最迅速的区域。然后，我们将查询键对拆分为多个子对，其中每个子对表示一组对象尺度。因此，我们的多尺度查询键可以强制注意模块关注不同尺度的区域，从而使所有对象，特别是小对象都能参与到特征学习过程中。

特别地，给出一个来自老师F T∈R h×w×c的输入序列和另一个来自学生F S∈R h×w×c的输入序列，为了简单起见，我们假设两个张量具有相同的大小。将F T投影为查询(Q)和键(K)，将F S投影为值(V)。对于以i为索引的不同头部，键K和值V被下采样到不同的大小。因此，我们将的多尺度交叉注意(MSC)表述为:

MSC(·，r i)是用于在第i−头部聚集的MLP层，下采样率为r i, P(·)是用于投影的深度卷积层。与标准交叉注意相比，保留了更多有利于SOD的细粒度和低层次细节。

Qi = F_S * Wi_Q --> 对学生特征映射到查询向量，Wi_Q 是查询对应的权重矩阵
Ki = MSC(F_T, r_i) * Wi_K --> 对教师特征使用MSC操作后映射到键向量，Wi_K 是键对应的权重矩阵
Vi = MSC(F_S, r_i) * Wi_V --> 对学生特征使用MSC操作后映射到值向量，Wi_V 是值对应的权重矩阵
Vi + P(Vi) 将原始特征 Vi 与经过投影变换后的特征 P(Vi) 相加，实际上是组合了原始特征信息和经过深层特征提取后得到的新特征的一种方式，旨在提高模型的学习能力和表征能力。

最后，我们计算注意张量为:

dh是维度，点积缩放分数： Q * K^T / √d_h，通常对角线元素进行缩放是为了防止梯度爆炸或消失问题

CSA的目的是在教师和学生模型之间架起跨尺度信息的桥梁，以完善KD中的边界盒监督。因此，我们用分类分支和回归分支叠加头层来更新这些可学习模块的权值。在精馏中，我们将CSA在分类和回归两个分支上的知识转移给学生，而不是转移教师的输出知识。对于基于输出的蒸馏目标，我们按照[5]有两个损失函数L cls和L bbox。我们注意到，我们的方法也是对其他基于输出的方法的补充，例如LD[46]，其中我们所需要做的就是简单地替换蒸馏目标。综上所述，学生模型的总训练目标为:

L det是检测器的标准训练损失，Lfeat是L2损失

除了用于优化学生检测器的蒸馏损失和检测损失外，我们还通过共享检测头进行监督，进一步保证了指导性表征质量和与学生表征的一致性。此外，CSA结合了教师和学生的特点，因此，随机初始化的学生检测器会导致CSA训练不稳定。因此，我们首先预热学生模型进行30k次迭代，因为当指导性知识没有充分优化时，它可能是有害的。学生检测器骨干在1x训练计划下冻结在早期的10k迭代中，在2x训练计划下冻结在20k迭代中。

Experiment

Results

在COCO val2017数据集上的比较，大大提高了检测性能，尤其是在APs

ScaleKD比SOTA在APs上实现了明显的改进

Ablation Study

可以看到在添加CSA模块后，建立多尺度交叉注意力层可以改进性能

对并行分支使用单独的权值对平均AP的改善并不明显，使用权值共享节省内存成本是ok的

Discussion

平衡小目标检测的推理速度和检测性能是一个挑战。作者提出了一种尺度感知的知识蒸馏，旨在通过设计的尺度解耦特征蒸馏和跨尺度辅助来提高SOD的性能，前者显式地解耦了多尺度特征，后者在蒸馏中精炼了教师的边界盒噪声，以获得更多信息丰富的知识。并在COCO 2017和VisDrone上进行了评估，以证明方法的有效性。

你可能感兴趣的:(论文笔记,目标跟踪,计算机视觉,人工智能)

开源LLMs导览：工作原理、顶级LLM列表对比万俟淋曦 Some Insights 人工智能 AI 生成式人工智能大模型 LLM chatgpt 大语言模型
机器人、人工智能相关领域news/events（专栏目录）本文目录一、开源LLM是什么意思？二、开源LLM如何工作？2.1预训练2.2代币化2.3开源LLM的微调2.4输入编码2.5训练与优化2.6推理三、开源LLM对组织的好处3.1增强的数据安全和隐私3.2节约成本3.3减少供应商依赖性3.4代码透明度四、哪种LLM模式最好？4.1BERT4.2LLaMA(LargeLanguageModelM
LearnLM: Improving Gemini for Learning UnknownBody LLM Daily 语言模型人工智能自然语言处理
本文是LLM系列文章，针对《LearnLM:ImprovingGeminiforLearning》的翻译。LearnLM：提升Gemini的学习能力摘要1引言2建模3人类评价设计4结果5结论摘要今天的生成式人工智能系统默认情况下会呈现信息，而不是像人类导师那样让用户参与学习服务。为了解决这些系统的广泛潜在教育用例，我们将注入教学行为的挑战重新定义为一种教学指导，其中培训和评估示例包括描述后续模型中
【python】利用 GridSearchCV 和 SVM 进行学生成绩预测码银支持向量机机器学习人工智能
在机器学习领域，寻找最优模型参数是一个重要的步骤，它直接影响模型的泛化能力和预测准确性。本文将通过一个具体案例介绍如何使用支持向量机（SVM）和网格搜索（GridSearchCV）来预测学生的成绩，并通过调整参数来优化模型性能。数据集：公众号“码银学编程”后台回复：学生成绩-SVM前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家：前言–人工智能教程引言学生的成绩预测
Python-OpenCV实现运动物体检测 HackDyno python opencv 开发语言 Python
Python-OpenCV实现运动物体检测运动物体检测是计算机视觉领域中的一个重要任务，它可以帮助我们识别并跟踪视频中的运动物体。本文将介绍如何使用Python和OpenCV库实现基于帧差法的运动物体检测。导入库首先，我们需要导入所需的库：OpenCV和NumPy。importcv2importnumpyasnp读取视频我们将从视频文件中读取帧数据。可以使用cv2.VideoCapture函数打开
OpenCV中投影变换的代码实现 AI_dataloads opencv 计算机视觉人工智能
目录引言技术背景变换过程完整代码展示运行结果引言投影变换是计算机视觉和图像处理领域中常用的技术之一。它可以用于将图像从一个透视关系映射到另一个透视关系，常见的应用包括图像矫正、景深变化、以及虚拟实境的创建。本文将介绍如何使用OpenCV中的cv2.warpPerspective函数进行投影变换。技术背景投影变换的核心是使用一个3x3的变换矩阵，这个矩阵将源图像中的点映射到目标图像中的对应点。这个变
【学术会议征稿-第二届生成式人工智能与信息安全学术会议（GAIIS 2025）】人工智能与信息安全的魅力禁默学术会议人工智能
重要信息时间：2025年2月21日-23日地点：中国杭州官网：http://www.ic-gaiis.org简介2025年第二届生成式人工智能与信息安全将于2025年2月21日-23日在中国杭州举行。主要围绕“生成式人工智能与信息安全”的最新研究展开，紧密聚焦AI的热点和难点问题，深入剖析信息安全核心技术。生成式人工智能与信息安全的关系主要体现在以下几个方面：数据安全：生成式人工智能通常需要大量的
《解锁AI黑科技：数据分类聚类与可视化》人工智能深度学习数据挖掘
在当今数字化时代，数据如潮水般涌来，如何从海量数据中提取有价值的信息，成为了众多领域面临的关键挑战。人工智能（AI）技术的崛起，为解决这一难题提供了强大的工具。其中，能够实现数据分类与聚类，并以可视化形式展现的AI技术，正逐渐成为各行业数据分析和决策的核心力量。数据分类与聚类：AI的核心技能数据分类是将数据划分到预先定义好的类别中，就像把图书馆里的书籍按照不同学科分类摆放，方便读者查找。比如在垃圾
园区智能化系统实现管理与服务的智能化转型与创新进阶快鲸智慧楼宇管理系统其他
内容概要园区智能化系统的出现，标志着管理与服务向智能化转型的重要一步。这一系统不仅仅是一个技术解决方案，更是一个全面提升园区运营效率与安全性的独特工具。通过集成大数据分析、物联网和人工智能，园区智能化系统能够为各类园区如工业园、产业园、物流园、写字楼与公寓等提供切实可行的解决方案。“智能化管理不仅是未来的发展趋势，更是提升竞争力的必要手段。”在资产管理方面，智能化系统能够实时监控并优化资源的配置，
DeepSeek R1本地化部署与联网功能实战指南：从零搭建智能对话系统 Coderabo python DeepSeek R1
前言在人工智能技术快速发展的今天，如何将先进的对话模型DeepSeekR1部署到本地环境并赋予其联网能力，成为许多开发者和企业关注的重点。本文将深入讲解完整的本地化部署流程，并通过实例代码演示如何为模型添加实时网络访问功能。一、环境准备与基础架构1.1硬件需求推荐配置：NVIDIAGPU（RTX3090或更高）+32GB内存+50GB存储空间最低配置：CPU（支持AVX2指令集）+16GB内存+3
Meta首席科学家Yann LeCun预言：5年内AI架构将颠覆，当前大模型的4大核心缺陷机器小乙人工智能
✨引言：一场颠覆AI行业的预言在2025冬季达沃斯“技术辩论”现场，Meta首席AI科学家、图灵奖得主杨立昆（YannLeCun）抛出一个震撼观点：“当前的大语言模型（LLM）范式将在3-5年内被淘汰。”这位深度学习先驱的论断，不仅直指ChatGPT等明星产品的技术天花板，更揭示了下一代AI进化的核心路径——构建理解物理世界的“世界模型”（WorldModel）。作为Meta人工智能实验室负责人，
AI编程风潮下的生产力革命：从 Copilot 到 Trae 机器小乙 AI编程
AI编程风潮下的生产力革命：从Copilot到Trae前言在人工智能飞速发展的背景下，“AI编程”已经不再是概念炒作，而逐渐成为真实可落地的开发模式。从最初的GitHubCopilot到如今字节跳动的Trae，以及各种聚焦不同场景的AI编程产品如Cursor、Bolt.new、ReplitGhostwriter等，都在加速软件研发流程。本文将结合一些常见使用场景，并通过简短代码示例，让你对AI编程
昆虫机器人：从仿生设计到未来应用机器小乙机器人
目录引言：从科幻到现实的启示仿生昆虫机器人：技术突破与功能解析应用场景：农业与灾后救援的革新技术难点：微型机器人研发的挑战未来趋势：智能化与群体协作的潜力总结：昆虫机器人技术的广阔前景1.引言：从科幻到现实的启示还记得阿西莫夫的《奇幻之旅》吗？科学家通过微型潜艇进入人体进行探险，这种场景曾是科幻迷的梦想。如今，随着人工智能和仿生设计的发展，这些奇思妙想正在逐步成为现实。最近，《科学机器人》期刊的一
【AI人工智能】DeepSeek R1：你需要知道的一切大名顶顶人工智能人工智能 AI DeepSeek 程序员计算机编程开源
我们将在本博客中介绍的关于DeepSeekR1的所有你需要知道的一切内容，请坚持认真读完，必有收获：DeepSeekR1简要概述主要特点与能力开源与可访问性模型架构强化学习训练变体与精简模型使用案例与应用从专有模型迁移到开源模型1.DeepSeekR1简要概述大语言模型（LLM）研究领域正在迅速发展，每一个新模型都在推动机器能力的边界。DeepSeekR1是由DeepSeek于2025年1月20日
NameError: name ‘opencv‘ is not defined 两京一十三省的希望 opencv 人工智能 pycharm yolo 深度学习
NameError:name'opencv'isnotdefined错误通常意味着你在Python代码中尝试使用opencv但该名称未定义。这种情况通常发生在你尝试调用一个库或模块的功能，但没有正确导入它。如果你想使用OpenCV进行计算机视觉任务，你需要确保正确安装和导入opencv-python库。下面是一些步骤，帮助你解决这个问题。1.安装OpenCV首先，确保你已经安装了OpenCV库。在
【人工智能时代】-Deepseek用到的技术架构 xiaoli8748_软件开发人工智能
以下是DeepSeek技术架构的详细介绍：1.混合专家架构（MoE）DeepSeek-V3采用了混合专家（Mixture-of-Experts,MoE）架构，这种架构通过将模型分解为多个“专家”网络来处理不同的输入特征。具体配置如下：层数：61层，其中58层为MoE层。专家数量：每层有257个专家（1个共享专家+256个路由专家），整个模型共有14,906个专家。激活机制：每个Token激活9个专
Chrome浏览器删除网站cookies的解决方案爱编程的喵喵 Windows实用技巧 chrome cookie cookies
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了Chrome浏览器删除网站cooki
当区块链遇见AI：智能合约如何驱动下一代 DApps 威哥说编程人工智能区块链 ai
随着区块链技术和人工智能（AI）在各自领域的迅速发展，二者的结合逐渐成为了推动未来技术创新的重要力量。特别是在去中心化应用（DApps）领域，区块链与AI的结合有可能彻底改变我们对智能合约、数据处理、决策制定等方面的理解。智能合约（SmartContracts）作为区块链的核心组成部分，能够在无信任环境下自动执行合同条款。而AI则能赋予智能合约“自主学习”和“智能决策”的能力，使得DApps的功能
如何在本地电脑上安装和使用 DeepSeek R-1 知识大胖 NVIDIA GPU和大语言模型开发教程电脑
简介似乎每个人都在谈论DeepSeekR-1是中国人工智能公司DeepSeek开发的全新开源人工智能语言模型。一些用户声称，其推理能力与OpenAI的o1相当，甚至更好。目前，DeepSeek是免费使用的，这对用户来说是个好消息，但也带来了一些疑问。随着用户量的激增，他们如何管理服务器成本？硬件运行成本不可能便宜吧？这里最合乎逻辑的一点是——数据。数据是人工智能模型的命脉。他们可能以某种方式收集用
智能化Kubernetes管理：AI与ChatGPT提升运维效率的创新实践大大宝的博客 k8s kubernetes 人工智能 chatgpt
摘要随着云计算技术的飞速发展，Kubernetes（K8s）已成为企业进行容器化应用管理的标准平台。然而，Kubernetes集群的管理在复杂度、规模和资源优化等方面仍然面临巨大挑战。传统的Kubernetes运维方式往往依赖手动操作，导致效率低下，且容易产生人为错误。随着人工智能（AI）技术的成熟，特别是基于自然语言处理（NLP）的智能体如ChatGPT的出现，AI智能体能够在Kubernete
JavaScript中的隐式类型转换阿珊和她的猫 javascript 开发语言 ecmascript
前端开发工程师、技术日更博主、已过CET6阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1牛客高级专题作者、打造专栏《前端面试必备》、《2024面试高频手撕题》蓝桥云课签约作者、上架课程《Vue.js和Egg.js开发企业级健康管理项目》、《带你从入门到实战全面掌握uni-app》前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。文章
【大模型应用开发动手做AI Agent】Plan and Solve策略的提出杭州大厂Java程序媛计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
【大模型应用开发动手做AIAgent】Plan-and-Solve策略的提出关键词：大模型，AIAgent，Plan-and-Solve，智能体，策略学习，强化学习，自然语言处理1.背景介绍随着人工智能技术的飞速发展，大模型（LargeLanguageModel，LLM）在自然语言处理（NaturalLanguageProcessing，NLP）领域取得了显著的突破。大模型能够理解和生成自然语言，
监控易：智慧高校一体化综合运维解决方案 MXsoft618 运维信息安全物联网监控类
新冠疫情发生以来，线上线下教育模式的初探，促使学校、家长和社会对于教育信息化认识产生巨大的转变。伴随着云计算和物联网的发展，教育已经开启了一个全新的时代。自“十三五”规划中明确提出“支持各级各类学校建设智慧校园，综合利用互联网、大数据、人工智能和虚拟现实技术探索未来教育教学新模式”以来，政策春风也不断加码教育信息化进程，《教育信息化2.0行动计划》以及《智慧校园总体框架》的相继发布，全国各地都在积
AI 计算的未来：去中心化浪潮与全球竞争格局重塑智识微光Intelligence 人工智能机器学习大数据
引言人工智能（AI）正以前所未有的速度发展，尤其是大模型训练和推理效率的提升，使得AI计算成本迅速下降，呈现出向去中心化演进的趋势。最新的DeepSeekr1模型，以仅600万美元的训练成本，达到了OpenAIo1级别的性能，表明AI技术正迈向更具普惠性的阶段。这一趋势不仅对AI产业格局产生深远影响，还将改变计算基础设施、全球科技竞争力分布，甚至可能影响人工超级智能（ASI）的未来发展。因此，AI
AIGC时代的Vue或React前端开发 GISer_Jinger Javascript React Vue AIGC vue.js react.js
在AIGC（人工智能生成内容）时代，Vue开发正经历着深刻的变革。以下是对AIGC时代Vue开发的详细分析：一、AIGC技术对Vue开发的影响代码生成与自动化AIGC技术使得开发者能够借助智能工具快速生成和优化Vue代码。例如，通过自然语言处理模型（如ChatGPT），开发者可以描述组件的功能和样式需求，然后自动生成包含模板、脚本和样式的完整组件代码。这不仅大大提高了开发效率，还减少了人为错误的可
大模型蒸馏与大模型微调技术有啥差别? kcarly 大模型知识乱炖杂谈大模型蒸馏大模型微调大模型 AI
大模型蒸馏与大模型微调是当前人工智能领域中两种重要的技术手段，它们在模型优化、性能提升和资源利用方面各有特点。以下将从定义、技术原理、应用场景及优缺点等方面对这两种技术进行深入对比。一、定义与基本概念大模型蒸馏（KnowledgeDistillation）蒸馏是一种将大型复杂模型（教师模型）的知识迁移到小型模型（学生模型）的技术。通过训练学生模型模仿教师模型的行为，实现模型压缩和性能保留的目标。蒸
DeepSeek大模型技术深度解析：揭开Transformer架构的神秘面纱不一样的信息安全网络杂烩 AI DeepSeek
摘要DeepSeek大模型由北京深度求索人工智能基础技术研究有限公司开发，基于Transformer架构，具备卓越的自然语言理解和生成能力。该模型能够高效处理智能对话、文本生成和语义理解等复杂任务，标志着人工智能在自然语言处理领域的重大进展。关键词DeepSeek模型,Transformer架构,自然语言,智能对话,文本生成,语义理解一、DeepSeek大模型的架构解析1.1DeepSeek大模型
《DeepSeek-R1 问世，智能搜索领域迎来新变革》黑金IT 智能搜索
DeepSeek-R1是由DeepSeek公司开发的一款创新型人工智能模型，自2024年5月7日发布以来，迅速在AI领域引起广泛关注。该模型凭借其卓越的语言理解能力、高效的数据处理能力、自适应学习能力、高安全性与可靠性以及广泛的应用场景与拓展性，在众多人工智能模型中脱颖而出。DeepSeek-R1的核心特点强大的语言理解能力：DeepSeek-R1采用先进的深度学习算法，能够精准解析复杂的语义结构
基于深度学习的大规模模型训练 SEU-WYL 深度学习dnn 深度学习人工智能 dnn
基于深度学习的大规模模型训练涉及训练具有数百万甚至数十亿参数的深度神经网络，以处理复杂的任务，如自然语言处理、计算机视觉和语音识别。以下是关于基于深度学习的大规模模型训练的详细介绍：1.背景和动机数据和模型规模增长：随着数据量和模型复杂度的增加，传统的单机或小规模集群训练难以满足需求。计算资源需求：大规模模型训练需要大量计算资源和存储，单一设备无法满足。任务复杂性：处理复杂任务（如GPT-3、BE
构建高效LLM应用开发架构的关键策略 AI天才研究院计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
文章标题：构建高效LLM应用开发架构的关键策略在当今快速发展的技术世界中，人工智能（AI）已经成为推动创新的核心动力。其中，大型语言模型（LLM）的应用开发尤为引人注目。LLM通过处理和理解自然语言，为各种场景提供了强大的智能解决方案，从智能客服到内容生成，再到教育应用，都有着广泛的应用前景。然而，高效地构建LLM应用开发架构面临着诸多挑战，包括性能、可扩展性和安全性等。本文将深入探讨构建高效LL
第03课：Anaconda 与 Jupyter Notebook 红色石头Will 深度学习 PyTorch 极简入门人工智能深度学习 PyTorch
本文将为大家介绍深度学习实战非常重要的两个工具：Anaconda和JupyterNotebook。Anaconda为什么选择Anaconda我们知道Python是人工智能的首选语言。为了更好、更方便地使用Python来编写深度学习相关程序，可以使用集成开发环境或集成管理系统，最流行的比如PyCharm和Anaconda。本文我推荐使用Anaconda。之所以选择Anaconda，是因为Anacon
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他