乱搭巴士

【论文笔记_自蒸馏_2021】GROUND-TRUTH TARGETS DAMPEN REGULARIZATION IMPOSED BY SELF-DISTILLATION

即使是你的老师也需要指导：真实目标抑制了自我蒸馏所施加的正则化。

摘要

知识蒸馏是一个经典的程序，其中一个神经网络与原始目标一起在另一个网络的输出上进行训练，以便在架构之间转移知识。在自我蒸馏的特殊情况下，网络架构是相同的，已经被观察到可以提高泛化的准确性。在本文中，我们考虑了在核回归设置中自我蒸馏的迭代变体，其中连续的步骤包含了模型输出和地面真实目标。这使得我们能够提供第一个关于在自我蒸馏过程中使用加权真实目标的重要性的理论结果。我们的重点是用适合蒸馏的加权均方误差目标函数来拟合非线性函数的训练数据，但要符合模型参数的’2正则化。我们表明，通过自蒸馏得到的任何这样的函数都可以直接计算为初始拟合的函数，而且无限蒸馏步骤产生的优化问题与原始的放大正则化问题相同。此外，我们为每一步的加权参数的最佳选择提供了一个封闭式的解决方案，并展示了如何为深度学习有效地估计这个加权参数，与网格搜索相比，大大降低了计算要求。

1.介绍

…
自我蒸馏的想法是将训练好的模型的输出与原始目标一起作为新的目标，从头开始重新训练同一个模型。我们把这称为自我蒸馏的一个步骤，人们可以为多个蒸馏步骤迭代这个程序（见图1）。经验表明，这个过程通常比仅仅在原始目标上训练的模型具有更好的概括性，并在验证数据上取得更高的预测性能，尽管训练期间没有提供额外的信息（Furlanello等人，2018；Ahn等人，2019；Y ang等人，2018）。

图1：初始训练后两步的自我蒸馏说明，我们使用符号f^（τ）=f（·，ˆβ^（τ））。详见第3节。

现代深度神经网络通常在过度参数化的体制下进行训练，可训练的参数数量高度超过训练样本的数量。在简单的一阶方法（如梯度下降）下，这样的大型网络可以适应任何目标，但为了很好地泛化，这种过度拟合通常是不可取的（Zhang等人，2017；Nakkiran等人，2020）。因此，在训练过程中通常会施加某种类型的正则化，以避免过拟合。一个常见的选择是在我们的目标函数中添加l2-正则化项，这已被证明与早期停止的梯度下降训练有可比性（Yao等人，2007）。然而，在超参数化制度的理论研究中，正则化经常被忽视，但最近的结果显示，通过神经切线核（NTK），宽神经网络和核脊回归之间存在联系（Lee等人，2019，2020；Hu等人，2019）。我们在C节中简要阐述了这种联系，这促使我们在第5节中设置问题并与深度学习建立联系。

2.相关工作

…
据我们所知，很少有论文从严格的理论角度研究知识蒸馏，而那些研究的论文则对设置进行了强有力的假设。Phuong和Lampert（2019）在蒸馏过程中忽略了地面真实目标，并进一步假设了线性模型。Mobahi等人（2020）研究了自蒸馏在希尔伯特空间设置的核脊回归模型中，教师在真实目标上进行训练，而学生（以及随后的迭代）只在教师的预测上进行训练，而没有接触到真实目标。他们表明，自蒸馏会逐渐限制用于表示解决方案的基础函数的数量，从而最终导致解决方案的欠拟合。在本文中，我们以Mobahi等人（2020）的理论结果为基础，但我们将加权的真实目标纳入自我蒸馏程序中，我们允许权重取决于自我蒸馏步骤，并展示了这如何极大地影响自我蒸馏的行为和效果。
我们的贡献，通过理论分析，我们表明：
1.任何蒸馏步骤的解决方案都可以很容易地被计算为初始拟合的函数，无限多的自蒸馏步骤（有固定的蒸馏权重）对应于解决通常的核脊回归问题，对于非零权重有一个特定的放大的正则化参数。
2.对于固定的蒸馏权重，自蒸馏会在每个蒸馏步骤中放大正则化，而真实目标会抑制自蒸馏解决方案的稀疏化和正则化，确保任何数量的蒸馏步骤的解决方案都不会为零。
3.最佳蒸馏权重对于核脊回归来说有一个封闭式的解决方案，与网格搜索相比，可以有效地估计神经网络。
我们所有结果的证明可以在补充材料A中找到，复制我们在第4.5节的例子和B节的结果的代码可以在github.com/Kennethborup/self_distillation找到。

3.问题设置

3.1核脊回归的自我稀释
为了避免过度拟合我们的训练数据，我们将对我们的权重施加一个正则化项，从而研究核脊回归函数f∈F映射f：X→Y，以构建一个最接近真实的底层数据生成图的解决方案，并对来自该底层图的新的未见过的数据进行良好的泛化。我们在核脊回归的设置中考虑了自蒸馏；即考虑（自蒸馏）目标函数：

其中，α∈[0，1]，λ>0，y1，y2∈Rⁿ，f（X，β）=ϕ（X）β。(1)中的目标是两个目标不同的均方误差(MSE)目标函数的加权和，以及对模型权重的L2-规则化。
对(1)的最小化，即对β的最小化是直接的，得到的是最小化器：

这个解决方案也可以看作是对Representer定理（Schölkopf等人，2001）的直接应用。让y(0)def= y，即原始目标，并递归定义为步骤τ≥1。

对于固定的α(τ) ∈ [0, 1]。注意，根据定义，初始步骤（τ=1）对应于标准训练，因此与α（1）无关。自我蒸馏法将来自该初始模型对X的预测值y(1)的加权平均数和真实目标y作为目标。这个程序按照(3)-(5)中的定义重复进行，我们得到了图1中所示的自蒸馏程序。注意，特殊情况下α(τ)=0和α(τ)=1分别对应于仅对上一步的预测进行训练，以及仅对原始目标进行训练。因此，α(τ)=1通常不值得关注，因为其解等于经典的核脊回归，而且自振在这种情况下不起作用。我们经常会考虑等权重的特殊情况，α(2) = … = α(τ) = α，如果α = 0，这相当于Mobahi等人（2020）在一个稍有不同的设置中所研究的设置。因此，下面的一些结果可以被看作是Mobahi等人（2020）对阶梯式和非零α的概括。

4.主要结果

在这一节中，我们介绍了我们对有限和无限多蒸馏步骤的主要结果，以及最佳α(τ)的闭合形式的解决方案，还有一个说明性的例子，强调了所选择的（α(t)）序列对解决方案的影响。
4.1有限的自蒸馏步骤
我们的第一个结果来自于简单的计算，即任何有限数量的蒸馏步骤后得到的预测结果可以直接表示为y和初始拟合时计算的核矩阵K的函数（τ = 1）。
理论4.1
由于（6）和（7）只用K、（K+λIn）-1和κ（x，X）表示，我们能够计算出对训练数据以及任何x∈Rd的预测，只需基于初始拟合（τ=1），而不需要任何额外的拟合。因此，尽管K、κ(x, X)，特别是(K + λI_n)^-1的计算(可能)要求很高，但在获得后，我们可以通过定理4.1中的方程直接计算出任何蒸馏步骤。此外，步骤τ的预测可以被看作是两个经典的脊回归解决方案的加权组合，分别基于原始目标和步骤τ-1的预测目标。然而，为t=2, …，τ选择适当的α(t)是不容易的。, τ的适当的α(t)是不难的。我们在第4.3节和第4.4节中探讨这些动态。首先，我们使用定理4.1来分析自蒸馏逐步强加给解决方案的正则化。
4.2有效稀疏化自蒸馏的方法
我们现在表明，我们可以将解表示为基函数的加权和，当我们增加τ时，这个基会稀疏化，而且稀疏化的程度也取决于α的选择。Mobahi等人(2020)对τ≥1的固定α(τ)=0的特殊情况证明了类似的稀疏化结果，特别是，我们的(13)概括了他们论文中的方程(47)。
使用对称矩阵K的光谱分解法，我们令K=VDV^T，其中V∈Rn×n是一个正交矩阵，K为行特征向量，D∈Rn×n是一个非负对角矩阵，相关的特征值在对角线上。插入对角线化后，得到：

通过使用（6）和（9）的直接计算，我们可以得出：
…（计算过程见原文）
定理4.2
…
因此，解决方案f(·, ˆβ(τ))可以表示为一些基础函数的加权和，其中基础函数是正交变换和缩放的基础p(x)的组成部分，而z是一个正交变换的目标矢量。现在假设α(2) = … = α(τ) = α，在本节的其余部分，任何τ≥2。在下文中，我们将说明当α<1时，B(τ)是如何随着每个蒸馏步骤而有效地稀疏化的，从而也有效地稀疏化了解f(-, ˆβ(τ))。定理4.2不仅提供了B(τ)的递归公式，而且还表明B(τ)的每个对角线元素都在[0, 1]中，并且在τ中严格递减，这反过来意味着自蒸馏过程会逐渐缩小基函数的系数。利用定理4.2，我们现在可以证明，不仅B(τ)在τ中减少，而且B(τ)中较小的元素比较大的元素收缩得更快，这一点我们将在定理下面详细说明。
定理4.3
…
如果我们考虑D的一对对角线，其中dk>dj，那么对于α=0，[B(τ)]k,k/[B(τ)]j,j的分数在τ中是严格增加的，这是因为括号内的(14)的r.h.s.严格大于1，因此，随着τ的增加，对应于小特征值的对角线收缩的速度比大特征值的对角线快。然而，对于α∈(0, 1)，我们不能确保这种行为，但是在步骤τ，我们能够通过使用(15)来预测步骤τ+1的行为。因此，当我们在蒸馏过程中包括地面真实目标时，我们并没有在每个蒸馏步骤中持续增加正则化，而是有可能得到一个不再稀疏化的解决方案。我们现在把注意力转向如何以最佳方式挑选α(τ)的问题，并发现如果我们放松权重被限制在区间[0, 1]的条件，就可以做到这一点。

4.3封闭式最佳加权参数
回顾一下，˜X∈Rm×d是验证输入的矩阵，˜y∈Rm是验证目标的向量。如果我们允许α(τ)∈R，我们可以在每一步τ找到一个最优的α(τ)（它是λ的一个非微观函数），用α^*(τ)表示。
定理4.4
…
由于˜y(1)和˜y(τ) α=0都不依赖于α(τ)的选择，我们可以像算法1中提出的那样递归地计算α*(τ)，其中α*(τ)有(16)中的封闭形式。结合第4.2节的对角线化结果，我们可以有效地计算出解。这应该与在[0, 1]上用g个等距值对α进行网格搜索进行比较，以便近似计算出最优的α，如果对每个τ≥2的步骤序列使用相同的α，则需要g(τ-1)+1个模型拟合（如果α在各蒸馏步骤中不固定，则需要g(τ-1)）。然而，根据算法1，只需进行2(τ - 1) + 1次模型拟合，就可以得到精确的最优值，而不是近似值。在第5节中，我们将算法1应用于深度学习环境中的近似α^*（τ）。

算法1…

4.4无限次的自我蒸馏步骤
我们现在证明，如果我们以固定的α（即α(2) = … = α(τ) = α）进行无限次的蒸馏步骤（τ → ∞），那么解决方案将解决经典的核脊回归问题，如果α>0，则有一个放大的正则化参数（通过α-1）。请注意，当α=0和τ→∞时，（6）和（7）得出预测y（∞）和f（x，ˆβ（∞））对于任何x∈Rp都会塌陷到零解，这是由Mobahi等人（2020）所预期的。
定理4.5
…
我们的结果从理论上解释了为什么要把α(τ)作为一个可调节的超参数来微调自振对特定问题施加的正则化量，并且可以以最佳方式选择核脊回归。在下文中，我们提供了一个说明性的例子，在第5节中，我们使用算法1的改编来估计深度学习的最佳加权参数。
4.5说明性的例子
…

图2.六个步骤的自我蒸馏，（a）零极限解（虚线），（b）非零极限解（虚线），和（c）最佳步长α*(τ)训练实例用×表示。

如图2a的情况（a）所示，自我蒸馏施加的正则化最初提高了解决方案的质量，但最终过度正则化，解决方案与数据不匹配，最终将收敛到零解决方案。使用α>0（见图2b），更具体地说，α=0.25，减少了强加的正则化，增加了蒸馏过程的稳定性；也就是说，每个蒸馏步骤之间的解决方案差异要小很多。这允许在迭代蒸馏步骤中对解决方案进行更密集的探索，增加α可以减少两个连续步骤的解决方案之间的差异，但也减少了可能的解决方案的空间，因为极限f(-, ˆβ(∞))迅速接近初始解决方案f(-, ˆβ(1))。然而，对于τ>2，选择逐步优化的α* (τ) 可以对解决方案产生微小的变化，而且一个蒸馏步骤就已经很有效。此外，对于τ≥3，所有的α?(τ)都近似相等，蒸馏过程已经达到了平衡。
…

5.深度学习的近似最佳加权参数

以下实验的目的是在一个简单的深度学习环境中对上述理论分析进行经验评估。在(16)中，当f(-, ˆβ(τ))是一个（自我蒸馏的）核脊回归时，我们找到了α*(τ)的封闭形式。对于神经网络来说，无法找到闭合形式的解决方案，但最近的结果表明，（非常）宽的神经网络可以被看作是具有神经切核的核脊回归解决方案（Jacot等人，2018；Arora等人，2019；Lee等人，2019，2020）。
…
5.1实验
我们在CIFAR-10（Krizhevsky和Hinton，2009）上用ResNet-50（He等人，2016）网络进行自我蒸馏，并进行了少量预处理和增强。该模型在每一步都是随机初始化的14，并根据上述情况用估计的最佳参数ˆα(τ)或所有步骤的固定α进行训练。我们在每个蒸馏步骤中使用最后一次迭代训练的网络权重来进行下一步的训练，而不考虑在训练的早期是否出现了更好的模型。我们的模型被训练为固定的75个epoch，每个实验在11个蒸馏步骤链上用4个不同的随机种子重复进行，对应于α∈{0.0, 0.1, . . , 0.9}和ˆα(τ)，第一个模型在所有链上的初始化是相同的。在第τ步报告的准确性是基于将训练和验证预测Y(τ)和f( ˜X, ˆβ(τ))与原始训练和验证目标；Y和˜Y进行比较。

图5：在CIFAR-10上用ResNet-50模型对五个蒸馏步骤进行训练和验证的准确性。比较了t=2 . . . τ的固定α(t)和每一步用ˆα(t)估计最佳权重。τ，以及在每个步骤中用ˆα(t)估计最佳权重。实验重复四次，报告了平均值（和阴影中的最大/最小值）。

6.结论

在本文中，我们从理论上论证了在用核脊回归进行自我蒸馏时，用真实目标对教师输出进行加权的重要性，以及最佳加权参数的封闭形式解决方案。我们证明了任何（可能是无限的）蒸馏步骤的解决方案可以直接从初始蒸馏步骤中计算出来，并且无限多步骤的自我蒸馏对应于具有放大正则化参数的经典核脊回归解决方案。我们从经验和理论上表明，加权参数α决定了自我蒸馏所施加的正则化量，并在一个简单的深度学习环境中实证支持我们的结果。

大模型产品架构全景解读：从应用场景到技术支持的完整路径健忘的派大星架构人工智能语言模型 ai agi LLM AI大模型
前言随着人工智能技术的迅猛发展，大模型逐渐成为推动各行业智能化转型的核心动力之一。大模型不仅可以处理大量数据，进行复杂任务的自动化，还能通过微调、蒸馏等技术在特定场景中表现出色。本文将结合大模型产品架构图，详细解读每一个组成模块，帮助读者理解从应用场景到技术支持的完整路径，洞察大模型如何在实际业务中落地。一、落地场景：赋能业务的智能化解决方案大模型的实际价值首先体现在各个业务场景的落地应用中。在架
scikit-learn基本功能和示例代码 weixin_30777913 深度学习机器学习 python scikit-learn
scikit-learn（简称sklearn）是一个广泛使用的Python机器学习库，提供了丰富的工具和算法，涵盖了数据预处理、模型训练、评估和优化等多个方面。scikit-learn是一个功能强大的机器学习库，涵盖了数据预处理、分类、回归、聚类、降维、模型选择与评估等多个方面。通过上述代码示例，您可以快速上手并使用scikit-learn进行机器学习任务。以下是对scikit-learn主要功能
2000-2021年上市公司数字化转型数据（MD&A报告词频、文本统计） m0_71334485 数据 #上市公司上市公司数字化转型数字化转型上市公司
2000-2021年上市公司数字化转型数据（MD&A报告词频、文本统计）1、时间：2000-2021年2、来源：上市公司NB3、范围：上市公司4、指标：包括人工智能技术、大数据技术、云计算技术、区块链技术、数字技术运用和数字技术应用、互联网商业模式、智能制造、现代信息系统等9个维度175个词频类别、股票代码、股票简称、年报标题、年份、MD&A文本-文本总长度、MD&A文本仅中英文-文本总长度、人工
There was a problem confirming the ssl certificate: [SSL:CERTIFICATE_ VERIFY_ FAILED]certificate解决方案爱编程的喵喵 Python基础课程 python pip SSL certificate 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了Therewasaproblemco
（新春特辑）腾讯开源MimicMotion整合包，最强图片生成跳舞视频的动作视频模型，动作丝滑没有破绽 struggle2025 人工智能计算机视觉机器学习 AI作画腾讯云AI代码助手
一、项目介绍：（文末提供下载）腾讯图片生成跳舞视频的项目MimicMotion，高质量人类动作视频生成与置信感姿势。亮点：丰富的细节，良好的时间平滑性，以及长视频长度。效果同时支持面部特征和唇形同步，不止可以搞跳舞视频，也可以做数字人。本文信息图片均来源于GitHub开源地址：https://github.com/Tencent/MimicMotion二、效果展示三、概述近年来，生成式人工智能在图
使用 Python 和 scikit-learn 实现 KNN 分类：以鸢尾花数据集为例弥树子 python scikit-learn 分类
在机器学习的世界里，K-NearestNeighbors（KNN）算法是一种简单而强大的分类方法。它基于一个直观的想法：相似的数据点往往属于同一类别。本文将通过Python的scikit-learn库实现KNN分类，以经典的鸢尾花数据集为例，展示从数据加载到模型评估的完整流程。1.KNN算法简介KNN是一种监督学习算法，主要用于分类和回归任务。它的工作原理非常简单：对于一个新的数据点，算法会查找训
DeepSeek--通向通用人工智能的深度探索者油泼辣子多加专业名词解释人工智能
一、词源与全称“DeepSeek"由"Deep”（深度）与"Seek"（探索）组合而成，中文译名为"深度求索"。其全称为"深度求索人工智能基础技术研究有限公司"，英文对应"DeepSeekArtificialIntelligenceResearchInstitute"。这一命名体现了企业对深度学习技术与未知领域持续探索的双重追求。二、发展历程初创期（2023）公司成立于中国杭州，创始团队汇聚了来自
git clone出现fatal: unable to access Failed to connect to github.com port 443: Timed out解决方案爱编程的喵喵 Python基础课程 git github timeout port 443 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了gitclone出现fatal:un
Gradio 快速构建机器学习web可视化界面心得算法小菜鸟成长心得 python
1.操作完成提示try:#对输入的字符串代码进行编译运行exec(get_test_code_example)gr.Info("Modeltestingcompletedsuccessfully.")except:raisegr.Error("Modeltestingfailed.")用到了gr.Info()和gr.Errot(）
linux git clone出现fatal: unable to access Failed to connect to github.com port 443: Timed out解决方案 herosunly C/C++/Linux解决方案 linux git github timeout port 443
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了linuxgitclone出现fatal:unabletoaccessF
flask+layui学生信息管理系统元宇宙中的程序员 flask layui python
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。一、数据库建模1、创建数据模型classStudentORM(db.Model):stu_id=d
Python 3.9它来啦！！！ python程序员小'鹏 python 编程语言经验分享程序人生
Python3.9，来了！小编本身就是一名python开发工程师，我自己花了三天时间整理了一套python学习教程，从最基础的python脚本到web开发，爬虫，数据分析，数据可视化，机器学习，等，这些资料有想要的小伙伴"点击"即可领取过去一年，来自世界各地的开发者们一直在致力于Python3.8的改进。Python3.9beta版本已经存在了一段时间，第一个正式版本于2020年10月5日发布。每
AI智能制造软件有什么用处雪叶雨林行业资讯 AI 人工智能制造
随着信息技术与制造业的深度融合，人工智能（AI）逐渐成为提升制造效率和灵活性的重要工具。AI智能制造软件通过集成数据分析、机器学习和自动化流程，为企业提供了优化生产、降低成本和提高质量的新途径。生产过程优化实时监控与反馈AI智能制造软件能够实时收集生产线上的各类数据，如温度、压力、速度等参数，并通过机器学习算法进行分析处理。一旦检测到异常情况，系统会立即发出警报并提供改进建议，帮助企业快速响应问题
ModuleNotFoundError: No module named ‘pywin32_bootstrap‘解决方案爱编程的喵喵 Python基础课程 python ModuleNotFound win32_bootstap 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ModuleNotFoundErro
人脸识别的经典深度学习方法明初啥都能学会深度学习人工智能
人脸识别的经典深度学习方法引言1.卷积神经网络（CNN）1.1LeNet1.2AlexNet1.3VGGNet1.4ResNet2.人脸检测2.1Viola-Jones算法2.2基于深度学习的人脸检测3.人脸特征提取3.1主成分分析（PCA）3.2人脸对齐3.2.1基于特征点的对齐3.2.2基于深度学习的对齐4.人脸识别模型4.1传统机器学习方法4.2基于深度学习的方法5.公式解读5.1卷积运算5
AI智能获客工具的意义是什么雪叶雨林 AI 行业资讯人工智能
在当今竞争激烈的市场环境中，企业需要高效、精准的获客策略来维持增长和竞争力。AI智能获客工具的出现，为企业提供了一种全新的解决方案，通过自动化和智能化手段提高获客效率和质量。一、AI智能获客工具的核心价值1.1提高获客效率AI智能获客工具通过自动化流程，如自动筛选潜在客户、自动发送营销信息等，大幅减少了人力投入和时间成本，从而提高了获客效率。1.2精准定位潜在客户利用机器学习和大数据分析技术，AI
人物传记之新月篇暮雨哀尘人物传记篇哈希算法算法 c语言 python pycharm vscode windows
相关故事链接（及时更新）：Python的那些事第四篇：编程中的智慧之光控制结构-CSDN博客目录1.C语言程序：增强版加密与解密工具2.Python程序：增强版加密与解密工具功能对比表格详细功能解释人物传记简介新月，25世纪的杰出女性，以其在编程、人工智能和军事战略领域的卓越成就而闻名。她不仅是一位才华横溢的科学家，还是一位深受尊敬的军事领袖。新月的故事是关于智慧、勇气和创新精神的传奇。早年生活新
MicroAI™将人工智能培训引入RENESAS MCU sinat_41698914 人工智能 mcu big data
在端点部署的人工智能技术将加快资产密集型行业的上市时间达拉斯--(美国商业资讯)--边缘原生人工智能(AI)和机器学习(ML)产品领域的先驱MicroAITM今天宣布，公司已将其MicroAIAtomML™技术与RenesasRA微控制器(MCU)产品线进行整合。与全球微控制器领导者Renesas合作将机器学习引入MCU，并借助MicroAI直接在嵌入式环境中训练机器学习模型的能力——这在业界尚属
基于深度学习的遥感目标检测系统：UI界面、R-CNN模型与数据集准备 2025年数学建模美赛 R-CNN检测系统人工智能深度学习 r语言 cnn python ui 目标检测
一、引言遥感图像中的目标检测在很多领域，如环境监测、土地利用、城市规划、农业资源监测等方面有着广泛应用。遥感图像具有高分辨率和丰富的空间信息，但同时也带来了目标检测中的许多挑战，特别是在目标尺度变化、遮挡和复杂背景的情况下。因此，采用深度学习技术，尤其是卷积神经网络（CNN）和区域卷积神经网络（R-CNN），在遥感图像目标检测中取得了显著的成果。本文将详细介绍基于深度学习的遥感目标检测系统，使用R
DeepSeek R1：中国AI黑马的崛起与挑战码事漫谈 AI 人工智能
文章目录技术突破：从零开始的推理能力进化DeepSeekR1-Zero：纯RL训练的“自我觉醒”DeepSeekR1：冷启动与多阶段训练的平衡之道实验验证：推理能力的全方位跃升基准测试：超越顶尖闭源模型蒸馏技术：小模型的逆袭行业启示：AGI之路的新范式纯RL训练的价值与挑战蒸馏技术的普惠意义开源生态的推动力未来展望：从推理到通用智能结语在人工智能领域，大型语言模型（LLMs）正以迅猛之势重塑我们的
Kaggle房价预测一名小菜鸟的学习之路深度学习pytorch 深度学习机器学习 python 人工智能神经网络
Kaggle房价预测作为深度学习基础篇章的总结，我们将对本章内容学以致用。下面，让我们动手实战一个Kaggle比赛：房价预测。本节将提供未经调优的数据的预处理、模型的设计和超参数的选择。我们希望读者通过动手操作、仔细观察实验现象、认真分析实验结果并不断调整方法，得到令自己满意的结果。%matplotlibinlineimporttorchimporttorch.nnasnnimportnumpya
C++ 与机器学习：构建高效推理引擎的秘诀 salsm C++编程魔法师 c++机器学习开发语言
随着深度学习模型逐渐从研究走向生产环境，推理能力成为部署中的关键环节。模型的推理引擎需要以极低的延迟快速处理输入数据，同时最大化地利用硬件资源。虽然Python被广泛用于模型的训练和开发，但C++却在推理领域独占鳌头，其性能优势和硬件控制能力无可替代。在这篇文章中，我们将从为什么选择C++、构建高效推理引擎的细节，以及相似的开源项目三个方面深入探讨如何利用C++打造高效的机器学习推理引擎。目录为什
《动手学深度学习》(PyTorch版) chaser&upper 深度学习 pytorch 深度学习 python
《动手学深度学习》PyTorch版前言简介面向人群食用方法方法一方法二方法三目录原书地址引用阅读指南前言读书啦！！！本项目将《动手学深度学习》原书中MXNet代码实现改为PyTorch实现。原书作者：阿斯顿·张、李沐、扎卡里C.立顿、亚历山大J.斯莫拉以及其他社区贡献者，GitHub地址：https://github.com/d2l-ai/d2l-zh此书的中英版本存在一些不同，针对此书英文版的P
第76期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能网络安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.关于使用大语言模型
从简单到深刻的认知发展 AI架构设计之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
认知发展，人工智能，深度学习，神经网络，机器学习，自然语言处理，计算机视觉1.背景介绍认知发展是人类从简单到复杂的思维方式演进的过程，它涉及感知、记忆、语言、推理和决策等多个方面。随着人工智能技术的飞速发展，我们开始尝试用计算机模拟人类的认知能力，构建能够学习、理解和解决复杂问题的智能系统。从早期的符号逻辑到如今的深度学习，人工智能的发展经历了多个阶段。早期的人工智能研究主要集中在规则和逻辑推理上
2025年1月27日人工智能与科技新闻：DeepSeek震撼全球科技市场海棠AI实验室 AI 瞭望塔人工智能科技
中国AI初创公司DeepSeek震撼全球科技市场DeepSeekR1模型的突破性发展在科技迅猛发展的时代，中国人工智能初创公司DeepSeek推出的R1模型，以其卓越的技术能力，在全球AI领域掀起一场变革。这不仅是技术层面的突破，更对全球科技市场产生深远影响。技术创新与突破全新语言处理架构：提升AI理解和生成能力超越传统模型的认知能力：实现更精准的自然语言推理多模态交互：支持文本、图像、语音等多维
第84期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能 gpt AIGC
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.利用数据流路径对大
新型人工智能“黑帽”工具：GhostGPT带来的威胁与挑战 FreeBuf- 资讯人工智能
生成式人工智能的发展既带来了有益的生产力转型机会，也提供了被恶意利用的机会。最近，AbnormalSecurity的研究人员发现了一个专门为网络犯罪创建的无审查AI聊天机器人——GhostGPT，是人工智能用于非法活动的新前沿，可以被用于网络钓鱼计划、恶意软件开发和漏洞利用开发。GhostGPT的主要特点快速处理：使攻击者能够快速生成恶意内容。无日志政策：声称不记录用户活动，吸引那些寻求匿名的人。
大数据和智能数据应用架构系列教程之：大数据与人工智能 AI天才研究院 AI实战大数据AI人工智能 Python实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍概述“大数据”是指海量、高维、多样化的数据集合。随着人类对数据处理和管理的需求越来越复杂，越来越依赖机器学习、人工智能等新兴技术。在过去的一段时间里，越来越多的人开始关注到“大数据”这一颗龙头。如今，“大数据”已经成为一个新的名词，它既包含了大量的数据，也带来了巨大的价值。因此，研究、开发、应用“大数据”技术也逐渐成为各行各业的专业人才需求。在这个快速发展的
使用onnxruntime-web 运行yolov8-nano推理 CHEN_RUI_2200 机器学习 YOLO
ONNX（OpenNeuralNetworkExchange）模型具有以下两个特点促成了我们可以使用onnxruntime-web直接在web端上运行推理模型，为了让这个推理更直观，我选择了试验下yolov8识别预览图片：1.跨平台兼容性ONNX是一种开放的格式，可以在不同的深度学习框架之间共享模型，如PyTorch、TensorFlow、MXNet和Caffe2。这使得用户可以在一个框架中训练模
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，