XMU_MIAO

[论文阅读]知识蒸馏（Distilling the Knowledge in a Neural Network）

文章目录

前言
摘要
一、Introduction
二、Distillation
三、Experiments
- 3.1 MNIST
- 3.2 Speech Recognition
- 3.3 Specialists Models on Very Big Dataset
- - 3.3.1 Specialist Models
  - 3.3.2 Assigning Classes to Specialists
  - 3.3.3 Performing Inference with Ensembles of Specialists
  - 3.3.4 Results
四、Using Soft Targets to Prevent Specialists from Overfiting
五、Discussion
总结

前言

论文名：Distilling the Knowledge in a Neural Network
论文作者：Geoffrey Hinton et.al.
期刊/会议名：NIPS 2014
本文作者：XMU_MIAO
日期：2020/11/26

摘要

要提高几乎所有机器学习算法的性能，一个非常简单的方法是在同一个数据上训练许多不同的模型并平均它们的预测效果。不幸的是，使用集成模型进行预测是很麻烦的，而且可能计算成本太高，不能部署到大量用户，特别是当单个模型是大型神经网络时。有研究表示，将集成模型中的知识压缩到易于部署的单个模型是有可能的，我们使用不同的压缩技术进一步发展了这种方法。
我们在MNIST上取得了一些令人惊喜的结果，并且我们表明，通过将集成模型的知识提炼到单个模型中可以显著改进大量应用于商业系统的声学模型。我们还引入了一种新型的由一个或多个完整模型和许多能够学习区分完整模型会混淆的细粒度类的“专家模型”。不同于“专家模型”的混合，这些“专家模型”可以快速地并行训练。

一、Introduction

许多昆虫的幼年形态是最适合从环境中汲取能量和营养的，而成虫形态则完全不同，更适合旅行和繁殖等不同需求。昆虫的类比表明我们可以训练非常复杂的模型，其易于从数据中提取出结构。这个复杂的模型可以是独自训练模型的集成，也可以是一个用强大正则器如 $d r o p o u t$ 训练的单个大模型。一旦复杂模型训练完毕，之后我们可以使用一种不同的训练方式，称之为“蒸馏”，将知识从复杂的模型（称之为 $t e a c h e r$ 模型）转移到更易于部署的小模型（称之为 $s t u d e n t$ 模型）中。
对于 $t e a c h e r$ 模型，其能够学习区分大量的类别，正常情况下，训练目标是最大化正确类别的平均对数概率，但这种学习的副作用是训练的模型会将概率分配给错误的类别上，虽然这些概率值可能很小，但一些错误类别比其他错误类别的概率值大很多。比如：一辆宝马车的照片可能有很小的概率被误认为垃圾车，但是仍比被误认为一根萝卜的概率大出很多。在错误类别上的相对概率可以反映出模型是如何进行泛化的。
将 $t e a c h e r$ 模型的泛化能力迁移到 $s t u d e n t$ 模型的明显方法是使用由 $t e a c h e r$ 模型的类别概率作为“软目标”用于训练 $s t u d e n t$ 模型。 对于这个迁移阶段，我们可以使用相同的训练集或单独的“迁移”集。当 $t e a c h e r$ 模型是小模型的集成时，我们使用小模型各自预测的概率分布的算术或几何平均作为“软目标”。
当软目标具有高熵值，在训练每一个样本时软目标能够提供比硬目标（ $s t u d e n t$ 模型的 $ground\,\,truth$ ）更多的信息并且训练每一个样本时的梯度差异更小。因此，与 $t e a c h e r$ 模型相比， $s t u d e n t$ 模型训练数据要少得多，使用的学习率也高得多。
对于像 $m n i s t$ 一样的任务， $t e a c h e r$ 模型通常能够在正确类别上有高置信度，但关于所学函数的许多信息存在于软目标中极小概率的类别比例中。例如，对于一个版本的数字 $2$ ，可能有 $10^{-6}$ 的概率被认为是数字 $3$ , $10^{-9}$ 的概率被认为是数字 $7$ ，而另外一种版本的情况可能相反（每种版本指的是数据集中不同形态是数字 $2$ ）。这是非常有价值的信息，它在数据上定义了丰富的相似性结构（例如，它说明了哪个版本的 $2$ 看起来像 $3$ ,哪个像 $7$ ），但它对迁移阶段的交叉熵代价函数的影响很小，因为这些概率值接近零。之前的研究解决该问题的方式是使用 $l o g i t s$ （未经过 $s o f t m a x$ 函数的值）而不是经过 $s o f t a m x$ 函数之后的概率值，他们将 $t e a c h e r$ 的 $l o g i t s$ 值和 $s t u d e n t$ 的 $l o g i t s$ 值的平方差作为最小化目标。
我们更一般的解决方案，称为“蒸馏”，是提高 $s o f t m a x$ 最终值的温度，直到 $t e a c h e r$ 模型产生一个合适的软目标集。当训练 $s t u d e n t$ 模型来匹配这些软目标时，我们使用同样高的温度。稍后说明，之前研究中直接 $l o g i t s$ 实际上只是蒸馏的一种特殊情况。

二、Distillation

神经网络通常使用 $s o f t m a x$ 输出层来生成类概率，该输出层将每一个 $logits \,z_i$ 生成对应的概率 $q_i$
$q_i=\frac{exp(z_i/T)}{\sum_jexp(z_j/T)}$ 其中 $T$ 表示温度，正常情况下设为 $1.0$ ，使用更高的 $T$ 可以生成更加平滑的类概率分布。
以下举例一个例子进行说明，其中 $l o g i t s$ 是由 $[0, 5]$ 均匀分布产生的，经过 $s o f t m a x$ 函数之后并设置不同温度 $T$ 的柱状图如下图所示：

如上图所示，红色柱状图是 $l o g i t s$ 经过普通 $s o f t m a x$ 函数（ $T = 1.0$ ），将温度 $T$ 设置到10以上时，原本的概率分布逐渐趋向均匀分布， 而将温度 $T$ 降低时，只有大的概率值被保留下来，而其它小的值几乎都被削弱变得很小，有点马太效应的意思（强的越强，弱的越弱）。
最简单的蒸馏形式是通过在迁移集训练上 $s t u d e n t$ 模型将知识迁移到 $s t u d e n t$ 模型中，在迁移集中得每个样本使用由将温度 $T$ 设置得很高的 $t e a c h e r$ 模型生成软目标分布。在训练 $s t u d e n t$ 模型时使用相同的高温，但在训练结束后，其使用温度 $T = 1.0$ 。在训练 $s t u d e n t$ 模型时，我们使用两个不同目标函数的加权平均，形式如下： $cost\,function=CroEntropy(y_s,y_t)+\alpha CrossEntropy(y_s,y)$ 其中 $C r o s s E n t r o p y (*)$ 为交叉熵函数， $y_s$ 表示 $s t u d e n t$ 模型的预测结果， $y_s$ 表示 $t e a c h e r$ 模型的预测结果， $y$ 是 $s t u d e n t$ 模型的真实标签。第一个交叉熵函数是 $s t u d e n t$ 模型预测结果与软目标的交叉熵，其使用与训练该软目标的 $t e a c h e r$ 中一样的温度。第二个目标函数是 $s t u d e n t$ 模型与真实标签的交叉熵，其温度设置为 $1.0$ 。
我们发现最好的结果是在第二个目标函数上使用较低的权值（即： $\alpha$ 取小值）。由于软目标产生的梯度缩放了 $1/T^2$ ，因而在同时使用软目标和硬目标时，将软目标的梯度乘以 $T^2$ 是非常重要的。这确保了在实验过程中，如果用于蒸馏的温度发生改变，那么硬目标和软目标的相对贡献大致保持不变。
应用蒸馏技术的大致流程如下图所示：

$t e a c h e r$ 模型是一个大或者集成模型，其训练之后得到 $\textbf{transfer\,\,set}$ ，即输入到 $t e a c h e r$ 模型的输出对
将 $s t u d e n t$ 模型在训练软目标时，要在高温环境下进行，即 $T$ 取一个较大的值，同时与它做交叉熵的 $t e a c h e r$ 模型的输出也要在相同的温度情况下
$s t u d e n t$ 的硬目标则在 $T = 1$ 情况下进行，并且总的优化目标是软目标和硬目标的加权和

三、Experiments

3.1 MNIST

在该数据集上，首先在60000个训练样本上训练了一个带有两个隐藏层（每层有1200个单元）的 $t e a c h e r$ 网络，该网络使用 $d r o p o u t$ 和 $weight{-}constraints$ 的正则化方法。另外输入的图片在任意方向上抖动了两个像素。该网络取得了67个测试错误的结果，而一个带有两个隐藏层（每层有800个单元）的 $s t u d e n t$ 网络并不带正则方法取得了146个测试错误的结果。但如果这个 $s t u d e n t$ 网络添加了由温度设置为20的大网络软目标任务，则它的的测试错误结果为74个。这表明了软目标能够将大量的知识迁移到 $s t u d e n t$ 网络中，其中包括了从转译数据中学习到的如何泛化的知识，及时迁移数据集中不包含任何的转译。
当带有两层隐藏层的 $s t u d e n t$ 网络中每个隐藏层中的单元数据超过300个时，所有高于8的温度设置都能得到相似的结果。但是将隐藏层单元量急剧减小为30个时，温度在2.5-4之间的效果优于这个范围之外的温度设置。
我们尝试将迁移数据集中数字 $3$ 的样本移除。因此从 $s t u d e n t$ 网络的观点看，数字 $3$ 是一个从未见过的神秘数字。即使是这样， $s t u d e n t$ 网络也只造成了206个测试错误，其中133个是来自测试集中的1010个数字 $3$ 。

3.2 Speech Recognition

对于语音识别的任务，我们训练了十个与 $b a s e l i n e$ 完全一样的架构，每个架构都采用不同的随机初始化参数，我们发现通过平均这些模型的预测能够制造出模型的多样性。对于蒸馏，我们尝试了一些温度 $[1,\textbf{2},5,10]$ ，同时设置硬目标权重 $\alpha=0.5$ ，表中加粗的温度是得到表1结果的最优值，表1如下：

使用10个模型的集成的 $t e a c h e r$ 模型所取得的准确率提高的80%能够通过知识蒸馏迁移到 $s t u d e n t$ 网络中，这与在 $m n i s t$ 任务上的初步实验结果相近。由于目标函数不匹配， $t e a c h e r$ 模型对 $\textbf{WER}$ 的改进较小，但集 $t e a c h e r$ 模型对 $\textbf{WER}$ 的改进也迁移到了 $s t u d e n g$ 模型上。

3.3 Specialists Models on Very Big Dataset

如果一个模型是非常大的神经网络，尽管很容易并行化，但在训练时需要的计算量还是太多了。在本节中，我们将给出这样一个例子，并展示学习专家模型如何通过关注不同的易混淆类子集来减少学习集成所需的总计算量。专注于细粒度区分的专家的主要问题是他们很容易过度拟合，我们将描述如何通过使用软目标来防止这种过度拟合。使用的数据集是JFT数据集，JFT是一个内部的谷歌数据集，它拥有1亿张带标记的图像和1.5万个标签。

3.3.1 Specialist Models

当类别数量很大时，将复杂( $t e a c h e r$ )模型作为一个集成是很有意义的，这个集成包含一个对所有数据进行训练的泛型模型和许多专家模型，专家模型在类别中非常容易混淆的子类集上进行训练，专家模型的 $s o f t m a x$ 可以通过将所有不关心的类别放进一个“垃圾类别”中变得小得很多。
为了减少过拟合和分担低级特征检测器的学习工作，每个专家模型都使用泛型模型学习之后的权值进行初始化。然后，通过训练专家模型（其中一半样本来自其自身特殊的训练子集，另外一半从剩余的训练集中随机采样），这些权值被轻微修改。训练结束后，通过将垃圾箱类的 $l o g i t s$ 乘以专家模型专属类的过采样比例的对数来矫正有偏训练。

3.3.2 Assigning Classes to Specialists

为了让专家模型派生出对象类别的分组，我们决定将重点放在整个网络经常混淆的类别上。尽管可以计算混淆矩阵并将其用作寻找聚类（cluster），但我们选择了一种更简单的方法，它不需要真正的标签来构造聚类。
我们对泛型模型预测结果的协方差矩阵应用了一种聚类算法，因而经常被预测在一起的类别 $S_m$ 将被用作一个专家模型 $m$ 的目标。将在线版本的 $K{-}means$ 算法（基础算法可参考博客k-means algorithm）应用于协方差矩阵的列，得到的合理的聚类，如表2所示，尝试了几种聚类算法都产生相似的结果。

3.3.3 Performing Inference with Ensembles of Specialists

在研究对专家模型进行蒸馏之前，先看看包含专家模型的集成模型性能如何。除了专家模型，集成模型中还有一个泛型模型，这样就可以处理专家模型无法处理的类别。对于输入图像 $\textbf{x}$ ， $top{-}1$ 分类器两步流程如下：

第一步：对于每一个测试用例，根据泛型模型找到 $n$ 个最有可能的类别，本文中设置 $n = 1$ 。
第二步：取容易混淆的特殊子集 $S_m$ 与 $k$ 有非空交集的所有专家模型 $m$ ，并将这些非空交集称为专家模型的活动集合 $A_k$ （该集合有可能是空的），然后找到所有类的全概率分布并最小化： $KL(p^g,q)+\sum_{m\in A_k}KL(p^m,q)$ 其中 $K L$ 表示 $K L$ 散度， $p^m$ 和 $p^g$ 分别表示专家模型和泛型模型的预测结果的概率分布。概率分布 $p^m$ 是在所有专家类 $m$ 加上一个垃圾类的分布，因而当计算概率分布 $q$ 的 $K L$ 散度时，将 $q$ 分配 $m$ 中的垃圾类的所有类概率加起来。

3.3.4 Results

专家模型训练得非常快，在JFT数据集上只需要几天时间而不是几周，并且所有专家模型都是完全独立训练的。表3展示了 $b a s e l i n e$ 的测试精度和加上专家模型之后的测试精度：

使用61个专家模型进行集成，模型的相对测试精度增加了 $4.4\%$ ，另外在表4中还展示了只考虑专家模型训练集中类别并将预测限制在类别的子集的准确性上：

在 $\textbf{JFT}$ 专家实验中，训练了61个专家模型，每个模型有300个类别（加上垃圾类别），由于专家模型预测的类别不是不相交的，因而经常会有多个专家模型覆盖同一个类别。表4展示了测试集示例的数量，在使用专家时， $t o p 1$ 正确示例数量的变化，以及 $\textbf{JFT}$ 数据集 $t o p 1$ 准确度的相对提高百分比，这取决于涵盖该类的专家数量。当一个类别有多个专家模型覆盖时，准确性的提升会更大，这是一个普遍的趋势，这十分令人欣喜，因为独立训练专家模型非常容易并行化。

四、Using Soft Targets to Prevent Specialists from Overfiting

关于使用软目标而不是硬目标的主张之一是，软目标可以携带更多有用的信息，而这些信息不能用单一的硬目标进行编码。在这一节中，通过使用少量数据来拟合之前提到的 $\textbf{85M}$ 参数量语音识别模型上来证明。表5显示了使用 $3\%$ 的数据量（大概 $\textbf{20M}$ 个样本）来训练硬目标的 $b a s e l i n e$ 模型造成了严重的过拟合（提早暂停了训练，而测试精度掉到了 $44.5\%$ ）而相同模型使用软目标能够恢复训练集的大部分信息（只下降了 $2\%$ ）。值得注意的是，使用软目标训练没有必要提前暂停训练，模型的测试精度就收敛到了 $57\%$ 。

以上的分析表明，软目标是交流在所有数据上训练的模型所发现规律给另一个模型的一种非常有效的方式。

五、Discussion

本文中我们展示了蒸馏在将一个集成模型或一个大的正则化模型中的知识迁移到一个小的 $s t u d e n t$ 模型中效果良好。在MNIST任务上，即使用于训练 $s t u d e n t$ 模型的迁移集缺少一个或多个类的例子，蒸馏的效果也非常好。对于一个应用在安卓语音搜索中的深度声学模型，我们表明训练一个集成的深度模型的几乎所有性能提高都能够提炼到一个大小相同的更易于部署的单一神经网络上。

总结

本文是知识蒸馏的早期文章之一，知识蒸馏是将 $t e a c h e r$ 模型（通常的大模型或集成模型）的知识迁移到
$s t u d e n t$ 模型（通常是小模型），具体做法是将 $t e a c h e r$ 模型的学习到的类分类概率分布作为 $s t u d e n t$ 模型学习的软目标， $s t u d e n t$ 模型最终的目标函数是软目标与自身训练的硬目标的加权和。作者在 $m n i s t$ 任务和声学模型上进行实验，结果显示知识蒸馏的效果良好，能够将知识进行很好的迁移。文中作者还介绍了一种集成专家模型，能够对易于混淆的类别进行区分，并具有良好的并行性。本文知识蒸馏主要有以下几个要点需要注意：

软目标需要在高温情况下进行（ $T$ 取较大值），而硬目标则为常规的 $s o f t m a x$ 函数（ $T = 1.0$ ）
软目标和硬目标的加权和作为最终优化目标时，软目标梯度更新时需要乘以 $T^2$
知识蒸馏有一定的防止过拟合的作用
知识蒸馏起到了与网络剪枝一样的效果，压缩了模型的大小并且保持了模型的性能

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
BP神经网络的传递函数大胜归来19 MATLAB
BP网络一般都是用三层的，四层及以上的都比较少用；传输函数的选择，这个怎么说，假设你想预测的结果是几个固定值，如1,0等，满足某个条件输出1，不满足则0的话，首先想到的是hardlim函数，阈值型的，当然也可以考虑其他的；然后，假如网络是用来表达某种线性关系时，用purelin---线性传输函数；若是非线性关系的话，用别的非线性传递函数，多层网络时，每层不一定要用相同的传递函数，可以是三种配合，可
神经网络传递函数sigmoid,神经网络传递函数作用快乐的小荣荣神经网络机器学习深度学习人工智能
神经网络传递函数选取不同会有特别大差别嘛？只是最后一层，但前面层是非线性，那么可能存在区别不大的情况。线性函数f(a*input)=af(input),一般来说，input为向量，最简化情况下，可以假设input的各个维度，a1=a2=a3。。。意味着你线性层只是简单的对输入做了scale~而神经网络能起作用的原因，在于通过足够复杂的非线性函数，来模拟任何的分布。所以，神经网络必须要用非线性函数。
Python和R均方根误差平均绝对误差算法模型亚图跨际 Python 交叉知识 R 回归模型误差指标归一化均方根误差生态状态指标神经网络成本误差气体排放气候模型多项式拟合
要点回归模型误差评估指标归一化均方根误差生态状态指标神经网络成本误差计算气体排放气候算法模型Python误差指标均方根误差和平均绝对误差均方根偏差或均方根误差是两个密切相关且经常使用的度量值之一，用于衡量真实值或预测值与观测值或估计值之间的差异。估计器θ^\hat{\theta}θ^相对于估计参数θ\thetaθ的RMSD定义为均方误差的平方根：RMSD⁡(θ^)=MSE⁡(θ^)=E((θ^−θ
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
Humanize 项目教程尤嫒冰
Humanize项目教程humanizeAJSlibraryforaddinga“humantouch”todata.项目地址:https://gitcode.com/gh_mirrors/humani/humanize项目介绍Humanize是一个开源项目，旨在将机器生成的文本转换为更加自然、人性化的文本。该项目通过先进的算法和自然语言处理技术，使得AI生成的内容更加贴近人类的表达方式，从而提高
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式 m0_57781768 语言模型 json 人工智能
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式在现代自然语言处理（NLP）的应用中，大型语言模型（LLM）已经成为了重要的工具。这些模型能够生成丰富的自然语言文本，适用于各种应用场景。然而，在某些应用中，开发者不仅仅需要生成文本，还需要将这些生成的文本转换为结构化的数据格式，例如JSON。这种结构化的数据格式在数据传输、存储以及进一步处理时具有显著优势。本文将深
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置