weixin_39804620

神经网络 mse一直不变_神经网络中的蒸馏技术，从Softmax开始说起

↑ 点击蓝字关注极市平台作者丨Sayak Paul、ronghuaiyang(译) 来源丨AI公园编辑丨极市平台

极市导读

本文讨论了一种模型优化技术——知识蒸馏。它能与量化、修剪等无缝集成，在不影响精度的前提下进一步减小生产模型的尺寸。>>加入极市CV技术交流群，走在计算机视觉的最前沿

本报告讨论了非常厉害模型优化技术 —— 知识蒸馏，并给大家过了一遍相关的TensorFlow的代码。

“模型集成是一个相当有保证的方法，可以获得2%的准确性。“ —— Andrej Karpathy

我绝对同意！然而，部署重量级模型的集成在许多情况下并不总是可行的。有时，你的单个模型可能太大(例如GPT-3)，以至于通常不可能将其部署到资源受限的环境中。这就是为什么我们一直在研究一些模型优化方法 ——量化和剪枝。在这个报告中，我们将讨论一个非常厉害的模型优化技术 —— 知识蒸馏。

Softmax告诉了我们什么？

当处理一个分类问题时，使用softmax作为神经网络的最后一个激活单元是非常典型的用法。这是为什么呢？因为softmax函数接受一组logit为输入并输出离散类别上的概率分布。比如，手写数字识别中，神经网络可能有较高的置信度认为图像为1。不过，也有轻微的可能性认为图像为7。如果我们只处理像[1,0]这样的独热编码标签(其中1和0分别是图像为1和7的概率)，那么这些信息就无法获得。

人类已经很好地利用了这种相对关系。更多的例子包括，长得很像猫的狗，棕红色的，猫一样的老虎等等。正如Hinton等人所认为的

一辆宝马被误认为是一辆垃圾车的可能性很小，但被误认为是一个胡萝卜的可能性仍然要高很多倍。

这些知识可以帮助我们在各种情况下进行极好的概括。这个思考过程帮助我们更深入地了解我们的模型对输入数据的想法。它应该与我们考虑输入数据的方式一致。

所以，现在该做什么？一个迫在眉睫的问题可能会突然出现在我们的脑海中 —— 我们在神经网络中使用这些知识的最佳方式是什么？让我们在下一节中找出答案。

使用Softmax的信息来教学 —— 知识蒸馏

softmax信息比独热编码标签更有用。在这个阶段，我们可以得到：

训练数据
训练好的神经网络在测试数据上表现良好

我们现在感兴趣的是使用我们训练过的网络产生的输出概率。

考虑教人去认识MNIST数据集的英文数字。你的学生可能会问 —— 那个看起来像7吗？如果是这样的话，这绝对是个好消息，因为你的学生，肯定知道1和7是什么样子。作为一名教师，你能够把你的数字知识传授给你的学生。这种想法也有可能扩展到神经网络。

知识蒸馏的高层机制

所以，这是一个高层次的方法：

训练一个在数据集上表现良好神经网络。这个网络就是“教师”模型。
使用教师模型在相同的数据集上训练一个学生模型。这里的问题是，学生模型的大小应该比老师的小得多。

本工作流程简要阐述了知识蒸馏的思想。

为什么要小？这不是我们想要的吗？将一个轻量级模型部署到生产环境中，从而达到足够的性能。

用图像分类的例子来学习

对于一个图像分类的例子，我们可以扩展前面的高层思想：

训练一个在图像数据集上表现良好的教师模型。在这里，交叉熵损失将根据数据集中的真实标签计算。

在相同的数据集上训练一个较小的学生模型，但是使用来自教师模型(softmax输出)的预测作为ground-truth标签。这些softmax输出称为软标签。稍后会有更详细的介绍。

我们为什么要用软标签来训练学生模型？

请记住，在容量方面，我们的学生模型比教师模型要小。因此，如果你的数据集足够复杂，那么较小的student模型可能不太适合捕捉训练目标所需的隐藏表示。我们在软标签上训练学生模型来弥补这一点，它提供了比独热编码标签更有意义的信息。在某种意义上，我们通过暴露一些训练数据集来训练学生模型来模仿教师模型的输出。

希望这能让你们对知识蒸馏有一个直观的理解。在下一节中，我们将更详细地了解学生模型的训练机制。

知识蒸馏中的损失函数

为了训练学生模型，我们仍然可以使用教师模型的软标签以及学生模型的预测来计算常规交叉熵损失。学生模型很有可能对许多输入数据点都有信心，并且它会预测出像下面这样的概率分布：

高置信度的预测

扩展Softmax

这些弱概率的问题是，它们没有捕捉到学生模型有效学习所需的信息。例如，如果概率分布像[0.99, 0.01]，几乎不可能传递图像具有数字7的特征的知识。

Hinton等人解决这个问题的方法是，在将原始logits传递给softmax之前，将教师模型的原始logits按一定的温度进行缩放。这样，就会在可用的类标签中得到更广泛的分布。然后用同样的温度用于训练学生模型。

我们可以把学生模型的修正损失函数写成这个方程的形式：

其中，pi是教师模型得到软概率分布，si的表达式为：

def get_kd_loss(student_logits, teacher_logits, true_labels, temperature, alpha, beta): teacher_probs = tf.nn.softmax(teacher_logits / temperature) kd_loss = tf.keras.losses.categorical_crossentropy( teacher_probs, student_logits / temperature, from_logits=True)return kd_loss

使用扩展Softmax来合并硬标签

Hinton等人还探索了在真实标签(通常是独热编码)和学生模型的预测之间使用传统交叉熵损失的想法。当训练数据集很小，并且软标签没有足够的信号供学生模型采集时，这一点尤其有用。

当它与扩展的softmax相结合时，这种方法的工作效果明显更好，而整体损失函数成为两者之间的加权平均。

def get_kd_loss(student_logits, teacher_logits, true_labels, temperature, alpha, beta): teacher_probs = tf.nn.softmax(teacher_logits / temperature) kd_loss = tf.keras.losses.categorical_crossentropy( teacher_probs, student_logits / temperature, from_logits=True) ce_loss = tf.keras.losses.sparse_categorical_crossentropy( true_labels, student_logits, from_logits=True) total_loss = (alpha * kd_loss) + (beta * ce_loss)return total_loss / (alpha + beta)

建议β的权重小于α。

在原始Logits上进行操作

Caruana等人操作原始logits，而不是softmax值。这个工作流程如下：

这部分保持相同 —— 训练一个教师模型。这里交叉熵损失将根据数据集中的真实标签计算。
现在，为了训练学生模型，训练目标变成分别最小化来自教师和学生模型的原始对数之间的平均平方误差。

mse = tf.keras.losses.MeanSquaredError()def mse_kd_loss(teacher_logits, student_logits):return mse(teacher_logits, student_logits)

使用这个损失函数的一个潜在缺点是它是无界的。原始logits可以捕获噪声，而一个小模型可能无法很好的拟合。这就是为什么为了使这个损失函数很好地适合蒸馏状态，学生模型需要更大一点。

Tang等人探索了在两个损失之间插值的想法：扩展softmax和MSE损失。数学上，它看起来是这样的：

根据经验，他们发现当α = 0时，(在NLP任务上)可以获得最佳的性能。

如果你在这一点上感到有点不知怎么办，不要担心。希望通过代码，事情会变得清楚。

一些训练方法

在本节中，我将向你提供一些在使用知识蒸馏时可以考虑的训练方法。

使用数据增强

他们在NLP数据集上展示了这个想法，但这也适用于其他领域。为了更好地指导学生模型训练，使用数据增强会有帮助，特别是当你处理的数据较少的时候。因为我们通常保持学生模型比教师模型小得多，所以我们希望学生模型能够获得更多不同的数据，从而更好地捕捉领域知识。

使用标记的和未标记的数据训练学生模型

在像Noisy Student Training和SimCLRV2这样的文章中，作者在训练学生模型时使用了额外的未标记数据。因此，你将使用你的teacher模型来生成未标记数据集上的ground-truth分布。这在很大程度上有助于提高模型的可泛化性。这种方法只有在你所处理的数据集中有未标记数据可用时才可行。有时，情况可能并非如此(例如，医疗保健)。Xie等人探索了数据平衡和数据过滤等技术，以缓解在训练学生模型时合并未标记数据可能出现的问题。

在训练教师模型时不要使用标签平滑

标签平滑是一种技术，用来放松由模型产生的高可信度预测。它有助于减少过拟合，但不建议在训练教师模型时使用标签平滑，因为无论如何，它的logits是按一定的温度缩放的。因此，一般不推荐在知识蒸馏的情况下使用标签平滑。

使用更高的温度值

Hinton等人建议使用更高的温度值来soften教师模型预测的分布，这样软标签可以为学生模型提供更多的信息。这在处理小型数据集时特别有用。对于更大的数据集，信息可以通过训练样本的数量来获得。

实验结果

让我们先回顾一下实验设置。我在实验中使用了Flowers数据集。除非另外指定，我使用以下配置：

我使用MobileNetV2作为基本模型进行微调，学习速度设置为1e-5，Adam作为优化器。
我们将τ设置为5。
α = 0.9，β = 0.1。
对于学生模型，使用下面这个简单的结构：

Layer (type) Output Shape Param # ================================================================= conv2d (Conv2D) (None, 222, 222, 64) 1792 _________________________________________________________________ max_pooling2d (MaxPooling2D) (None, 55, 55, 64) 0 _________________________________________________________________ conv2d_1 (Conv2D) (None, 53, 53, 128) 73856 _________________________________________________________________ global_average_pooling2d_3 ( (None, 128) 0 _________________________________________________________________ dense_3 (Dense) (None, 512) 66048 _________________________________________________________________ dense_4 (Dense) (None, 5) 2565 =================================================================

在训练学生模型时，我使用Adam作为优化器，学习速度为1e-2。

在使用数据增强训练student模型的过程中，我使用了与上面提到的相同的默认超参数的加权平均损失。

学生模型基线

为了使性能比较公平，我们还从头开始训练浅的CNN并观察它的性能。注意，在本例中，我使用Adam作为优化器，学习速率为1e-3。

训练循环

在看到结果之前，我想说明一下训练循环，以及如何在经典的model.fit()调用中包装它。这就是训练循环的样子：

def train_step(self, data): images, labels = data teacher_logits = self.trained_teacher(images)with tf.GradientTape() as tape: student_logits = self.student(images) loss = get_kd_loss(teacher_logits, student_logits) gradients = tape.gradient(loss, self.student.trainable_variables) self.optimizer.apply_gradients(zip(gradients, self.student.trainable_variables)) train_loss.update_state(loss) train_acc.update_state(labels, tf.nn.softmax(student_logits)) t_loss, t_acc = train_loss.result(), train_acc.result() train_loss.reset_states(), train_acc.reset_states()return {"loss": t_loss, "accuracy": t_acc}

如果你已经熟悉了如何在TensorFlow 2中定制一个训练循环，那么train_step()函数应该是一个容易阅读的函数。注意get_kd_loss() 函数。这可以是我们之前讨论过的任何损失函数。我们在这里使用的是一个训练过的教师模型，这个模型我们在前面进行了微调。通过这个训练循环，我们可以创建一个可以通过.fit()调用进行训练完整模型。

首先，创建一个扩展tf.keras.Model的类。

class Student(tf.keras.Model):def __init__(self, trained_teacher, student): super(Student, self).__init__() self.trained_teacher = trained_teacher self.student = student

当你扩展tf.keras.Model 类的时候，可以将自定义的训练逻辑放到train_step()函数中(由类提供)。所以，从整体上看，Student类应该是这样的：

class Student(tf.keras.Model):def __init__(self, trained_teacher, student): super(Student, self).__init__() self.trained_teacher = trained_teacher self.student = studentdef train_step(self, data): images, labels = data teacher_logits = self.trained_teacher(images)with tf.GradientTape() as tape: student_logits = self.student(images) loss = get_kd_loss(teacher_logits, student_logits) gradients = tape.gradient(loss, self.student.trainable_variables) self.optimizer.apply_gradients(zip(gradients, self.student.trainable_variables)) train_loss.update_state(loss) train_acc.update_state(labels, tf.nn.softmax(student_logits)) t_loss, t_acc = train_loss.result(), train_acc.result() train_loss.reset_states(), train_acc.reset_states()return {"train_loss": t_loss, "train_accuracy": t_acc}

你甚至可以编写一个test_step来自定义模型的评估行为。我们的模型现在可以用以下方式训练：

student = Student(teacher_model, get_student_model()) optimizer = tf.keras.optimizers.Adam(learning_rate=0.01) student.compile(optimizer) student.fit(train_ds, validation_data=validation_ds, epochs=10)

这种方法的一个潜在优势是可以很容易地合并其他功能，比如分布式训练、自定义回调、混合精度等等。

使用训练学生模型

用这个损失函数训练我们的浅层学生模型，我们得到~74%的验证精度。我们看到，在epochs 8之后，损失开始增加。这表明，加强正则化可能会有所帮助。另外，请注意，超参数调优过程在这里有重大影响。在我的实验中，我没有做严格的超参数调优。为了更快地进行实验，我缩短了训练时间。

使用训练学生模型

现在让我们看看在蒸馏训练目标中加入ground truth标签是否有帮助。在β = 0.1和α = 0.1的情况下，我们得到了大约71%的验证准确性。再次表明，更强的正则化和更长的训练时间会有所帮助。

使用训练学生模型

使用了MSE的损失，我们可以看到验证精度大幅下降到~56%。同样的损失也出现了类似的情况，这表明需要进行正则化。

请注意，这个损失函数是无界的，我们的浅学生模型可能无法处理随之而来的噪音。让我们尝试一个更深入的学生模型。

在训练学生模型的时候使用数据增强

如前所述，学生模式比教师模式的容量更小。在处理较少的数据时，数据增强可以帮助训练学生模型。我们验证一下。

数据增加的好处是非常明显的：

我们有一个更好的损失曲线。
验证精度提高到84%。

温度(τ)的影响

在这个实验中，我们研究温度对学生模型的影响。在这个设置中，我使用了相同的浅层CNN。

从上面的结果可以看出，当τ为1时，训练损失和训练精度均优于其它方法。对于验证损失，我们可以看到类似的行为，但是在所有不同的温度下，验证的准确性似乎几乎是相同的。

最后，我想研究下微调基线模是否对学生模型有显著影响。

基线模型调优的效果

在这次实验中，我选择了 EfficientNet B0作为基础模型。让我们先来看看我用它得到的微调结果。注意，如前所述，所有其他超参数都保持其默认值。

我们在微调步骤中没有看到任何显著的改进。我想再次强调，我没有进行严格的超参数调优实验。基于我从EfficientNet B0得到的边际改进，我决定在以后的某个时间点进行进一步的实验。

第一行对应的是用加权平均损失训练的默认student model，其他行分别对应EfficientNet B0和MobileNetV2。注意，我没有包括在训练student模型时通过使用数据增强而得到的结果。

知识蒸馏的一个好处是，它与其他模型优化技术(如量化和修剪)无缝集成。所以，作为一个有趣的实验，我鼓励你们自己尝试一下。

总结

知识蒸馏是一种非常有前途的技术，特别适合于用于部署的目的。它的一个优点是，它可以与量化和剪枝非常无缝地结合在一起，从而在不影响精度的前提下进一步减小生产模型的尺寸。

英文原文：

https://wandb.ai/authors/knowledge-distillation/reports/Distilling-Knowledge-in-Neural-Networks--VmlldzoyMjkxODk

推荐阅读

四两拨千斤！2020深度主动学习综述
AABO：自适应最优化Anchor设置，性能榨取的最后一步丨ECCV 2020 Spotlight
详解目标检测(MMdetection)-HOOK机制

添加极市小助手微信(ID : cvmart2)，备注：姓名-学校/公司-研究方向-城市(如：小极-北大-目标检测-深圳)，即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群：每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~

神经网络 mse一直不变_神经网络中的蒸馏技术，从Softmax开始说起_第11张图片

△长按添加极市小助手

神经网络 mse一直不变_神经网络中的蒸馏技术，从Softmax开始说起_第12张图片

△长按关注极市平台，获取 最新CV干货 觉得有用麻烦给个在看啦~

双一流软件工程大二听闻 Java 前景堪忧，是否该转C++或人工智能或者读研？程序员yt java c++人工智能
今天给大家分享的是一位粉丝的提问，双一流软件工程大二听闻Java前景堪忧，是否该转C++或人工智能或者读研？接下来把粉丝的具体提问和我的回复分享给大家，希望也能给一些类似情况的小伙伴一些启发和帮助。同学提问：yt老师好，我是双一流软件工程的大二学生，一直在学习java方向，目前掌握了数据库，spring框架等内容，大一暑假在老家一个小公司找了段实习，有蓝桥杯java组b组国一，专业排名前2（保研名
(BS ISO 11898-1:2015）CAN_FD 总线协议详解5- MAC子层描述4 s多情公子s CAN_FD协议详解信息与通信网络协议
5.5帧编码帧中的比特流应按照不归零（NRZ,Non-Return-to-Zero）方法进行编码。这意味着在整个比特时间内生成的比特电平是恒定不变的。为了限制可用于同步的最大边沿（即信号波形的上升沿或下降沿）间距，帧的不同部分如起始边界（SOF,StartofFrame）、仲裁字段、控制字段、数据字段以及CRC序列应当采用比特填充的方法进行编码。每当发送器检测到连续五个相同值的比特（包括填充比特）
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
从技术宝库到云上机遇：华为云开天aPaaS的“修路记” 脑极体大数据人工智能物联网区块链编程语言
很多企业在推进数字化、业务上云的时候，都会面临一个两难选择：缺失核心技术容易丧失竞争力，跟不上发展机遇；大力投入核心技术研发，又可能因为开发成本过大，“重复造轮子”而影响进程。无论对于移动开发者还是产业向开发者来说，能够在低门槛、低成本的前提下获得高质量的核心技术，始终都是不变的需求。如何打开一扇从核心技术到云上赋能各领域开发者的门，成为了一项关键挑战。今年上半年，华为高级副总裁、华为云CEO、消
PyTorch基础知识讲解（一）完整训练流程示例苏雨流丰机器学习 pytorch 人工智能 python 机器学习深度学习
文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型。本教程向你介绍一个用PyTorch实现的完整的ML工作流程，并提供链接来了解这些概念中的每一个。我们将使用FashionMNIST数据集来训练一个神经网络，预测输入图像是否属于以下
AI进化论：从图灵测试到智能革命的临界点 A达峰绮人工智能数据处理经验分享 AIGC AI人工智能
智能觉醒的起源密码（1943-2010）在曼彻斯特维多利亚大学的实验室里，1948年"Baby"计算机完成人类首个存储程序运行实验时，艾伦·图灵正在构思《计算机器与智能》。这篇划时代论文提出的"模仿游戏"测试，为人工智能奠定了哲学基础。1956年达特茅斯会议上，麦卡锡正式提出"人工智能"概念，当时学界乐观预测"二十年内机器将完成人类所有工作"。神经网络的发展轨迹充满戏剧性：1958年罗森布拉特发明
SvelteKit 最新中文文档教程（8）—— 部署 Node 服务端
前言Svelte，一个语法简洁、入门容易，面向未来的前端框架。从Svelte诞生之初，就备受开发者的喜爱，根据统计，从2019年到2024年，连续6年一直是开发者最感兴趣的前端框架No.1：Svelte以其独特的编译时优化机制著称，具有轻量级、高性能、易上手等特性，非常适合构建轻量级Web项目。为了帮助大家学习Svelte，我同时搭建了Svelte最新的中文文档站点。如果需要进阶学习，也可以入手我
钉钉发布“AI创新N次方计划”，为AI生态免除佣金、保证金和算力费用量子位
3月20日，钉钉在北京举办了“AI创业N次方”生态创新大会。会上，钉钉发布了一系列全新生态政策，为AI创业者、AI转型者提供助力：包括免除佣金、免除入驻保证金和免除算力费用，并在销售、品牌、技术和投资等方面提供支持，为生态伙伴提供AI应用创业创新的全方位助力。发布AI创新扶持计划：“三免四助力”钉钉副总裁、开放平台总经理王铭在会上表示：“开放是钉钉一直以来的信仰。AI时代大幕拉开，钉钉生态也进入新
使用 Milvus 进行向量数据库管理与实践 qahaj milvus 数据库 python
技术背景介绍在当今的AI与机器学习应用中，处理和管理大量的嵌入向量是一个常见的需求。Milvus是一个开源向量数据库，专门用于存储、索引和管理深度神经网络以及其他机器学习模型生成的大规模嵌入向量。它的高性能和易用性使其成为处理向量数据的理想选择。核心原理解析Milvus的核心功能体现在其强大的向量索引和搜索能力。它支持多种索引算法，包括IVF、HNSW等，使其能够高效地进行大规模向量的相似性搜索操
物理学不存在了？诺贝尔物理学奖颁给了人工智能资讯新鲜事人工智能
2024年10月8日，瑞典皇家科学院宣布，将2024年诺贝尔物理学奖授予美国普林斯顿大学教授约翰·J·霍普菲尔德（JohnJ.Hopfield）和加拿大多伦多大学教授杰弗里·E·辛顿（GeoffreyE.Hinton），以表彰他们“在人工神经网络机器学习方面的基础性发现和发明”。辛顿在接受电话采访时表示：“完全没想到”。实话实说，在结果出来前，大家也都没想到。因为在外界预测里，今年的诺贝尔物理学奖
免费GIS工具箱：支持多种格式的模型预览及编辑，还能进行协同编辑 GISBox GISBox GIS 切片分发倾斜摄影 OBJ FBX OSGB
市面上不少GIS软件价格高昂，功能却不尽人意。但GISBox却不太一样，它的切片、分发功能完全免费，能预览、编辑多种格式模型，还支持协同编辑，性价比远超同类软件，如果你想进一步了解它，不妨看看这篇文章。01打破价格与功能的双重困境在地理信息系统（GIS）领域，大多数软件的高价一直是小型企业、科研团队以及个人开发者的一大阻碍。这些软件不仅采购成本高，后续的维护和升级费用也不低。与此同时，很多软件功能
如何用PHP开发一个api数据接口幽蓝计划 php
对于一个iOS开发者来说，我一直觉得会写接口是一件很酷的事情，因为它可以实时修改前台数据，而不像App一样需要更新版本和接受审核。更重要的是，它意味着你的技术完成了一个闭环，可以独自完成一整个项目的开发。PHP是我接触的第一个脚本语言，使用之后更是感觉PHP功能强大，开发过程非常友好方便，虽然之后也学习过Python、JavaScript等语言，但现在还是习惯使用PHP，下面就来介绍一下如何用PH
SOFAStack-00-sofa 技术栈概览老马啸西风 sofa 架构监控阿里云系统架构
SOFAStack前言大家好，我是老马。sofastack其实出来很久了，第一次应该是在2022年左右开始关注，但是一直没有深入研究。最近想学习一下SOFA对于生态的设计和思考。核心项目⚙️SOFABootGitHub:sofastack/sofa-boot|★3.8k功能：企业级SpringBoot增强框架，支持模块化开发、类隔离、日志隔离，提供健康检查、异步初始化等特性。SOFARPCGitH
代码随想录算法训练营第八天| 344 反转字符串、541 反转字符串II Anjoubecoding 算法数据结构 c++c语言 leetcode
这两天开的是字符串专题，我准备在做题的时候用C++做一遍，再用C做一遍，因为一直刷leetcode用的都是C++，导致C的基础太薄弱了，之后工作中有可能用到C，相当于再复习复习一、Leetcode344反转字符串题目链接：Leetcode344反转字符串这道题很简单，这才是真正的简单题voidreverseString(char*s,intsSize){intleft=0,right=sSize-
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
css预编译风不在乎前端 css css 前端 scss less stylus
前言定义我们使用css来编写样式，但是随着样式效果的多样化以及复杂化，css变量常量的缺失、语法的呆板等一成不变的写法就会十分臃肿难以维护。所以基于css扩展了一套属于自己的语法，通过专门的编程语言，扩展css的编程能力，在编译成css。常见的库有less、scss/sass、stylus等。特点完美兼容css代码，结构清晰便于扩展支持css定义变量常量、代码嵌套提供函数，支持循环语句支持模块化，
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
C语言，记录一次局部变量被意外修改的问题三日沐水嵌入式全套学习教程 c语言
背景：单片机开发过程中，我在函数体内（begin_face_record）定义了一个局部变量data_length，在使用的时候，该局部变量一直别改变，每次调用其他函数，例如c库里面的函数memcpy，不知什么情况data_length值就会被改变。1、源码分析voidmain(void){init_gpio();init_face();face_power_up();begin_face_rec
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
胡思又乱想（四）水军一号笔记
本月已上班13天，迟到7次，累积时长71分钟。感觉我对自己有点过于宽容了。今天终于没有迟到。坐到工位第一件事，快速梳理今天的工作，我习惯拿笔写下来。主要工作只有一个：完成一份项目结项报告PPT+Word。其他就是琐碎的售后处理，对接沟通，退换货的事。不出意外的话，今天毫无压力。按时要求自己喝水，自然还要按时上厕所，这样就不会一直坐着了。中午吃饭没有选到好吃的菜，土豆炖鸡块里的土豆竟然没有炖烂；青椒
java面试题,什么是动态代理？、动态代理和静态代理有什么区别？说一下反射机制？JDK Proxy 和 CGLib 有什么区别？动态代理的底层述雾学java java 开发语言 java面试题反射 java核心基础
什么是动态代理？动态代理是在程序运行期，动态的创建目标对象的代理对象，并对目标对象中的方法进行功能性增强的一种技术。在生成代理对象的过程中，目标对象不变，代理对象中的方法是目标对象方法的增强方法。可以理解为运行期间，对象中方法的动态拦截，在拦截方法的前后执行功能操作。动态代理的常见使用场景有：统计每个api的请求耗时；统一的日志输出；校验被调用的api是否已经登录和权限鉴定；SpringAOP。动
SvelteKit 最新中文文档教程（6）—— 状态管理冴羽yayujs Svelte 中文文档前端 javascript 前端框架 vue.js react svelte sveltekit
前言Svelte，一个语法简洁、入门容易，面向未来的前端框架。从Svelte诞生之初，就备受开发者的喜爱，根据统计，从2019年到2024年，连续6年一直是开发者最感兴趣的前端框架No.1：Svelte以其独特的编译时优化机制著称，具有轻量级、高性能、易上手等特性，非常适合构建轻量级Web项目。为了帮助大家学习Svelte，我同时搭建了Svelte最新的中文文档站点。如果需要进阶学习，也可以入手我
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
绕过 reCAPTCHA V2/V3：Python、Selenium 指南 qq_33253945 python selenium javascript 网络爬虫爬虫算法
前言验证码（CAPTCHA）技术已经存在许多年，尽管它的有效性一直备受争议，但许多网站仍然依赖它来保护资源。尤其是Google推出的reCAPTCHA系列，一直是验证码领域的佼佼者。本文将详细介绍如何绕过reCAPTCHAV2和V3，并提供实用的代码示例。详情请见：解决验证码recaptcha、cloudflare、incapsula1.什么是reCAPTCHA？reCAPTCHA是Google推
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
机器学习是怎么一步一步由神经网络发展到今天的Transformer架构的？ yuanpan 机器学习神经网络 transformer
机器学习和神经网络的发展经历了一系列重要的架构和技术阶段。以下是更全面的总结，涵盖了从早期神经网络到卷积神经网络之前的架构演变：1.早期神经网络：感知机（Perceptron）时间：1950年代末至1960年代。背景：感知机由FrankRosenblatt提出，是第一个具有学习能力的神经网络模型。它由单层神经元组成，可以用于简单的二分类任务。特点：输入层和输出层之间直接连接，没有隐藏层。使用简单的
关于误差平面小记文弱_书生乱七八糟平面算法神经网络机器学习
四维曲面的二维切片：误差平面详解在深度学习优化过程中，我们通常研究损失函数（LossFunction）的变化，试图找到权重的最优配置。由于神经网络的参数空间通常是高维的，我们需要使用低维可视化的方法来理解优化过程和误差平面（ErrorSurface）。在这里，我们讨论一个四维曲面的二维切片，其中：三个维度是网络的权重（w1,w2,w3w_1,w_2,w_3w1,w2,w3）。第四个维度是误差（损失
关于神经网络中的激活函数文弱_书生乱七八糟神经网络人工智能深度学习
激活函数（ActivationFunction）详解理解首先煮波解释一下这四个字，“函数”相信大家都不陌生，能点进来看这篇文章说明你一定经历至少长达十年的数学的摧残，关于这个概念煮波就不巴巴了，煮波主要说一下“激活”，大家可能或多或少的看过类似于古装，玄幻，修仙等类型的小说或者电视剧。剧中的主角往往是天赋异禀或则什么神啊仙啊的转世，但是这一世他却被当成了普通人，指导某一时刻才会迸发出全部的能量（主
常见经典目标检测算法 109702008 人工智能 #深度学习目标检测人工智能
ChatGPT目标检测（ObjectDetection）是计算机视觉领域的一个重要分支，其目的是识别数字图像中的不同对象，并给出它们的位置和类别。近年来，许多经典的目标检测算法被提出并广泛应用。以下是一些常见的经典目标检测算法：1.R-CNN（RegionswithCNNfeatures）:R-CNN通过使用区域提议方法（如选择性搜索）首先生成潜在的边界框，然后使用卷积神经网络(CNN)提取特征，
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$

神经网络 mse一直不变_神经网络中的蒸馏技术，从Softmax开始说起

Softmax告诉了我们什么？

使用Softmax的信息来教学 —— 知识蒸馏

知识蒸馏的高层机制

用图像分类的例子来学习

我们为什么要用软标签来训练学生模型？

知识蒸馏中的损失函数

扩展Softmax

使用扩展Softmax来合并硬标签

在原始Logits上进行操作

一些训练方法

使用数据增强

使用标记的和未标记的数据训练学生模型

使用更高的温度值

实验结果

学生模型基线

训练循环

使用训练学生模型

使用训练学生模型

使用训练学生模型

在训练学生模型的时候使用数据增强

温度(τ)的影响

基线模型调优的效果

总结

你可能感兴趣的:(神经网络,mse一直不变)