不知道叫啥好一点

Channel-wise Knowledge Distillation for Dense Prediction阅读笔记

Channel-wise KD阅读笔记

- (一) Title
- (二) Summary
- (三) Research Object
- (四) Problem Statement
- (五) Method
- - 5.1 spatial distillation
  - 5.2 Channel-wise Distillation
- (六) Experiments
- - 6.1 实验设置
  - 6.2 和最近knowledge Distillation方法相比
  - 6.3 消融实验
  - 6.4 目标检测任务
- (七) Conclusion
- (八) Notes
- - 8.1 Dense Prediction任务中KD之前的工作

(一) Title

论文地址:https://arxiv.org/abs/2011.13256
代码地址:https://github.com/irfanICMLL/TorchDistiller/tree/main/SemSeg-distill
前言:本文的主要工作集中在5.2小节,思路简单并且比较novel

(二) Summary

背景工作:

大量的Knowledge distillation(KD)工作集中在空间域上处理教师网络和学生网络的激活图,具体的做法是将activation values经过normalization之后再最小化point-wise和/或pair-wise的差异。

本文工作:

本文的工作在每一个channel上normalization激活图特征值,从而得到一个soft probability map,通过最小化教师网络和学生网络之间channel-wise probability map的Kullback-Leibler(KL) divergence来实现蒸馏,实现对特征图上突出部分提高注意力。

实验结果:

在目标检测任务中帮助RetinaNet detector(ResNet50)的mAP提升了3.4%，在semantic segmentation任务中帮助mIoU提升了5.81%。

本文贡献:

不同于现有的spatial distillation approaches,本文提出的是一种channel-wise distillation,并且是比较简单的.
在目标检测任务以及semantic segmentation任务中,取得了超越state-of-the-art KD方法的成绩,并且方法是通用的。

(三) Research Object

本文通过改进前人工作中存在的过于严格的约束，以及不同空间位置在知识transfer过程中等价的问题,提出了一个基于Kullback-Leibler(KL) divergence的方法.
首先,对于特征图的每一个通道进行normalization,最小化经过norm的特征图之间的非对称KL divergence,也就是将每一个channel转换成一个分布,利用分布之间的约束来进行蒸馏，这种对通道进行norm的方式能够凸显需要关注的部分,如下图所示:

通过这种方式处理activation能够更突出significant的激活值,这里一定会有激活值大的地方在知识transfer中得到的关注更多嘛？怎么去看待这个"关注"？第二个问题,一个训练好的网络的激活图norm之后表现情况是上面嘛？尤其是检测任务。

(四) Problem Statement

目前现有的知识蒸馏主要集中在分类任务上,本文希望解决dense prediction下的KD问题,然而简单的pixel-wise的方式并不能够很好的解决当前的问题，本文怎么考虑整个activation feature map中不同spatial position之间的差异以及如何施加不严苛的约束来实现对dense prediction的蒸馏呢？

(五) Method

5.1 spatial distillation

现有的空间蒸馏方式如下式所示:
$\ell\left(y, y^{S}\right)+\alpha \cdot \varphi\left(\phi\left(y^{T}\right), \phi\left(y^{S}\right)\right)$
上式中 $\ell\left(.\right)$ 表示当前的任务损失,其中 $y$ 表示Ground-Truth的标签,然后 $y^S$ 和 $y^T$ 分别表示学生网络和教师网络activations的logits或者inner。 $\alpha$ 表示平衡损失项的超参数,这里的疑问是 $\varphi$ 和 $\phi$ 表示的是什么？我认为这两个函数表示应该是教师网络和学生网络之间activation损失的计算,以本文为例，这里的 $\phi$ 可以表示channel-wise normalization, $\varphi$ 表示Kullback-Leibler divergence function
现有spatial distillation方法的简要概述如下:

Attention Transfer(AT)[42]中通过使用attention mak来squeeze the feature map into a single channel for distillation。

pixel-wise loss[17]采用point-wise class probabilities

loss affinity[35]通过计算center pixel和它8邻域之间的距离来进行蒸馏

pairwise affinity[25,14,24]用来transfer pixel pairs之间的相似性,

holistic loss[25,24]通过adversarial scheme来align high-order relations between feature maps from two networks。

这些是整理的之前的一些方法,有时间精力的话再去看看估计不太行,时间不充裕

5.2 Channel-wise Distillation

将教师网络和学生网络对应通道经过softly align activations进行蒸馏,可以将通道的activation转换成概率分布，通过概率分布之间的距离度量比如说KL divergence来度量差异,进行回归。对于分割问题来说,一个好的教师网络学习到的activation maps应该具有category=specific masks对于每一个channel而言，如下图所示:

符号表示: $S$ 表示学生网络, $T$ 表示教师网络,学生网络和教师网络的activation maps表示为 $y^S$ 以及 $y^T$ ,通道之间的蒸馏损失可以被形式化为：
$\varphi\left(\phi\left(y^{T}\right), \phi\left(y^{S}\right)\right)=\varphi\left(\phi\left(y_{c}^{T}\right), \phi\left(y_{c}^{S}\right)\right)$
其中 $\phi$ 用于将activation values转换成概率分布,表现形式如下所示:
$\phi\left(y_{c}\right)=\frac{\exp \left(\frac{y_{c, i}}{\mathcal{T}}\right)}{\sum_{i=1}^{W \cdot H} \exp \left(\frac{y_{c, i}}{\mathcal{T}}\right)}$
其中 $\ldots, C$ ,表示通道的index索引, $i$ 表示一个特征图通道的空间位置索引, $\mathcal{T}$ 表示温度超参数,通过softmax normalization将不同网络尺度以及复杂度的影响消除了,这种归一化方式对于KD是有效的,如果学生网络和教师网络的channel数量不匹配，则使用 $1\times1$ 卷积来对学生网络通道数进行上采样, $\varphi$ 用于评估教师网络和学生网络channel分布之间的差异,这里使用的是KL 散度:
$\varphi\left(y^{T}, y^{S}\right)=\frac{\mathcal{T}^{2}}{C} \sum_{c=1}^{C} \sum_{i=1}^{W \cdot H} \phi\left(y_{c, i}^{T}\right) \cdot \log \left[\frac{\phi\left(y_{c, i}^{T}\right)}{\phi\left(y_{c, i}^{S}\right)}\right]$
KL散度并不是对称形式的,从上式中可以看到,当 $\phi\left(y_{c, i}^{T}\right)$ 很大时,则 $\phi\left(y_{c, i}^{S}\right)$ 也应该同教师网络一样大,从而最小化KL散度,而当 $\phi\left(y_{c, i}^{T}\right)$ 很小时,KL散度pay less attention to minimize $\phi\left(y_{c, i}^{S}\right)$ ，因此,学生网络能够对于前景显著区域的分布较好地学习,而对于背景区域activation的学习较小,这种不对称刚好能够帮助密集预测任务的学习。

(六) Experiments

6.1 实验设置

数据集: semantic segmentation任务采用Cityscapes,ADE20K以及Pascal VOC。object detection任务采用MS-COCO.
评价指标:semantic segmentation任务中在single-scale setting下使用mean Intersection-over-Union(mIoU)，floating-point operations per second(FLOPs),mean class Accuracy(mAcc).目标检测任务中:采用mAP,FPS以及model size作为评价指标
实现细节: 对于语义分割任务,教师网络采用PSPNet with ResNet101,学生网络采用ResNet18,MobileNetV2来验证方法的有效性。设置温度系数 $\mathcal{T}=4$ ,损失权重对于logits map来说是 $\alpha=3$ ,对于feature map来说是 $\alpha=50$ .

6.2 和最近knowledge Distillation方法相比

在分割任务中将本文提出的方法同其他的distillation方法进行对比,这里同时对最后的logits map以及feature map进行蒸馏.
给定输入feature map(logits map),对应的尺寸为 $h_{f} \times w_{f} \times c\left(h_{s} \times w_{s} \times n\right)$ ,其中 $h_{f}(h_{s}) \times w_{f}(w_{s})$ 是feature map(logits map)的形状, $c$ 是channels的数量, $n$ 是类别的数量。并且从上图中的结果来看,channel wise distillation的工作还是相当不错的.
上图是不同类别之间的效果。

6.3 消融实验

教师模型采用PSPNet-R101,学生网络采用PSPNet-R18,实验结果在Cityscapes数据集上进行了验证。

‘PI’表示pixel-level knowledge distillation,也就是每一个空间位置对于activation进行normalize,’ $L_2$ w/o NORM’表示直接最小化两个网络feature map之间的差异，将所有的spatial position同等看待.'Bhat’表示Bhattacharyya distance是对称的分布measurement,
不同的损失权重下温度系数的影响

语义分割任务上的对比效果

蒸馏网络师生差异越小,蒸馏性能的提升越不显著

6.4 目标检测任务

(七) Conclusion

本文提出了一种基于channel-wise的用于dense prediction任务的蒸馏方法,这里将每一个通道的activations归一化为一个概率图,接着使用不对称的KL散度来最小化学生网络和教师网络之间的差异,在semantic segmentation以及object detection任务中都能够取得比当前knowledge distillation更好的性能。

(八) Notes

8.1 Dense Prediction任务中KD之前的工作

首先先明确什么是Dense Prediction？首先Dense Prediction就是per-pixel prediction问题,是相对于image-level的分类任务而言的,包括semantic segmentation以及object detection任务。
之前的KD工作是怎么处理Dense Prediction问题？

一种方式通过严格的对齐point-wise classification scores或者feature maps,然而过于严苛的约束,导致了sub-optimal solutions

另一种方式在不同空间位置上enforce the correlations[对应论文:Structured knowledge distillation for dense prediction,Structured knowledge distillation for semantic segmentation以及Inter-region affinity distillation for road marking segmentation],首先在特征图上每一个spatial location上进行normalize,接着使用aggregation a sub-set of different spatial locations通过pair-wise relations以及inter-class relations。这边没有看懂，上式工作中的问题是在知识transfer过程中每一个空间位置都是等价的,这个没有重点,不合理,

channel distillation中将activation in each channel transfer into one aggregated scalar，从而帮助进行image-level的分类任务,但是丢失了空间的位置信息。

具体到分割任务中,

对应参考文献[35]提到通过构建similarity map来最小化教师网络和学生网络之间的discrepancy of segmented boundary information,将中心pixel和8邻域pixel之间的欧式距离用于knowledge transfer。

文献[24,25]中提出两种方式来捕捉pixels之间的结构信息，包括pixel和有discriminator捕获的整体相关性进行pair-wise similarity

文献[34]研究具有相同标签的像素之间的类别特征的变化,构建每个像素的特征与其对应的类内原型之间的余弦距离集,从而来传递structural knowledge。

文献[14]中通过feature adaptor来缓解师生网络之间特征mismatching的问题。

再具体到目标检测任务中,

很多文献都发现了在蒸馏过程是区分背景和前景部分是非常有必要的。MIMIC[20]中通过 $L_2$ loss来约束学生网络RPN对应的feature map的同教师网络尽可能保持一致，然而直接使用pixel-wise的损失往往会造成目标检测性能损害,对于我自己的情况来看，是损失不容易收敛。

文献[32]中提到对fine-grained feature near object anchor locations进行蒸馏.

文献[33]中生成mask 来区分前景和背景。

再到channel-wise knowledge

文献[50]中通过计算每一个通道activation的均值,并且assigned每一个通道不同的权重来进行加权,进行分类任务的蒸馏工作。

CSC[26]中通过计算所有空间位置以及所有channel之间的pair-wise relations来进行蒸馏。在我看来这种方式过于强硬。

文献[33]中提到每一个channel中包含的信息是通用的,能够在不同的modalities之间进行共享。

你可能感兴趣的:(目标检测,目标检测,深度学习,知识蒸馏)

【北上广深杭大厂AI算法面试题】深度学习篇...MobileNet 系列网络发展与高效性分析（附代码）（二）努力毕业的小土博^_^ AI算法题库人工智能算法深度学习卷积神经网络
【北上广深杭大厂AI算法面试题】深度学习篇…MobileNet系列网络发展与高效性分析（附代码）（二）【北上广深杭大厂AI算法面试题】深度学习篇…MobileNet系列网络发展与高效性分析（附代码）（二）文章目录【北上广深杭大厂AI算法面试题】深度学习篇...MobileNet系列网络发展与高效性分析（附代码）（二）MobileNet系列网络发展与高效性分析（附代码）4.MobileNetV2（2
Docker中GPU的使用指南俞兆鹏云原生实践 docker 容器运维
在当今的计算领域，GPU（图形处理单元）已经成为了加速各种计算密集型任务的关键硬件，特别是在深度学习、科学模拟和高性能计算等领域。Docker作为流行的容器化平台，允许开发者将应用程序及其依赖打包成一个可移植的容器，在不同的环境中运行。当需要在Docker容器中利用GPU的计算能力时，我们需要进行一些特定的配置和设置。本文将详细介绍如何在Docker中使用GPU，从环境准备到实际应用，帮助你充分利
OpenCV 100道面试题及参考答案（7万字长文）大模型大数据攻城狮大厂面试大厂面经 android面试计算机视觉 opencv 实时互动 webrtc
OpenCV简介OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉库，它提供了丰富的函数和工具，用于处理图像和视频。OpenCV最初由英特尔公司开发，现在由一个开源社区维护和发展。主要功能和用途OpenCV的主要功能包括图像和视频处理、特征提取、目标检测、人脸识别、物体跟踪等。它可以用于各种领域，如机器人技术、医学影像、安全监控、自动驾驶等。在图像
目标检测——玉米叶感染数据集 Bryan Ding 人工智能
一、重要性首先，玉米作为世界上重要的粮食作物之一，其生长状况直接影响到粮食产量和粮食安全。玉米叶感染是玉米生长过程中常见的病害之一，会导致玉米叶片出现肿胀、皱缩、扭曲变形等症状，严重时甚至可能形成瘤状物。因此，及早检测玉米叶感染对于保障玉米的健康生长和提高产量具有重要意义。其次，通过玉米叶感染检测，农民和农业科研人员可以及时发现并采取有效的防治措施，防止病害的扩散和加重。这不仅可以减少因病害导致的
【学习笔记5】Linux下cuda、cudnn、pytorch版本对应关系 longii11 linux pytorch 运维
一、cuda和cudnnNVIDIACUDAToolkit（CUDA）为创建高性能GPU加速应用程序提供了一个开发环境。借助CUDA工具包，您可以在GPU加速的嵌入式系统、桌面工作站、企业数据中心、基于云的平台和HPC超级计算机上开发、优化和部署您的应用程序。该工具包包括GPU加速库、调试和优化工具、C/C++编译器以及用于部署应用程序的运行时库。全球的深度学习研究人员和框架开发人员都依赖cuDN
LLM辅助编程：代码自动生成与优化 AI智能涌现深度研究计算机软件编程原理与应用实践 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
LLM,代码生成,代码优化,编程辅助,AI编程,自然语言处理,深度学习1.背景介绍随着软件开发的日益复杂化，程序员面临着越来越高的开发压力和效率要求。传统的编程方式依赖于手动编写代码，这不仅耗时费力，而且容易出现错误。近年来，随着深度学习技术的快速发展，基于大型语言模型（LLM）的代码生成和优化技术逐渐成为软件开发领域的新兴热点。LLM是一种强大的人工智能模型，能够理解和生成人类语言。通过训练大量
国内开源深度学习框架 we19a0sen 深度学习人工智能
目录一、国内开源深度学习框架1、PaddlePaddle（百度飞浆）2、MindSpore（华为昇思）3、MegEngine（旷视天元）4、OneFlow（一流科技）5、Jittor（清华计图）二、快速入手1、PaddlePaddle（百度飞浆）2、MindSpore（华为昇思）3、MegEngine（旷视天元）4、OneFlow（一流科技）5、Jittor（清华计图）三、基础教程1、Paddle
【免费收藏】清华大学DeepSeek使用手册合集 600页完整版周师姐 AI写作学习人工智能 pdf
DeepSeek资料链接：https://pan.quark.cn/s/c927326f70c5在人工智能席卷全球的当下，DeepSeek作为前沿深度学习技术，正推动着全面AI时代的到来。今日，特别为大家推荐《DeepSeek：从入门到精通》，本书由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后团队精心编写。它深度解析DeepSeek的技术核心，详尽阐释其应用场景与操作方法，尤
YOLOv12改进之A2(区域注意力) 清风AI 深度学习算法详解及代码复现深度学习机器学习计算机视觉人工智能算法
注意力回顾注意力机制作为深度学习领域的核心技术，已广泛应用于自然语言处理和计算机视觉等多个领域。在YOLOv12改进之A2中，注意力机制扮演着关键角色。已有研究成果包括：Transformer架构：引入了自注意力机制，有效捕捉输入序列中的长距离依赖关系。CBAM模块：提出了通道和空间注意力的结合，显著提升了图像分类和目标检测的性能。SENet：引入了通道注意力机制，通过自适应学习特征通道的重要性，
YOLOv8目标检测推理流程及C++代码吃鱼不卡次 YOLO onnx c++
这部分主要是使用c++对Onnx模型进行推理，边先贴代码，过段时间再详细补充下代码说明。代码主要分成三部分，1.main_det.cpp推理函数主入口；2.inference_det.h头文件及inference_det.cpp具体函数实现；3.CMakeList.txt.1.main_det推理配置信息全部写在config.txt中，执行代码时会读取该文本中配置信息来进行推理，config.tx
Grok 3能否打破大模型的魔咒？ TGITCIC AI-大模型的落地之道 grok grok3 大模型小模型 scaling law 开源大模型
新模型旧魔咒Grok3的问世，仿佛是科技界的一声惊雷。面对老掉牙的大模型法则，大家不禁要问：这到底意味着什么？以前，一提深度学习就能引出一场血雨腥风，现如今却有人说“没钱也能玩”。这风浪可真是一波未平一波又起。也许这就是科技的魅力：一统江湖的法则瞬间瓦解。缩小与提升大模型不再是唯一的解决方案，大家发现，原来小模型也可以撬动市场。不过，面对如何提升模型的智商，各路英雄却依然不得不面对两个选择：大力度
深度学习_第二轮 Humingway 深度学习深度学习人工智能
损失函数对偏置和权重求导，x、y作为常量确实，当进行模型训练时，(x)和(y)分别代表输入特征和对应的输出值，它们以数据点对的形式存在，一个数据集中通常包含多对这样的数据。每一对((x_i),(y_i))代表了数据集中的一个样本。在计算损失函数的梯度（即关于权重的偏导数）时，需要考虑整个数据集中的所有样本。对于每个样本((x_i),(y_i))，我们计算其对损失函数的贡献，并通过求和或平均这些贡献
对深度学习中的基本概念—梯度的理解 Humingway 深度学习深度学习人工智能
本文讨论一下对“梯度”的理解。“梯度”是深度学习中基本又非常核心的概念，没有它就没有人工智能的今天。然而，即使抛开令人眼花缭乱的术语（比如sgd、ada、moment、adam）不谈，即使最简单的“梯度”本身，也值得讨论一下。1.提出问题该如何理解梯度？让我们结合具体的例子来体会一下。2.定义例子首先，我们定义一个简单的例子，来模拟一下深度学习的学习过程。已知：有一个正确的数据对（或者叫样本），(
《基于WebGPU的下一代科学可视化——告别WebGL性能桎梏》 Eqwaak00 matplotlib webgl 微服务架构云原生分布式
引言：科学可视化的算力革命当WebGL在2011年首次亮相时，它开启了浏览器端3D渲染的新纪元。然而面对当今十亿级粒子模拟、实时物理仿真和深度学习可视化需求，WebGL的架构瓶颈日益凸显。WebGPU作为下一代Web图形标准，通过显存直存、多线程渲染和计算着色器三大革新，将科学可视化性能提升至10倍以上。本文将深入解析如何利用WebGPU突破大规模数据渲染的极限。一、WebGPU核心架构解析1.1
自动驾驶---Perception之大模型应用智能汽车人自动驾驶人工智能机器学习
1背景自动驾驶感知（Perception）模块在自动驾驶系统中扮演着至关重要的角色，它负责收集、处理并理解车辆周围的环境信息。随着深度学习技术的快速发展，大模型也逐渐在自动驾驶感知模块中得到了广泛应用。本篇博客主要介绍大模型在感知模块的应用。前面也介绍过如下几篇Perception相关的文章，有兴趣的读者可以了解相关内容：《自动驾驶---Perception之IPM图和BEV图》《自动驾驶---P
基于Python深度学习的【害虫识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能图像识别人工智能深度学习
一、介绍害虫识别系统，本系统使用Python作为主要开发语言，基于TensorFlow搭建卷积神经网络算法，并收集了12种常见的害虫种类数据集【"蚂蚁（ants）","蜜蜂（bees）","甲虫（beetle）","毛虫（catterpillar）","蚯蚓（earthworms）","蜚蠊（earwig）","蚱蜢（grasshopper）","飞蛾（moth）","鼻涕虫（slug）","蜗牛
详解：Grok中文版 _Grok 3 国内中文版本在线使用人工智能
GrokAI是由XAI公司推出的一款尖端人工智能系统。作为该公司核心技术之一，GrokAI专注于推动人工智能在各行各业的实际应用，尤其在数据分析、自然语言处理（NLP）、自动化决策、机器学习等领域表现出色。Grok的最大亮点在于其强大的数据处理能力。它能够高效地从大量复杂数据中提取有价值的信息，并做出精准预测。借助深度学习与强化学习等先进技术，GrokAI具备自我学习的能力，可以通过不断的训练来优
基于OpenCV的Java人脸识别系统设计与实现小呀白呀兔 java spring boot
基于OpenCV的Java人脸识别系统设计与实现1.引言随着计算机视觉技术的发展，人脸识别在安全监控、身份验证等领域得到了广泛应用。本文将详细介绍如何使用OpenCV库和Java语言构建一个简单的人脸识别系统。该系统能够从图像中检测人脸，并通过深度学习模型提取特征进行比对，最终输出相似度评分及置信度等级。2.环境搭建为了确保项目顺利运行，请按照以下步骤配置开发环境：安装JDK：确保已安装JavaD
智能教育：DeepSeek在个性化学习中的创新应用与代码实现 Evaporator Core #DeepSeek快速入门 DeepSeek进阶开发与应用 #深度学习学习
教育是塑造未来的基石，而个性化学习则是现代教育的重要趋势。随着人工智能技术的飞速发展，教育领域正迎来一场深刻的变革。DeepSeek作为人工智能领域的领军者，正在通过其强大的技术能力，推动个性化学习的创新应用。本文将结合代码实现，深入探讨DeepSeek在个性化学习中的应用。一、个性化学习路径：从数据到洞察个性化学习的核心在于根据学生的学习数据，生成定制化的学习路径。DeepSeek通过深度学习算
大白话聊聊“深度学习”和“大模型” 程序员鬼鬼深度学习人工智能 AI编程 AIGC chatgpt ai
1950年图灵发表论文《计算机器与智能》（ComputingMachineryandIntelligence），提出了“机器智能”（MachineIntelligent）的概念，并且提出了著名的“图灵测试”的方法来判断机器是否有智能。1956年，达特茅斯会议，“人工智能”（ArtificialIntelligent）概念被首次提出，人工智能作为一个学科开始被研究。科学家梦想着未来可以用复杂物理结构
【精华推荐】AI大模型学习必逛的十大顶级网站大模型入门学习人工智能学习大模型入门 llama 大模型教程大模型学习大模型
随着人工智能技术的快速发展，AI大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。对于希望深入学习AI大模型的开发者和研究者来说，找到合适的学习资源至关重要。本文将为大家推荐十大必备网站，帮助你更好地理解和应用AI大模型。1.CourseraCoursera是一个在线学习平台，提供各类AI和机器学习课程，包括斯坦福大学的机器学习课程和深度学习专项课程。通过视频讲解
深度学习分类回归（衣帽数据集）何仙鸟深度学习分类回归
一、步骤1加载数据集fashion_minst2搭建classNeuralNetwork模型3设置损失函数，优化器4编写评估函数5编写训练函数6开始训练7绘制损失，准确率曲线二、代码导包，打印版本号：importmatplotlibasmplimportmatplotlib.pyplotasplt%matplotlibinlineimportnumpyasnpimportsklearnimport
BP神经网络计算过程：从数学原理到实践优化 Acd_713 BP神经网络神经网络人工智能深度学习
引言：神经网络的时代意义与BP算法地位在深度学习重构人工智能边界的今天（Goodfellowetal.,2016），误差反向传播（Backpropagation，BP）算法作为神经网络训练的基石，其数学优雅性和工程实用性完美统一。本文将深入剖析BP神经网络的计算本质，揭示其如何在非线性空间中构建认知通道。第1章神经网络拓扑结构的数学建模1.1生物神经元到M-P模型的抽象跃迁McCulloch-Pi
成为LLM大师的必读书籍：这几本大模型书籍，详细到让你一篇文章就收藏足够 AGI大模型老王产品经理大模型教程学习大模型人工智能 LLM 大模型书籍
以下是几本关于大模型和人工智能领域的经典书籍，它们各自具有独特的特点和适用人群：《深度学习》（DeepLearning）作者：伊恩·古德费洛（IanGoodfellow）、约书亚·本吉奥（YoshuaBengio）、亚伦·库维尔（AaronCourville）简介：《深度学习》是深度学习领域的经典之作，全面介绍了深度学习的基础知识、主要模型及其应用。书中详细讲解了神经网络、卷积神经网络、循环神经网
深度学习模型未来可能会在这些领域取得突破性进展 xinxiyinhe 人工智能深度学习人工智能深度学习模型深度学习
深度学习模型作为人工智能的核心技术之一，未来有望在多个领域取得突破性进展。以下是一些可能的方向：1.通用人工智能（AGI）目标：开发具有通用智能的模型，能够像人类一样处理多种任务。潜在突破：更强的推理和抽象能力，解决复杂问题。结合多模态数据（文本、图像、声音等）实现更全面的理解。自我学习和适应能力，减少对大量标注数据的依赖。2.医疗与生命科学目标：提升疾病诊断、药物研发和个性化治疗的水平。潜在突破
深度学习进阶：TensorFlow实战指南 ELSON麦香包
本文还有配套的精品资源，点击获取简介：《TensorFlow实战Google深度学习框架》详细指导读者学习TensorFlow，涵盖基础概念、数据流图、API使用、张量和变量操作，深度学习基础如CNN和RNN，以及自定义层和优化算法。书中还提供使用TensorFlow构建和训练深度学习模型的实例，包括AlexNet、VGG、ResNet以及LSTM和GRU，并通过图像分类和文本情感分析等实战案例，
Python深度学习之路：TensorFlow与PyTorch对比步入烟尘 Python超入门指南全册 python 深度学习 tensorflow
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
深度学习实战：TensorFlow 开源项目指南劳治亮
深度学习实战：TensorFlow开源项目指南Deep-Learning-TensorFlow项目地址:https://gitcode.com/gh_mirrors/dee/Deep-Learning-TensorFlow项目介绍本项目基于GitHub仓库https://github.com/blackecho/Deep-Learning-TensorFlow.git，旨在提供一个全面的学习与开发
深度学习实战：用TensorFlow构建高效CNN的完整指南芯作者 DD：日记深度学习
一、为什么每个开发者都要掌握CNN？在自动驾驶汽车识别路标的0.1秒里，在医疗AI诊断肺部CT片的精准分析中，甚至在手机相册自动分类宠物的日常场景里，卷积神经网络（CNN）正悄然改变着我们的世界。本文将以工业级实践标准，带您从零构建一个在CIFAR-10数据集上达到90%+准确率的CNN模型，深入解析TensorFlow2.x的最新特性，并揭秘模型优化的七大核心策略。[外链图片转存失败,源站可能有
【目标检测论文解读复现NO.38】基于改进YOLOv8模型的轻量化板栗果实识别方法人工智能算法研究院中文核心论文解读复现目标检测 YOLO 目标跟踪
前言此前出了目标改进算法专栏，但是对于应用于什么场景，需要什么改进方法对应与自己的应用场景有效果，并且多少改进点能发什么水平的文章，为解决大家的困惑，此系列文章旨在给大家解读最新目标检测算法论文，帮助大家解答疑惑。解读的系列文章，本人已进行创新点代码复现，有需要的朋友可关注私信我。本文仅对论文代码实现，如果原文章的作者觉得不方便，请联系删除，尊重每一位论文作者。一、摘要为实现自然环境下的板栗果实目
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他