暖焱

【计算机视觉】计算机视觉与深度学习-09-可视化-北邮鲁鹏老师课程笔记

计算机视觉与深度学习-10-可视化-北邮鲁鹏老师课程笔记

可视化
第一层可视化
第一层之后可视化
中间层可视化
- - 可视化激活图
- 最大化激活块
倒数第二个全连接层
- - 最邻近
  - 降维
哪些像素对分类不起作用
- 遮挡实验（Occlusion Experiments）
- 显著图（Saliency Map）
- - 基于显著图的图像分割
如何判断神经网络是否过拟合欠拟合？
- 方式一：观察损失函数
- 方式二：反向可视化
- 梯度上升 Gradient Ascent
- 虚假图像
Deep Dream
特征反演（Feature Inversion）
纹理生成（Texture Synthesis）
- 近邻法
- 格莱姆矩阵（Gram Matrix）
- 神经纹理生成（Neural Texture Synthesis）
风格迁移（Style Transfer）
- 调整内容权重和纹理权重
- 调整纹理图像尺寸
- 多风格图生成
- 快速风格迁移（Fast style Transfer）
- 实例归一化
可视化工具Keras-vis

可视化

显示出神经网络在做什么。

第一层可视化

第一层卷积核的维度与图像通道相同是3，容易可视化。

第一个卷积层相对比较简单，可以把第一层的所有卷积核可视化来描述卷积层在原始图像上寻找什么。之所以可视化卷积核，是因为卷积就是卷积核与图像区域做内积的结果，当图像上的区域和卷积核很相似时，卷积结果就会最大化。所以可以利用可视化卷积核来观察卷积层在图像上寻找什么。常见的CNN架构第一层卷积核如下：

第一层之后可视化

第一层之后的可视化，建立在特征图上，但是特征图通道为1，单通道的可视化肉眼看不出什么规律，需要通过其他方法分析。

中间层可视化

可视化激活图

与可视化卷积核相比，将激活图可视化更有观察意义。比如可视化AlexNet的第五个卷积层的128个13x13的特征图，输入一张人脸照片，画出Conv5的128个特征灰度图，发现其中有激活图似乎在寻找人脸。不过大部分都是噪声。

通过分析，可以知道哪些神经元对特征图像的哪些区域感兴趣。

最大化激活块

观察卷积核记录了什么，对哪些东西感兴趣。

不同的特征图是不同卷积核卷积结果，不同卷积核关注的内容不同，虽然特征图无法可视化，但可以从外部输入一些不同的信号，观察神经网络中的响应。

可视化输入图片中什么类型的小块可以最大程度的激活不同的神经元。比如选择AlexNet的Conv5里的第17个激活图（共128个），然后输入很多的图片通过网络，并且记录它们在Conv5第17个激活图的值。这个特征图上部分值会被输入图片集最大激活，由于每个神经元的感受野有限，我们可以画出这些被最大激活的神经元对应在原始输入图片的小块，通过这些小块观察不同的神经元在寻找哪些信息。如下图所示，每一行都是某个神经元被最大激活对应的图片块，可以看到有的神经元在寻找类似眼睛的东西，有的在寻找弯曲的曲线等。如果不使用Conv5的激活图，而是更后面的卷积层，由于卷积核视野的扩大，寻找的特征也会更加复杂，比如人脸、相机等，对应下图的下面部分。

倒数第二个全连接层

最邻近

另一个有价值的观察对象是输入到最后一层用于分类的全连接层的图片向量，比如AlexNet每张图片会得到一个4096维的向量。使用一些图片来收集这些特征向量，然后在特征向量空间上使用最邻近的方法找出和测试图片最相似的图片。作为对比，是找出在原像素上最接近的图片。可以看到，在特征向量空间中，即使原像素差距很大，但却能匹配到实际很相似的图片。比如大象站在左侧和站在右侧在特征空间是很相似的。

降维

另一个观察的角度是将4096维的向量压缩到二维平面的点，方法有PCA，还有更复杂的比如 t-SNE（t-distributed stochastic neighbors embeddings，t-分布邻域嵌入），是一个在深度学习中将特征非线性降维的常用方法。比如手写数字0-9的图片提取特征降到2维画出后，发现都是按簇分布的，分成10簇。如下图所示：

同样可以把这个方法用到AlexNet的4096维特征向量降维中。我们输入一些图片，得到它们的4096维特征向量，然后使用 t-SNE 降到二维，画出这些二维点的网格坐标，然后把这些坐标对应的原始图片放在这个网格里。然后可以发现，相似内容的图片都聚集在一起，比如左下角都是一些花草，右上角聚集了蓝色的天空。

哪些像素对分类不起作用

遮挡实验（Occlusion Experiments）

在图片输入网络前，将图片的部分区域遮挡，然后观察对预测概率的影响。导致预测概率降低的部分说明是对分类决策起重要作用的部分。

显著图（Saliency Map）

Saliency Maps简单来说可以理解为是用来做模型的解释，可以用来知道哪些变量对于模型来说是重要的。我们也可以理解为Saliency map即特征图，可以告诉我们图像中的像素点对图像分类结果的影响。

给一张狗的图片和它对应的标签，我们想知道图像的哪一些像素对分类的结果影响最大。遮挡是一个方法，显著图从另一个角度来解决这个问题。方法是计算分类得分相对于图像像素的梯度，这将告诉我们在一阶近似意义上对于输入图片的每个像素如果我们进行小小的扰动，那么相应分类的分值会有多大的变化。可以看到基本上找出了小狗的轮廓。

进行语义分割的时候也可以运用显著图的方法，可以在没有任何标签的情况下可以运用显著图进行语义分割。

基于显著图的图像分割

参考：Saliency Maps的原理与简单实现(使用Pytorch实现)
论文：Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps – Karen Simonyan, Andrea Vedaldi, Andrew Zisserman

参考：Lecture 12 可视化和理解CNN – HRain

如何判断神经网络是否过拟合欠拟合？

方式一：观察损失函数

观察验证集和训练集上的损失函数是否都在下降，如果验证集上出现了上升，说明模型过拟合。

方式二：反向可视化

观察学习到的图像显著信息是否和人眼识别的图像显著信息是否是一个区域。如果相同，则模型正确。
如果学习到的图像显著区域和人眼识别的图像显著区域不在一个区域，则模型有错误。

梯度上升 Gradient Ascent

引导式反向传播会寻找与神经元联系在一起的图像区域，另一种方法是梯度上升，合成一张使神经元最大激活或分类值最大的图片。

在训练神经网络时用梯度下降来使损失最小，现在要修正训练的卷积神经网络的权值，并且在图像的像素上执行梯度上升来合成图像，即最大化某些中间神将元和类的分值来改变像素值。

在执行梯度上升过程中，输入一张所有像素为0或者高斯分布的初始图片，训练过程神经网络中的权重保持不变，计算神经元的值或这个类的分值相对于像素的梯度，使用梯度上升改变一些图像的像素使这个分值最大化。同时，需要正则项来阻止生成的图像过拟合，生成很奇怪的东西。

总之，生成图像具备两个属性：1 使最大程度地激活分类得分或神经元的值，2 使希望生成的这个图像看起来是自然的。正则项强制生成的图像看起来是自然的图像。

比如使用L2正则来约束像素，正则项作用在图像上。针对分类得分生成的图片如下所示：

层数越高，语义越丰富，生成的结构越复杂。
也可以使用一些其他方法来优化正则，比如对生成的图像进行高斯模糊处理、将像素值特别小或梯度值特别小的值去掉。这些方法会使生成的图像更清晰。也可以针对某个神经元进行梯度上升。

添加多模态（multi-faceted）可视化可以提供更好的结果(加上更仔细的正则化，中心偏差）。
正则项作用在FC6而不是原始图像上，会得到更加自然的图像。

虚假图像

Deep Dream

仍然利用梯度上升的原理，不再是通过最大化神经元激活来合成图片，而是直接放大某些层的神经元激活特征。首先选择一张输入的图像，通过神经网络运行到某一层，接着进行反向传播并且设置该层的梯度等于激活值，然后反向传播到图像并且不断更新图像。对于以上步骤的解释：试图放大神经网络在这张图像中检测到的特征，无论那一层上存在什么样的特征，现在我们设置梯度等于特征值，以使神经网络放大它在图像中所检测到的特征。

特征反演（Feature Inversion）

特征反演是为了查看不同层的特征向量能保留多少原始的图片信息。
任选一张图片，前向传播到已经训练好的CNN，选取其在CNN某一层产生的特征向量，记住这个向量。现在，我们要生成一张图片，尽量让它在该层产生一样的特征向量。这个任务仍然是用梯度上升来做，目标函数定义为最小化生成图片的特征向量与给定特征向量的L2距离，并且加一些正则化项保证生成图片的平滑：
用这种方法，可以看到不同层的特征向量所包含的信息完整度：
在relu2_2层，可以根据特征向量几乎无损地恢复出原图片；但是尝试从ReLU4_3 ReLU5_1重构图像时，可以看到图像的一般空间结构被保留了下来，仍可以分辨出大象，苹果和香蕉。但是许多低层次的细节并比如纹理、颜色在神经网路的较高层更容易损失。

纹理生成（Texture Synthesis）

近邻法

传统的纹理生成方法有近邻法。根据已经生成的像素查看当前像素周围的邻域，并在输入图像的图像块中计算近邻，然后从输入图像中复制像素。

但是近邻法只适用于简单的纹理，当原图像使用的是复杂纹理时，直接从输入图像的图像块复制像素的方法可能会行不通。

格莱姆矩阵（Gram Matrix）

将一张图片传入一个已经训练好的CNN，选定其中一层激活，其大小是CxHxW，可以看做是H x W 个C维向量。从这个激活图中任意选取两个C维向量，做矩阵乘法可以得到一个 CxC 的矩阵。然后对激活图中任意两个C维向量的组合，都可以求出这样一个矩阵。把这些矩阵求和并平均，就是Gram Matrix。

格莱姆矩阵告诉我们两个点代表的不同特征的同现关系，矩阵中位置索引为 ij 的元素值非常大，这意味着这两个输入向量的位置索引为 i 和 j 的元素值非常大。这以某种方式捕获了一些二阶统计量，即映射特征图中的哪些特征倾向于在空间的不同位置一起激活，这就是纹理。

Gram Matrix其实是feature之间的偏心协方差矩阵（即没有减去均值的协方差矩阵）。其计算了每个通道特征之间的相关性，考察哪些特征是此消彼长的，哪些特征是同时出现的。我们认为Gram Matrix度量了图片中的纹理特性，并且不包含图像的结构信息，因为我们对图像中的每一点所对应的特征向量取平均值，它只是捕获特征间的二阶同现统计量，这最终是一个很好的纹理描述符。事实上，使用协方差矩阵代替Gram Matrix也能取得很好的效果，但是Gram Matrix有更高效的计算方法：将激活图张量C*H*W展开成C*HW的形式，然后将其乘以其转置，即得到gram矩阵。

神经纹理生成（Neural Texture Synthesis）

当有了Gram矩阵这一度量图像纹理特性的工具后，就可以使用类似于梯度上升算法来产生特定纹理的图像。算法流程为：
首先使用ImageNet的数据预训练一个VGG网络，然后把含有纹理的图像输入到VGG网络，记录其每一层的激活图并计算每一层的gram矩阵。接着随机初始化一张要生成的新的图像，同样把这张初始化图像通过VGG并且计算每一层的gram矩阵。然后计算输入图像纹理矩阵和生成图像纹理矩阵之间的加权L2损失，进行反向传播，并计算相对于生成图像的像素的梯度。最后根据梯度上升一点点更新图像的像素，不断重复这个过程，即计算两个gram矩阵的L2范数损失和反向传播图像梯度，最终会生成与纹理图像相匹配的纹理图像。效果如下：

使用底层的gram矩阵，生成细节纹理。
使用高层的gram矩阵，生成有概念性的纹理。

风格迁移（Style Transfer）

如果结合特征反演和纹理生成，就可以实现所谓的风格迁移。

需要两张图像，一张图像称为内容图像，需要引导生成图像的主题；另一张图像称为风格图像，生成图像需要重建它的纹理结构。然后共同做特征识别，最小化内容图像的特征重构损失，以及风格图像的gram矩阵损失。使用下面的框架完成这个任务：

内容图片选择relu3_3是因为低层包含了太多细节，relu3_3包含的更多是概念性结构信息。

在这个框架中，使用随机噪声初始化生成图像，同时优化特征反演和纹理生成的损失函数（生成图像与内容图像激活特征向量的L2距离以及与风格图像gram矩阵的L2距离的加权和），计算图像上的像素梯度，重复这些步骤，在生成图像上执行梯度上升。经过一些迭代后会生成风格迁移后的图像。这样生成图像既具有内容图像的空间结构，又具有风格图像的纹理结构。

调整内容权重和纹理权重

由于网络使用的总损失是特征反演和纹理生成的两部分损失的加权和，所以调整这个加权值可以得到不同风格的输出：

调整纹理图像尺寸

多风格图生成

快速风格迁移（Fast style Transfer）

上面的风格迁移框架，每生成一张新的图像都需要迭代数次，计算量非常大。因此有研究提出了下面的Fast style Transfer的框架：

该网络与图像分割网络的差别，图像分割的结果 $\hat{y}，H*W*C$ 的深度C是类别个数，而该网络的结果为 $\hat{y}，H*W*3$ 是一张彩色图。

在一开始就训练好我们想要迁移的风格，训练一个可以输入内容图像的前馈网络，直接输出风格迁移后的结果。训练前馈神将网络的方法是在训练期间计算相同内容图像和风格图像的损失，然后使用相同梯度来更新前馈神经网络的权重，一旦训练完成，只需在训练好的网络上进行单一的前向传播。

实例归一化

风格迁移任务中批归一化不合适，Batch Norm注重对batchsize数据归一化，但是在图像风格化任务中，生成的风格结果主要依赖于某个图像实例，所以对整个batchsize数据进行归一化是不合适的，因而提出了IN只对HW维度进行归一化。

风格迁移任务中Layer Norm不合适，风格迁移中又希望每个层记录的风格是不一样的，所以希望单层考虑归一化。

实例归一化，IN保留了N、C的维度，只在Channel内部对于H和W进行求均值和标准差的操作。

在风格迁移中适用IN不仅可以加速模型收敛，并且可以保持每个图像实例之间的独立性。IN的计算就是把每个HW单独拿出来归一化处理，不受通道和batchsize 的影响。

参考：深度学习中的归一化方法总结 – xdhe1216

可视化工具Keras-vis

【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。努力毕业的小土博^_^ 深度学习学习笔记深度学习学习笔记人工智能机器学习
【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。文章目录【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。前言一、什么是正则化？为什么需要它？✅
OpenCV实战：图像颜色识别与提取、掩膜制作
前言在计算机视觉和图像处理领域，颜色识别是一项基础而重要的技术。无论是交通标志识别、工业分拣还是美颜滤镜开发，都离不开对特定颜色的处理。本文将带你全面掌握使用OpenCV进行颜色识别的关键技术，包含完整的代码实现和原理讲解。一、颜色空间基础1.1RGB颜色空间在图像处理中，最常见的就是RGB颜色空间。RGB颜色空间是我们接触最多的颜色空间，是一种用于表示和显示彩色图像的一种颜色模型。RGB代表红色
OpenCV图像添加水印
一、前言在数字图像处理中，为图片添加水印是一项常见且重要的技术。无论是版权保护、品牌宣传还是防止未经授权的使用，水印都能发挥重要作用。OpenCV作为一款强大的计算机视觉库，提供了丰富的功能来实现各种水印效果。本教程将详细介绍如何使用OpenCV为图像添加文字水印和图片水印。二、环境准备在开始之前，请确保已安装以下环境：Python3.xOpenCV库（可通过pipinstallopencv-py
浅谈卷积神经网络(CNN) cyc&阿灿 cnn 人工智能神经网络
卷积神经网络(ConvolutionalNeuralNetworks,CNN)作为深度学习领域最具影响力的架构之一，已在计算机视觉、自然语言处理、医学影像分析等领域取得了革命性突破。本文将系统全面地剖析CNN的核心原理、关键组件、经典模型、数学基础、训练技巧以及最新进展，通过理论解析与代码实践相结合的方式，帮助读者深入掌握这一重要技术。一、CNN基础与核心思想1.1传统神经网络的局限性在处理图像等
【PyTorch】2024保姆级安装教程-Python-（CPU+GPU详细完整版）金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 python pytorch 人工智能
【PyTorch】2024保姆级安装教程（CPU+GPU详细完整版）PyTorch是当前最受欢迎的深度学习框架之一。本文将详细讲解在Python环境中安装PyTorch，包括CPU和GPU版本的全方位指南。一、前置环境首先确保已安装Python环境，推荐使用Python3.8或以上版本。验证Python安装：python--versionpip--version推荐使用虚拟环境（如conda或ve
LSNet: 基于侧向抑制的神经网络碳酸的唐模型养成与叙述有意思的py库神经网络人工智能深度学习
引言在计算机视觉领域，我们一直在寻找灵感来源以提高图像处理和识别的效果。而人类视觉系统作为经过数百万年进化的精密系统，无疑是最好的参考对象之一。今天，我要向大家介绍一个名为LSNet（LateralSuppressionNetwork，侧向抑制网络）的技术，它模拟了人类视觉系统中的侧向抑制机制，为计算机视觉任务带来了新的可能性。什么是侧向抑制？侧向抑制（LateralSuppression），也被
基于OpenCV图像分割与PyTorch的增强图像分类方案从零开始学习人工智能 opencv pytorch 分类
在图像分类任务中，背景噪声和复杂场景常常会对分类准确率产生负面影响。为了应对这一挑战，本文介绍了一种结合OpenCV图像分割与PyTorch深度学习框架的增强图像分类方案。通过先对图像进行分割提取感兴趣区域（RegionofInterest，ROI），再进行分类，可以有效减少背景干扰，突出关键特征，从而提高分类准确率。该方案在多种复杂场景下表现出色，尤其适用于图像背景复杂或包含多个对象的情况。一、
Deepoc大模型在半导体设计优化与自动化 Deepoch 自动化运维人工智能机器人单片机 ai 科技
大模型在半导体设计领域的应用已形成多维度技术渗透，其核心价值在于通过数据驱动的方式重构传统设计范式。以下从技术方向、实现路径及行业影响三个层面展开详细分析：参数化建模与动态调优基于物理的深度学习模型（如PINNs）将器件物理方程嵌入神经网络架构，实现工艺参数与电学性能的非线性映射建模。通过强化学习框架（如PPO算法）动态调整掺杂浓度、栅极长度等关键参数，在3nm节点下实现驱动电流提升18%的同时降
分布式训练架构解析
一、分布式训练的问题根源与需求驱动在深度学习领域，模型与数据规模呈指数级增长趋势，传统单机训练模式已难以满足日益复杂的业务需求，分布式训练技术应运而生，其核心驱动力源于以下三大关键困境：1.1算力瓶颈与训练效率危机单GPU设备的计算能力存在物理上限。以NVIDIAA100为例，其单卡FP32算力约为19.5TFLOPS，面对GPT-4这样拥有1.8万亿参数的超大型模型，若采用单机单卡训练，仅完成一
卷积神经网络亿只小灿灿 Python 算法与数据结构人工智能 cnn 人工智能神经网络
一、引言在当今人工智能的浪潮中，卷积神经网络（ConvolutionalNeuralNetwork，CNN）无疑是一颗璀璨的明星。它在图像识别、语音处理、自然语言处理等众多领域取得了巨大的成功，极大地推动了人工智能技术的发展。那么，什么是卷积神经网络？它的算法原理是什么？本文将深入探讨这些问题，并通过Python代码实现一个简单的卷积神经网络，以帮助读者更好地理解和掌握这一强大的技术。二、卷积神经
Python pdfminer.six库【PDF解析库】全面使用指南老胖闲聊 Python库大全 python pdf 开发语言
想全面了解DeepSeek的看过来【包邮】DeepSeek全攻略人人需要的AI通识课零基础掌握DeepSeek的实用操作手册指南【限量作者亲笔签名版售完即止】玩转DeepSeek这本就够了【自营包邮】DeepSeek实战指南deepseek从入门到精通实用操作指南现代科技科普读物AI普及知识读物人工智能使用教程中小学读物京东超级618Python初学者的入门教程动手学深度学习PyTorch版李沐和
理解不同层的表示（layer representations）科学禅道高维表示人工智能深度学习
在机器学习和深度学习领域，特别是在处理音频和自然语言处理（NLP）任务时，"层的表示"（layerrepresentations）通常是指神经网络不同层在处理输入数据时生成的特征或嵌入。这些表示捕获了输入数据的不同层次的信息。1.层的表示（layerrepresentations）为了更好地理解这一概念，我们可以从以下几个方面进行解释：1.深度神经网络结构深度神经网络（DNN）通常由多个层组成，每
【2024 CVPR-Backbone】RepViT: Revisiting Mobile CNN From ViT Perspective 无敌悦悦王文献阅读 cnn 人工智能神经网络计算机视觉图像处理 python 深度学习
摘要近期，轻量级视觉Transformer（ViT）在资源受限的移动设备上表现出比轻量级卷积神经网络（CNN）更优异的性能和更低的延迟。研究人员已发现轻量级ViT与轻量级CNN之间存在许多结构关联，但二者在模块结构、宏观和微观设计上的显著架构差异尚未得到充分研究。本研究从ViT视角重新审视轻量级CNN的高效设计，并强调其在移动设备上的应用前景。具体而言，我们通过整合轻量级ViT的高效架构设计，逐步
Python编程：使用 YOLO 目标检测倔强老吕 python 开发语言
YOLO（YouOnlyLookOnce）是一种基于深度学习的实时目标检测算法，由JosephRedmon等人于2016年首次提出。与传统的两阶段目标检测方法（如R-CNN系列）不同，YOLO将目标检测任务视为一个单一的回归问题，直接在图像上进行一次推理即可预测边界框和类别概率。YOLO的核心思想单次前向传播（SingleShotDetection）：YOLO只需对输入图像进行一次神经网络推理，就
基于YOLOv8和Faster R-CNN的输电线路异物目标检测项目检测输电线异物数据集输电线缺陷数据集绝缘子如何使用YOLOv8和Faster R-CNN训练输电线路异物目标检测数据集 QQ67658008 YOLO r语言 cnn 输电线路绝缘子线路异物目标检测
电力篇-输电线路缺陷数据集输电线路异物目标检测数据集16000张5种检测目标：‘burst’-爆裂‘defect’-缺陷‘foreign_obj’-异物‘insulator’-绝缘体‘nest’-窝（巢）带标注-YOLO格式可直接用于YOLO系列目标检测算法模型训练如何使用YOLOv8和FasterR-CNN训练输电线路异物目标检测数据集的详细步骤和代码。假设数据集包含16000张图片和5种检测目
【机器学习&深度学习】前馈神经网络（单隐藏层）一叶千舟深度学习【理论】机器学习深度学习神经网络
目录一、什么是前馈神经网络？二、数学表达式是什么？三、为什么需要“非线性函数”？四、NumPy实现前馈神经网络代码示例五、运行结果六、代码解析6.1初始化部分6.2前向传播6.3计算损失（Loss）6.4反向传播（手动）6.5更新参数（梯度下降）6.6循环训练七、训练过程可视化（思维图）八、关键问题答疑Q1：为什么需要隐藏层？Q2：ReLU是干嘛的？Q3：学习率怎么选？九、总结学习建议在机器学习中
【day51】复习日 daomingwu017 Python打卡训练营内容 python
内容来自@浙大疏锦行python打卡训练营@浙大疏锦行作业：day43的时候我们安排大家对自己找的数据集用简单cnn训练，现在可以尝试下借助这几天的知识来实现精度的进一步提高
微软人工智能证书AI-102 | 如何快速通过？全球认证考试中心人工智能微软
微软AI-102考试，全称“DesigningandImplementingaMicrosoftAzureAISolution”，是微软推出的用于验证考生在Azure平台上设计和实施AI解决方案核心能力的认证考试。以下是具体介绍：考试描述：考试主要衡量考生实施计划和管理Azure认知服务解决方案、计算机视觉解决方案、自然语言处理解决方案、知识挖掘解决方案、对话式AI解决方案的能力。考试题型通常包括
DAY 41 简单CNN yizhimie37 python训练营打卡笔记深度学习
@浙大疏锦行https://blog.csdn.net/weixin_45655710知识回顾数据增强卷积神经网络定义的写法batch归一化：调整一个批次的分布，常用与图像数据特征图：只有卷积操作输出的才叫特征图调度器：直接修改基础学习率卷积操作常见流程如下：1.输入→卷积层→Batch归一化层（可选）→池化层→激活函数→下一层Flatten->Dense(withDropout，可选)->Den
DAY 43 复习日 yizhimie37 python训练营打卡笔记深度学习
@浙大疏锦行https://blog.csdn.net/weixin_45655710第一步：寻找并准备图像数据集在Kaggle等平台上，你可以找到大量用于图像分类任务的数据集，例如英特尔图像分类数据集(IntelImageClassification)或手写数字识别数据集(DigitRecognizer)。对于初学者，一个更便捷的选择是使用像TensorFlow或PyTorch这样深度学习框架内
在MATLAB中使用GPU加速计算及多GPU配置东北豆子哥 CUDA 数值计算/数值优化 Matlab/Octave matlab
文章目录在MATLAB中使用GPU加速计算及多GPU配置一、基本GPU加速使用1.检查GPU可用性2.将数据传输到GPU3.执行GPU计算二、多GPU配置与使用1.选择特定GPU设备2.并行计算工具箱中的多GPU支持3.数据并行处理（适用于深度学习）三、高级技巧1.异步计算2.优化GPU内存使用3.使用GPU加速函数四、注意事项在MATLAB中使用GPU加速计算及多GPU配置MATLAB提供了强大
CIANNA由天体物理学家提供/为天体物理学家提供的卷积交互式人工神经网络 struggle2025 神经网络
一、软件介绍文末提供程序和源码下载CIANNA是一个通用的深度学习框架，主要用于天文数据分析。根据天体物理问题解决的相关性添加功能和优化。CIANNA可用于为各种任务构建和训练大型神经网络模型，并提供高级Python接口（类似于keras、pytorch等）。CIANNA的特点之一是它定制实施了受YOLO启发的对象探测器，用于2D或3D射电天文数据产品中的星系探测。该框架通过低级CUDA编程完全实
和李沐老师学深度学习--2.数据操作部分代码实现（学习笔记）
大家对代码有不懂地方都可以上网去查找，最好是有一定的数据分析基础比较容易理解，李沐老师课程视频链接我放在这里了大家有不懂都可以观看课程进行学习04数据操作+数据预处理【动手学深度学习v2】_哔哩哔哩_bilibili深度学习课程电子书：大家可以使用翻译插件观看书的内容Preface—DiveintoDeepLearning1.0.3documentation深度学习github项目：https:/
基于opencv的鱼群检测和数量统计识别鱼群密度带界面
完整项目点文末名片查看获取一、项目简介本项目旨在通过计算机视觉技术，实现对视频中鱼类数量的自动检测与计数。利用OpenCV库进行图像处理，包括背景减除、形态学操作、轮廓检测等步骤，最终在视频帧中标记出鱼类并统计其数量。该系统可广泛应用于水产养殖、生态监测等领域，有助于提高工作效率和数据准确性。二、环境准备在开始项目之前，需要确保以下环境和工具已安装：Python：推荐使用Python3.6及以上版
目标跟踪领域经典论文解析 ♢.＊目标跟踪人工智能计算机视觉
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！目标跟踪是计算机视觉领域的一个
基于均值偏移算法的动态目标跟踪研究 Zoiny_楠算法均值算法目标跟踪
摘要：目标跟踪技术是计算机视觉领域中重要研究课题之一,在人类生活、军事侦察、工业生产、医疗诊断、交通管理等多方面,都有广泛的应用,研究目标跟踪对人类生活、工程应用等具有现实的指导意义。在基于视觉的目标跟踪算法中,经典的Mean-Shift算法以其理论科学有效、操作简单易实现,跟踪性能较好等优势,一直是众多学者研究的热点。可算法也存在着许多缺陷。例如目标模型中混有背景信息的干扰,给目标定位带来了偏差
day39 心落薄荷糖 Python训练营 python
#先继续之前的代码importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataLoader,Dataset#DataLoader是PyTorch中用于加载数据的工具fromtorchvisionimportdatasets,transforms#torchvision是一个用于计算机视觉的库，
【图像处理入门】12. 综合项目与进阶：超分辨率、医学分割与工业检测小米玄戒Andrew 图像处理：从入门到专家图像处理人工智能深度学习算法 python 计算机视觉 CV
摘要本周将聚焦三个高价值的综合项目，打通传统算法与深度学习的技术壁垒。通过图像超分辨率重建对比传统方法与深度学习方案，掌握医学图像分割的U-Net实现，设计工业缺陷检测的完整流水线。每个项目均包含原理解析、代码实现与性能优化，帮助读者从“技术应用”迈向“系统设计”。一、项目1：图像超分辨率重建（从模糊到清晰的跨越）1.技术背景与核心指标超分辨率（SR）是通过算法将低分辨率（LR）图像恢复为高分辨率
Densenet模型花卉图像分类深度学习乐园分类数据挖掘人工智能
项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《------往期经典推荐------》项目名称1.【基于CNN-RNN的影像报告生成】2.【卫星图像道路检测DeepLabV3Plus模型】3.【GAN模型实现二次元头像生成】4.【CNN模型实现mnist手写数字识别】5.【fasterRCNN模型实现飞机类目标检测】6.【CNN-LSTM住宅用电量预测】7.【VG
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring