zsffuture

深度学习 --- CNN的变体在图像分类、图像检测、目标跟踪、语义分割和实例分割的简介（附论文链接）

以上就是卷积神经网络的最基础的知识了，下面我们一起来看看CNN都是用在何处并且如何使用，以及使用原理，本人还没深入研究他们，等把基础知识总结完以后开始深入研究这几个方面，然后整理在写成博客，最近的安排是后面把自然语言处理总结一下，强化学习的总结就先往后推一下。再往后是系统的学习一下算法和数据结构，因为这些是基础，必须把这些的基础打扎实了。因为本人还在学校所以还有时间系统的梳理这方面的知识，然后在好好研究这些前言的应用技术。这里需要说明的一下是，本篇的博客主要参考外国的一篇博客的介绍，这里简单的介绍一下，一方面为大家提供实战时的方向，另一方面也为自己实战时提供有力的理论依据（论文），原始博客在末尾注明。好，废话不多说，下面开始：

计算机视觉是目前深度学习领域最热门的研究领域之一。它位于许多学术科目的交汇点，如计算机科学（图形学，算法，理论，系统，建筑），数学（信息检索，机器学习），工程学（机器人学，语音，NLP，图像处理），物理学（光学）），生物学（神经科学）和心理学（认知科学）。由于计算机视觉代表了对视觉环境及其背景的相对理解，许多科学家认为，由于其跨域掌握，该领域为人工智能铺平了道路。

那么什么是计算机视觉？以下是一些正式的教科书定义：

“从图像中构建明确，有意义的物理对象描述”（Ballard＆Brown，1982）
“从一个或多个数字图像计算3D世界的属性”（Trucco＆Verri，1998）
“根据感知的图像做出有关真实物体和场景的有用决策”（Sockman＆Shapiro，2001）

为何学习计算机视觉？最明显的答案是，从这一研究领域衍生出的快速增长的有用应用程序集合。以下是其中的一小部分：

面部识别：Snapchat和Facebook使用面部检测算法来应用滤镜并在图片中识别您。
图像检索：Google图像使用基于内容的查询来搜索相关图像。算法分析查询图像中的内容，并根据最匹配的内容返回结果。
游戏和控制：使用立体视觉的游戏中的一个很好的商业产品是Microsoft Kinect。
监视：监控摄像机在公共场所无处不在，用于检测可疑行为。
生物识别：指纹，虹膜和面部匹配仍然是生物识别中的一些常用方法。
智能汽车：Vision仍然是检测交通标志和灯光以及其他视觉特征的主要信息来源。

下面开始介绍五中计算机视觉的任务即图像分类、对象检测、目标跟踪、语义分割和实例分割：

1 - 图像分类

图像分类的问题是这样的: 给定一组都标记为单个类别的图像, 我们被要求为一组新的测试图像预测这些类别, 并测量预测的准确性。与此任务相关的挑战有很多, 包括视点变化、比例变化、类内变化、图像变形、图像遮挡、照明条件和背景杂波。

我们如何编写一种算法, 可以将图像分类为不同的类别？计算机视觉研究人员已经提出了一种数据驱动的方法来解决这个问题。它们没有试图直接在代码中指定每个图像类别的外观, 而是为计算机提供了每个图像类的许多示例, 然后开发了学习算法, 查看这些示例并了解视觉对象每个类的外观。换句话说, 他们首先积累标记图像的训练数据集, 然后将其输入计算机处理数据。

鉴于这一事实, 完整的图像分类管道可以形式化如下:

我们的输入是一个训练数据集, 由n个图像组成, 每个图像都用 k 不同的类之一标记。
然后, 我们使用此训练集训练一个分类器, 以了解每个类的外观。
最后, 我们通过要求分类器预测一组以前从未见过的新图像的标签来评估分类器的质量。然后, 我们将这些图像的真实标签与分类器预测的标签进行比较。

最流行的图像分类体系结构是卷积神经网络 (cnn).cnn 的一个典型用例是您提供网络映像, 网络对数据进行分类。cnn 倾向于从输入 "扫描仪" 开始, 该扫描仪并不打算同时解析所有的训练数据。例如, 要输入 100 x 100 像素的图像, 您不希望有一个包含 10, 000个节点的图层。相反, 您创建一个扫描输入图层, 例如 10 x 10, 您将图像的前 10 x 10 像素提供。通过该输入后, 您可以通过向右移动扫描仪一个像素来将其输入接下来的 10 x 10 像素。这种技术被称为滑动窗口。（这是我们前面讲CNN时的卷积核）

然后通过卷积层而不是正常层馈送该输入数据。每个节点仅关注相邻的相邻小区。这些卷积层也随着它们变得更深而趋于收缩，主要是通过输入的易分解因素。除了这些卷积层，它们通常还具有池化层。池化是一种过滤细节的方法：常见的池化技术是最大池化，我们采用2 x 2像素，并传递具有最大量特定属性的像素。

第一届 ImageNet 竞赛的获奖者是 Alex Krizhevsky（NIPS 2012），他在 Yann LeCun 开创的神经网络类型基础上，设计了一个深度卷积神经网络。该网络架构除了一些最大池化层外，还包含 7 个隐藏层，前几层是卷积层，最后两层是全连接层。在每个隐藏层内，激活函数为线性的，要比逻辑单元的训练速度更快、性能更好。除此之外，当附近的单元有更强的活动时，它还使用竞争性标准化来压制隐藏活动，这有助于强度的变化。

在硬件要求方面，Alex在2个Nvidia GTX 580 GPU（超过1000个快速小内核）上使用了非常有效的卷积网络实现。GPU非常适合矩阵矩阵乘法，并且具有非常高的存储器带宽。这使他能够在一周内训练网络，并在测试时快速的从10个块中组合出结果。如果我们能够足够快地传达状态，我们可以在多个核心上传播网络。随着核心变得越来越便宜而数据集越来越大，大型神经网络的改进速度将超过老式的计算机视觉系统。自AlexNet以来，已有多种新型号使用CNN作为其骨干架构，并在ImageNet中取得了出色的成果：ZFNet（2013），GoogLeNet（2014），VGGNet（2014），ResNet（2015），DenseNet（2016）等

2 - 物体检测

在处理图像中的对象这一任务，通常会涉及到为各个对象输出边界框和标签。这不同于分类/定位任务——对很多对象进行分类和定位，而不仅仅是对个主体对象进行分类和定位。在对象检测中，你只有 2 个对象分类类别，即对象边界框和非对象边界框。例如，在汽车检测中，你必须使用边界框检测所给定图像中的所有汽车。

如果使用图像分类和定位图像这样的滑动窗口技术，我们则需要将卷积神经网络应用于图像上的很多不同物体上。由于卷积神经网络会将图像中的每个物体识别为对象或背景，因此我们需要在大量的位置和规模上使用卷积神经网络，但是这需要很大的计算量！

为了应对这种情况，神经网络的研究人员已经提出使用区域（region）代替，在那里我们找到可能包含对象的“blobby”图像区域。运行起来相对较快。第一个引人注目的模型是R-CNN（基于区域的卷积神经网络）。在R-CNN中，我们首先使用称为选择性搜索的算法扫描输入图像以寻找可能的对象，生成约2,000个区域提议。然后我们在每个区域提案的基础上运行CNN。最后，我们获取每个CNN的输出并将其输入SVM以对区域进行分类，并使用线性回归来收紧对象的边界框。

基本上，我们将对象检测转变为图像分类问题。但是，存在一些问题 - 训练缓慢，需要大量磁盘空间，推理也很慢。

R-CNN的直接后代是Fast R-CNN，它通过2次增强提高了检测速度：

1）在提出区域之前执行特征提取，因此仅在整个图像上运行一个CNN

2）用softmax层替换SVM ，从而扩展神经网络的预测，而不是创建一个新的模型。

Fast R-CNN在速度方面表现得更好，因为它只为整个图像训练一个CNN。但是，选择性搜索算法仍然需要花费大量时间来生成区域提议。

因此，发现了Faster R-CNN，其现在是用于基于深度学习的对象检测的规范模型。它通过插入区域提议网络（RPN）来预测来自特征的提议，从而用快速神经网络取代慢选择性搜索算法。RPN用于决定“在哪里”以减少整个推理过程的计算要求。RPN快速有效地扫描每个位置，以评估是否需要在给定区域中进行进一步处理。它通过输出k个边界框提议来做到这一点，每个提议具有2个值---代表每个位置包含目标对象和不包含目标对象的概率。

一旦我们获得了我们的区域提案，我们就会直接将它们提供给基本上是Fast R-CNN的内容。我们添加了一个池化层，一些完全连接的层，最后是一个softmax分类层和边界框回归器。

总而言之，Faster R-CNN实现了更快的速度和更高的精度。值得注意的是，尽管未来的模型在提高检测速度方面做了很多工作，但很少有模型能够以更高的优势超越更快的R-CNN。换句话说，更快的R-CNN可能不是最简单或最快的对象检测方法，但它仍然是表现最好的方法之一。

近年来的主要物体检测趋势已转向更快，更有效的检测系统。这在诸如You Only Look Once（YOLO），Single Shot MultiBox Detector（SSD）和基于区域的完全卷积网络（R-FCN）等方法，这三种算法转向在整个图像上共享计算。因此，这三种算法和上述的3种造价较高的R-CNN 技术有所不同。这些趋势背后的主要原因是避免让单独的算法孤立地关注各自的子问题，因为这通常会增加训练时间并降低网络准确性。

3-对象跟踪

对象跟踪是指在给定场景中跟踪特定感兴趣对象或多个对象的过程。传统上，它在视频和现实世界的交互中具有应用，其中在初始对象检测之后进行观察。现在，它对自动驾驶系统至关重要，例如优步和特斯拉等公司的自动驾驶车辆。

物体跟踪方法可以根据观察模型分为两类：生成方法和判别方法。生成方法使用生成模型来描述表观特征并最小化重建误差以搜索对象，例如PCA。判别方法可用于区分对象和背景，其性能更加稳健，逐渐成为跟踪的主要方法。判别方法也称为检测跟踪（Tracking-by-Detection），深度学习属于这一类。为了通过检测实现跟踪，我们检测所有帧的候选对象，并使用深度学习从候选者中识别所需对象。可以使用两种基本网络模型：堆叠式自动编码器（SAE）和卷积神经网络（CNN）。

使用SAE跟踪任务的最流行的深度网络是深度学习跟踪器（Deep Learning Tracker），它提出了离线预训练和在线微调网络。这个过程是这样的：

离线无监督预训练使用大规模自然图像数据集的堆叠去噪自动编码器以获得一般对象表示。通过在输入图像中添加噪声并重建原始图像，堆叠去噪自动编码器可以获得更强大的特征表达能力。
将预训练网络的编码部分与分类器组合以获得分类网络，然后使用从初始帧获得的正样本和负样本来微调网络，这可以区分当前对象和背景。DLT（Deep Learning Tracker）使用粒子滤波器作为运动模型来产生当前帧的候选补丁。分类网络输出这些补丁的概率分数，表示其分类的置信度，然后选择这些补丁中最高的补丁作为对象。
在模型更新中，DLT使用限制阈值的方式。

由于其在图像分类和物体检测方面的优越性，CNN已成为计算机视觉和视觉跟踪的主流深度模型。一般而言，大规模CNN既可以作为分类器也可以作为跟踪器进行训练。2个代表性的基于CNN的跟踪算法是完全卷积网络跟踪器（FCNT）和多域CNN （MD Net）。

FCNT成功分析并利用VGG模型的特征图，这是一个经过预先训练的ImageNet，并产生以下观察结果：

CNN特征图可用于定位和跟踪。
许多CNN特征图对于区分特定对象与其背景的任务是嘈杂的或不相关的。
较高层捕获对象类别的语义概念，而较低层编码更多的判别特征以捕获类内变异。

由于这些观察，FCNT设计了特征选择网络，以在VGG网络的conv4-3和conv5-3层上选择最相关的特征映射。然后，为了避免在噪声上过度拟合，它还分别为两个层的选定特征图设计了额外的两个通道（称为SNet和GNet）。在主干网络捕获对象的类别信息，而SNET将对象与具有类似外观的背景区分开。使用第一帧中的给定边界框初始化两个网络以获得对象的热图，并且对于新帧，以最后一帧中的对象位置为中心的感兴趣区域（ROI）被裁剪和传播。最后，通过SNet和GNet，分类器获得两个用于预测的热图，并且跟踪器根据是否存在干扰物来决定将使用哪个热图来生成最终跟踪结果。FCNT的管道如下所示。

与FCNT的想法不同，MD Net使用视频的所有序列来跟踪其中的移动。上述网络使用不相关的图像数据来减少跟踪数据的训练需求，这种想法与跟踪有一些偏差。此视频中一个类的对象可以是另一个视频中的背景，因此MD Net提出了多域的概念，以独立区分每个域中的对象和背景。域表示包含相同类型对象的一组视频。

如下所示，MD Net分为两部分：共享层和特定于域的层的K分支。每个分支包含一个具有softmax损失的二进制分类层，用于区分每个域中的对象和背景，共享层与所有域共享以确保一般表示。

近年来, 深度学习研究人员尝试了不同的方法来适应视觉跟踪任务的特点。探索的方向有很多: 应用复发神经网络、深信念网等其他网络模型, 设计适应视频处理和端到端学习的网络结构, 优化过程、结构, 参数, 甚至将深度学习与传统的计算机视觉方法或语言处理和语音识别等其他领域的方法结合起来。

4 - 语义分段

计算机视觉的核心是分割过程，它将整个图像按像素分组，然后可以对其进行标记和分类。特别是，语义分割试图在语义上理解图像中每个像素的作用（例如，它是汽车，摩托车还是其他类型的类？）。例如，在上图中，除了识别人，道路，汽车，树木等之外，我们还必须描绘每个物体的边界。因此，与分类不同，我们需要从模型中进行密集的逐像素预测。

与其他计算机视觉任务一样，CNN在分割问题上取得了巨大成功。其中一种流行的初始方法是通过滑动窗口进行块分类，其中每个像素使用其周围的图像分别分类。然而，这在计算上是非常低效的，因为我们不重用重叠块之间的共享特征。

相反，该解决方案是加州大学伯克利分校的全卷积网络 （FCN），它推广了端到端的CNN架构，用于密集预测而无需任何完全连接的层。这允许为任何大小的图像生成分割图，并且与块分类方法相比也快得多。几乎所有后续的语义分割方法都采用了这种范式。

但是，这也仍然存在一个问题：在原始图像分辨率上进行卷积运算非常昂贵。为了解决这个问题， FCN 在网络内部使用了下采样和上采样：下采样层被称为条纹卷积（ striped convolution ）；而上采样层被称为反卷积（ transposed convolution ）。

尽管采用了上采样和下采样层，但由于池化期间的信息丢失， FCN 会生成比较粗糙的分割映射。 SegNet 是一种比 FCN （使用最大池化和编码解码框架）更高效的内存架构。在 SegNet 解码技术中，从更高分辨率的特征映射中引入了 shortcut/skip connections ，以改善上采样和下采样后的粗糙分割映射。

最近的语义分割研究在很大程度上依赖于完全卷积网络，例如扩张卷积，DeepLab和RefineNet。

5 、实例分割

除了语义分段之外，实例分段将不同的类实例分段，例如用5种不同颜色标记5辆汽车。在分类中，通常有一个图像，其中一个对象作为焦点，任务是说该图像是什么。但是为了分割实例，我们需要执行更复杂的任务。我们看到复杂的景点有多个重叠的物体和不同的背景，我们不仅要对这些不同的物体进行分类，还要确定它们之间的界限，差异和关系！

到目前为止，我们已经看到了如何以许多有趣的方式使用CNN功能来有效地定位带有边界框的图像中的不同对象。我们可以扩展这些技术来定位每个对象的精确像素而不仅仅是边界框吗？使用称为Mask R-CNN的架构在Facebook AI上探索该实例分割问题。

就像Fast R-CNN和Faster R-CNN一样，Mask R-CNN的潜在直觉很简单鉴于更快的R-CNN在物体检测中运行得非常好，我们是否可以扩展它以进行像素级分割？

Mask R-CNN 通过向 Faster R-CNN 添加一个分支来进行像素级分割，该分支输出一个二进制掩码，该掩码表示给定像素是否为目标对象的一部分：该分支是基于卷积神经网络特征映射的全卷积网络。将给定的卷积神经网络特征映射作为输入，输出为一个矩阵，其中像素属于该对象的所有位置用 1 表示，其他位置则用 0 表示，这就是二进制掩码。

另外，当在原始 Faster R-CNN 架构上运行且没有做任何修改时，感兴趣池化区域（ RoIPool ）选择的特征映射区域或原始图像的区域稍微错开。由于图像分割具有像素级特性，这与边界框不同，自然会导致结果不准确。 Mas R-CNN 通过调整 RoIPool 来解决这个问题，使用感兴趣区域对齐（ Roialign ）方法使其变的更精确。本质上， RoIlign 使用双线性插值来避免舍入误差，这会导致检测和分割不准确。

一旦生成这些掩码， Mask R-CNN 将 RoIAlign 与来自 Faster R-CNN 的分类和边界框相结合，以便进行精确的分割：

结论

这5种主要的计算机视觉技术可以帮助计算机从单个或一系列图像中提取，分析和理解有用的信息。我还没有涉及许多其他先进技术，包括样式转移，着色，动作识别，3D对象，人体姿势估计等。事实上，计算机视觉领域的成本太高而无法深入探讨，我鼓励您进一步探索，无论是通过在线课程，博客教程还是正式文档。作为奖励，您可以从我的GitHub存储库获取所有演讲幻灯片和作业指南。我希望它能指导你改变如何看世界！

从上面可以看出大多数都是基于卷积神经网络的改进和应用，因此深入理解前面的CNN有多重要，因此我们要学会学习，去学习最本质的东西，一旦深入理解了CNN，学习上面的算法会很快理解，而且很快可以实现，这就是理论基础的重要性，好上面的都附有相关论文，想深入的请查阅原始论文，卷积神经网络就到这里，下一篇是RNN。

原始博客地址，需要

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
深度学习预备知识 AmazingMQ 深度学习人工智能
1.Tensor张量定义：张量（tensor）表示一个由数值组成的数组，这个数组可能有多个维度（轴）。具有一个轴的张量对应数学上的向量，具有两个轴的张量对应数学上的矩阵，具有两个以上轴的张量目前没有特定的数学名称。importtorch#arange创建一个行向量x，这个行向量包含以0开始的前12个整数。x=torch.arange(12)print("x=",x)#x=tensor([0,1,2
根茎式装配体（RA）作为下一代协同智能范式的理论、架构与应用由数入道人工智能思维框架软件工程智能体
一、引言——范式危机与新大陆的召唤1.1表征主义的黄昏：当前AI协同范式的认知天花板自艾伦·图灵在《计算机器与智能》中播下思想的种子以来，人工智能的漫长征途始终被一个强大而内隐的哲学范式所笼罩——我们称之为“表征主义”（Representationism）。这一范式，无论其外在形态如何演变，从早期的符号逻辑、专家系统，到如今风靡全球的深度学习神经网络，其核心信念从未动摇：智能的核心，在于构建一个关
Manus AI与多语言手写识别
ManusAI与多语言手写识别背景与概述手写识别技术的发展现状与挑战ManusAI的核心技术与应用场景多语言手写识别的市场需求与难点ManusAI的技术架构深度学习在手写识别中的应用多语言支持的模型设计数据预处理与特征提取方法多语言手写识别的关键挑战不同语言字符的多样性处理上下文语义与书写风格适应性低资源语言的训练数据获取解决方案与优化策略迁移学习在多语言任务中的应用端到端模型的优化与轻量化用户反
基于LIDC-IDRI肺结节肺癌数据集的人工智能深度学习分类良性和恶性肺癌（Python 全代码）全流程解析（二）
基于LIDC-IDRI肺结节肺癌数据集的人工智能深度学习分类良性和恶性肺癌（Python全代码）全流程解析（二）1环境配置和数据集预处理1.1环境配置1.1数据集预处理2深度学习模型训练和评估2.1深度学习模型训练2.1深度学习模型评估笑话一则开心一下喽完整代码如下：模型文件如下深度学习模型讲解---待续第一部分内容的传送门第三部分传送门1环境配置和数据集预处理1.1环境配置环境配置建议使用ana
深度学习交互式图像分割技术演进与突破 wang1776866571 深度学习交互式分割深度学习人工智能交互式分割
说明本文为作者读研期间基于交互式图像分割领域公开文献的系统梳理与个人理解总结，所有内容均为原创撰写（ai辅助创作），未直接复制或抄袭他人成果。文中涉及的算法、模型及实验结论均参考自领域内公开发表的学术论文（具体文献见文末参考文献列表）。本文旨在为交互式图像分割领域的学习者提供一份结构化的综述参考，内容涵盖技术演进、核心方法、关键技术优化及应用前景，希望能为相关研究提供启发。摘要：本文系统综述了基于
前沿交叉：Fluent与深度学习驱动的流体力学计算体系 m0_75133639 流体力学深度学习人工智能航空航天 fluent 流体力学材料科学 CFD
基础模块流体力学方程求解1、不可压缩N-S方程数值解法（有限差分/有限元/伪谱法）·Fluent工业级应用：稳态/瞬态流、两相流仿真（圆柱绕流、入水问题）·Tecplot流场可视化与数据导出2、CFD数据的AI预处理·基于PCA/SVD的流场数据降维·特征值分解与时空特征提取深度学习核心3.物理机理嵌入的神经网络架构·物理信息神经网络（PINN）：将N-S方程嵌入损失函数（JAX框架实现）·神经常
如何使用目标检测深度学习框架yolov8训练钢管管道表面缺陷VOC+YOLO格式1159张3类别的检测数据集步骤和流程 FL1623863129 深度学习目标检测深度学习 YOLO
【数据集介绍】数据集中有很多增强图片，大约300张为原图剩余为增强图片数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1159标注数量(xml文件个数)：1159标注数量(txt文件个数)：1159标注类别数：3所在仓库：firc-dataset标注类别名称(注意yo
2025年人工智能、虚拟现实与交互设计国际学术会议学术小八学术人工智能 vr 交互
重要信息官网：www.aivrid.com时间：2025年10月17-19日地点：中国-东莞部分介绍征稿主题包括但不限于：生物特征模式识别机器视觉专家系统深度学习智能搜索自动编程智能控制智能机器人系统组件虚拟现实平台用于VR/AR的AI平台数据和生成、操作、分析和验证浸入式环境和虚拟世界的生成优化和现实的渲染人工智能与用户体验个性化推荐系统情感计算与用户响应虚拟现实与沉浸式技术沉浸式环境设计交互设
机器学习深度学习驱动在光子学设计中的应用与未来【专题培训会议邀您共探科技前沿】软研科技信息与通信信号处理量子计算人工智能
一、背景介绍在智能科技飞速发展的今天，光子学设计与智能算法的结合正成为科研创新的热点。深度学习、机器学习等算法在光子器件的逆向设计、超构表面材料设计、光学神经网络构建等方面展现出巨大潜力。二、会议亮点由北京软研国际信息技术研究院主办的“智能算法驱动的光子学设计与应用”专题培训会议，将深入探讨以下核心内容：光子器件的逆向设计：利用深度学习优化多参数光子器件设计。超构表面与超材料设计：智能算法在新型光
【第三章:神经网络原理详解与Pytorch入门】02.深度学习框架PyTorch入门-(4)Pytorch实战 IT古董人工智能课程深度学习神经网络 pytorch
第三章:神经网络原理详解与Pytorch入门第二部分：深度学习框架PyTorch入门第四节：Pytorch模型构建内容：如何搭建复杂网络以及如何修改模型与保存一、构建复杂神经网络结构在PyTorch中，构建复杂模型通常通过继承nn.Module类，分模块组织层与前向传播逻辑。示例：自定义一个卷积神经网络（CNN）importtorch.nnasnnimporttorch.nn.functional
探秘AI大模型：一键获取深度学习精华-PPT全面解读曹筱习Dwayne
探秘AI大模型：一键获取深度学习精华-PPT全面解读【下载地址】AI大模型PPT资源下载本仓库提供了一个名为“ai大模型ppt”的资源文件下载。该资源文件详细介绍了AI大模型的相关内容，包括但不限于AI大模型的定义、应用场景、技术架构、发展趋势等。通过这份PPT，您可以深入了解AI大模型的核心概念和实际应用，为您的学习和研究提供有力支持项目地址:https://gitcode.com/open-s
人工智能基础知识PPT课件智慧化智能化数字化方案方案解读馆人工智能入门人工智能学习人工智能课件人工智能PPT
人工智能基础知识定义与概念：人工智能是研究、开发用于模拟、延伸和扩展人类智能行为的综合性科学，其目的是让计算机系统具备执行人类智能任务的能力。涉及计算机科学、数学等多学科，研究对象是让系统具备智能，智能包括认知、适应和自主能力等维度。学派与方法学派：有符号主义、联结主义、行为主义等学派，分别从不同角度研究人工智能。方法：包括基于知识、学习和仿生的方法，如专家系统、机器学习、深度学习等。分类与发展分
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {