墨染锦年syx

基于卷积神经网络的多目标图像检测研究（一）

摘要

目标检测任务简单来说是在图片或视频中指出多个特定目标并以方框形式给出这些物体在图片中的位置和大小。它与我们的生活密切相关，它被广泛应用于安全识别、无人驾驶、医疗诊断、图像检索等领域，并且未来将愈发重要。因此目标检测也是近年来机器学习、图像处理领域的热门研究内容。目前来说，深度学习发展迅速，在目标检测方面涌现出了很多优秀的算法。
到现在为止，已有的基于深度学习的目标检测与识别算法大致可以分为以下三大类：
① 基于区域建议的目标检测与识别算法，如R-CNN, Fast-R-CNN, Faster-R-CNN；
② 基于回归的目标检测与识别算法，如YOLO, SSD；
③ 基于搜索的目标检测与识别算法，如基于视觉注意的AttentionNet，基于强化学习的算法。

这些新的算法有很大的普适性，但是由于具体使用过程中的复杂性，出现的目标大小、清晰度等问题，使得目标检测的准确性面临考验，这也是目标检测算法领域需要解决和攻克的问题。

本文对深度卷积神经网络进行了初步的原理研究和探索，首先本文对公开数据集VOC2007进行了扩充，通过拍摄照片和模型训练的途径，对生活常见目标人、车、椅子和杯子这四类物体目标进行增强。之后对于流行深度学习框架进行简单测评，得出了TensorFlow综合表现良好的结论。

本文采用VGG16作为Faster RCNN的基础特征提取网络，在深度学习框架Caffe下进行网络训练，微调超参数类型和数值，并介绍了在ImageNet上预训练模型的流程。最后得出本文所训练的Faster RCNN模型在日常生活物体检测中有较为准确的识别率和较高的识别速度的结论。

关键词：Faster-R-CNN；卷积神经网络；多目标检测；深度学习

Abstract

The target detection task is simply to point out a plurality of specific objects in a picture or video and give the position and size of the objects in the picture in a block form. It is closely related to our lives, and it is widely used in the fields of safety identification, driverless, medical diagnosis, image retrieval and the like, and will become more and more important in the future. Therefore, the target detection is also a popular research content in the field of machine learning and image processing in recent years. At present, the depth study has developed rapidly, and many excellent algorithms have emerged in the aspect of target detection.
By now, the existing object detection and recognition algorithm based on depth learning can be roughly divided into the following three main categories:
(1) Target detection and recognition algorithms based on regional recommendations, such as R-CNN, Fast-R-CNN, Faster-R-CNN;
(2) Target detection and recognition algorithm based on regression, such as YOLO, SSD;
(3)The target detection and recognition algorithm based on the search, such as the visual attention-based AttentionNet, is based on the enhanced learning algorithm.
These new algorithms are very universal, but because of the complexity of the specific use process, the size and clarity of the target, the accuracy of target detection is tested. This is also the problem that needs to be solved and solved in the field of target detection algorithm.
In this paper, the principle of deep convolution neural network is studied and explored. Firstly, the open dataset VOC2007 is extended, and the common target people and cars in life are trained by taking photos and models. Four types of objects, chairs and cups, are enhanced. After that, a simple evaluation of the popular depth learning framework is carried out, and the conclusion is drawn that the comprehensive performance of TensorFlow is good.
In this paper, VGG16 is used as the basic feature extraction network of Faster RCNN, and the network training is carried out under the deep learning framework Caffe, and the type and value of superparameters are fine-tuned, and the flow chart of pre-training model on ImageNet is introduced. Finally, it is concluded that the Faster RCNN model trained in this paper has a more accurate recognition rate and a higher recognition speed in the detection of daily life objects.

Key Words：Faster-R-CNN; convolution neural network; multi-target detection; deep learning

第1章绪论

1.1 研究背景及研究意义

很久以来，视觉信息都是人这个本体与外部环境交流信息最重要也是最不可或缺的部分。近年来人工智能和机器学习的发展迅速，普遍对于目标识别、检测的要求在迅速放大，而此时传统的机器学习算法已经在性能上无法达到人们的需求，伴随着卷积神经网络等深度学习算法的优良表现，越来越多的学者和科研人员开始对卷积神经网络进行研究和实验，卷积神经网络的识别效果甚至在某些领域都超过了人类的识别能力。
目标检测的任务是找出图像中所有感兴趣的目标（物体），并确定它们的位置和大小，是机器视觉领域的核心问题之一。由于各类物体有不同的外观，形状，姿态，加上成像时的光照条件不同，遮挡等因素的干扰，目标检测一直是机器领域最有挑战性的问题。人在处理图片或者动态视频时，会先锁定看到图像中的物体，找出它的位置，然后根据目标的特征，判断相应类别，然后对于特定物体目标进一步处理，最后再根据得到的信息来调整行动。
在人处理信息这个流程中：（1）往往由于个体的差异和自身当时心理以及生理上的影响，对于相同目标检测有一定的误差和不准确性；（2）由于个体的精力和兴趣差别，往往会造成信息采集的缺失；（3）人本身生理的缺陷，视野局限于双眼可视范围内。
而机器通过多种图像采集器，计算机处理和数据算法处理，可以解决上述中人在处理图片目标信息时的不足，在不久的将来，以优秀的深度学习算法为代表的机器学习会在各个领域中代替人类处理图像信息并且表现的更加完美。
传统手工提取特征技术在进行目标检测时存在以下问题：（1）目前不存在一种算法可以对图像中所有的目标类型进行检测；（2）传统算法较容易被外界因素干扰。
伴随科技的进步和发展，现代数据存储成本下降和计算机性能的几何倍提升，更加使得人工智能，机器学习近年来的突飞猛进。在这样的条件下，研究者们突破传统的手工设定，开始使用深度学习来对图像中的目标进行分割、识别。
在所有的深度学习模型中，卷积神经网络是最有应用潜力和发展空间的一种。尽管未来的模型能够在检测速度上有所提升，但是几乎没有模型的表现能显著超越Faster R-CNN。总的来说，Faster R-CNN也许不是目标检测最简单，最快的方法，但是它的表现还是自目前最佳的。例如，Tensorflow应用Inception ResNet打造的Faster R-CNN就是他们速度最慢，但却最精准的模型。相较于传统的图像处理，深度学习在给出了大量的带有标注划分的数据集训练后，不需要人工的选择特征，它在网络训练后可以从图像中学习到由标注带来的特征。由此可见，基于卷积神经网络的多目标检测模型必然是未来研究和发展的热门对象。

1.2 多目标图像检测的定义

目标检测的任务是找出图像中所有感兴趣的目标（物体），确定它们的位置和大小，是机器视觉领域的核心问题之一。计算机视觉中关于图像识别有四大类别的任务：
1）分类；2）定位：3）检测；4）分割。除了图像分类之外，目标检测要解决的核心问题是：目标可能出现在图像的任何位置、目标有各种不同的大小、目标可能有各种不同的形状。目标检测的流程是：图像或者视觉信息等被视觉传感器采集、整理，转化为书记矩阵储存在计算机中，作为数据输入到目标检测模型中，通过识别得到原始图像，输出标记后的目标本体、目标位置和目标类别。最后输出其所属类别，进行展示输出或者是进行细致优化处理。
对于整个目标检测模型来说最重要的两点就是准确性和检测速度。不同于人类，计算机在处理、理解图片时，不能根据纹理、外形等特征进行快速准确的判断。因为图片或视频等信息在二进制中是以0—255的数字存储在不同的颜色通道中的，想要让计算机进行识别，必须要通过算法，而不同的算法不能完全的覆盖所有的物体，很容易因为漏掉特征提取区域而出现遗漏，失误的现象。
所以，本文的研究目的就是初步的探索和讨论在多目标图像检测和识别过程中，通过深度学习和目标检测结合，能进行快速而且准确的图像多目标识别，判断和分类。

1.3 国内外研究现状

在目前计算机硬件和各种算法飞速发展的时代背景下，目标检测与深度学习的结合，使得多目标图像检测也得以迅速发展。本小节从深度学习和目标检测两个角度对国内外研究现状进行分析、总结。

1.3.1 目标检测研究现状

国内外的科研人员和实验室在目标检测与识别的研究过程中仍然面临很多的困难。真实世界的信息在转化为二进制信息的过程中，信息会在一定程度上或多或少的有所丢失和畸变，并且待测目标的运动，遮挡和光照还有真实场景中对于实时识别准确性的要求都是需要面对的方面。
传统的目标检测算法分为三个阶段，包括有生成目标建议框，提取每个建议框中的特征，最后根据特征进行分类。这三个阶段的具体过程：
1）生成目标建议框。在向计算机输入一张原始图像后，它只会识别每一个像素点，想要用方框框出目标的位置及大小，最先想到的方法就是进行穷举建议框，就是用滑动窗口扫描整个图像，通过缩放来进行多尺度滑窗。这种方法已经落伍被淘汰，因为它的计算量很大，效率极低，根本无法适用于如今要求的快速识别领域。
2）提取每个建议框中的特征。在传统的检测方法中，常见的HOG算法对物体边缘适用直方图统计来进行编码，有较好的表达能力。但是传统特征设计需要人工指定，达不到可靠性的要求。
3）分类器的设计，传统的分类器在机器学习领域非常多。
然而传统的算法在预测精度和速度上都很不理想，在图像处理领域陷入困难的时候，随着深度学习算法在计算机识别领域的迅速发展，传统算法已经逐渐退出历史的舞台。

1.3.2 深度学习研究现状

如今，人工智能已经成为一个非常火热的领域，这个领域的几何倍速度发展也使得人们希望可以借助人工智能来快速准确地自动处理一些主观的，非常规的失误，如识别、处理图像等。早期的研究项目有一些基于数据库的方法，这种方法的核心主要是利用数据库的量来近似于穷举所有可能的方式来将所有规则进行存储，然后设计相对应的指令来使得计算机能自主的理解，计算。但因为缺乏可以精确，快速地描述事物的算法规则，所以这个方法也是以失败告终。
近代的研究人员针对这些问题提出了改进的方案。这个方案是基于人类大脑思考问题时的层次来设计的，它让计算机从大量的经验中学习，并自主构架一个层次化的结构来拟合事物，通过各个层次之间的简单关联来定义事物。这就是最初的“深度学习”。
自从深度学习出现后，就有越来越多的个体和研究团体加入到这个领域。近几年来关于深度学习的著作和应用算法更是越来越多的出来，被广泛地应用于各个领域中。目前国际上以PASCAL视觉目标类VOC识别挑战赛作为目标检测领域的最高水准竞赛。PASCAL挑战赛由英国的牛津大学和利兹大学，瑞士苏黎世大学和微软剑桥研究院于2005年联合发起，其人要目的是识别真实场景中的一些识别的物体。该挑战赛在一定程度上极大的推动了计算机视觉研究领域的发展。世界上许多深度学习领先的团队或机构都派出了队伍参赛，其中包括有Google、百度、微软、Facebook等知名企业和实验室，并在目标检测领域取得了先进的研究成果和近战。在2012年Krizhevsky A等人在竞赛中利用深度卷积神经网络将ImageNet中1000类物体的分类识别错误率降到了37.5%和17.0%。
但是随着国内近年来在该领域的大力发展，我国在深度卷积神经网络上的研究也迅速发展，可以从2016年中国团队包揽了该比赛全部项目的冠军窥一二。虽然身为后起之秀，但是发展势头越来越盛。
自从深度神经网络算法首次在ImageNet数据集上大放异彩后，物体检测领域开始逐渐利用深度学习来做研究。随后各种结构的深度模型被提出，数据集的识别准确率被一再刷新。最早的R-CNN（Region-based CNN）首次使用深度模型提取图像特征，以49.6%的准确率开创了检测算法的新时代。[6]R-CNN的工作包含有三个步骤：1）借助一个可以生成大约2000个region proposal的选择性搜索算法，来获取可能出现的目标。2）在每个region proposal上运行一个卷积神经网络（CNN）。3）将每个CNN的输出都输入进一个支持向量机，以对上述区域进行分类，还有一个线性回归器，以收缩目标周围的边界框。换句话说，首先是给出建议区域，然后从中提取出特征，然后再根据这些特征来对这些区域进行分类。本质而言，R-CNN将目标检测转化为了图像分类的问题。虽然R-CNN模型很直观，但是它的速度很慢。
而后出现的Fast R-CNN在很多方面与R-CNN类似，它在R-CNN的基础上加上了两项主要的增强手段，使得其检测速度较R-CNN有所提高：1）在推荐区域之前，先对图像执行特征提取工作，通过这种方法，后面只用对整个图像使用一个CNN（之前的R-CNN网络需要在2000个重叠的区域上分别运行2000个CNN）。2）将支持向量机替换成了一个softmax层，这种变化并没有创建新的模型，而是将神经网络进行了扩展以用于预测工作。

如图1.2所示，现在我们基于网络最后的特征图（而非原始图像）创建了region proposals。因此，我们对整个图像只用训练一个CNN就可以了。
此外，在使用了一个softmax层来直接输出类（class）的概率，而不是像之前一样训练很多不同的支持向量机对每个目标类进行分类。现在，只用训练一个神经网络，而之前我们需要训练一个神经网络以及很多的支持向量机。
但是Fast R-CNN的识别速度仍然达不到实时的要求，于是Faster R-CNN应运而生，它的主要创新是用一个快速神经网络代替了之前慢速的选择搜索算法。换句话说，就是直接利用了RPN（Region Proposal Networks）网络来生成目标候选框。RPN 的工作原理是：
在最后卷积得到的特征图上，使用一个 3x3 的窗口在特征图上滑动，然后将其映射到一个更低的维度上（如 256 维），
在每个滑动窗口的位置上，RPN 都可以基于 k 个固定比例的 anchor box（默认的边界框）生成多个可能的区域。
每个 region proposal 都由两部分组成：a）该区域的 objectness 分数。b）4 个表征该区域边界框的坐标。
换句话说，我们会观察我们最后特征图上的每个位置，然后关注围绕它的 k 个不同的 anchor box：一个高的框、一个宽的框、一个大的框等等。对于每个这些框，不管我们是否认为它包含一个目标，以及不管这个框里的坐标是什么，我们都会进行输出。在region proposal的基础上添加池化层，全连接层和softmax分类层和边界框回归器，就是Faster R-CNN模型。
总体而言，Faster R-CNN 较 Fast R-CNN 在速度上有了大幅提升，而且其精确性也达到了最尖端的水平。值得一提的是，尽管未来的模型能够在检测速度上有所提升，但是几乎没有模型的表现能显著超越 Faster R-CNN。换句话说，Faster R-CNN 也许不是目标检测最简单、最快的方法，但是其表现还是目前最佳的。例如，Tensorflow 应用 Inception ResNet 打造的 Faster R-CNN 就是他们速度最慢，但却最精准的模型。
也许 Faster R-CNN 看起来可能会非常复杂，但是它的核心设计还是与最初的 R-CNN 一致：先假设对象区域，然后对其进行分类。目前，这是很多目标检测模型使用的主要思路。
在2015年，YOLO算法被提出。YOLO算法的主要创新点在于放弃了原始的区域选择过程，将输入图片信息按一定比例划分出正方的方格，然后对每个方格产生大小不同的边界框，并进行回归处理。这样做的好处是极大的加速了整个检测过程，在高端GPU上甚至可以达到45fps的处理速度，但是缺点是对于形状小的物体或者是多个物体叠加在一起的情况处理能力较弱。
作为目前主流的算法，Faster R-CNN是一个很好的研究领域，未来在与目标检测领域结合的过程中，必然能诞生出更好更快的模型。因此，本文采用深度卷积神经网络的相关算法来完成对多目标图像的检测。

本文由作者原创，转载或引用请得到博主同意。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
深度学习驱动的车牌识别：技术演进与未来挑战逼子歌深度学习车牌识别神经网络字符识别 YOLO 卷积神经网络
一、引言1.1研究背景在当今社会，智能交通系统的发展日益重要，而车牌识别作为其关键组成部分，发挥着至关重要的作用。车牌识别技术广泛应用于交通管理、停车场管理、安防监控等领域。在交通管理中，它可以用于车辆识别、交通违法监控和车流统计等，提高交通管理的效率和准确性。在停车场管理中，实现车辆的自动识别和收费，提升管理和服务水平。在安防监控领域，可用于追踪嫌疑人及犯罪行为。深度学习的出现为车牌识别带来了重
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程牙牙要健康深度学习 onnx onnxruntime 深度学习 python 人工智能
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论文章目录【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程前言模型转换--pytorch转onnxWindows平台搭建依赖环境onnxruntime调用onnx模型ONNXRuntime推理核
基于深度学习的多模态信息检索 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的多模态信息检索（MultimodalInformationRetrieval,MMIR）是指利用深度学习技术，从包含多种模态（如文本、图像、视频、音频等）的数据集中检索出满足用户查询意图的相关信息。这种方法不仅可以处理单一模态的数据，还可以在多种模态之间建立关联，从而更准确地满足用户需求。1.多模态信息检索的挑战异构数据表示：多模态数据通常具有不同的特征和表示形式（如文本的词嵌入与图
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR