01图灵科技

基于深度学习算法的垃圾分类图像识别研究

收藏和点赞，您的关注是我创作的动力

文章目录

概要

一、研究背景与意义

1.1.1研究背景

1.1.2研究目的

1.1.3研究意义

二、项目技术理论

2.1开发工具

2.2深度学习

2.3人工智能

2.4图像识别

三、深度学习算法模型

3.1自动编码神经网络

3.1.1自动编码器

3.1.2变分自动编码器

3.1.3生成对抗网络

3.2受限波尔兹曼机

3.3卷积神经网络

3.3.1卷积神经网络结构概述

3.3.2卷积神经网络之AlexNet

四、系统设计与分析

4.1垃圾分类图像识别系统构成及原理

4.1.1图像处理基础知识

4.1.2垃圾分类图像识别系统构成

4.1.3图像识别系统功能分类模块设计

4.2垃圾分类图像识别系统设计

4.2.1垃圾图像数据来源

4.2.2图像预处理

4.2.3AlexNet卷积神经网络搭建

4.2.4模型训练

4.2.4模型测试

4.3GUI界面设计

4.3.1PYQT5简介

4.3.2PYQT5界面设计

五、目录

概要

在科技发达、智能时代中，深度学习、机器学习以及人工智能成为了高频词。它们看似深不可测，但是又离不开我们的生活。深度学习和机器学习是一种技术、而人工智能一种是一种体现。使用深度学习和机器技术，使机器拥有人的某种大脑结构从而来实现人的某种行为，它不仅解决了很多即无聊又繁琐的工作，从而解放了很多工人每天反复并且厌倦的动作节，节省了大量的时间；而且它在每件工作当中，能够做到比人更加精确，并且不会像人类一样受感情甚至环境的影响导致工作的效率以及成品的达标率降低。正因为人工智能给人们带来了出乎意料的惊喜以及数不胜数的方便，并且人工智能能够满足人类的懒惰性，所以人类对深度学习、机器学习以及人工智能的需求也越来越多。在这种人工智能急剧膨胀的形势下，深度学习与机器学习成了垃圾分类的主要推力。众所周知，垃圾是人类既厌恶又无法摆脱的物体，而垃圾则是铺天盖地层出叠见地出现在我们地视野中，解决垃圾问题给全球带了巨大的挑战。想要有效处理垃圾，垃圾分类是必然的结果，然而垃圾分类过程又是一件既繁琐又耗时的事，而且使用人工进行垃圾分类它不仅需要耗费大量的人工而且它还会大大降低准确率。这时人工智能、深度学习就起了重要的作用。
本文正是研究深度学习算法的垃圾分类图像识别。论述多种深度学习算法及网络结构的图像识别处理原理，分析深度学习在图像识别中的突出优势，并且提出垃圾分类在现实社会中面临的问题与挑战。在综合了解研究后，深入探讨使用深度学习算法的卷积神经网络，在大量的有效图像数据集的训练过程中是如何增加一种全新的隐藏层，并且使用这种增加卷积层的方法来得出更高层次的特征提取从而让机器自动提取特征来实现图像的识别。

关键词：深度学习图像识别垃圾分类机器学习人工智能

一、研究背景与意义

1.1.1研究背景

在人类还没有意识到垃圾对我们的生活饮食、身体健康，社会环境等会造成极大影响的时候，人们把对自己没有使用价值的外包装、砖瓦陶瓷、剩菜剩饭、荧光灯管等垃圾都随意丢弃，甚至在各街道上的垃圾也是随眼可见。随着人们这种肆无忌惮随意扔垃圾的行为，大自然至今给我们带来惨痛的教训。根据数据显示，在一个人口密集的中国每年生产的垃圾总数量高达10亿吨，成为了一个垃圾成产的超级大国。然而在人类没有正确对待垃圾处理的问题中，导致了堆积成山的垃圾形成有剧毒的腐烂物，和有害的脏水渗透到地下造成严重的水资源污染，这些有害的腐蚀物品和水不仅侵蚀人类的身体，甚至某些地区因为这些有害垃圾导致很多村民得了癌症，形成了癌症村。
垃圾对人类造成如此大的危害，所以如何处理垃圾问题成了国家与人民刻不容缓的重要任务，也是我们义不容辞的责任。在数量如此庞大的垃圾里，实行垃圾分类是最有效的方法，只有让更多的垃圾有效的循环使用，变成有价值的垃圾，从而才能达到减少垃圾降低危害的目的。但垃圾分类是一项大工程，如果垃圾分类只有环保工人在实行，那只有微乎其微的作用，所以垃圾分类，人人有责。本课题就是为了让大家能够快速并准确的对垃圾进行分类做出的一个垃圾分类图像识别。设计采取六种不同的垃圾类型图片，通过使用深度学习算法的最火热的AlexNet卷积神经网络结构，该结构由5层卷积层和3层全连接层组成。其中卷积层用于提取图像特征，全连接层用于逻辑处理。通过网络训练从而使得机器得到一个能够自动识别垃圾的设计。本研究不仅能够提高垃圾分类的准确率与效率，并且可让人们能够简单方便地学习垃圾对应属于的类型。

1.1.2研究目的

实行垃圾分类是生态文明，保护环境的重要环节。简单粗暴的垃圾焚烧、垃圾填埋、垃圾堆放等等都不仅会导致严重的环境污染还会占用土地资源，甚至严重的影响人的身体健康，然而实行垃圾分类，它可以弃废为宝：把纸箱，塑料，金属，布料等可回收垃圾进行分拣、加工、打包等步骤就成为了新的衣服，窗帘，塑料箱等新的商品进行销售；把剩菜剩饭、腐烂水果等厨余垃圾经过预处理分成油脂、污水和残渣等，其中油脂运到油脂加工厂进一步加工，油脂加工生成的生物柴油可用来使用在汽车上做燃料。污水排到污水处理站经过处理后再排放，降低水资源的污染。而残渣可以进行发酵产出沼气可用来发电，发酵后的残渣还可以作为有机营养肥料，助于植物的生长；最终有害的电池、灯泡、水银、化妆品等有害垃圾，还会进一步分为有无作用垃圾，有用的垃圾要进行深度的加工，无用的垃圾才被拉到一个专门设置过的填埋场进行填埋。这一系列都是垃圾分类的重要处理过程，显而易见，垃圾分类的实施不仅达到资源的循环利用，还可以减轻资源紧缺的重要问题，进行垃圾分类还可以提高人类的的素质素养，以及价值观念，让社会上都养成勤俭节约的作风，学会节约资源，利用资源。
然而要全面推广垃圾分类，人类必须要了解垃圾所对应的类型。本课题的垃圾分类图像识别就是解决人类对垃圾分类的疑惑。人们可以通过垃圾图片及摄影可得出垃圾类型，从而学习分类垃圾以及对垃圾的正确投放。因此，此课题的设计研究对国家社会以及社会环境有着非常积极的作用。

1.1.3研究意义

通过这次课题的设计与研究，深深的认识到垃圾对我们人类带来的巨大的影响，为自己以前做过乱扔垃圾的行为感到十分的惭愧。在研究过程中，不断地改变了自己对垃圾的价值观，提高了自己的探究能力以及专业能力。本设计对垃圾图像或者用摄像头对垃圾进行识别，有助于使用者能够通过最简便的方法来得知垃圾的类型并且提高投放垃圾的准确率，可降低环卫工人的工作量，加快社会环境的环保。此研究还可对社会提供借鉴价值，推广实施垃圾分类，营造美好环保家园。由此可见，本次研究的深度学习算法垃圾分类图像识别不能进对个人，社会，国家都有着非常大的意义，是一个值得探究的课题。

二、项目技术理论

2.1开发工具

　Microsoft VS Code，通常被简称为VS Code或VSC。它是一个非常强大的工具并且可跨三大平台运行，Window、Linux和Mac。VS Code可以满足用户根据各自喜好编辑出心目中最完美的专属编译器。不仅JavaScript，TypeScript，Node.js都是VS Code所支持的，而且在各大语言里提供富裕的运行时与扩展库，如Python，C++，C#，PHP等语言。对于一个程序员来说，VS Code能达到他们心目中的免费，高效，开源，轻便，这是完全取胜于atom，webstorm和MyEclipse等开发工具。在2019年Jupyter增加在VS Code的功能里，再也不需要用插件而且可以直接运行调试，比PyCharm更简便，更轻捷，所以对于Python学者来说VS Code又比PyCharm更胜一筹。

2.2深度学习

众所周知，深度学习是人工智能的一门热技术，它来源于机器学习，是机器学习的新创作，新发展。深度学习参照人的大脑神经元结构，将数据的输入模仿成大脑神经元的树突接收外界信息，数据的加权求和过程仿照神经元的细胞核将收到的信息进行加工，深度学习的激活函数仿照神经元的轴突运输信息，再通过突触输出感知信息。数据从输入到输出相当于一个完整的神经元从感知信息到头脑获取信息。在深度学习中经常把多个单一的神经元组合在一起，上一个神经元的输出作为下一个神经元的输入，如此类推，最终达到只剩一头一尾的输入和输出点，这样构成的结构就成为神经网络结构，其中输入点和输出点中间层都叫做隐含层。与机器学习相比深度学习不同的特征是无监督学习，它不需要人给予学习的特征，只要有一批数据，深度学习能够自己根据数据通过多层神经网络结构反复处理找出最具有代表性的特征，继而来对新数据做出判断给出正确结果。在神经元的基础上增加深度，根据现状的大数据与云计算研究出来的一系列算法在现实生活的应用起到非常大的作用，如现今的自然语言处理，语音识别和图像处理等这些最为广泛的应用都离不开我们深度学习的神经网络。

2.3人工智能

人工智能可在中间分为两个词语，“人工”和“智能”，可译为人工制造，人工生产和知识，意识，能力。所以人工智能即是人工制造出有智慧有能力并且可以仿照人的思维过程的机器来解决现今较为复杂的事情。要实现高级人工智能，我们需要用海量优质并有效的数据，在优秀的算法中让机器自行反复强化印象就能让机器更有效率产出满意的结果，所以数据，算法和云计算环境是人工智能中心索要。但想要让机器构造出一定的人脑思维，那涉及的学课不单单是计算机，心理、推力等学课也是较为重要的一部分。在大数据急速发展的时代，智能机器替代人类完成复杂的任务，而且比人类更为准确，更为快速，这就是为什么人工智能在当代为何如此火爆的原因，这也是人工智能的研究价值所在。

2.4图像识别

图像识别通过大数据技术对图像预处理、特征提取，然后训练得出模型就可以对目标进行识别。在人类中的图像识别中，人们根据图像反应到我们感官的信息，然后大脑自动进行处理，帅选，认识，储存对图像进行认知和再认的过程就为人类的图像识别。在人工智能的图像识别中，它与人类的图像识别相似，参照人的大脑结果，用深度学习算法对新输入的数据进行特征处理，训练构成一个模板，当再有数据输入时候，数据图像与已存在的模板相符，那么机器就能把图像识别，这就称为机器的图像识别。

三、深度学习算法模型

深度学习算法结合数据的多个输入输出构成的隐藏层就是深度学习算法的模型。要想得到一个最有效的算法模型，海量的数据训练和多层的神经网络是数据特征提取的重要关键，只有拥有庞大完美的数据集再结合一个优秀的算法就可以得到一个准确率高、识别速度快的模型。深度学习仿照人脑通过多个神经元以层级的方式传递提取特征，所以深度学习算法也是通过多层的神经网络来学习传递并得出最有效的特征。本章节就是研究分析多种深度学习算法的网络结构的构建与图像识别的关联知识。

3.1自动编码神经网络

3.1.1自动编码器

自动编码器是无监督的神经网络模型。既然有无监督学习存在，那相对应的有监督学习同理也存在。所谓有监督学习，其实就是数据包括了数据特征与数据标签。一般而言，有监督学习就是给定机器数据以及数据标签，让机器自动把数据的特征与相对应的数据标签联合起来，最终达到机器能够从一个无标签的数据中反馈出一个正确的标签结果。而相对应的无监督学习数据是没有给定标签的，需要机器根据数据的内在特征把数据规划分类，找出规律。其无监督学习一般用在聚类、密度估计与异常检测应用中。实际构成自动编码器主要有两部分。第一部分根据无监督学习来训练网络去除噪声从而使得数据得以降维，此过程也叫做编码过程；第二部分将编码得出的数据重新构造成原始状态的数据，此过程叫做解码过程。如下图3.1所示：

图3.1 自动编码器过程图
由上图的编码过程可知，若当把x1，x2，x3三个数据作为自动编码的输入数据，则三个数据经过编码器就可以得出一个整体数据的隐含特征，隐含特征指的是在原始数据中挑出最具有代表性的特征，其隐含特征的数据也称为压缩数据。然后压缩数据通过解码器就得到和原始数据相似并且与原始数据维度相同的重构数据x1’，x2’，x3’。
如今把原来数据经过编码解码得出的重构数据在自动编码器中较为少用。目前较为有用的是数据经过编码器得出的压缩数据。压缩数据主要用途在两个方面，一个用途是用自动编码器的方法把数据经过编码器得出的压缩数据，此数据的维度是比原来数据要低，起到去除噪声的作用。去除噪声的数据主要包含数据中最主要的特征。所以编码器可以用在有监督学习的应用中，因为在目前有监督学习需要的是带有标签的数据，而此类数据的数据量较为少数。自动编码器可以提取大量没标签数据的特征，然后将此数据与特征送到有监督学习中使用，这是体现自动编码器的特征提取的功能。另外，编码器还便于可视化的处理，类似于PCA和主成分分析法将数据降维得到压缩的数据图像。

3.1.2变分自动编码器

如何重构原始输入的数据是变分自动编码器研究所在。我们从3.1.1节得知在自动编码器中间层的隐含特征数据可以重构原始数据，在此我们定义隐含特征数据为Z，因此我们可以在隐含特征Z中加入满足某种分布的随机因素就可以重构出想要的数据，如下图3.2变分自动编码器模型所示，这种模型简称VAE。

图3.2 变分自动编码器模型图
这种模型一般作用于数据的自动生成。在自动编码器模型的训练结束后，我们可分别在经验分布和解码器中可得出潜在变量与新的样本数据。变分自动编码器的X由潜在并不可观测的隐含变量Z生成，若生成的数据X是图像，那么Z则是用于生成X图像的潜在属性。所以数据生成过程由Z的构成和Z变换成X的过程两大步骤组成。将给定的数据X传给编码器网络，就可以得到给定X情况下Z的分布，然后根据Z的分布进行采样得出演变量样本Z，然后将Z传递给解码器网络，通过解码器网络可以获得在给定Z的条件下X分布的两个参数，这样我们就可以从中采样得出最终的数据X。训练完毕变分自动编码器后我们只需要解码器进行生成数据。在生成数据中先对Z在标准正态分布进行采样来生成新的数据。这种变分自动编码器一般用于图像生成，可以使用训练数据通过变分自动编码器得出新的的数据而且比训练数据效果更为好看的图片。

3.1.3生成对抗网络

生成对抗网络现今一般用在辨别图像真假的应用中，它就像一个鉴定师鉴定图画的真迹与假迹。在这种对抗的形势下，仿制师和鉴定师的技术也就不断地相互促进，不断提高技术水平。那么仿制师和鉴定师是如何相辅相成的呢？
仿制师在生成对抗网络中对应的是生成器。显然，生成器的作用是创建伪造图像，其目标是让判别器无法鉴定真假。其生成器的模型一般是从均匀分布和高斯分布的随机噪声中生成图像。
鉴定师在生成对抗网络中对应的是判别器。显然，判别器的作用是确定给定的图像是否为真实，判别器用来辨别图片是生成于生成器还是从数据集中选取的真实图片。
一开始生成器模型与判别器模型都没有经过训练，然后两个模型在训练中竞争为了脱颖而出。生成模型将产出图像，其图片越为接近真实图片证明训练得越好，以成功欺骗判别模型为目标，而判别模型就对生成模型生成的图片进行判断是否为真。在这种对抗的环境下训练，两者模型水平达到越来越高，最终趋于一个稳定。这种就是生成图片的对抗网络过程，同时这种对抗网络也可以用在生成文本的应用中。在生成对抗网络的网络模型没有规定的限制，可以用多层感知机、卷积神经网络、自动编码器等网络结构。

3.2受限波尔兹曼机

受限波尔兹曼机简称RMB，在名字上来看波尔兹曼机就是一个马尔科夫随机场，也就是一个带条件的无向图模型。简单理解就是把隐藏状态的模型与马尔科夫随机场结合起来。如图3.3所示，把一个无向图形分为两类节点，阴影部分为可观测变量，另外一类叫隐藏变量，这样的结构模型就是受限波尔兹曼机模型。

图3.3 受限波尔兹曼机模型
与波尔兹曼机和受限波尔兹曼机不同的地方在于后者在同层之间是没有任何连接的，只有在显层和隐层之间关系才是全连接的关系，因为在RMB中去除同层之间的连接可以简便训练过程，这样更方便于实际应用模型训练。在受限波尔兹曼机的训练过程里，通常使用的是对比散度的方法。例如当我们假设显层与隐层的神经元个数分别为d和q，v是显层的状态向量，h是隐层的状态向量。那么在所有的隐层状态向量下求显层状态向量的概率，我们可以使用显层在隐层条件下的每一位概率连乘得出显层状态的概率；同样对于在所有的显层状态向量下求隐层状态向量的概率可以使用隐层在显层条件下的每一位概率连乘就可得出隐层状态的概率。

图3.4 对比散度训练过程图
如上图3.4所示，在使用对比散度训练过程里，我们通常使用批量处理的方法，选取10到100之间的数作为实践经验。在训练前先把数据进行随机打乱处理，先初始化权重和显隐层的节点数，通过显层的输入乘上对应的权重得出激活值就可以调用sigmoid函数来算出隐层的概率，用隐层概率与一组0到1之间的随机值进行比较，如果隐层概率比随机值大则隐层状态就为1，反之则为0。然后在正向关联里使用显层输入的数据和隐层算出来的概率进行转置运算。与得出隐层概率同样的方法得到显层概率后再使用显层概率作为输入来计算隐层的概率。再用显隐层概率进行转置得出反向关联，正反关联之差乘以学习率再除以批量的大小来更新权重。在整个过程里我们可以设定一个变量来记录误差。最后检验训练是否结束，若没有结束则重复一遍整个训练过程。上述就是受限波尔兹曼机对比散度的训练过程，这种受限波尔兹曼机通常使用在深信度网络里，通过搭建多层的受限波尔曼机进行训练。

3.3卷积神经网络

在图像识别领域里特征学习是必不可少的技术操作；在神经网络领域里特征学习是永恒的主题。提取特征可以使用有监督学习、无监督学习、自动编码器等等方法，但在神经网络里，卷积是目前最热门，相对又简便的一门特征提取技术。人工智能飞速发展使得卷积神经网络技术越来越先进。例如现今超级火热的抖音尬舞机、美图秀秀等这些都是用计算机视觉卷积神经网络技术实现的。
卷积神经网络最广泛应用于图像识别，它就相当于一个被遮盖住的箱子，接收二维像素阵列作为图像数据，经过卷积神经网络箱子的处理，输出得到的是图像是什么的信息。所以最重要的是要清楚卷积神经网络的处理过程，了解它是如何从图片上得知它的信息的。

3.3.1卷积神经网络结构概述

全连接神经网络拥有多层结果虽然提高了学习能力，但是它的复杂程度与参数的个数也同时增加会导致梯度爆炸的现象。整个模型的复杂度变大就会极容易出现过拟合问题。所以全连接神经网络就不适合构建多层的网络结构，而卷积神经网络就是全连接神经网络的创新，它在建立多层网络结构的时候可以有效地避免梯度下降的问题出现，降低了全连接神经网络的复杂程度。
卷积神经网络可以构建多层次的网络结构，最常见的网络结构有LeNet5，它一般可以搭建5到7层的网络结构；AlexNet可搭建10层左右的网络结构；而ResNet是网络结构层次之最，可搭建的网络结构高达100多层。这些所有的网络结构都是由卷积神经网络结构变化而来的，他们的目的都是为了能够增加搭建网络结构的层数，这样可以使得网络结构模型的学习能力大大的提升，所以卷积神经网络是提高模型的学习能力同时要避免网络的过拟合现象的一种优化技术。
卷积神经网络应用在图像识别里，它保持了全连接的层级结构，数据传入在卷积神经网络里同样是需要一层一层的进行处理，但是在每一层的运算处理形式却有所不同，它可以根据自己所需的情况来制定每一层的功能实现。它的主要层次由数据输入层、卷积计算层、ReLU激励层、池化层、全连接层和输出层构成。如下图3.5所示：

图3.5 卷积神经网络架构图
图片数据输入层（Input Layer）：顾名思义就是样本数据的输入，在此前我们需要对原始数据进行降维，归一化等处理后才把数据传入输入层中。因为经过预处理后的数据可以加快训练时间更利于神经网络的收敛。在图3.5图片输入在一个三维矩阵里面，其中它的长宽深代表着输入图像的长、宽和色彩通道RGB。
卷积计算层（CONV Layer）：卷积计算层在名字上看就知道识卷积神经网络最重要的一部分。它通过卷积核在样本数据进行每一小块每一小块的扫描计算，同时卷积层将神经网络中分成的所有小块进行加深处理，提取更为具体的特征，所以其深度也会同时增加。
激励层（ReLU Incentive Layer）：这里的激励层使用的是ReLU激活函数。其根据卷积运算层的输出结果进行非线性映射操作。
池化层（Pooling Layer）：池化层对数据进行压缩，降低模型的复杂度的。
全连接层（FC Layer）：传统的和卷积的神经网络都有全连接层，在卷积神经网络的全连接层反映在不同层级之间的所有神经元相互连接。

3.3.2卷积神经网络之AlexNet

AlexNet技术远远超出CNN；它采用双通道双GPU的结构使得训练的速度大大得以提升了；以小换大，以多换少的方式，用多层小卷积堆加一起，用来替换一个大卷积层，使其深度甚比LeNet的要深，而且AlexNet打破了LeNet5黑白图片识别，以识别三个通道的彩色图片为主，准确率足足提升了10个百分比。在卷积神经网络里，最让人头痛的训练速度也是让AlexNet的GPU双通道训练得以解决的，使用一块GPU进行网络训练，可提升20倍以上的速度；将sigmoid函数换成ReLU激活函数，不仅简便了求导过程，而且在多层神经网络训练时避免了梯度消失的问题出现；Dropout结构的操作使用在最后的全连接层中，减少过度拟合现象。有了AlexNet模型的训练与速度问题就迎刃而解，从而成为业界最为火爆的结构之一。
当输入到AlexNet网络结构中的数据尺寸大小是256×256×3的彩色图片，要经过图像的随机剪切处理后使得图像的尺寸大小为224×224×3，然后图片再经过的旋转、位置的变换，把尺寸扩大为227×227×3。在AlexNet中输入的图像尺寸大小为227×227×3可以使得在后面的计算就不需要添加填充值，这有利于计算简便。

图3.6 AlexNet训练模型结构图
如上图3.5AlexNet的训练模型结构图所示，图片经过预处理后进入第一层，也称卷积池化层，以彩色图像为卷积层的输入数据，数据大小是预处理后的图像大小W×W：227×227，这时我们需要设定一个过滤器F×F：11×11，过滤器可以卷积运算进入卷积层中的图像，每一次卷积后都会得出一个新像素图像，卷积计算完成一次就会按照设定的步长S：4的频率从上到下，从左到右的移动。此外卷积还需要的值有填充值设为P：0，在AlexNet中采用双GPU训练，所以一共有96个核，但双通道结构，因此其深度依据卷积核的数量为为48×2。而卷积完成后形成图像的像素矩阵大小的可根据公式：N＝（W－F＋2P）/S＋1来计算，因此图像经过第一层的卷积激励层后的尺寸大小为（227－11）/4＋1=55，所以过滤器的神经元的个数为55×55×48×2。而参数个数相当于线性函数的w与b的参数，其个数计算为（11×11×3＋1）×48×2＝34944个参数。第一个卷积结束后进出第一个池化层，它的输入数据是卷积后输出的数据，其尺寸大小为55×55×48×2。池化核的尺寸大小为F×F：3×3、填充值为P：0、步长为S:2。同第一层卷积层计算公式一样可得出在此层的最大池化层的数据输出尺寸大小为27×27×48×2。在最大池化里参数个数为0。
第二层卷积池化层，以第一层输出27×27×48×2大小的数据传进第二层的卷积层中，使用F×F：5×5的过滤器。为了卷积核在数据图像是扫描运算时候能够相对应，所以增加填充值P：2。每次卷积核在数据图像从上到下，从左到右扫描的移动步长为S:1，深度为128×2。得出输出数据的尺寸大小为（27－5＋2×2）/1＋1=27，即27×27×128×2。第二层的最大池化所输入的数据尺寸大小是第二层卷积层的输出数据的尺寸大小，即27×27×128×2，其池化核的尺寸大小为F×F：3×3、填充值为P：0、步长为S:2，得出输出数据的尺寸大小为（27－3）/2＋1=13，即13×13×128×2。
第三层只有卷积层，同上一层以第二层池化层所输出的13×13×128×2大小的数据传进第三层卷积层中，使用F×F：3×3的过滤器，过滤器根据步长为S:1的速度在输入的图像中从上到下，从左往右扫描。同样为了卷积核在数据图像是扫描运算时候能够相对应，所以增加填充值为P：1。深度为192×2，得出输出数据的尺寸大小为（13－3＋2×1）/1＋1=13，即13×13×192×2。
第四层还是只有卷积层，以第三层卷积层输出的13×13×192×2大小的数据传进第四层的卷积层中，使用F×F：3×3的过滤器，过滤器根据步长为S:1的速度在输入的图像中从上到下，从左往右扫描。同样为了卷积核在数据图像是扫描运算时候能够相对应，所以增加填充值为P：1。深度为192×2，得出输出数据的尺寸大小为（13－3＋2×1）/1＋1=13，即13×13×192×2。
第五层又一个卷积池化层，以第四层卷积层输出13×13×192×2大小的数据传进第五层的卷积层，使用F×F：3×3的过滤器，过滤器根据步长为S:1的速度在输入的图像中从上到下，从左往右扫描。同样为了卷积核在数据图像是扫描运算时候能够相对应，所以增加填充值为P：1。深度为128×2，得出输出数据的尺寸大小为（13－3＋2×1）/1＋1=13，即13×13×128×2。第五层的最大池化所输入的数据尺寸大小是第五层卷积层的输出数据13×13×128×2，其池化核的尺寸大小为F×F：3×3、填充值为P：0、步长为S:2，得出输出数据的尺寸大小为（13－3）/1＋1=6，即6×6×128×2。
第六层开始就是三个全连接层，由第五层池化层的输出计算可得6×6×128×2＝9216，所以第一个全连接层的输入的神经元个数为9216。神经元进入第一个全连接层被滤波器卷积运算，再通过ReLU激活函数的映射以及Dropout结构的运算，得到2048×2＝4096个神经元输出值；同样这4096个神经元作为第二个全连接的输入神经元数据，输入层和自身层全连接后再通过ReLU激活函数的映射以及Dropout结构的运算4096个输出数据；接着用次4096个输出数据与第三层的1000个神经元进行全连接，经过训练得出最终的训练结果值。
由图3.6和上述描述总结得出下表3-1AlexNet卷积神经网络结构表：
表3-1 AlexNet卷积神经网络结构表：

通过上述总结出在AlexNet神经网络结构的训练过程里，ReLU激活函数解决了原始神经网络使用Sigmoid函数梯度下降的问题；在最后的全连接层里使用Dropout结构有效的忽略一些无关紧要的神经元，使得神经网络不会出现过拟合的现象；在AlexNet中训练过程中创新使用了最大池化，有效的避免像普通的卷积神经网络里使用的平均池化带来的模糊化麻烦，缩小池化核输出值重叠并且可以覆盖，让提取的特征更具有丰富性；在具有大量数据与参数的模型训练中，使用强大的GPU实行并行训练，降低了计算机很多性能的损耗。

四、系统设计与分析

4.1垃圾分类图像识别系统构成及原理

4.1.1图像处理基础知识

使机器能够模仿人的大脑对外界图像进行识别分类，图像学习的好坏直接影响机器识别的准确率结果。通过图像进行学习，我们需要大量的图像数据，不管我们的数据图像来自网上下载、网上爬取还是自行拍照，其图像的格式、尺寸大小、光暗程度都是参差不齐，各有不同。如果把形态各异的图片传给机器会增加机器学习得复杂性，导致最终机器训练出来得模型可靠性降低，甚至难以达到目标需求。那么图像预处理有多种方法：直方图均衡、中间滤波、归一化和图像增强等等技术。
直方图均衡技术主要使用直方图对比方法更改图片的灰度值，在图像中逐个点进行更改灰度值，使得所有像素点得灰度级别在同一层级上。这种通过直方图均衡技术后可以得出一个比较平缓得直方图，这多数用于医护人员X射线的操作，让黑暗无法识别的区域使用灰度图展现在适合眼睛亮度的地方。
中间滤波主要技术是去除噪音，中间滤波把图像周围灰度值反差较大的像素点用周围相似的像素点替代，这样可以去除另类孤立的噪声点。中间滤波处理图像更加清晰而且在处理彩色图像中不会破环彩色像素。
归一化对图像预处理中有几何归一化和灰度归一化两种普遍技术，其最终结果是让环境不相同的的图片尽可能地使其具有一致性，让图片有某些固定的不变特性。
图像增强技术不考虑降质缺陷，展现图像最具有代表性，也就是最感兴趣的特征区域，遮掩无关紧要的特征区域。
总的来说，图像处理的目的都是尽可能地除去让机器无法识别的干扰。简化图像数据，使图像地主要特征更为突出，更便于学习训练。

4.1.2垃圾分类图像识别系统构成

本设计的垃圾分类图像识别搭建在TensorFlow的环境下实现的。整个项目大体分为图像的收集、图像的处理、卷积神经网络的搭建、模型训练、模型测试、最后用一个GUI界面对项目进行封装。设计完成了一个可识别垃圾图像类别以及可调用摄像头识别垃圾物体的系统。如下图4.1垃圾分类图像识别的系统构成步骤所示：

图4.1 垃圾分类图像识别的系统构成步骤

4.1.3图像识别系统功能分类模块设计

分类是图像识别系统的中心环节，系统的最终目标是根据已训练好的模型反馈对应图像的分类类型，然后以一个直观的的图标展现给用户。系统从分类模块中可分为有六个分类模块，分别为Cardboard、Glass、Metal、Paper、Plastic和Trash，而从功能模块中可划分为两大模块，图像识别功能模块与摄像头识别功能模块。其中六大类分类模块是根据机器传入的图片进入功能模块调用训练模型才可得出结果，所以六类分类模块也可看作是功能模块的子模块。如下图4.2系统的模块示意图所示：

图4.2 垃圾图像识别功能分类模块图
由上图在项目系统中从功能模块中可分为两模块，图像识别模块与摄像头识别模块。从分类模块中可分为cardboard、glass、metal、paper、plastic、trash六种类型。
图像识别：在项目系统中用户可以使用手机拍照的垃圾图片或网上下载的垃圾图片，但凡是.jpeg、.jpg、.png格式的图片都可以传如系统对该图片进行预测得到垃圾的分类结果。
摄像头识别：若用户觉得拍照再传进系统比较麻烦，那么还可以采用直接摄像头的方法。用户可以打开摄像头，把要分类的垃圾放进摄像头拍摄区域，同样也可以得出垃圾的分类结果。注意使用摄像头进行分类预测时，最好不要让多种垃圾同时出现在摄像头中，因为系统目前还只可以在同一时间只识别一种垃圾。
Cardboard：主要以相对比较厚硬的纸皮箱为主的类型垃圾，系统根据传入的图片或影像识别Cardboard类型垃圾，此类型垃圾可进行回收，处理后可再次使用。
Glass：主要是玻璃类型的垃圾，系统根据传入的图片或影像识别Glass类型垃圾，此类型垃圾特点反光、坚硬、并以透明为主。玻璃类型的垃圾经过加工厂加工处理，还可以循环利用。
Metal：主要是金属垃圾类型，系统根据传入的图片或影像识别Metal类型垃圾，此类型垃圾可进行回收，加工处理后可再次使用。
Paper：主要以比较薄的纸张类型垃圾，系统根据传入的图片或影像识别Paper类型垃圾，此类型垃圾可进行回收，处理后可作为原材料作用于很多地方。
Plastic：主要塑料类型垃圾，系统根据传入的图片或影像识别Plastic类型垃圾，此类型垃圾绝不可以燃烧或者随便扔，因为燃烧会放出大量的有害物质危害人类健康。若随便乱扔塑料垃圾是无法分解，对环境会有很大的危害，此类垃圾也可以拿去收费站，专业人员会根据具体情况进行加工处理循环利用。
Trash：是不可回收垃圾，系统根据传入的图片或影像识别Trash类型垃圾，此类型垃圾投入不可回收垃圾桶里，专业人员会根据具体的垃圾又分为是否可用垃圾，有用垃圾进行加工处理再次使用，无用垃圾最后才放到经过处理的填埋场进行填埋。

4.2垃圾分类图像识别系统设计

4.2.1垃圾图像数据来源

本设计的主题是基于深度学习算法的垃圾分类图像识别，所以需要准备的原始数据是各个类型的垃圾图片，根据网上随机下载的垃圾图片，还有小部分垃圾图片数据是收集于自行拍照。把所有收集的数据集合在一起进行分类，主要分为六大类型，其中包括有：cardboard、glass、metal、paper、plastic、trash，并且在本地建立以这六种类型为名的文件夹，如下图4.3垃圾图片数据文件夹分类类型所示。把所有的图片数据上标签，然后归类存放到对应类型的文件夹里，如图4.4cardboard类型的数据图片，图4.5glass类型的数据图片，图4.6metal类型的数据图片，图4.7paper类型的数据图片，图4.8plastic类型的数据图片，图4.9trash类型的数据图片，如下所示：

图4.3 垃圾图片数据文件夹分类类型

图4.4 cardboard类型的图片数据

图4.5 glass类型的图片数据

图4.6 metal类型的图片数据

图4.7 paper类型的图片数据

图4.8 plastic类型的图片数据

图4.9 trash类型的图片数据

4.2.2图像预处理

在模型训练之前我们需要对数据进行裁剪，使得数据输入到神经网络的时候所有图像的尺寸大小都是一致的。本设计使用了Python语言和TensorFlow的环境，我们可以把数据图像转化为一种二进制的tfrecords文件。这种文件正是使用tensorflow来运行，python来制作代码的。而且tfrecords在tensorflow中，无论是在拷贝、转移、读取还是存储都是有着非常大的优势。
TFRecords文件训练对计算机资源的需求大大的减少了，训练时只需要将已保存好的TFRecords文件的特定格式简单的取出训练即可；如果图像预处理单单使用tensorflow来操作，那么当遇到图像预处理操作复杂时则对训练模型会带来干扰，但是TFRecords他可以不被限制于tensorflow，灵活处理图片数据，逻辑复杂的数据处理也能够完胜；TFRecords在训练占用内存少，训练结束却要比原始数据大，这也就是TFRecords可以快速训练大量数据的原因。
在本项目图片数据预处理，首先使用tf.python_io.TFRecordWriter创建一个TFRecords文件夹，遍历自己已经分类好并且已经打上标签的图片，把所有图片的大小使用resize裁剪图片使得图片尺寸大小为227×227，使得尺寸匹配上后面在卷积神经网络输入数据的尺寸。然后把图片类型转为原生的Bytes，进入真正的将图片转化为二进制，使用tf.train.Example和tf.python_io.TFRecordWriter分别对图片格式进行输入和写入，当所有的数据已经输入转化后，然后example对图像和对应的标签进行封装，把序列化为字符串那么图片转为二进制的TFRecords文件就完美结束了。把图片制定为二进制文件，当我们需要读取的时候我们可以使用队列的方法或者直接使用循环然后用ParseFromString进行解析就可。下图4.10是图片预处理与转为TFRecords文件的核心代码：

图4.10 垃圾图片数据转为TFRecords核心代码图

4.2.3AlexNet卷积神经网络搭建

得到数据后就到了本设计最为重要的步骤，搭建卷积神经网络了。实验中我选用了AlexNet作为这次的神经网络结构，因为AlexNet在图像识别的领域里有着很大的优势，并且实现起来相对比较简便。在整个AlexNet的神经网络结构里，它可以搭建多层的结构并且参数个数庞大却不会出现过拟合情况而且可以通过GPU双通道的方法来降低机器训练的性能损耗，大大的减少了训练时间的耗费。如下表4-1是本次实验搭建的网络模型结构：
表4-1 AlexNet卷积神经网络结构搭建表

如上表AlexNet卷积神经网络结构搭建表看出本次模型的AlexNet共搭建了八层，其中前两层和第五层由卷积层和池化层组合构成，并且还执行数据标准化处理。而第三和四层只有一个卷积层。在第六层往后是三个全连接层，在第一个全连接层中的输入数据是取最后一层的卷积层的输出结果，在第六层的全连接层中经过平滑处理随机删除得到4096个神经元输出结果。全连接层嵌入dropout函数，防止数据过拟合。而处在第八层后面的softmax函数，用来输出最终的分类标签。如下图4.11AlexNet的主要代码所示：

图4.11 AlexNet卷积搭建主要代码
由上图代码可见类和函数的不同分类问题可使用self.NUM_CLASSES在最后全连接层里解决。其实在搭建卷积层前我们许需要定义一些辅助函数，辅助函数可以用于在搭建卷积时创建网络层。还有全连接函数中我们可以使用Tensorboard来监督整个网络结构的激活值、Dropout层以及最大池化层，用tf.summary（）来进行添加并且在tensorboard中显示。在Tensorboard中我们可以查看训练过程的细微变化情况，此网页可记录训练过程的准确率、损失值等数据情况。
搭建完卷积网络，还要写一个函数用来加载准备训练的数据。本设计在网上下载bvlc_alexnet.npy文件，调用此文件能够省去自己训练参数的时间，同时电脑硬件标准需求也降低了。该文件主要是别人已经训练好的imageNet参数数据,我们只要根据自己所需调用接口即可，而且使用此文件的参数往往比你自己训练的参数要准确的多。其bvlc_alexnet.npy下载地址和加载预训练参数的函数主要代码如下图4.12所示：

图4.12 bvlc_alexnet.npy下载连接与加载预训练参数主要代码

4.2.4模型训练

万事俱备，接下来我们就开始训练模型了。首先我们需要读取已准备好的tfrecords文件，因为tfrecords是二进制文件，所以里面的数据我们需要使用队列的方式进行读取。而tf.train.string_input_producer生成的解析队列数据我们可以使用tf.parse_single_example解析器进行读取，读取出来的数据返回的是一个文件和文件名称，然后把返回的值存放在对象serialized_example中。最后还需要进行协议缓冲，使用tf.parse_single_example把Example解析为张量的形式就可以真正的用于训练操作了。如下4.13是使tfrecords文件解析成队列形式的主要代码图：

图4.13 tfrecords文件解析成队列的主要代码
数据准备好后就要把图片和标签传进已搭建的AlexNet卷积网络中，然后我们还需定义一些dropout和全连接层的变量列表，然后就可以执行整个AlexNet卷积网络结构图了。在卷积神经网络训练过程里，我们还需要设定损失值和优化器，同事使用tensorboard把模型显示出来，这样训练的损失值的收敛情况和与准确率就一目了然。下图4.14数据训练的主要代码：

图4.14 数据训练的主要代码图

网络训练的损失函数与准确率的变化情况我们可以在训练结束后tensorboard网页中查看到，如图4.15所示。图4.16是训练后所保存模型。

图4.15 AlexNet训练模型的损失值与准确率的变化图

图4.16 训练模型
由上图可得在10000次的迭代训练中，准确率在训练次数达到四千五后开始趋于平稳，达到98%以上。损失函数在训练次数达到七千五后开始趋向平缓，损失值降低到0.05以下。

4.2.4模型测试

训练结束得到高准确的模型我们就可以开始进行模型测试了，模型测试主要代码把抽样测试的图片传进训练好的模型看测试结果是否正确即可，如下图4.17模型测试的主要代码：

图4.17 模型测试主要代码

在先前的模型训练我们使用了saver.save（）的方法来保存训练的模型，模型在训练时候已经存放好参数，我们可以使用tf.train.Saver（）来载入模型进行模型测试，就不需要每测试一遍又要进行训练，从而达到了节省时间的效果。

4.3GUI界面设计

项目完成了垃圾图像数据集的准备、图像数据预处理、AlexNet卷积神经网络的搭建、模型训练与模型测试。然后就可以使用PYQT5对整个项目进行封装，设计可视化界面。

4.3.1PYQT5简介

PYQT5是使用Python模块拼接来实现各种功能，这时一款非常强大的GUI支持库里面有六百多个类，方法与函数，它支持python2.x和python3.x两个版本。Pyqt5不仅可以使用在Window系统中，Mac与Unix等主流的操作系统也可以运行。

4.3.2PYQT5界面设计

本设计使用PYQT5对基于深度学习算法的垃圾分类图像识别项目进行界面化设计，其界面设计主要包含有主界面、三个按钮以及六个分类图标与准确率柱状图。主界面用来展示打开的图片与摄像头的摄入；按钮分别为Open Image用来打开本地图片、Open Camera用来打开摄像头、Recognize对打开的图片或摄像头前的物品进行识别；主界面下方是六种垃圾类型的图片，用来反馈识别结果；在图标的右方是识别物体在各种类型的准确率柱状图的展示。其界面展示图如下图4.18所示：

图4.18 GUI界面展示图
pyqt5-tools中包含有工具QtDesigner、pyuic和pyrcc等。在界面实现首先我们可以使用QtDesigner工具根据自己的需求以拖动的形式画出一个大概的界面,如上图4.18GUI界面展示图，使用pyuic命令把界面.ui文件转换为python文件,此时文件拥有界面设计的主要代码框架，我们在其可以根据自己的需求进行优化改进。
使用pyuic的命令把.ui文件转换为python文件中主要有Ui_MainWindow类和retranslateUI（self，MainWindow）函数，其中Ui_MainWindow它继承空类object,相当于一个空容器，要来装MainWindow的对象，还有一个子对象centralwidget，主要用在后面在主窗口中运行；而各个控件的属性就要使用retranslateUI（self，MainWindow）函数来设置。然后使用button.clicked.connect（clicked_function）来设置触发按钮Open Image和Open Camera和label.setPixmap用来显示分类的图标。

五、目录

第一章绪论 1
1.1研究背景、目的及意义 1
1.1.1研究背景 1
1.1.2研究目的 1
1.1.3研究意义 2
1.2研究现状 3
1.2.1国外研究现状 3
1.2.2国内研究现状 4
第二章开发工具与关键技术的介绍 5
2.1开发工具 5
2.2深度学习 5
2.3人工智能 6
2.4图像识别 6
第三章深度学习算法模型 7
3.1自动编码神经网络 7
3.1.1自动编码器 7
3.1.2变分自动编码器 8
3.1.3生成对抗网络 9
3.2受限波尔兹曼机 9
3.3卷积神经网络 11
3.3.1卷积神经网络结构概述 11
3.3.2卷积神经网络之AlexNet 12
第四章系统设计与分析 17
4.1垃圾分类图像识别系统构成及原理 17
4.1.1图像处理基础知识 17
4.1.2垃圾分类图像识别系统构成 17
4.1.3图像识别系统功能分类模块设计 18
4.2垃圾分类图像识别系统设计 19
4.2.1垃圾图像数据来源 19
4.2.2图像预处理 22
4.2.3AlexNet卷积神经网络搭建 23
4.2.4模型训练 25
4.2.4模型测试 27
4.3GUI界面设计 28
4.3.1PYQT5简介 28
4.3.2PYQT5界面设计 28
4.4项目结果研究与分析 29
第五章项目结论与展望 34
5.1项目结论 34
5.2未来展望 35
参考文献 36
致谢 37

你可能感兴趣的:(深度学习,python,算法,深度学习,分类)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C