Cv_Terry

基于深度学习的表面缺陷检测方法综述

题目：基于深度学习的表面缺陷检测方法综述
作者：陶显，侯伟，徐德
收稿日期： 2019-11-27
网络首发日期： 2020-04-02

1 缺陷检测问题的定义

缺陷的定义: 在机器视觉任务中, 缺陷倾向于是人类经验上的概念, 而不是一个纯粹的数学定义。
第
一种有监督的方法体现在利用标记了标签(包括类别、矩形框或逐像素等)的缺陷图像输入到网络中进行训练. 此时\缺陷"意味着标记过的区域或者图像。
第二种是无监督的缺陷检测方法, 通常只需要正常无缺陷样本进行网络训练, 也被称为one-class learning. 该方法更关注无缺陷(即正常样本)特征, 当缺陷检测过程中发现没有见过的特征(异常特征)时, 即认为检测出缺陷. 此时\缺陷"意味着异常, 因此该方法也被称作异常检测(Anomaly Detection).
缺陷检测的定义: 对比计算机视觉中明确的分类、检测和分割任务, 缺陷检测的需求非常笼统. 实际上, 其需求可以划分为三个不同的层次: \缺陷是什么"、 \缺陷在哪里"和\缺陷是多少". 第一阶段\缺陷是什么"对应计算机视觉中的分类任务, 如图2中分类三种缺陷类别: 异色、空洞和经线, 这一阶段的任务可以被称为\缺陷分类", 仅仅给出图像的类别信息. 第二阶段\缺陷在哪里"对应计算机视
觉中的定位任务, 这一阶段的缺陷定位才是严格意义上的检测. 不仅获取图像中存在哪些类型的缺陷,而且也给出缺陷的具体位置, 如图2中将异色缺陷用矩形框标记出来. 第三阶段\缺陷是多少"对应计算机视觉中的分割任务, 如图2中缺陷分割的区域所示,将缺陷逐像素从背景中分割出来, 并能进一步得到缺陷的长度、面积、位置等等一系列信息, 这些信息能辅助产品高一级的质量评估, 例如优劣等级的判断. 虽然缺陷检测的三个阶段的功能需求和目标不同, 但实际上三个阶段互相包含且能相互转换. 例如第二阶段\缺陷定位"包含第一阶段\缺陷分类"这
一过程, 第三阶段\缺陷分割"同时也能完成第二阶段\缺陷定位". 第一阶段\缺陷分类"也能通过一些方法实现第二阶段和第三阶段的目标. 因此, 在后文还是按照传统工业习惯统称为缺陷检测, 只是在针对不同网络结构和目标功能时, 才有所区分.

2 表面缺陷检测深度学习方法

本节总结概述基于深度学习的表面缺陷检测方法. 如图3所示, 依据数据标签的不同, 将其整体分为全监督学习模型、无监督学习模型和其他方法(半监督学习模型和弱监督学习模型). 在全监督模型中, 依据输入图像方式和损失函数的差异, 分为基于表征学习和度量学习的方法. 在表征学习中, 根据网络结构的不同可以进一步细分为分类网络、检测网络和分割网络. 目前大量的研究工作都是着眼于全监督学习方向, 但无监督学习同样是一个值得研究的方向. 从图3中可以看出, 本文按照每类方法的处理特点又细分为若干种不同的子方法。

这个问题可以回答得很简单：是否有监督（supervised），就看输入数据是否有标签（label）。输入数据有标签，则为有监督学习，没标签则为无监督学习。

2.1 表征学习

现阶段大部分基于深度学习的表面缺陷检测是基于有监督的表征学习方法. 表征学习的本质是将缺陷检测问题看作计算机视觉中的分类任务, 包括粗粒度的图像标签分类或区域分类, 以及最精细的像素分类.

2.1.1 分类网络

在真实的工业生产中, 检测对象形状、尺寸、纹理、颜色、背景、布局和成像光照的巨大差异使复杂环境下的缺陷分类成为一项艰巨的任务. 由于CNN强大的特征提取能力, 采用基于CNN的分类网络目前已成为表面缺陷分类中最常用的模式.通常CNN分类网络的特征提取部分由级联的卷积层+pooling层组成, 后面连接全连接层(或averagepooling层)+softmax结构用于分类. 一般来说,现有
表面缺陷分类的网络常常采用计算机视觉中现成的网络结构, 包括AlexNet[5], VGG[6], GoogLeNet[7],ResNet[8], DenseNet[9], SENet[10], Shu†eNet[11],
MobileNet[12] 等. 或者针对实际问题搭建简易的网络结构, 通过输入一张测试图像到分类网络中, 网络输出该图像的类别和其类别的置信度. 依据分类网络方法实现任务的差异, 我们将其细分为三个小类：直接利用网络做分类、利用网络做缺陷定位和利用网络作为特征提取器.
a.直接利用网络做分类
1)原图分类即直接将收集的完整缺陷图像放入网络进行学习训练
2)定位ROI后分类.它在许多工业应用中较为常见. 通常来说, 针对获取到的整张图像中, 我们常常只关注某个固定区域中是否存在缺陷, 因此往往预先获取到感兴趣的区域(ROI), 然后将ROI输入网络进行缺陷类别的判断.
3)多类别分类.
当待分类的缺陷类型超过2类时, 常规的缺陷分类网络与原图分类方法一样, 即网络的输出节点为缺陷类型的数目+1(包括正常类别). 但多类别分类方法往往先采用一个基础网络进行缺陷与正常样本二分类, 然后在同一个网络上共享特征提取部分, 修改或者增加缺陷类别的分类分支. 通过该方式相当于给后续的多目标缺陷分类网络准备了一个预训练权重参数,这个权重参数是通过正常样本与缺陷样本之间二分类训练得到

b.利用网络做缺陷定位
一般认为, 分类网络只能完成图像标签级别的分类, 实际上结合不同的技巧和方式, 分类网络也可以实现缺陷的定位与逐像素的分类. 根据采用的手段不同, 它进一步可以分为滑动窗口、热力图(heatmap)和多任务学习网络三种形式.
1)滑动窗口
是最简单和直观的实现缺陷粗定位的方法. 一般工业表面缺陷检测处理的图像分辨率较大, 通过较小尺寸的窗口在原始图像上进行冗余滑动, 将滑动窗口中的图像输入到分类网络中进行缺陷识别.最后将所有的滑动窗口进行连接, 即可获得缺陷粗定位的结果.

2)热力图(heatmap)
是一种反映图像中各区域重要性程度的图像, 颜色越深代表越重要.在缺陷检测领域, 热力图中颜色越深的区域代表其属于缺陷的概率越大。在热力图基础上运用Otsu大津法[34]和图割算法进一步得到准确的缺陷轮廓区域. 在计算机视觉领域, 常采用CAM(Class Activation Mapping)[35]和GradCAM[36]方法获得heatmap,
. 3)多任务学习网络.
单纯的分类网络不加其他技巧的话, 一般只能实现图像级别的分类. 因此, 为了精细定位缺陷位置, 往往设计的网络会加上额外的分割分支, 两个分支共享特征提取的backbone结果, 这样网络一般有分类和分割两个输出, 构成多任务学习网络
c.利用网络做特征提取器
在早期基于深度学习的缺陷分类方法中, 不少文献利用CNN特征提取的强大功能, 先将图像输入到预训练网络中获取图像表征特征, 再将获取的特征输入到常规的机器学习分类器(例如SVM等)中进行分类.

2.1.2 检测网络

目标定位是计算机视觉领域中最基本的任务之一, 同时它也是和传统意义上缺陷检测最接近的任务, 其目的是获得目标精准的位置和类别信息. 目前, 基于深度学习的目标检测方法层出不穷, 一般来说, 基于深度学习的缺陷检测网络从
结构上可以划分为: 以Faster R-CNN[43]为代表的两阶段(two stage)网络和以SSD[44]或YOLO[45]为代表的一阶段(one stage)网络. 两者的主要差异在于两阶段网络需要首先生成可能包含缺陷的候选框(proposal), 然后在进一步进行目标检测. 一阶段网络直接利用网络中提取的特征来预测缺陷的位置和类别

a.基于两阶段的缺陷检测网络

两阶段检测网络(Faster R-CNN)的基本流程是首先通过backbone网络获取输入图像的特征图, 然后利用RPN计算锚框(anchor box)置信度, 获取proposal. 然后对proposal区域的特征图进行ROIpooling 后输入网络, 通过对初步检测结果进行精细调整, 最终得到缺陷的定位和类别结果.
b.基于单阶段的缺陷检测网络
单阶段检测网络分为SSD和YOLO两种, 两者都是利用整张图作为网络的输入, 直接在输出层回归bounding box(边界框)的位置及其所属的类别.SSD的特点在于引入了特征金字塔检测方式, 从不同尺度的特征图中来预测目标位置与类别. 它使用6个不同特征图检测不同尺度的目标, 一般底层特征图用于预测小目标, 高层特征图预测大目标.

2.1.3 分割网络

分割网络将表面缺陷检测任务转化为缺陷与正常区域的语义分割甚至实例分割问题, 它不但能精细分割出缺陷区域, 而且可以获取缺陷的位置、类别以及相应的几何属性(包括长度、宽度、面积、轮廓、中心等). 按照分割功能的区别, 其大致可以分为： FCN[60](Fully Convolutional Networks)方法和Mask R-CNN[61]方法两种

a.FCN方法
全卷积神经网络(FCN)是图像语义分割的基础, 目前几乎所有的语义分割模型都是基于FCN.FCN首先利用卷积操作对输入图像进行特征提取和编码, 然后再通过反卷积操作或上采样将特征图逐渐恢复到输入图像尺寸大小. 依据FCN网络结构的差异, 其缺陷分割方法可以进一步细分为常规FCN、Unet[62]和SegNet[63]三种方法.1)常规FCN方法. Wang[64]等人提出一种基于FCN的
轮胎X射线图像缺陷分割方法, 相比于原始FCN方法, 文章通过融合多尺度采样层的特征图来细化分割轮胎图像中的缺陷. Yu等人[65]提出了一个基于FCN的两阶段表面缺陷分割模型, 第一阶段采用一个轻量级的FCN快速获取粗略缺陷区域, 然后第一阶段的输出作为第二阶段FCN的输入用于细化缺陷分割结果, 该方法在公共数据集DAGM2007上取得了95.9934%的平均像素准确率. Dung等人[66]采用基于VGG16编码器的FCN网络对混凝土表面裂缝进行分割, 其平均像素准确率达到90%.

2)Unet方法. Unet不仅是一种经典的FCN结构, 同时也是典型的编码器-解码器(encoder-decoder)结构. 它的特点在于引入了跳层连接,将编码阶段的特征图与解码阶段的特征图进行融合, 有利于分割细节的恢复.
3)SegNet方法. 它也是一种经典的编码器-解码器结构. 其特点在于解码器中的上采样操作利用了编码器中最大池化操作的索引

b.Mask R-CNN方法
Mask R-CNN是目前最常用的图像实例分割方法之一, 可以被看作是一种基于检测和分割网络相结合的多任务学习方法. 当多个同类型缺陷存在粘连或重叠时, 实例分割能将单个缺陷进行分离并进一步统计缺陷数目, 然而语义分割往往将多个同类型缺陷当作整体进行处理. 目前大部分文献都是直接将Mask R-CNN框架应用于缺陷分割, 例如路面缺陷分割[82]、工业制造缺陷[83]、螺栓紧固件缺陷[84]和皮革表面缺陷[85].相比分类和检测网络方法, 分割方法在缺陷信息获取上有其优势. 但它与检测网络一样, 需要大量的标注数据, 其标注信息是逐像素, 往往花费大量的标注精力和成本

2.2 度量学习

度量学习是使用深度学习直接学习输入的相似性度量. 在缺陷分类任务中, 往往采用孪生网络(Siamese network)进行度量学习. 不同于表征学习输入单张图像转化为分类任务, 孪生网络的输入通常为两张或多张成对图像, 通过网络学习出输入图片的相似度, 判断其是否属于同一类. 孪生网络损失函数的核心思想是让相似的输入距离尽可能地小,不同类别的输入距离尽可能地大

**孪生网络：**一般原始孪生网络的输入是两张成对的图像, 网络的\连体"是通过共享权值来实现的.Kim等人[86]设计了一个基于CNN结构的孪生网络对钢表面缺陷图像进行分类, 首先将两张图像输入到共享权值的CNN中完成特征提取, 然后利用基于相似度函数的对比损失计算两个特征之间的差异程度.

2.3 正常样本学习

目前最常用于表面缺陷检测的无监督学习模型是基于正常样本学习的方法. 由于只需要正常无缺陷样本进行网络训练, 该方法也常被称为one-classlearning. 正常样本学习的网络只接受正常(无缺陷)样本进行训练, 使得其具备强大的正常样本分布的重建和判别能力. 因此, 当网络输入的样本存在缺陷时, 往往会产生与正常样本不同的结果. 相比于有监督学习模型, 它能够检测到偏离预期的模式或没有见过的模式, 这些模式都可以被称为缺陷或者异常. 依据处理空间的不同, 本文将该缺陷检测方法分为基于图像空间和特征空间两种. 通常该方法采用的网络模型为自编码器(autoencoder, AE)和GAN

2.3.1 基于图像空间

基于图像空间的方法是在图像空间上对缺陷进行检测. 因此, 该方法不仅能实现图像级别的分类和识别, 也可以获取到缺陷的具体位置. 该方法常用的手段有两种, 1)利用网络实现样本重建与补全.其原理类似去噪编码器, 当输入任意样本图像到网络中, 都可以得到其重建后对应的正常(无缺陷)样本, 因此, 网络可以看作具备自动修复或者补全缺陷区域的能力. 用输入图像分别减去这些重建或修复图像可以获得残差图像, 这些残差图像也被称为重建误差. 它能作为判断待检测样本是否异常的指. 当重建误差过大时, 可以认为输入图像认为存在缺陷,差异过大的区域即为缺陷区域. 当重建误差很小, 即认为输入图像是正常样本.

2)利用网络实现异常区域分类. 这类网络通常采用GAN的判别器. 该方法原理是训练生成对抗网络GAN以生成类似于正常表面图像的伪图像, 这意味着训练好的GAN可以在潜在特征空间中很好地学习正常样本图像. 因此, GAN的判别器可以自然地用作分类器, 用于分类缺陷和正常样本.

2.3.2 基于特征空间

基于特征空间的方法是在特征空间中, 通过正常样本与缺陷样本特征分布之间的差异来进行缺陷检测，特征之间差异也叫做异常分数, 当异常分数高于某个值, 即可认为出现缺陷

2.4 弱监督与半监督学习

这个问题可以回答得很简单：是否有监督（supervised），就看输入数据是否有标签（label）。输入数据有标签，则为有监督学习，没标签则为无监督学习。
通常基于***弱监督***的方法是指采用图像级别类别标注(弱标签)来获取分割/定位级别的检测效果.
***半监督***学习通常会使用大量的未标记数据和少部分有标签的数据用于表面缺陷检测模型的训练

3 关键问题

目前深度学习方法广泛应用在各种计算机视觉
任务中, 表面缺陷检测一般被看作是其在工业领域
的具体应用. 在传统的认识中, 深度学习方法无法
直接应用在表面缺陷检测中的原因是因为在真实的
工业环境中, 所能提供的工业缺陷样本太少. 相比
于ImageNet数据集中1400多万张样本数据, 表面缺
陷检测中面临的最关键的问题是小样本问题, 在很
多真实的工业场景下甚至只有几张或几十张缺陷图
片. 实际上, 针对于工业表面缺陷检测中关键问题之
一的小样本问题, 目前有4种不同的解决方式:

1)数据扩增、合成与生成.最常用的缺陷图像扩
增方法是对原始缺陷样本采用镜像、旋转、平移、扭
曲、滤波、对比度调整等多种图像处理操作来获取
更多的样本
2)网络预训练或迁移学习.一般来说, 采用小
样本来训练深度学习网络很容易导致过拟合, 因此
基于预训练网络或迁移学习的方法是目前针对样
本中最常用的方法之一
3)合理的网络结构设计.通过设计合理的网络
结构也可以大大减少样本的需求.
4)采用无监督与半监督模型方法.这两种方式
都可以减少样本的需求. 在无监督模型中, 只利用正
常样本进行训练, 因此不需要缺陷样本. 半监督方法
可以利用没有标注的样本来解决小样本情况下的网
络训练难题.

3.2 实时性

基于深度学习的缺陷检测方法在工业应用中
包括三个主要环节: 数据标注、模型训练与模型推
断. 在实际工业应用中的实时性更关注模型推断这
一环节. 目前大多数缺陷检测方法都集中在分类或
识别的准确性上, 而很少关注模型推断的效率.

3.3 与传统基于图像处理的缺陷检测方法对比

4 缺陷检测数据集

5 总结与展望

缺陷检测是一个宽泛的应用领域, 具体包括缺陷分类、缺陷定位和缺陷分割等环节, 相比于传统图像处理方法分多个步骤和环节处理缺陷检测任务,基于深度学习的方法将其统一为端到端的特征提取和分类. 虽然表面缺陷检测技术已经不断地从学术研究走向成熟的工业应用, 但是依然有一些需要解决的问题.
1)网络结构设计:
文章第二部分综述的方法大部分具有不同的网络结构, 这些网络也都是人工进行设计, 从模型包含多少层到每一层的详细结构都是一个漫长设计和调参的过程. 这种网络很难说是最优的, 只能说这些手工设计的网络在当前缺陷检测数据集上大致满足需求. 类似于传统手工设计的缺陷检测特征, 例如文献[16]中提到的三种手工特征(KAZE[17]、 SIFT[18]、 SURF[19]), 相比CNN网络自身学到的特征, 其缺陷分类效果逊色不少. 因此,随着Auto machine learning和Neural ArchitectureSearch技术的兴起, 相信会有越来越多机器搜寻和自动生成的网络逐步替代人工设计的网络, 这些网络不仅能够大幅度的减少手工设计网络参数, 同时在检测的正确率上也会领先.
2)网络训练学习:
人工在进行工业缺陷的目视检测时, 很难收集到所有缺陷类型的样本, 很多时候只有良品数据(正样本). 然而目前大部分基于深度学习的表面缺陷检测方法是基于大量的缺陷样本的有监督学习. 深度学习的网络学习是一个\黑匣子",需要大量标注好的训练样本端到端进行学习, 可解释性差. 因此, 如何利用类脑(受脑启发的)计算与仿人视觉认知模型这些先验知识来指导缺陷检测网络的训练和学习, 也是一个值得思考的方向.
3)异域数据联邦学习:
单个表面缺陷检测数据集往往都很少, 虽然小样本问题可以通过文章第三部分介绍的方法缓解相关问题, 但是实际上不同工业行业和领域中, 真实工业表面缺陷数据是非常多的, 一些缺陷种类也是共同的, 例如划痕广泛存在金属、液晶屏幕、太阳能电池板、玻璃等等一系列材质表面. 同时, 人类也会将统一类型的缺陷进行标记,并不会因为检测领域的不同而产生差异. 但是由于涉及隐私敏感, 不同检测领域之间数据并没有有效结合和利用. 如何利用不同工业领域的缺陷数据集来进行网络学习, 也是表面缺陷检测的一种重要研究方向. 因此, 基于异域数据的联邦学习将会成为一个趋势, 它能够打破不同应用场景之间的壁垒, 充分学习不同领域之间数据来提升网络性能.

6 结论

随着人工智能技术的发展, 目前基于机器视觉的表面缺陷检测的研究焦点已经从经典的图像处理和机器学习方法转移到深度学习方法, 在很多工业场景下解决了以往传统方法无法解决的难题. 本文系统的总结、对比和分析了深度学习算法在表面缺陷检测领域的研究进展, 同时对基于深度学习的表面缺陷检测的研究趋势进行了展望, 以期为相关研究人员提供详实和有效参考.

深度学习论文阅读：Generative Pre-Training(GPT) 阿正的梦工坊 DL Papers 深度学习 GPT BERT transformer
文章目录GPTAbstract1Introduction6Conclusion2RelatedWork3Framework3.1Unsupervisedpre-trainingGPT和BERT的区别3.2Supervisedfine-tuning3.3Task-specificinputtransformations4Experiments总结参考GPT核心点：预训练一个transformerde
推荐·人工智能+深度学习论文阅读小组我的昵称违规了
Pytorch学习到第5篇论文，这篇论文解读很少，就在网上搜了一下，不经意发现这个小组，推荐给大家。似乎不让放外链？我试一下PaperWeeklyPaperWeekly论文阅读小组阅读论文是小众活动，阅读者分散在全球各地。PaperWeekly论文阅读小组，把分散在全球的华人阅读者，聚合在一起。不仅互帮互助读懂论文，而且通过讨论，激发灵感。进入PaperWeekly的网站，阅读者不仅可以看到本周热
【深度学习论文阅读】四大分类网络之AlexNet 禾风wyh 深度学习分类数据挖掘人工智能
ImageNetClassificationwithDeepConvolutionNerualNetworks论文原文：ImageNetClassificationwithDeepConvolutionalNeuralNetworks1引言解决的问题：提高效率（GPU训练），防止过拟合（dropout）关键点：·大量带标签数据——ImageNet·高性能计算资源——GPU（GPU搭配了高度优化的2
深度学习论文阅读目标检测篇（五）中文版：YOLOv2《 YOLO9000: Better, Faster, Stronger》 AiCharm 深度学习论文阅读深度学习目标检测计算机视觉
深度学习论文阅读目标检测篇（五）中文版：YOLOv2《YOLO9000:Better,Faster,Stronger》摘要1.引言2.更好3.更快4.更强5.结论摘要摘要我们引入了一个先进的实时目标检测系统YOLO9000，可以检测超过9000个目标类别。首先，我们提出了对YOLO检测方法的各种改进，既有新发明的一些东西，也参考了前人的工作。改进后的模型YOLOv2在PASCALVOC和COC
深度学习论文阅读目标检测篇（五）中英对照版：YOLOv2《 YOLO9000: Better, Faster, Stronger》 AiCharm 深度学习论文阅读目标检测深度学习计算机视觉
深度学习论文阅读目标检测篇（五）中文版：YOLOv2《YOLO9000:Better,Faster,Stronger》Abstract摘要1.Introduction1.引言2.Better2.更好3.Faster3.更快4.Stronger4.更强5.Conclusion5.结论Abstract AbstractWeintroduceYOLO9000,astate-of-the-art,rea
深度学习论文阅读：Convolutional Neural Networks for Sentence Classification （TextCNN）空腹熊猫自然语言处理机器学习论文
这是一篇将CNN运用于句子分类的论文摘要Wereportonaseriesofexperimentswithconvolutionalneuralnetworks(CNN)trainedontopofpre-trainedwordvectorsforsentence-levelclassificationtasks.WeshowthatasimpleCNNwithlittlehyperparame
深度学习论文阅读目标检测篇（四）中英文对照版：YOLOv1《 You Only Look Once: Unified, Real-Time Object Detection》 Jasper0420 深度学习论文阅读深度学习计算机视觉目标检测神经网络
深度学习论文阅读目标检测篇（四）中英文对照版：YOLOv1《YouOnlyLookOnce:Unified,Real-TimeObjectDetection》Abstract摘要1.Introduction引言2.UnifiedDetection统一的检测2.1NetworkDesign网络设计2.2Training训练2.3Inference推断2.4LimitationsofYOLOYOLO的
深度学习论文阅读图像分类篇（一）：AlexNet《ImageNet Classification with Deep Convolutional Neural Networks》 Jasper0420 深度学习论文阅读深度学习 cnn python 人工智能计算机视觉
深度学习论文阅读图像分类篇（一）：AlexNet《ImageNetClassificationwithDeepConvolutionalNeuralNetworks》Abstract摘要1.Introduction引言2.TheDataset数据集3.TheArchitecture架构3.1非线性ReLU函数3.2在多GPU上训练3.3局部响应归一化3.4重叠池化3.5整体架构4.减少过拟合4.1
深度学习论文阅读图像分类篇（二）：ZFNet《Visualizing and Understanding Convolutional Networks》 Jasper0420 深度学习论文阅读深度学习神经网络机器学习算法网络
深度学习论文阅读（二）：ZFNet《VisualizingandUnderstandingConvolutionalNetworks》Abstract摘要1.Introduction引言1.1RelatedWork相关工作2.Approach方法2.1VisualizationwithaDeconvnet通过反卷积可视化3.TrainingDetails训练细节4.ConvnetVisualiza
神经网络深度学习论文阅读 Niklauseik 深度学习人工智能机器学习
Thisfigureshowsmyclassificationandsummaryofthesepapers.Myreadingnotesarebelow.Eachnotefollowingtheheadlineisdividedintoseveralparts,whicharethesummary,advantages,evaluationandimprovementofthepaper.Lea
深度学习论文阅读路线图 ronghuaiyang
请点击上方“AI公园”，关注公众号本文选自github作者：floodsun编译：ronghuaiyang作者一年前整理的东西，有些最新的论文没有包含进去，但是对于新手来说，入门足够了！如果你是深度学习领域的新人，你的第一个问题可能是“我该从哪些论文开始读起呢？”这就是深度学习论文的阅读路线图！这个路线图是根据下面几个规则构建的：从概要到细节从老的到最新的业界领先从通用的到细分领域的聚焦业界领先的
深度学习论文阅读目标检测篇（三）：Faster R-CNN《 Towards Real-Time Object Detection with Region Proposal Networks》 Jasper0420 深度学习论文阅读深度学习计算机视觉 python 神经网络机器学习
深度学习论文阅读目标检测篇（三）：FasterR-CNN《TowardsReal-TimeObjectDetectionwithRegionProposalNetworks》Abstract摘要1.Introduction引言2.RELATEDWORK相关工作3.FASTERR-CNN3.1RegionProposalNetworksregionproposal网络3.1.1Anchors3.1.
深度学习论文阅读图像分类篇（五）：ResNet《Deep Residual Learning for Image Recognition》 Jasper0420 深度学习论文阅读深度学习神经网络机器学习计算机视觉
深度学习论文阅读图像分类篇（五）：ResNet《DeepResidualLearningforImageRecognition》Abstract摘要1.Introduction引言2.RelatedWork相关工作3.DeepResidualLearning深度残差学习3.1.ResidualLearning残差学习3.2IdentityMappingbyShortcuts快捷恒等映射3.3Net
深度学习论文阅读（四）：GoogLeNet《Going Deeper with Convolutions》 Jasper0420 深度学习论文阅读深度学习 cnn python 人工智能计算机视觉
深度学习论文阅读（四）：GoogLeNet《GoingDeeperwithConvolutions》Abstract摘要1.Introduction引言2.RelatedWork相关工作3.MotivationandHighLevelConsiderations动机和高层思考4.ArchitecturalDetails架构细节5.GoogLeNet6.TrainingMethodology训练方法
深度学习论文阅读图像分类篇（六）：SENet《Squeeze-and-Excitation Networks》 Jasper0420 深度学习论文阅读深度学习机器学习 python 算法
深度学习论文阅读图像分类篇（六）：SENet《Squeeze-and-ExcitationNetworks》Abstract摘要1.Introduction引言2.RelatedWork相关工作3.Squeeze-and-ExcitationBlocks3.1.Squeeze:GlobalInformationEmbedding全局信息嵌入3.2.Excitation:AdaptiveRecali
深度学习论文阅读目标检测篇（七）中文版：YOLOv4《Optimal Speed and Accuracy of Object Detection》 Jasper0420 深度学习论文阅读深度学习目标检测计算机视觉人工智能
深度学习论文阅读目标检测篇（七）中英对照版：YOLOv4《OptimalSpeedandAccuracyofObjectDetection》Abstract摘要1.Introduction引言2.Relatedwork相关工作2.1.Objectdetectionmodels目标检测模型2.2.Bagoffreebies2.3.Bagofspecials3.Methodology方法3.1Sele
深度学习论文阅读目标检测篇（七）中英对照版：YOLOv4《Optimal Speed and Accuracy of Object Detection》 Jasper0420 深度学习论文阅读深度学习目标检测计算机视觉神经网络
深度学习论文阅读目标检测篇（七）中英对照版：YOLOv4《OptimalSpeedandAccuracyofObjectDetection》Abstract摘要1.Introduction引言2.Relatedwork相关工作2.1.Objectdetectionmodels目标检测模型2.2.Bagoffreebies2.3.Bagofspecials3.Methodology方法3.1Sele
深度学习论文阅读目标检测篇（一）：R-CNN《Rich feature hierarchies for accurate object detection and semantic...》 Jsper0420 深度学习论文阅读深度学习机器学习人工智能计算机视觉神经网络
深度学习论文阅读目标检测篇（一）：R-CNN《Richfeaturehierarchiesforaccurateobjectdetectionandsemanticsegmentation》Abstract摘要1.Introduction引言2.ObjectdetectionwithR-CNN使用R-CNN做物体检测2.1ModuledesignRegionproposals模块设计区域推荐2.2
深度学习经典网络解析图像分类篇（七）：ResNet Jsper0420 #图像分类篇深度学习人工智能计算机视觉 cnn
深度学习经典网络解析图像分类篇（七）：ResNet1.背景介绍2.网络过深导致的问题为什么随着网络层级越深，模型效果却变差了呢？3.ResNet3.1ResNet概要3.2ResNet网络结构3.2.1残差结构3.2.2ResNet中卷积块设计3.2.3不同跳跃连接3.3RenNet创新点4.1总结ResNet论文翻译详情见我的博客：深度学习论文阅读（五）：ResNet《DeepResidualL
深度学习入门教程陈嘿萌教程深度学习入门教程研究生入门人工智能入门教程优秀博主推荐优秀资源推荐
文章目录掌握一门编程语言：`ilovePython`图书推荐编程工具Anaconda-环境管理Pycharm-代码codingPython图像处理机器学习深度学习论文阅读并实现代码版本控制管理Bilibili优秀博主推荐云服务器推荐公众号推荐学术网站推荐（wordischeap，showmethecode）论文文献工具深度学习入门路线推荐：1、我是土堆2、霹雳吧啦Wz3、同济子豪兄`更新记录`掌握
【深度学习论文阅读】TCN:An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence LawenceRay 深度学习
2018年人工智能十佳论文之一：TCN论文地址：AnEmpiricalEvaluationofGenericConvolutionalandRecurrentNetworksforSequenceModeling项目地址：TCN的github链接文章目录1.ABSTRACT2.INTRODUCTION&BACKGROUND2.1TemporalConvolutionalNetworks2.2Seq
[深度学习论文阅读]Facenet论文阅读笔记（包括GoogLenet参数计算方式） GJCfight CV方向论文阅读
论文：FaceNet:AUnifiedEmbeddingforFaceRecognitionandClustering(文章是2015年CVPR的文章)1统述功能：faceverification(isthisthesameperson)recognition(whoisthisperson)clustering(findcommonpeopleamongthesefaces)人脸识别方向论文总结
深度学习论文阅读计划（超级天坑，待填） 'Themis' 个人计划论文笔记深度学习
写在前面本文总结了自己在深度学习领域读过的一点论文，链接了自己或他人写的一些论文笔记也包含了对将来制定的论文阅读计划。将阅读笔记整理在一起是为了能融会贯通，力求梳理出统一解决某一类问题的技巧或思想，也为了成全自己在成长道路上的“满足感”。欢迎沟通，与君共勉。TableofContents写在前面简要汇总trick轻量网络CNN经典结构目标检测算法人脸识别算法视频处理算法图像对抗算法详细汇总tric
听说读论文也有trick？这篇文章告诉你深度学习论文阅读最佳姿势夕小瑶
2020年的今天，我们的专业是deeplearning，但是我们要keeplearning，每天早上一睁眼，arxiv每天更新上百篇的论文，著名微博博主@爱可可-爱生活保持也在推送最新的deeplearning资讯和论文。我们不缺少计算机视觉论文，我们缺少的是鉴别哪些应该读。无论是泛读还是精度，海量论文总是让我们迷失双眼，Github搜索awesome有成百上千个repo，但是缺少比较和注解。我们
RoadMap｜深度学习论文阅读路线图 csdn郭芮
声明：感谢THU数据派公众号（datapi）授权发布。原文：DeepLearningPapersReadingRoadmap翻译：王军福，北京理工大学，目标识别从业者。如果你是深度学习领域的一名新手，可能会遇到的第一个问题是“应该从哪篇论文开始读起呢”？这里给出了深度学习论文阅读路线图！路线图按照下面四个准则构建而成：从提纲到细节从经典到前沿从通用领域到特定领域专注于最先进的技术你将会发现很多近期
干货 | 吴恩达的课上完了？手把手教你如何科学开启你的深度学习论文阅读生涯（附链接）... DatapiTHU
来源：大数据文摘本文约4000字，建议阅读8分钟。本文为你介绍了如何学习福利阅读文章并提供建议。当你阅读了深度学习相关的书籍或者上过精彩的在线课程后，你将如何深入学习？如何才能够“自力更生”，独立地去了解相关领域中最新的研究进展？本文作者NityeshAgarwal，毕业于贾达普大学，在学校里学习过信息技术，现在作为志愿者为开源社区做贡献。以下是作者第一人称给出的建议。事先声明——我不是深度学习方
深度学习论文阅读路线图空空看春晚机器学习算法
尊重原版：http://mp.weixin.qq.com/s?__biz=MzI5MzIwNDI1MQ==&mid=2650117609&idx=3&sn=ab3453596f03bf1bca2ad2fb030806e3&chksm=f4748d9dc303048b877c549fb2d186fb168d9918a8b8144f6075f7c99956697ae3503999838b&mpshar
AI基础：深度学习论文阅读路线（127篇经典论文下载）风度78
0.导语作者：Floodsung出处：https://github.com/floodsung/Deep-Learning-Papers-Reading-Roadmap翻译：黄海广如果您是深度学习领域的新手，那么您可能会遇到的第一个问题是“我应该从哪篇论文开始阅读？”本文是深度学习论文的阅读路线图！该路线图是根据以下四个准则构建的：从轮廓到细节从旧到最新从通用到特定领域专注于最新技术您会发现许多非
【深度学习论文阅读】计算机视觉论文汇总 LawenceRay 深度学习
名称年份作者文章名链接被引Neocognitron1980KunihikoFukushima(福岛·邦彦)Neocognitron:aself-organizingneuralnetworkmodelforamechanismofvisualpatternrecognitionhttps://link.springer.com/article/10.1007/BF003442513192TDNN1
【深度学习论文阅读】AlexNet:ILSVRC-2012冠军 LawenceRay 深度学习
AlexNet：先说两个计算公式：卷积后的大小：（input-kernel_size+2*padding）/stride+1卷积层参数计算：kernel_depthx([卷积核]+1)连接数:参数个数x图大小拿到的时候看不太懂，每一层的结构并不是那么明确。layerinputkernel_sizestridepaddingoutput参数量Input227x227x3----227x227x3Co
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi