山水之间2018

阶段小结

1.L0、L1、L2正则化？

L0范数：计算向量中非0元素的个数。

L1范数：计算向量中各元素绝对值之和。

L2范数：计算向量中各元素平方和的开方。

L0范数和L1范数目的是使参数稀疏化。L1范数比L0范数容易优化求解。

L2范数是防止过拟合，提高模型的泛化性能。

2.无监督学习方法有哪些？

强化学习、K-means 聚类、自编码、受限波尔兹曼机

3. 空洞卷积(dilated convolution)的理解？

基于FCN的语义分割问题中，需保持输入图像与输出特征图的size相同。

若使用池化层，则降低了特征图size,需在高层阶段使用上采样，由于池化会损失信息，所以此方法会影响导致精度降低；

若使用较小的卷积核尺寸，虽可以实现输入输出特征图的size相同，但输出特征图的各个节点感受野小；

若使用较大的卷积核尺寸，由于需增加特征图通道数，此方法会导致计算量较大；

所以，引入空洞卷积(dilatedconvolution),在卷积后的特征图上进行0填充扩大特征图size，这样既因为有卷积核增大感受野，也因为0填充保持计算点不变。

4.增大感受野的方法？

空洞卷积、池化操作、较大卷积核尺寸的卷积操作

5. 卷积层中感受野大小的计算？

卷积层的感受野大小与其之前层的卷积核尺寸和步长有关，与padding无关。基于从深层向浅层递归计算的方式。计算公式为：Fj-1 = Kj + (Fj - 1)*Sj(最后一层特征图的感受野大小是其计算卷积核大小)

6. 梯度下降法和牛顿法的优缺点？

优点：梯度下降法：可用于数据量较大的情况；

牛顿法：收敛速度更快；

缺点：梯度下降法：每一步可能不是向着最优解的方向；

牛顿法：每次迭代的时间长；需要计算一阶和二阶导数；

梯度下降法：梯度法思想的三要素：出发点、下降方向、下降步长

1）批量梯度下降（BGD Batch gradient descent）

BGD 采用整个训练集的数据来计算 cost function 对参数的梯度

缺点：就对整个数据集计算梯度，所以计算起来非常慢

2）随机梯度下降（SGD stochastic gradient descent）

每次更新时对每个样本进行梯度更新，速度快，可以随时增加新的样本，但是会造成剧烈震荡

3）Mini-batch gradient descent（MBGD）

每一次利用一小批样本，即 n 个样本进行计算，这样它可以降低参数更新时的方差，收敛更稳定

以上三种的区别仅仅是训练样本大小的不同，但是没有增加其他权重，会遇到如同SGD的问题

Tensorflow实现函数：tf.train.GradientDescentOptimizer

随机梯度下降法（SGD ）存在的问题

1.当存在两个或更多个权值矩阵时，某个方向的的权值改变对Loss影响很大，而另外的方向影响比较小，这就会造成权值矩阵在影响大的方向上震荡，然后缓慢的沿着影响小的方向前进；

2.存在局部最小值（鞍点），在局部最小值时，会停止更新，但是在局部最小值附近，由于梯度非常小，会使得更新非常慢

3. 我们经常用小批量的数据对Loss和梯度进行估计，这意味着我们每一步并不是去计算真实的梯度，而是在当前点对梯度进行噪声估计，所以优化的方向会比较曲折，也就是需要更多的时间

改进的梯度下降法

1、Momentum

在梯度改变时增加惯性因素，在下一次的梯度时，会继续沿着上一次的梯度方向前进

2、Nesterov momentum

比普通带动量的方式更加更加柔和，相当于提前知道梯度的变化方向，然后做出改变

NAG（Nesterov Accelerated Gradient）不仅仅把SGD梯度下降以前的方向考虑，还将Momentum梯度变化的幅度也考虑了进来

3、AdaGrad

缺点：因为grad_squared是单调递增的，这会导致学习步长会越来越小，越来越慢。在凸函数的情况下比较适用，但是在凹函数的情况下，会卡在局部最优值附近

4、RMSProp

是对AdaGrad的一个变体

RMSprop 是 Geoff Hinton 提出的一种自适应学习率方法。

RMSprop 和 Adadelta 都是为了解决 Adagrad 学习率急剧下降问题的，Hinton 建议设定 γ 为 0.9, 学习率 η 为 0.001。

7. 解决训练样本类别不平衡问题？

现象：训练样本中，正负样本数量的比例较大。

1. 过采样。增加正例样本数量，使得正负样本数量接近，然后再进行学习。

2. 欠采样。去除反例样本数量，使得正负样本数量接近，然后再进行学习。

3. 设置阈值。基于原始数据集学习，当使用已训练好的分类器进行预测时，将正负样本数量的比例作为阈值嵌入到决策过程中

8. 各个激活函数的优缺点？

Sigmoid激活函数缺点：1. 不是关于原点对称；2. 需要计算exp

Tanh 激活函数优点：1. 关于原点对称2. 比sigmoid梯度更新更快

ReLU激活函数优点：1. 神经元输出为正时，没有饱和区2. 计算复杂度低，效率高3. 在实际应用中，比sigmoid、tanh更新更快4. 相比于sigmoid更加符合生物特性

ReLU激活函数缺点：1. 神经元输出为负时，进入了饱和区2. 神经元的输出在非0中心

3. 使得数据存在Active ReLU、Dead ReLU(当wx+b<0时，将永远无法进行权值更新，此时的神经元将死掉)的问题

Leaky ReLU激活函数优点：1. 解决了ReLU激活函数Dead ReLU问题；

Maxout激活函数max(w1*x+b1,w2*x+b2) 缺点：

2. 参数较多；

9. 神经网络的正则化方法？/过拟合的解决方法？

数据增强(镜像对称、随机裁剪、旋转图像、剪切图像、局部弯曲图像、色彩转换)

early stopping(比较训练损失和验证损失曲线，验证损失最小即为最优迭代次数)

L2正则化(权重参数的平方和)

L1正则化(权重参数的绝对值之和)

dropout 正则化(设置keep_pro参数随机让当前层神经元失活)

过拟合

如果一味的去提高训练数据的预测能力，所选模型的复杂度往往会很高，这种现象称为过拟合。所表现的就是模型训练时候的误差很小，但在测试的时候误差很大。

产生的原因

因为(特征)参数太多，会导致我们的模型复杂度上升，容易过拟合

权值学习迭代次数足够多(Overtraining),拟合了训练数据中的噪声和训练样例中没有代表性的特征.

解决方法

交叉验证法，减少特征（特征选择/特征降维），正则化，权值衰减，验证数据
数据集扩增：原有数据增加、原有数据加随机噪声、重采样

10. 目标检测领域的常见算法？

两阶段检测器：R-CNN、Fast R-CNN、Faster R-CNN

单阶段检测器：YOLO、YOLO9000、SSD、DSSD、RetinaNet

11. 梯度消失和梯度爆炸？

原因：激活函数的选择。

梯度消失：令bias=0，则神经网络的输出结果等于各层权重参数的积再与输入数据集相乘，若参数值较小时，则权重参数呈指数级减小。

梯度爆炸：令bias=0，则神经网络的输出结果等于各层权重参数的积再与输入数据集相乘，若参数值较大时，则权重参数呈指数级增长。

12. 生成模型和判别模型

生成方法是首先基于数据学习联合概率分布P(X,Y),然后获得条件概率分布P(Y|X)作为预测模型。

常用模型：隐马尔可夫模型(HMM)、朴素贝叶斯

判别方法是直接基于数据学习到决策函数F或条件概率分布P(Y|X)作为预测模型。

常用模型：支持向量机、K近邻算法、决策树、逻辑回归、感知机、最大熵等

13. 从贝叶斯的角度来看，正则化等价于对模型参数引入先验分布，谈谈你对正则化的理解，并且阐述引入L2和L1分别对应什么分布。

正则化的理解：正则化是在损失函数中加入对模型参数的惩罚项，以平衡因子lamda控制惩罚力度，其通过在训练过程中降低参数的数量级，从而降低模型的过拟合现象。

从贝叶斯的角度来看，正则化等价于对模型参数引入先验分布：对参数引入高斯先验分布等价于L2正则化，对参数引入拉普拉斯分布等价于L1正则化。

14.简述回归，分类，聚类方法的区别和联系并分别举出一个例子，简要介绍算法思路

回归：对连续随机变量建模预测的监督学习算法；经典案例：房价预测；算法举例：线性回归，建立数据的拟合曲线作为预测模型(y = wx + b);

分类：对离散随机变量建模预测的监督学习算法；经典案例：垃圾邮件分类；算法举例：支持向量机，寻找二类支持向量的最大切分超平面；

聚类：基于数据的内部规律，寻找其属于不同族群的无监督学习算法；算法举例：k-means；

15. 列举至少三种损失函数，写出数学表达式并简述各自优点

0-1损失感知机损失绝对值损失

平方误差损失(线性回归)

对数损失(逻辑回归)

指数损失(Adaboost)

铰链损失(SVM)

16.分类问题的评价标准

Precision & Recall & mAP

一般来说，Precision就是检索出来的条目（比如：文档、网页等）有多少是准确的，Recall就是所有准确的条目有多少被检索出来了。

正确率 = 提取出的正确信息条数 / 提取出的信息条数
召回率 = 提取出的正确信息条数 / 样本中的信息条数
准确率和召回率都是针对同一类别来说的，并且只有当检索到当前类别时才进行计算，比如在person re-id中，一个人的label为m1，在测试集中包含3张此人的图像，检索出来的图像按照得分从高到低顺序为m1、m2、m1、m3、m4、m1….，此时

第一次检索到m1，提取出的正确信息条数=1，提取出的信息条数=1，样本中的信息条数=3，正确率=1/1=100%，召回率=1/3=33.33%；
第二次检索到m1，提取出的正确信息条数=2，提取出的信息条数=3，样本中的信息条数=3，正确率=2/3=66.66%，召回率=2/3=66.66%；
第三次检索到m1，提取出的正确信息条数=3，提取出的信息条数=6，样本中的信息条数=3，正确率=3/6=50%，召回率=3/3=100%；

平均正确率AP=（100%+66.66%+50%）/3=72.22%
而当需要检索的不止一个人时，此时正确率则取所有人的平均mAP。

准确率 = (TP+TN)/总样本数

精确率 = TP/(TP+FP) = 所有预测为正类样本中正类的概率

召回率 = TP/(TP+FN) = 所有真正类样本中正类的概率

2/调和平均值 = 1/精确率+1/召回率

P-R曲线：纵轴为精确率，横轴为召回率，基于平衡点(P=R)度量各个基分类器的优劣；

ROC曲线：纵轴为TPR，横轴为FPR

TPR = TP/(TP+FN) FPR = FP/(FP+TN)

AUC:ROC曲线下的面积

mAP = 所有类别的AP之和/类别数量

P = (一张图片类别C识别正确数量)/(一张图片类别C的总数量)

AP = 每张图片的P之和/图片数量

回归问题的评价指标

平均绝对值误差(MAE)

均方差(MSE)

1*1卷积核的作用？

1.跨通道信息的融合；2.通过对通道数的降维和升维，减少计算量；

k-means

k-means与kNN虽然都是以k打头，但却是两类算法——kNN为监督学习中的分类算法，而k-means则是非监督学习中的聚类算法；二者相同之处：均利用近邻信息来标注类别。

在k-means算法中，用质心来表示cluster；且容易证明k-means算法收敛等同于所有质心不再发生变化

对于欧式空间的样本数据，以平方误差和（sum of the squared error, SSE)作为聚类的目标函数，同时也可以衡量不同聚类结果好坏的指标：(最小化)

k-means存在缺点：

k-means是局部最优的，容易受到初始质心的影响；因选择初始质心不恰当而造成次优的聚类结果（SSE较大）

同时，k值的选取也会直接影响聚类结果，最优聚类的k值应与样本数据本身的结构信息相吻合，而这种结构信息是很难去掌握，因此选取最优k值是非常困难的。

AdaBoost

AdaBoost能够自适应（addaptive）地调整样本的权值分布，将分错的样本的权重设高、分对的样本的权重设低

朴素贝叶斯分类器的主要思路：通过联合概率建模，运用贝叶斯定理求解后验概率；将后验概率最大者对应的的类别作为预测类别。

朴素贝叶斯将分类问题转化成了求条件概率与先验概率的最大乘积问题

在朴素贝叶斯学习中，需要估计先验概率与条件概率，一般时采用极大似然估计。先验概率的极大似然估计

. 卷积层和全连接层的区别？

1.卷积层是局部连接，所以提取的是局部信息；全连接层是全局连接，所以提取的是全局信息；

2.当卷积层的局部连接是全局连接时，全连接层是卷积层的特例；

卡尔曼滤波前提假设

卡尔曼滤波器是基于在时域中离散的线性动力系统(在此我们考虑离散的系统)。卡尔曼滤波器是基于马尔科夫链的模型,其建立在线性运算符的基础上,过程噪声和观测噪声符合高斯分布,且过程噪声和观测噪声不相关。

首先滤波分为线性和非线性两种，Kalman filter 是在满足五个假设条件（推荐 estimation with application to tracking and navigation）下才成立的，且动态方程和量测方程都是线性的。KF在MMSE条件下是最优的，由于它是线性的，所以也是LMMSE最优。五个公式主要分为两部分：预测和更新。抓住这两个公式即可。 KF 假设状态服从高斯分布，状态方程（动态和量测）为线性，过程噪声和量测噪声为高斯白噪声；得到在MMSE（最小化均方误差）下的最优解；

池化层（pooling）的反向传播是怎么实现的

需要保证传递的loss（或者梯度）总和不变。根据这条原则，mean pooling和max pooling的反向传播也是不同的。

1.mean pooling

mean pooling的前向传播就是把一个patch中的值求取平均来做pooling，那么反向传播的过程也就是把某个元素的梯度等分为n份分配给前一层，这样就保证池化前后的梯度（残差）之和保持不变

2.max pooling

max pooling也要满足梯度之和不变的原则，max pooling的前向传播是把patch中最大的值传递给后一层，而其他像素的值直接被舍弃掉。那么反向传播也就是把梯度直接传给前一层某一个像素，而其他像素不接受梯度，也就是为0。所以max pooling操作和mean pooling操作不同点在于需要记录下池化操作时到底哪个像素的值是最大，也就是max id，这个变量就是记录最大值所在位置的，因为在反向传播中要用到

Batch Normalization批标准化

现在所用的优化方法大多都是min-batch SGD，所以我们的归一化操作就成为Batch Normalization。

为什么需要BN？

我们知道网络一旦train起来，那么参数就要发生更新，除了输入层的数据外(因为输入层数据，我们已经人为的为每个样本归一化)，后面网络每一层的输入数据分布是一直在发生变化的，因为在训练的时候，前面层训练参数的更新将导致后面层输入数据分布的变化。以网络第二层为例：网络的第二层输入，是由第一层的参数和input计算得到的，而第一层的参数在整个训练过程中一直在变化，因此必然会引起后面每一层输入数据分布的改变。我们把网络中间层在训练过程中，数据分布的改变称之为：“Internal Covariate Shift”。BN的提出，就是要解决在训练过程中，中间层数据分布发生改变的情况。

机器学习领域有个很重要的假设：IID(独立同分布)假设，就是假设训练数据和测试数据是满足相同分布的，这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。那BatchNorm的作用是什么呢？BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。

BN怎么做？

如上图所示，BN步骤主要分为4步：

求每一个训练批次数据的均值
求每一个训练批次数据的方差
使用求得的均值和方差对该批次的训练数据做归一化，获得0-1分布。其中ε是为了避免除数为0时所使用的微小正数。
尺度变换和偏移：将xi乘以γ调整数值大小，再加上β增加偏移后得到yi，这里的γ是尺度因子，β是平移因子。这一步是BN的精髓，由于归一化后的xi基本会被限制在正态分布下，使得网络的表达能力下降。为解决该问题，我们引入两个新的参数：γ,β。 γ和β是在训练时网络自己学习得到的。

BN到底解决了什么？

一个标准的归一化步骤就是减均值除方差

BN在深层神经网络的作用非常明显：若神经网络训练时遇到收敛速度较慢，或者“梯度爆炸”等无法训练的情况发生时都可以尝试用BN来解决。同时，常规使用情况下同样可以加入BN来加速模型训练，甚至提升模型精度

好处

不仅仅极大提升了训练速度，收敛过程大大加快；②还能增加分类效果，一种解释是这是类似于Dropout的一种防止过拟合的正则化表达方式，所以不用Dropout也能达到相当的效果；③另外调参过程也简单多了，对于初始化要求没那么高，而且可以使用大的学习率等。

NMS介绍

在目标检测中，常会利用非极大值抑制算法(NMS，non maximum suppression)对生成的大量候选框进行后处理，去除冗余的候选框，得到最佳检测框，以加快目标检测的效率。其本质思想是其思想是搜素局部最大值，抑制非极大值。

NMS算法过程

NMS主要就是通过迭代的形式，不断的以最大得分的框去与其他框做IoU操作，并过滤那些IoU较大（即交集较大）的框。如图 3图所示NMS的计算过程。

1、根据候选框的类别分类概率做排序，假如有4个 BBox ，其置信度A>B>C>D。

2、先标记最大概率矩形框A是算法要保留的BBox；

3、从最大概率矩形框A开始，分别判断ABC与D的重叠度IOU（两框的交并比）是否大于某个设定的阈值(0.5)，假设D与A的重叠度超过阈值，那么就舍弃D；

4、从剩下的矩形框BC中，选择概率最大的B，标记为保留，然后判读C与B的重叠度，扔掉重叠度超过设定阈值的矩形框；

5、一直重复进行，标记完所有要保留下来的矩形框。

猫和狗两类目标检测

如果是two stage算法，通常在选出BBox有BBox位置(x,y,h,w)和confidence score，没有类别的概率。因为程序是生成BBox，再将选择的BBox的feature map做rescale (一般用ROI pooling)，然后再用分类器分类。NMS一般只能在CPU计算，这也是two stage相对耗时的原因。

但如果是one stage作法，BBox有位置信息(x,y,h,w)、confidence score，以及类别概率，相对于two stage少了后面的rescale和分类程序，所以计算量相对少。

NMS缺点：

1、NMS算法中的最大问题就是它将相邻检测框的分数均强制归零(既将重叠部分大于重叠阈值Nt的检测框移除)。在这种情况下，如果一个真实物体在重叠区域出现，则将导致对该物体的检测失败并降低了算法的平均检测率（average precision, AP）。

2、NMS的阈值也不太容易确定，设置过小会出现误删，设置过高又容易增大误检。

3、NMS一般只能使用CPU计算，无法使用GPU计算。

解决办法详见：这里

基于soft-NMS，对预测标注方差范围内的候选框加权平均，使得高定位置信度的bounding box具有较高的分类置信度。

YOLOv1

针对于two-stage目标检测算法普遍存在的运算速度慢的缺点，yolo创造性的提出了one-stage。也就是将物体分类和物体定位在一个步骤中完成。yolo直接在输出层回归bounding box的位置和bounding box所属类别，从而实现one-stage。通过这种方式，yolo可实现45帧每秒的运算速度，完全能满足实时性要求（达到24帧每秒，人眼就认为是连续的）

结构：主要分为三个部分：卷积层，目标检测层，NMS筛选层

我们的网络架构受到GoogLeNet图像分类模型的启发[34]。我们的网络共有24个卷积层，后面是2个全连接层。我们只使用1×11×1降维层，后面是3×33×3卷积层，这与Lin等人[22]类似，而不是GoogLeNet使用的Inception模块。完整的网络如图所示。

交替1×1卷积层减少了前面层的特征空间。我们在ImageNet分类任务上以一半的分辨率（224×224的输入图像）预训练卷积层，然后将分辨率加倍来进行检测。

卷积层

采用Google inceptionV1网络，对应到上图中的第一个阶段，共20层。这一层主要是进行特征提取，从而提高模型泛化能力，没有使用inception module结构，而是用一个1x1的卷积，并联一个3x3的卷积来替代。（可以认为只使用了inception module中的一个分支，应该是为了简化网络结构）

目标检测层

先经过4个卷积层和2个全连接层，最后生成7x7x30的输出。先经过4个卷积层的目的是为了提高模型泛化能力。yolo将一副448x448的原图分割成了7x7个网格，每个网格要预测两个bounding box的坐标(x,y,w,h)和box内包含物体的置信度confidence，以及物体属于20类别中每一类的概率（yolo的训练数据为voc2012，它是一个20分类的数据集）。所以一个网格对应的参数为（4x2+2+20) = 30。网络的最终输出是7×7×307×7×30的预测张量。

NMS筛选层

筛选层是为了在多个结果中（多个bounding box）筛选出最合适的几个，这个方法和faster R-CNN 中基本相同。都是先过滤掉score低于阈值的box，对剩下的box进行NMS非极大值抑制，去除掉重叠度比较高的box（NMS具体算法可以回顾上面faster R-CNN小节）。这样就得到了最终的最合适的几个box和他们的类别。

预训练，我们使用图中的前20个卷积层，接着是平均池化层和全连接层

为了在Pascal VOC上评估YOLO，我们使用S=7，B=2。Pascal VOC有20个标注类，所以C=20。我们最终的预测是7×7×30的张量。

它将图像分成S×S的网格，并且每个网格单元预测B个边界框，这些边界框的置信度以及C个类别概率。这些预测被编码为S×S×(B∗5+C)的张量

损失函数：

Yolo的损失函数包含三部分：位置误差，confidence误差，分类误差

误差均采用了均方差算法

yolo算法开创了one-stage检测的先河，它将物体分类和物体检测网络合二为一，都在全连接层完成。故它大大降低了目标检测的耗时，提高了实时性。但它的缺点也十分明显

每个网格只对应两个bounding box，当物体的长宽比不常见（也就是训练数据集覆盖不到时），效果很差。
原始图片只划分为7x7的网格，当两个物体靠的很近时，效果很差
最终每个网格只对应一个类别，容易出现漏检（物体没有被识别到）。
对于图片中比较小的物体，效果很差。这其实是所有目标检测算法的通病，SSD对它有些优化

每个网格单元只预测两个盒子，只能有一个类别，这个空间约束限制了我们的模型可以预测的邻近目标的数量。

SSD

和yolo一样，也分为三部分：卷积层，目标检测层和NMS筛选层

卷积层

SSD论文采用了VGG16的基础网络，其实这也是几乎所有目标检测神经网络的惯用方法。先用一个CNN网络来提取特征，然后再进行后续的目标定位和目标分类识别。

目标检测层

这一层由5个卷积层和一个平均池化层组成。去掉了最后的全连接层。SSD认为目标检测中的物体，只与周围信息相关，它的感受野不是全局的，故没必要也不应该做全连接。SSD的特点如下

多尺寸feature map上进行目标检测

多个anchors，每个anchor对应4个位置参数和21个类别参数

NMS筛选层

和yolo的筛选层基本一致，同样先过滤掉类别概率低于阈值的default box，再采用NMS非极大值抑制，筛掉重叠度较高的。只不过SSD综合了各个不同feature map上的目标检测输出的default box。

YOLOv2 改进之处

针对yolo准确率不高，容易漏检，对长宽比不常见物体效果差等问题，结合SSD的特点，提出了yoloV2。它主要还是采用了yolo的网络结构，在其基础上做了一些优化和改进，如下

YOLO v2主要改进是提高召回率和定位能力。下面是改进之处:

卷积层：网络采用DarkNet-19：19层，它有19个卷积层和5个最大池化层，里面包含了大量3x3卷积，同时借鉴inceptionV1，加入1x1卷积核全局平均池化层

去掉全连接层：和SSD一样，模型中只包含卷积和平均池化层（平均池化是为了变为一维向量，做softmax分类）。这样做一方面是由于物体检测中的目标，只是图片中的一个区块，它是局部感受野，没必要做全连接。而是为了输入不同尺寸的图片，如果采用全连接，则只能输入固定大小图片了。模型只使用卷积层和池化层，因此它可以实时调整大小。

2.Batch Normalization： v1中也大量用了Batch Normalization，同时在定位层后边用了dropout，v2中取消了dropout，在卷积层全部使用Batch Normalization。Batch Normilazation 来让训练更稳定，加速收敛，使模型规范化

3.高分辨率分类器（High resolution classifier）：v1中使用224 × 224训练分类器网络，扩大到448用于检测网络。v2将ImageNet以448×448 的分辨率微调最初的分类网络，迭代10 epochs。

4. 使用Anchor Boxes

借鉴faster R-CNN和SSD，对于一个中心点，使用多个anchor，得到多个bounding box，每个bounding box包含4个位置坐标参数(x y w h)和21个类别概率信息。而在yolo中，每个grid（对应anchor），仅预测一次类别，而且只有两个bounding box来进行坐标预测。

5. Multi-Scale Training：输入不同尺寸的图片，迭代10次，就改变输入图片尺寸。由于模型中去掉了全连接层，故可以输入不同尺寸的图片了。从320x320，到608x608

6.pass through layer ：yolo原本最终特征图为13x13x256。yoloV2还利用了之前的26x26的特征图进行目标检测。26x26x256的feature map分别按行和列隔点采样，得到4幅13x13x256的feature map，将他们组织成一幅13x13x2048的feature map。这样做的目的是提高小物体的识别率。因为越靠前的卷积，其感受野越小，越有利于小物体的识别。

yolo和yoloV2只能识别20类物体，为了优化这个问题，提出了yolo9000，可以识别9000类物体。它在yoloV2基础上，进行了imageNet和coco的联合训练。这种方式充分利用imageNet可以识别1000类物体和coco可以进行目标位置检测的优点。当使用imageNet训练时，只更新物体分类相关的参数。而使用coco时，则更新全部所有参数。

算法细节见深度学习算法之yolov2

YOLOv3改进之处：

YOLO3主要的改进有：调整了网络结构；利用多尺度特征进行对象检测；对象分类用Logistic (binary cross-entropy loss)取代了softmax。YOLO3借鉴了残差网络结构，形成更深的网络层次，以及多尺度检测，提升了mAP及小物体检测效果.

YOLOv3是到目前为止，速度和精度最均衡的目标检测网络。

1.多尺度预测（类FPN）

2.更好的基础分类网络（类ResNet）和分类器 darknet-53，见下图

3.分类器-类别预测：

YOLOv3 不使用 Softmax 对每个框进行分类，主要考虑因素有：

Softmax 使得每个框分配一个类别（得分最高的一个），而对于 Open Images这种数据集，目标可能有重叠的类别标签，因此 Softmax不适用于多标签分类。
Softmax 可被独立的多个 logistic 分类器替代，且准确率不会下降。
分类损失采用 binary cross-entropy loss.

8.1多标签分类预测

在YOLO9000[1]之后，我们的系统使用维度聚类（dimension clusters ）作为anchor boxes来预测边界框，网络为每个边界框预测4个坐标。

在YOLOv3[2]中使用逻辑回归预测每个边界框（bounding box）的对象分数。如果先前的边界框比之前的任何其他边界框重叠ground truth对象，则该值应该为1。如果以前的边界框不是最好的，但是确实将ground truth对象重叠了一定的阈值以上，我们会忽略这个预测，按照进行。我们使用阈值0.5。与YOLOv2不同，我们的系统只为每个ground truth对象分配一个边界框。如果先前的边界框未分配给grounding box对象，则不会对坐标或类别预测造成损失。

在YOLOv3中，每个框使用多标签分类来预测边界框可能包含的类。该算法不使用softmax，因为它对于高性能没有必要，因此YOLOv3使用独立的逻辑分类器。在训练过程中，我们使用二元交叉熵损失来进行类别预测。对于重叠的标签，多标签方法可以更好地模拟数据。

8.2跨尺度预测

YOLO v3从三种不同尺度的特征图谱上进行预测任务.

YOLOv3采用多个尺度融合的方式做预测。原来的YOLO v2有一个层叫：passthrough layer，假设最后提取的feature map的size是13*13，那么这个层的作用就是将前面一层的26*26的feature map和本层的13*13的feature map进行连接，有点像ResNet。这样的操作也是为了加强YOLO算法对小目标检测的精确度。这个思想在YOLO v3中得到了进一步加强，在YOLO v3中采用类似FPN的上采样（upsample）和融合做法（最后融合了3个scale，其他两个scale的大小分别是26*26和52*52），在多个scale的feature map上做检测，对于小目标的检测效果提升还是比较明显的。虽然在YOLO v3中每个网格预测3个边界框，看起来比YOLO v2中每个grid cell预测5个边界框要少，但因为YOLO v3采用了多个尺度的特征融合，所以边界框的数量要比之前多很多。而在yolov1中，每个grid（对应anchor），仅预测一次类别，而且只有两个bounding box来进行坐标预测。

相比输入图像，这里用于检测的特征图有32倍的下采样。比如输入是416*416的话，这里的特征图就是13*13了。由于下采样倍数高，这里特征图的感受野比较大，因此适合检测图像中尺寸比较大的对象。

为了实现细粒度的检测，第79层的特征图又开始作上采样（从79层往右开始上采样卷积），然后与第61层特征图融合（Concatenation），这样得到第91层较细粒度的特征图，同样经过几个卷积层后得到相对输入图像16倍下采样的特征图。它具有中等尺度的感受野，适合检测中等尺度的对象。

最后，第91层特征图再次上采样，并与第36层特征图融合（Concatenation），最后得到相对输入图像8倍下采样的特征图。它的感受野最小，适合检测小尺寸的对象。

9种尺度的先验框

分配上，在最小的13*13特征图上（有最大的感受野）应用较大的先验框(116x90)，(156x198)，(373x326)，适合检测较大的对象。中等的26*26特征图上（中等感受野）应用中等的先验框(30x61)，(62x45)，(59x119)，适合检测中等大小的对象。较大的52*52特征图上（较小的感受野）应用较小的先验框(10x13)，(16x30)，(33x23)，适合检测较小的对象。

感受一下9种先验框的尺寸，下图中蓝色框为聚类得到的先验框。黄色框式ground truth，红框是对象中心点所在的网格。

8.3网络结构改变

YOLO v3使用新的网络来实现特征提取。在Darknet-19中添加残差网络的混合方式，使用连续的3×3和1×1卷积层，但现在也有一些shortcut连接，YOLO v3将其扩充为53层并称之为Darknet-53。

在基本的图像特征提取方面，YOLO3采用了称之为Darknet-53的网络结构（含有53个卷积层），它借鉴了残差网络residual network的做法，在一些层之间设置了快捷链路（shortcut connections）。

图：Darknet-53网络结构

上图的Darknet-53网络采用256*256*3作为输入，最左侧那一列的1、2、8等数字表示多少个重复的残差组件。每个残差组件有两个卷积层和一个快捷链路，示意图如下：

一个残差组件

整个v3结构里面，是没有池化层和全连接层的

网络输入：原论文中提到的大小320*320,416*416,608*608。这个大小必须是32的整数倍数，yolo_v3有5次下采样，每次采样步长为2，所以网络的最大步幅（步幅指层的输入大小除以输出）为2^5=32。

darknet-53:
从第0层一直到74层，一共有53个卷积层，其余为res层。这就是Joseph Redmon大神提出的darknet-53经典的卷积层了。作为yolov3特征提取的主要网络结构。预训练（以imagenet数据集为训练基础）的权重文件可以通过官网下载。该结构使用一系列的3*3和1*1的卷积的卷积层。

输出

yolo v3输出了3个不同尺度的feature map，如上图所示的y1, y2, y3。这也是v3论文中提到的为数不多的改进点：predictions across scales
这个借鉴了FPN(feature pyramid networks)，采用多尺度来对不同size的目标进行检测，越精细的grid cell就可以检测出越精细的物体。
y1,y2和y3的深度都是255，边长的规律是13:26:52
对于COCO类别而言，有80个种类，所以每个box应该对每个种类都输出一个概率。
yolo v3设定的是每个网格单元预测3个box，所以每个box需要有(x, y, w, h, confidence)五个基本参数，然后还要有80个类别的概率。所以3*(5 + 80) = 255。这个255就是这么来的。（还记得yolo v1的输出张量吗？ 7x7x30，只能识别20类物体，而且每个cell只能预测2个box，一个类别

YOLO V2维度聚类

具有维度先验和位置预测的边界框。我们预测边界框的宽度和高度作为聚类中心的偏移量。我们使用sigmoid函数预测边界框相对于滤波器应用位置的中心坐标。

Direct location prediction（直接位置预测）

直接Anchor Box回归导致模型不稳定，对应公式也可以参考 Faster-RCNN论文，该公式没有任何约束，中心点可能会出现在图像任何位置，这就有可能导致回归过程震荡，甚至无法收敛：

针对这个问题，作者在预测位置参数时采用了强约束方法：

1）对应 Cell 距离左上角的边距为（Cx，Cy），σ定义为sigmoid激活函数，将函数值约束到［0，1］，用来预测相对于该Cell 中心的偏移（不会偏离cell）；

2）预定Anchor（文中描述为bounding box prior）对应的宽高为（Pw，Ph），预测 Location 是相对于Anchor的宽高乘以系数得到；

计算得来，v2相当直接predict出了b-box的位置大小和confidence。box宽和高的预测是受prior影响的，对于v2而言，b-box prior数为5，

了解v3输出的输出是至关重要的。

第一点， 9个anchor会被三个输出张量平分的。根据大中小三种size各自取自己的anchor。

第二点，每个输出y在每个自己的网格都会输出3个预测框，这3个框是9除以3得到的，这是作者设置
的，我们可以从输出张量的维度来看，13x13x255。255是怎么来的呢，3*(5+80)。80表示80个种类，5表
示位置信息和置信度，3表示要输出3个prediction。在代码上来看，3*(5+80)中的3是直接由
num_anchors//3得到的。

第三点，作者使用了logistic回归来对每个anchor包围的内容进行了一个目标性评分(objectness score)。
根据目标性评分来选择anchor prior进行predict，而不是所有anchor prior都会有输出。

聚类的目的是anchor boxes和临近的ground truth有更大的IOU值，这和anchor box的尺寸没有直接关系。自定义的距离度量公式：

到聚类中心的距离越小越好，但IOU值是越大越好，所以使用 1 - IOU，这样就保证距离越小，IOU值越大。

$\Large{\textcircled{\small{1}}}$ 使用的聚类原始数据是只有标注框的检测数据集，YOLOv2、v3都会生成一个包含标注框位置和类别的TXT文件，其中每行都包含 $(x_j,y_j,w_j,h_j),j\in\{1,2,...,N\}$ ，即ground truth boxes相对于原图的坐标，是框的中心点，是框的宽和高，N是所有标注框的个数；
$\Large{\textcircled{\small{2}}}$ 首先给定k个聚类中心点 $(W_i,H_i),i\in\{1,2,...,k\}$ ，这里的是anchor boxes的宽和高尺寸，由于anchor boxes位置不固定，所以没有(x,y)的坐标，只有宽和高；
$\Large{\textcircled{\small{3}}}$ 计算每个标注框和每个聚类中心点的距离 d=1-IOU(标注框,聚类中心)，计算时每个标注框的中心点都与聚类中心重合，这样才能计算IOU值，即 $d=1-IOU\left [ (x_j,y_j,w_j,h_j),(x_j,y_j,W_i,H_i) \right ],j\in\{1,2,...,N\},i\in\{1,2,...,k\}$ 。将标注框分配给“距离”最近的聚类中心；
$\Large{\textcircled{\small{4}}}$ 所有标注框分配完毕以后，对每个簇重新计算聚类中心点，计算方式为 $W_i^{'}=\frac{1}{N_i}\sum w_{i},H_i^{'}=\frac{1}{N_i}\sum h_{i}$ ，是第i个簇的标注框个数，就是求该簇中所有标注框的宽和高的平均值。
重复第3、4步，直到聚类中心改变量很小。

几种主要的激活函数：Sigmond / ReLU ／PReLU

激活函数公式缺点优点

Sigmoid 1、会有梯度弥散2、不是关于原点对称3、计算exp比较耗时 -

Tanh 梯度弥散没解决1、解决了原点对称问题2、比sigmoid更快

ReLU 梯度弥散没完全解决，在（-）部分相当于神经元死亡而且不会复活 1、解决了部分梯度弥散问题2、收敛速度更快

Leaky ReLU- 解决了神经死亡问题

Maxout 参数比较多,本质上是在输出结果上又增加了一层克服了ReLU的缺点，比较提倡使用

CNN抓住此共性的手段主要有四个：局部连接／权值共享／池化操作／多层次结构。

LeNet5 –没啥特点-不过是第一个CNN应该要知道

AlexNet 引入了ReLU和dropout，引入数据增强、池化相互之间有覆盖，三个卷积一个最大池化+三个全连接层

VGGNet 采用1*1和3*3的卷积核以及2*2的最大池化使得层数变得更深。常用VGGNet-16和VGGNet19

Google Inception Net

我称为盗梦空间网络这个在控制了计算量和参数量的同时，获得了比较好的分类性能，和上面相比有几个大的改进：

　　1、去除了最后的全连接层，而是用一个全局的平均池化来取代它；

　　2、引入Inception Module，这是一个4个分支结合的结构。所有的分支都用到了1*1的卷积，这是因为1*1性价比很高，可以用很少的参数达到非线性和特征变换。

　　3、Inception V2第二版将所有的5*5变成2个3*3，而且提出来著名的Batch Normalization；

　　4、Inception V3第三版就更变态了，把较大的二维卷积拆成了两个较小的一维卷积，加速运算、减少过拟合，同时还更改了Inception Module的结构。

微软ResNet残差神经网络(Residual Neural Network)

1、引入高速公路结构，可以让神经网络变得非常深

2、ResNet第二个版本将ReLU激活函数变成y=x的线性函数

创新点
提出残差学习的思想。传统的卷积网络或者全连接网络在信息传递的时候或多或少会存在信息丢失，损耗等问题，同时还有导致梯度消失或者梯度爆炸，导致很深的网络无法训练。ResNet在一定程度上解决了这个问题，通过直接将输入信息绕道传到输出，保护信息的完整性，整个网络只需要学习输入、输出差别的那一部分，简化学习目标和难度。VGGNet和ResNet的对比如下图所示。ResNet最大的区别在于有很多的旁路将输入直接连接到后面的层，这种结构也被称为shortcut或者skip connections。

网络结构

在ResNet网络结构中会用到两种残差模块，一种是以两个3*3的卷积网络串接在一起作为一个残差模块，另外一种是1*1、3*3、1*1的3个卷积网络串接在一起作为一个残差模块。他们如下图所示。

深度残差网络。如果深层网络的后面那些层是恒等映射，那么模型就退化为一个浅层网络。那现在要解决的就是学习恒等映射函数了。但是直接让一些层去拟合一个潜在的恒等映射函数H(x) = x，比较困难，这可能就是深层网络难以训练的原因。但是，如果把网络设计为H(x) = F(x) + x,如下图。我们可以转换为学习一个残差函数F(x) = H(x) - x. 只要F(x)=0，就构成了一个恒等映射H(x) = x. 而且，拟合残差肯定更加容易。

LSTM防止梯度弥散和爆炸
　　LSTM用加和的方式取代了乘积，使得很难出现梯度弥散。但是相应的更大的几率会出现梯度爆炸，但是可以通过给梯度加门限解决这一问题。

PCA 的思想

将 n维特征映射到 k 维上（k

算法思想：最大方差理论、最小平方误差理论、坐标轴相关度理论

OCR系列

文字识别分为两个具体步骤：文字的检测和文字的识别。

现今基于深度学习的端到端OCR技术有两大主流技术：CRNN OCR和attention OCR。其实这两大方法主要区别在于最后的输出层（翻译层），即怎么将网络学习到的序列特征信息转化为最终的识别结果。这两大主流技术在其特征学习阶段都采用了CNN+RNN的网络结构，CRNN OCR在对齐时采取的方式是CTC算法，而attention OCR采取的方式则是attention机制。

CRNN

网络结构包含三部分，从下到上依次为：

卷积层，使用CNN，( 普遍使用VGG16) 作用是从输入图像中提取特征序列;
循环层，使用RNN，作用是预测从卷积层获取的特征序列的标签（真实值）分布;
转录层，使用CTC，作用是把从循环层获取的标签分布通过去重整合等操作转换成最终的识别结果;

基于联结时序分类(Connectionist Temporal Classification, CTC)训练RNN的算法，在语音识别领域显著超过传统语音识别算法。一些学者尝试把CTC损失函数借鉴到OCR识别中，CRNN 就是其中代表性算法。

CRNN算法输入100*32归一化高度的词条图像，基于7层CNN（普遍使用VGG16）提取特征图，把特征图按列切分（Map-to-Sequence），每一列的512维特征，输入到两层各256单元的双向LSTM进行分类。在训练过程中，通过CTC损失函数的指导，实现字符位置与类标的近似软对齐。

CRNN中需要解决的问题是图像文本长度是不定长的，所以会存在一个对齐解码的问题，所以RNN需要一个额外的搭档来解决这个问题，这个搭档就是著名的CTC解码。
CRNN采取的架构是CNN+RNN+CTC，cnn提取图像像素特征，rnn提取图像时序特征，而ctc归纳字符间的连接特性。

CTPN

基础网络使用了VGG16用于特征提取，BiLSTM（双向LSTM），因为一个小文本框，对于它的预测，我们不仅与其左边的小文本框有关系，而且还与其右边的小文本框有关系！

CTPN这个流行的文本检测框架的三个闪光点：

将文本检测任务转化为一连串小尺度文本框的检测；
引入RNN提升文本检测效果；
Side-refinement（边界优化）提升文本框边界预测精准度。

当然，CTPN也有一个很明显的缺点：对于非水平的文本的检测效果并不好。CTPN论文中给出的文本检测效果图都是文本位于水平方向的，显然CTPN并没有针对多方向的文本检测有深入的探讨。

SegLink

CVPR2017的一篇spotlight论文《Detecting Oriented Text in Natural Images by Linking Segments》介绍以一种可以检测任意角度文本的检测算法，我们一般称这个算法为SegLink，这篇论文既融入CTPN小尺度候选框的思路又加入了SSD算法的思路，达到了当时自然场景下文本检测state-of-art的效果。针对多方向的文本检测做特定的研究。

思路就是让模型再学习一个参数θ！这个θ表示文本框的旋转角度，也就是我们最终要回归的参数从原来的(x,y,w,h)(x,y,w,h)变成(x,y,w,h,θ)(x,y,w,h,θ)。SegLink确实也采取了这个思路，除此之外，他还提出了Segment和Linking两个重要概念，这个才是这篇CVPR论文的核心创新点。

4.EAST

对于以上把完整文本行先分割检测再合并的思路，有人提出质疑，觉得这种做法比较麻烦，把文本检测切割成多个阶段来进行，这无疑增大了文本检测精度的损失和时间的消耗，对于文本检测任务上中间处理越多可能效果越差。所以有篇CVPR2017的文章提出，我们有一种方法能优雅且简洁地完成多角度文本检测，这个算法叫做EAST，论文为《EAST: An Efficient and Accurate Scene Text Detector》

EAST网络分为特征提取层+特征融合层+输出层三大部分。

特征提取层： backbone采取PVANet来做特征提取，接下来送入卷积层，而且后面的卷积层的尺寸依次递减（size变为上一层的一半），而且卷积核的数量依次递增（是前一层的2倍）。抽取不同level的feature map，这样可以得到不同尺度的特征图，目的是解决文本行尺度变换剧烈的问题，size大的层可用于预测小的文本行，size小的层可用于预测大的文本行。

特征合并层，将抽取的特征进行merge．这里合并的规则采用了U-net的方法，合并规则：从特征提取网络的顶部特征按照相应的规则向下进行合并，这里描述可能不太好理解，具体参见下述的网络结构图。

网络输出层：网络的最终输出有5大部分，他们分别是：

score map：一个参数，表示这个预测框的置信度；
text boxes: 4个参数，（x,y,w,h），跟普通目标检测任务的bounding box参数一样，表示一个物体的位置；
text rotation angle: 1个参数，表示text boxe的旋转角度；
text quadrangle coordinates：8个参数，表示任意四边形的四个顶点坐标，即(x1,y1),(x2,y2),(x3,y3),(x4,y4)。

所以从整体看来，EAST就是借助FCN架构直接回归出文本行的(x,y,w,h,θ)(x,y,w,h,θ)+置信度+四边形的四个坐标！非常简洁

OpenCV系列总结

阈值分割

二进制阈值化，反二进制阈值化，截断阈值化，阈值化为0，反阈值化为0 ，大津法OTSU（最大类间方差法）

二值化操作

全局固定阈值二值化和局部自适应阈值二值化

全局固定阈值很容易理解，就是对整幅图像都是用一个统一的阈值来进行二值化；

局部自适应阈值则是根据像素的邻域块的像素值分布来确定该像素位置上的二值化阈值

滤波操作，模糊处理

OpenCV中提供了4种模糊算法，列举如下：average 均值滤波；median 中值滤；gaussian 高斯滤波；bilateral 双边滤波

图像高频部分代表了图像的细节、纹理信息；低频代表了图像的轮廓信息。

低通-》模糊

高通-》锐化

角点检测

角点通常被定义为两条边的交点。比如，三角形有三个角，矩形有四个角，这些就是角点，是严格意义上的角点，但是从广义来说，

角点指的是拥有特定特征的图像点，这些特征点在图像中有具体的坐标，并具有某些数学特征（比如局部最大或最小的灰度）。

图像特征类型可以被分为三种：

边缘
角点（感兴趣关键点）
斑点（感兴趣区域）

Harris 角点检测

Harris角点检测是一种直接基于灰度图的角点提取算法，稳定性高，尤其对L型角点（也就是直角）检测精度高。缺点也是明显的，就是运算速度慢。cornerHarris

//进行角点检测 //第三个参数表示邻域大小，第四个参数表示Sobel算子孔径大小，第五个参数表示Harris参数 cornerHarris(g_grayImage, dstImage, 2, 3, 0.04, BORDER_DEFAULT);

检测到的点都是一些亮度明显变化的临界点

Shi-Tomasi角点检测

除了上述的Harris角点检测方法，我们还可以采用Shi-Tomasi方法进行角点检测。Shi-Tomsi算法是Harris算法的加强版，性能当然也有相应的提高

边缘检测（canny、sobel、laplacian）

边缘检测的一般步骤：滤波——消除噪声；增强——使边界轮廓更加明显；检测——选出边缘点

Canny算法

Canny边缘检测算法被很多人推崇为当今最优秀的边缘检测算法，会将图像中各个方向、明暗交替位置的边缘都提取出来

sobel的轮廓提取明显有没cnany的那么细致，只是把一些明显轮廓的边缘提取出来，但是可以进行x,y方向上的边缘提取，Sobel相比于Canny的优秀之处在于，它可以选择横向或纵向的边缘进行提取

霍夫线变换

霍夫线变换是一种在图像中寻找直线的方法。OpenCV中支持三种霍夫线变换，分别是标准霍夫线变换、多尺度霍夫线变换、累计概率霍夫线变换。

模板匹配

模板匹配，就是在一幅图像中寻找另一幅模板图像最匹配（也就是最相似）的部分的技术。

就是拿着模板图片（姚明头像）在原图（全明星照）中从左上至右下依次滑动，直到遇到某个区域的相似度低于我们设定的阈值，那么我们就认为该区域与模板匹配了，也就是我们找到了姚明的位置，并把它标记出来。

轮廓查找和多边形包围轮廓

Canny一类的边缘检测算法可以根据像素之间的差异，检测出轮廓边界的像素，但它没有将轮廓作为一个整体。所以要将轮廓提起出来，就必须将这些边缘像素组装成轮廓。

OpenCV中有一个很强大的函数，它可以从二值图像中找到轮廓：findContours函数。

有时我们还需要把找到的轮廓画出来，那就要用到函数drawContours了。

OpenCv这方面的函数总结如下：

返回指定点集最外部矩形边界：boundingRect()
寻找给定的点集可旋转的最小包围矩形：minAreaRect()
寻找最小包围圆形：minEnclosingCircle()
用椭圆拟合二维点集：fitEllipse()
逼近多边形曲线：approxPolyDP()

矩就是图像的特征信息，比如大小、位置、方向等。

OpenCV提供了一些函数来计算图像的矩：

矩的重心、主轴、面积等特征计算：moments()
计算轮廓面积：contourArea()
计算轮廓长度：arcLength()

图像矫正

要进行进行图像矫正，至少有以下几项知识储备：

轮廓提取技术；霍夫变换知识；ROI感兴趣区域知识

再详细地总结处理步骤：

1.图片灰度化；2.阈值二值化；3.检测轮廓；4.寻找轮廓的包围矩阵，并且获取角度；5.根据角度进行旋转矫正；6.对旋转后的图像进行轮廓提取； 7.对轮廓内的图像区域抠出来，成为一张独立图像

我把该矫正算法命名为基于轮廓提取的矫正算法，因为其关键技术就是通过轮廓来获取旋转角度。

摄像机标定

为了解决车载摄像机图像的畸变问题，摄像机标定技术应运而生

摄像机标定是通过对已知的形状进行拍照，通过计算该形状在真实世界中位置与在图像中位置的偏差量（畸变系数），进而用这个偏差量去修正其他畸变图像的技术。

原则上，可以选用任何的已知形状去校准摄像机，不过业内的标定方法都是基于棋盘格的。因为它具备规则的、高对比度图案，能非常方便地自动化检测各个棋盘格的交点，十分适合标定摄像机的标定工作。

OpenCV库为摄像机标定提供了函数cv2.findChessboardCorners()，它能自动地检测棋盘格内4个棋盘格的交点（2白2黑的交接点）。我们只需要输入摄像机拍摄的完整棋盘格图像和交点在横纵向上的数量即可。随后我们可以使用函数cv2.drawChessboardCorners()绘制出检测的结果

获取交点的检测结果后，使用函数cv2.calibrateCamera()即可得到相机的畸变系数。

我们使用cv2.calibrateCamera()进行标定，这个函数会返回标定结果、相机的内参数矩阵、畸变系数、旋转矩阵和平移向量

特征检测和特征匹配

Python 使用Opencv实现图像特征检测与匹配

图像识别算法

SURF特征。 SURF全称为“加速稳健特征”（Speeded Up Robust Feature），我们将会看到，它们不仅是尺度不变特征，而且是具有较高计算效率的特征。

SIFT

SURF算法是SIFT算法的加速版，而SIFT（尺度不变特征转换， ScaleInvariant Feature Transform）是另一种著名的尺度不变特征检测法。SIFT算法检测的特征在空间和尺度上定位更加精确，所以在要求匹配极度精准且不考虑匹配速度的场合可以考虑使用SIFT算法。

ORB

ORB是ORiented Brief的简称，是brief算法的改进版。ORB算法比SIFT算法快100倍，比SURF算法快10倍。在计算机视觉领域有种说法，ORB算法的综合性能在各种测评里较其他特征提取算法是最好的。ORB算法是brief算法的改进，那么我们先说一下brief算法有什么去缺点。
BRIEF的优点在于其速度，其缺点是：

不具备旋转不变性；对噪声敏感；不具备尺度不变性

而ORB算法就是试图解决上述缺点中1和2提出的一种新概念。值得注意的是，ORB没有解决尺度不变性

FAST

FAST（加速分割测试获得特征， Features from Accelerated Segment Test）。这种算子专门用来快速检测兴趣点，只需要对比几个像素，就可以判断是否为关键点。

跟Harris检测器的情况一样， FAST算法源于对构成角点的定义。FAST对角点的定义基于候选特征点周围的图像强度值。以某个点为中心作一个圆，根据圆上的像素值判断该点是否为关键点。如果存在这样一段圆弧，它的连续长度超过周长的3/4，并且它上面所有像素的强度值都与圆心的强度值明显不同（全部更黑或更亮），那么就认定这是一个关键点。

用这个算法检测兴趣点的速度非常快，因此十分适合需要优先考虑速度的应用。这些应用包括实时视觉跟踪、目标识别等，它们需要在实
时视频流中跟踪或匹配多个点

Harris角点

角点是很容易在图像中定位的局部特征，角点的价值在于它是两条边缘线的接合点，是一种二维特征，可以被精确地定位（即使是子像素级精度）

很多特征检测的方法，比如HOG、Harr、LBP

图像拼接和图像融合

对每幅图进行特征点提取；对对特征点进行匹配；进行图像配准；把图像拷贝到另一幅图像的特定位置；对重叠边界进行特殊处理；

第一步就是特征点提取。现在CV领域有很多特征点的定义，比如sift、surf、harris角点、ORB都是很有名的特征因子，都可以用来做图像拼接的工作，他们各有优势

凸包检测

是给定二维平面上的点集，凸包就是将最外层的点连接起来构成的凸多边形，它是能包含点集中的所有点的。理解物体形状或轮廓的一种比较有用的方法便是计算一个物体的凸包，然后计算其凸缺陷。

OpenCV中提供了函数convesHull()用于对物体轮廓凸包进行检测，对形状凸包缺陷分析时使用convexityDefects()函数，每个缺陷区包含四个特征量：起始点、结束点、距离和最远点。

一般步骤

1.采集图像

读取灰度图，视频图，并灰度化

2.预处理

中值滤波，均值滤波，高斯滤波，二值化阈值分割，模板匹配，形态学操作等

形态学

腐蚀和膨胀是最基本的形态学运算。

腐蚀和膨胀是针对白色部分（高亮部分）而言的。

膨胀就是对图像高亮部分进行“领域扩张”，效果图拥有比原图更大的高亮区域；

腐蚀是原图中的高亮区域被蚕食，效果图拥有比原图更小的高亮区域。

膨胀：膨胀就是求局部最大值的操作，从图像直观看来，就是将图像光亮部分放大，黑暗部分缩小

开运算：先腐蚀再膨胀，用来消除小物体

闭运算：先膨胀再腐蚀，用于排除小型黑洞

形态学梯度：就是膨胀图与俯视图之差，用于保留物体的边缘轮廓。

顶帽：原图像与开运算图之差，用于分离比邻近点亮一些的斑块。

黑帽：闭运算与原图像之差，用于分离比邻近点暗一些的斑块。

opencv里有一个很好的函数getStructuringElement，我们只要往这个函数传相应的处理参数，就可以进行相应的操作了，使用起来非常方便。

3.特征提取

形状特征，颜色，纹理，概率，描述算子，梯度直方图等

透视变换

cv2.getPerspectiveTransform

附：

1.17个机器学习的常用算法

你可能感兴趣的:(深度学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
深度学习驱动的车牌识别：技术演进与未来挑战逼子歌深度学习车牌识别神经网络字符识别 YOLO 卷积神经网络
一、引言1.1研究背景在当今社会，智能交通系统的发展日益重要，而车牌识别作为其关键组成部分，发挥着至关重要的作用。车牌识别技术广泛应用于交通管理、停车场管理、安防监控等领域。在交通管理中，它可以用于车辆识别、交通违法监控和车流统计等，提高交通管理的效率和准确性。在停车场管理中，实现车辆的自动识别和收费，提升管理和服务水平。在安防监控领域，可用于追踪嫌疑人及犯罪行为。深度学习的出现为车牌识别带来了重
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程牙牙要健康深度学习 onnx onnxruntime 深度学习 python 人工智能
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论文章目录【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程前言模型转换--pytorch转onnxWindows平台搭建依赖环境onnxruntime调用onnx模型ONNXRuntime推理核
基于深度学习的多模态信息检索 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的多模态信息检索（MultimodalInformationRetrieval,MMIR）是指利用深度学习技术，从包含多种模态（如文本、图像、视频、音频等）的数据集中检索出满足用户查询意图的相关信息。这种方法不仅可以处理单一模态的数据，还可以在多种模态之间建立关联，从而更准确地满足用户需求。1.多模态信息检索的挑战异构数据表示：多模态数据通常具有不同的特征和表示形式（如文本的词嵌入与图
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round