lien0906

文本检测模型综述

之前做车牌检测使用文本检测模型，如east、ctpn和textboxes，但是效果不是很好，需要针对车牌专门训练。后面就采用ssd和yolo进行车牌的检测，但是车牌有时是旋转的，使用ssd和yolo模型无法对车牌的四个点进行精确定位，而文本检测模型很多都能精确的回归文本四个点的位置，因此还是需要对文本检测模型进行一定的了解。

首先介绍为什么直接使用ssd和yolo进行文字检测效果不理想，原因如下：

相比于常规物体，文字行长度、长宽比例变化范围很大，而ssd和yolo都是anchor-based，它们有固定位置以及长宽比例，如果长宽比例和文字形状差别很大，就很难通过回归找到一个紧凑包围它的边框。
文本行有方向性，anchor-based的检测通常是水平和垂直方向的矩形。
有些艺术字体形状变化非常大，很多是弯曲的。
由于丰富的背景图像干扰，手工设计特征在自然场景文本识别任务中不够鲁棒。

具体可以看下图：

针对这些问题，目前主要围绕特征提取、RPN、多目标协同训练、loss改进、NMS、半监督学习等角度对常规物体检测方法进行改造。极大的提高了自然场景图像中文本检测准确率。

如：

ctpn方案中，用blstm模块提取字符所在图像上下文特征，以提高文本块识别精度。
east方案中，模型支持任意方向的四边形检测，输出的结果要么为四个点坐标，要么为回归的框以及对应的角度。
seglink方案中，该模型能预测单个小文字块，然后将其link成单词，并且能够预测倾斜的文本。
textboxes方案中，分别调整了anchor box和卷积核的尺寸为长方形，以更适应文本细长型的特点。
textboxes++方案中，相比textboxes，它能预测任意方向的文本框，因为对anchor box和卷积核都做了相应的修改。
rrpn方案中，文本框标注采用bbox+方向角度的形式，模型中产生出可旋转的文字区域候选框，并在边框回归计算过程中找到待测文本行的倾斜角度。
dmpnet方案中，使用quadrilateral作为anchor box，从而能够更好的检测倾斜文本行。
pixellink方案中，并未使用常规的回归方式，而是使用实例分割的方法来预测文本行。
wordsup方案中，使用弱监督的训练方式，在文本行和单词级标注的数据集上训练出字符级的检测模型。

接下来我们详细描述上面提到的模型：

CTPN模型：

CTPN模型可以检测水平或微斜的文本行，其中文本行被看成一个字符sequence，而不是一般物体检测中单个独立的目标。同一文本行上各个字符图像间可以互为上下文，在训练阶段让检测模型学习图像中蕴含的这种上下文统计规律，可以使得预测阶段有效提升文本块预测准确率。下面简单描述其基本流程：

用vgg16的前五个conv stage得到feature map(W*H*C)
在conv5的feature map的每个位置上取3*3*C的窗口的特征，这些特征将用于预测该位置K个anchor对应的类别信息和位置信息
将每一行的所有窗口对应的3*3*C的特征(W*3*3*C)输入到BLSTM中，得到W*256的输出
将BLSTM的W*256输入到512维的fc层
fc层特征输入到三个分类+回归层中，其中第二个2k scores表示的是k个anchor的类别信息(是否为字符)。第一个2k vertical coordinate(bounding box的高度和中心的y坐标)和第三个k side-refinement(bounding box的水平平移量)用来回归k个anchor的位置信息。这里只用三个参数表示回归的bounding box，因为这里默认了每个anchor的width是16，且不再变化(vgg16的conv5的stride是16)。
用简单的文本线构造算法，把分类得到的文字的proposal合并乘文本线。

下图是我使用ctpn的检测效果：

EAST模型

EAST(Efficient and Accuracy Scene Text detection pipeline)模型，这种模型支持旋转矩形框、任意四边形两种文本区域标注形式。对于四边形标注，模型执行时会对特征图中每个像素预测其到四个顶点的坐标差值。对于旋转矩形框标注，模型执行时会对特征图中每个像素预测其到矩形框四边的距离以及矩形框的方向角。

下图中的(e)部分即为east的过程，从图中可以看出它的efficient体现在对一些过程的消除上。相比(a)(b)(c)(d)，该模型省略了常见的区域建议、单词分割、子块合并等步骤，因此速度较快。另外east类似于上面介绍的ctpn模型，不过ctpn只支持水平方向的检测，而east可以支持多方向文本的定位。

具体做法如下：

首先使用PVANet作为backbone，这里使用fpn的思想分别从stage1,stage2,stage3,stage4提取特征。之后对抽取的特征做上采样，并concat到一起。最后的输出层会输出一个score map，四个回归的框以及一个角度信息，或者输出一个score map和八个坐标信息。

下面是我使用EAST的检测效果：

从结果可以看出该模型对英文短单词检测效果较好，但是长文本的效果欠佳。如果针对长文本进行针对性训练，也许能够取得更好的效果。

SegLink模型

seglink(segment+link)模型先将每个单词切割成更易检测的有方向的小文字块(segment)，然后用邻近连接将各个小文字块link成单词。这种方法方便识别长度变化范围很大、带方向的单词和文本行。

作者所使用的网络是ssd网络，它会输出两类信息：

一个是文本的box信息，该box不是整个文本行的box，而是文本行的一部分，称为segment，它可能是一个字符或者几个字符等。这个信息是带有角度的，如下图的黄框表示。
另一个是不同segment的link信息，它的输出是整个文本行，因此它需要将这些box连接成文本行，而这个link也是在网络中自动学习的，由网络判定哪些segment属于一个文本行，由下图的绿线表示。

下图是采用的ssd网络结构：

这里简要描述它和ssd的区别：

ssd输出x,y,w,h四个参数，而seglink加入了角度信息，输出的是x,y,w,h,θ,这个角度代表矩形框的角度，与水平方向的的夹角顺时针为正、逆时针为负
ssd每个feature map的每个位置上由多个不同的aspect ratio的default box，seglink每个位置上只有一个default box，这样可以加速
ssd每层的feature map决定的default box的scale人工定义(10-90，平均分5次)，seglink的scale由感受野大小来决定
seglink不但学习segment，也学习segment之间的link关系，来表示是否为同一个单词
seglink训练用的gt除了因为多方向所以用的旋转后的gt，还要有一个link的gt
seglink的损失函数中加入了link的损失项

对于link的学习分为within-layer link(层内连接，周围的八个segment)和cross-layers link(层间link，一个word的segments可能同时被多层检测到)

TextBoxes模型

该模型同上面类似，也是改进的ssd算法。其主要改进如下：

文字通常是细长型，因此将default box的长宽比改为1,2,3,5,7,10初始值
受inception风格的滤波器启发，设计了非常规的1*5滤波器，而没有采用3*3的滤波器，使其能适应大纵横比的单词，也避免了正方形感受野带来的噪声信号
ssd从多类检测变为了单类检测
为了进一步提高检测精度，使用多个比例的输入图片作为输入

如上图所示，前面的和ssd结构基本一致，最后增加了text-box层，该层的深度是72，因为每个区域有12个比例不同，位置不同的default boxes，每个框需要预测4个坐标值，即预测框与默认框的偏差，还要预测通过softmax进行二分类得到2个概率值，因此总共是72维的向量。

通常默认框在水平方向上排列紧密而在垂直方向上排列稀疏，这样会造成检测失误的情况，因此将水平方向上的这些默认框全部向下平移半个区域的单位，下图中是将黑色与蓝色向下平移得到绿色和红色。从而解决了默认框排列不均匀的问题

下面是我使用TextBoxes的检测效果：

TextBoxes++模型

textboxes模型只能预测水平的文字，而textboxes++模型可以预测任意方向的文字，其做了如下方面的改进

上图中黄色实线框是ground truth框，绿色虚线框是最匹配的default box框，黑色虚线框是不匹配的default box框，绿色实线框是包含ground truth框的最小外接矩形框。我们需要学习的就是绿色虚线框到黄色实线框以及绿色实线框的偏移。
因为该模型是预测带方向的文本框，因此默认的default box从1,2,3,5,7,10变为了1,2,3,5,1/2,1/3,1/5。另外1*5的卷积核也变成了3*5的卷积核以适应各个方向的文本框。
和textboxes相似的是在垂直方向加了default box，以应对只有水平方向default box密集的情况

如上图左边中间的黑色虚线框所示，当两个单词很接近时它并不能同时处理这两个单词(通常一个ground truth可以匹配到多个anchor，但是一个anchor只能匹配一个ground truth)。如上图右边下面的黑色虚线框所示，它完全不能覆盖下面的单词。因此我们很有必要增加垂直的default boxes(图中黄框所示).

RRPN模型：
基于旋转区域候选网络(rotation region proposal networks)的方案，将旋转因素考虑进去。

其中前端是vgg-16用来提取feature-map，中间是rrpn生成带倾斜角的候选区域，最后是multi-task loss。在训练阶段，一个文本区域的ground truth用一个五元组(x,y,h,w,θ)来表示，(x,y)表示边界框的几何中心的坐标。高度h表示短边的长度，宽度w表示长边的长度，而θ表示长边的方向。
对传统的锚点框进行了改进，以适应自然场景下的文本检测。首先，新增了方向变量，加入6个方向角：-π/6、0、π/6、π/3、π/2、2π/3。其次，为符合文本框的形状，将比例调整为：1:2、1:5、1:8。大小还是8,16,32保持不变。这样对于特征图上每一个点将生成54个R型锚点(6种方向，3种大小，3种比例)。因此分类层有108(2*54)个输出值，回归层有270(5*54)个输出值。

对正负锚点的标定规则如下：

如果锚点对应的box与gt的iou值最大，标记为正样本。
如果锚点对应的box与gt的iou>0.7，标记为正样本。
如果锚点对应的box与gt的夹角小于π/12，标记为正样本。
iou小于0.3，标记为负样本。
iou大于0.7，但是夹角大于π/12，标记为负样本。
剩下的非正非负，不用于训练。

损失函数分别采用交叉熵损失和smoothl1损失。
另外修改roi为rroi(rotation roi)池化层，将任意方向的区域建议先划分为子区域，然后对这些子区域分别做max pooling，并将结果投影到具有固定空间尺寸的特征图上。

DMPNet模型
DMPNet(deep matching prior network)模型以vgg16为base model，使用四边形来更紧凑的标注文本区域边界，因此该模型对倾斜文本块检测效果更好。
首先它使用quadrilateral sliding windows来对text进行粗定位

其中(c)就是作者提出的quadrilateral作为anchor box，从(a)里面可以看到水平anchor box和倾斜anchor box的差别很大。因此quadrilateral能够更好的对text进行定位，减少背景噪声的影响。
其次为了计算gt和anchor box的iou，作者认为原来的算法只能计算矩形之间的iou，并且效率不高，因此提出了基于蒙特卡洛的方法来计算多边形的面积。

方法有下面两步：

对于ground truth，首先在它的外接矩形框里均匀采样10000个点，然后统计在ground truth多边形里面的点，得到gt的面积。
如果sliding windows的外接矩形和gt的外接矩形不相交，那么gt和sliding window的iou就是0，否则根据上一步骤的方法计算sliding window的面积，然后统计gt里面的点在sliding window里面的比例，求的交叉区域的面积，得到iou。

该方法在gpu上可以并行计算，因此这种方法的效率很高。
之后需要根据上一步骤可以得到哪些sliding window负责预测text之后，下一步就是根据这些sliding window的参数预测四边形的坐标。首先我们需要确定四边形四个点的预测顺序。

我们首先选择x坐标最少，同时y坐标也最小点作为点1，之后将这个点和剩下的点连成三条线段，取中间那条作为点3，位于使这条线大于0的点作为点2，否则为点4. 之后我们连接点1,3和点2,4。选择斜率更大的那条线上x更小的点作为新的点1，剩下的依次确定。
最后在我们确定了点的顺序后，要预测的参量其实就是四个点的坐标。作者这里换了一种预测方法：

对于gt四边形，得到它的最小外接矩形。然后用(x,y,w1,h1,w2,h2,w3,h3,w4,h4)表示这个gt，其中(x,y)表示外接矩形的中心点坐标，(wi,hi)表示四边形四个点相对(x,y)的偏移。
对于回归loss函数的选取，作者认为smooth l1 loss相比l2 loss对于离群值的敏感度更小。但是从训练的角度来说，l2 loss能够加速收敛的速度。因为l1 loss的梯度始终为1，而l2 loss的梯度和误差同一量级，这样可以加速收敛。
因此作者提出了smooth ln loss,综合了l2 loss和smooth l1 loss的特点。
smoothLn(x) = (|d| + 1)ln(|d| + 1) − |d|

deviationLn(x) = sign(x) · ln(sign(x) · x + 1)

从图中可以看出，smooth ln loss对于离群值的敏感度低于smooth l2 loss，同时梯度的调节能力优于smooth l1 loss。

PixelLink模型
该模型和上面的模型差别很大，它并不是anchor-base的，而是用分割的思想来检测文字。自然场景图像文字通常混在一起，通过semantic segmentation(语义分割)很难将他们识别开来，因此这里采用instance segmentation(实例分割)方法来解决这个问题。
该模型的特征提取部分是vgg16为基础而构建的fcn网络。

下图是其执行流程：

首先使用cnn模块执行两个像素级预测：一个文本二分类预测，一个链接二分类预测。
接着针对正链接连接邻居正文本像素，得到文本块实例分割结果。
最后由分割结果直接就获得文本块边框，这种方式可以生成倾斜边框。
可以看出该方法不需要回归边框，因此训练收敛速度更快，但是分割的方式通常需要复杂的后处理。

WordSup模型：
通常在数学公式图文识别、不规则形变文本行识别等应用中，我们需要进行字符级检测。但是字符级检测需要很高的标注成功，已知的公开数据集又很少，导致现在很多文本检测只能在文本行或者单词级别标注的数据进行训练。而该模型提出了一种弱监督的训练框架，可以在文本行和单词级标注的数据集上训练出字符级的检测模型。

下图给出其训练的网络结构：

作者使用vgg16模型作为特征提取器，考虑到不同场景的字符在大小上具有非常大的差异，在1M像素的图像中有些字符可能只有10*10的大小，因此我们最终的特征图大小为原图的1/4，而不是像常用的物体检测1/16，1/32这种尺寸。但是由于更深的特征图具有更大的感受野，因此作者也使用fpn的形式将高层的特征图做上采样来和低层的特征图做融合(eltsum)。最终的预测特征图的channel数为5k，分别代表是否是文本(只需一个channel)，以及4个回归的坐标。k代表anchor的数目，这里取k=3，代表在224*244的输入大小上文本对角线的长度为24pixels，16pixels和12pixels。只要我们预测的文本其对角线为anchor的0.7~1.4倍就被判定为正样本。
在下图中，wordsup弱监督训练框架中，两个训练步骤交替进行：给定当前字符检测模型，并结合单词级标注数据，计算出字符中心点掩码图。给定字符中心点掩码图，有监督地训练字符级检测模型。

在训练好字符检测器后，可以在数据流水线中加入合适的文本结构分析模块，以输出符合应用场景要求的文本内容。这里作者列举了多种文本结构分析模块的实现方式。

总结：
上文中除了pixellink是采用分割的思想外，剩下的所有模型都是魔改anchor-base的方式。另外华科的三篇文章seglink,textboxes,textboxes++都是在ssd的基础上进行的修改。考虑到ssd的base model也是vgg16，因此所有的模型都采用vgg16作为base model，如果将vgg16换成resnet或者densenet这种结构，也许每篇文章都能有一定程度的涨点。在预测方向上，ctpn和textboxes只能预测水平的文本框，而剩下的所有模型都能预测带有一定角度的文本框。下面以一个表格来结束整篇综述：

Ps: 这篇博客是在https://zhuanlan.zhihu.com/p/38655369?utm_source=qq&utm_medium=social基础上进行了修改和扩展，后续会推出一篇文本识别的综述。

参考文献：

https://arxiv.org/pdf/1609.03605.pdf

https://arxiv.org/pdf/1704.03155.pdf

https://arxiv.org/pdf/1703.06520.pdf

https://arxiv.org/pdf/1611.06779v1.pdf

https://arxiv.org/pdf/1801.02765.pdf

https://arxiv.org/pdf/1705.10447.pdf

https://arxiv.org/pdf/1703.01425.pdf

https://arxiv.org/pdf/1801.01315.pdf

https://arxiv.org/pdf/1708.06720v1.pdf

https://zhuanlan.zhihu.com/p/38655369?utm_source=qq&utm_medium=social

https://blog.csdn.net/zchang81/article/details/78873347

https://blog.csdn.net/qq_14845119/article/details/78986449
https://blog.csdn.net/sparkexpert/article/details/77987654

https://blog.csdn.net/xxiaozr/article/details/77451277
https://blog.csdn.net/u013102349/article/details/79524233

https://www.jianshu.com/p/b3c1a2f27dec
https://blog.csdn.net/w5688414/article/details/77986955
https://blog.csdn.net/hx921123/article/details/56845256

https://blog.csdn.net/w5688414/article/details/77986955

https://blog.csdn.net/ChuiGeDaQiQiu/article/details/79821576
https://blog.csdn.net/yaoqi_isee/article/details/73432759

编辑于 2018-09-26

OCR（光学字符识别）

深度学习（Deep Learning）

计算机视觉

赞同 5415 条评论

文章被以下专栏收录

ocr

进入专栏

文字识别OCR方法整理

白裳

超强合集：OCR 文本检测干货汇总（含论文、源码、demo 等资源）

极市平台发表于极市平台

Fast-OCNet: 更快更好的OCNet.

RainBowSecret

最新的Anchor-Free目标检测模型FCOS，现已开源！

Amusi发表于计算机视觉...

15 条评论

切换为时间排序

写下你的评论...

发布

SpartacusIn2111 个月前
膜拜大佬

赞回复踩举报

王哲11 个月前
学习了！

赞回复踩举报

村夫11 个月前
写的太好了，准备花一年时间研究研究大神的总结

1回复踩举报

zhouyx10 个月前
已阅

赞回复踩举报

黄裳10 个月前
果然是符合no free lunch theorem，如果是直线文字，看起来还是ctpn效果最好。

赞回复踩举报

展开其他 1 条回复

希尔伯特空间9 个月前
anchor是直接预测举行和角度，没有anchor

赞回复踩举报
拨浪鼓儿 (作者) 回复希尔伯特空间9 个月前
嗯，后面仔细看了，确实没有anchor，应该归为分割类里

赞回复踩举报
gavin回复拨浪鼓儿 (作者)7 个月前
你这里说的是哪个分为分割？

赞回复踩举报

小马4 个月前
请问文字检测方向现在的难点主要是什么问题？现在有什么可以改进的地方

赞回复踩举报
小马回复小马4 个月前
补充一下: 因为现在基于anchor的方法其实不太适合在文本检测上，不适宜解决多方向检测的问题，所以之后的工作或许在直接回归坐标点(不基于anchor) 或者利用keypoint detection的思路去做，是否可以是个方向?

赞回复踩举报
拨浪鼓儿 (作者) 回复小马4 个月前
现在更多的是基于分割的方式来做文本检测

赞回复踩举报

程洁1 个月前
哇这总结也太棒了吧！！！请问答主就是chineseocr那个github里有的项目里说是用了yolo v3+crnn 进行的检测和定位但是我看了好像是ctpn的原理呀

赞回复踩举报
拨浪鼓儿 (作者) 回复程洁1 个月前
我没有用那个，用那个也可以。那个就是把ctpn的原理，用yolo来检测小块

赞回复踩举报

GYxiaOH19 天前
为什么textboxes平移能解决稀疏的问题啊，是平移前后的框都保留吗

赞回复踩举报

你可能感兴趣的:(深度学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
深度学习驱动的车牌识别：技术演进与未来挑战逼子歌深度学习车牌识别神经网络字符识别 YOLO 卷积神经网络
一、引言1.1研究背景在当今社会，智能交通系统的发展日益重要，而车牌识别作为其关键组成部分，发挥着至关重要的作用。车牌识别技术广泛应用于交通管理、停车场管理、安防监控等领域。在交通管理中，它可以用于车辆识别、交通违法监控和车流统计等，提高交通管理的效率和准确性。在停车场管理中，实现车辆的自动识别和收费，提升管理和服务水平。在安防监控领域，可用于追踪嫌疑人及犯罪行为。深度学习的出现为车牌识别带来了重
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程牙牙要健康深度学习 onnx onnxruntime 深度学习 python 人工智能
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论文章目录【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程前言模型转换--pytorch转onnxWindows平台搭建依赖环境onnxruntime调用onnx模型ONNXRuntime推理核
基于深度学习的多模态信息检索 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的多模态信息检索（MultimodalInformationRetrieval,MMIR）是指利用深度学习技术，从包含多种模态（如文本、图像、视频、音频等）的数据集中检索出满足用户查询意图的相关信息。这种方法不仅可以处理单一模态的数据，还可以在多种模态之间建立关联，从而更准确地满足用户需求。1.多模态信息检索的挑战异构数据表示：多模态数据通常具有不同的特征和表示形式（如文本的词嵌入与图
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache