汀、人工智能

深度学习应用篇-计算机视觉-OCR光学字符识别[7]：OCR综述、常用CRNN识别方法、DBNet、CTPN检测方法等、评估指标、应用场景

【深度学习入门到进阶】必看系列，含激活函数、优化策略、损失函数、模型调优、归一化算法、卷积模型、序列模型、预训练模型、对抗神经网络等

专栏详细介绍：【深度学习入门到进阶】必看系列，含激活函数、优化策略、损失函数、模型调优、归一化算法、卷积模型、序列模型、预训练模型、对抗神经网络等

本专栏主要方便入门同学快速掌握相关知识。后续会持续把深度学习涉及知识原理分析给大家，让大家在项目实操的同时也能知识储备，知其然、知其所以然、知何由以知其所以然。

声明：部分项目为网络经典项目方便大家快速学习，后续会不断增添实战环节（比赛、论文、现实应用等）

专栏订阅：

深度学习入门到进阶专栏
深度学习应用项目实战篇

1.OCR综述

OCR(Optical Character Recognition,光学字符识别)是指对图像进行分析识别处理，获取文字和版面信息的过程，是典型的计算机视觉任务，通常由文本检测和文本识别两个子任务构成。

文字检测：将图片中的文字区域位置检测出来（如图1(b)所示）；
文字识别：对文字区域中的文字进行识别（如图1©所示）。

OCR发展历程

早在60、70年代，人们就开始对OCR进行研究。在研究的初期，主要以文字识别方法研究为主，而且识别的文字仅为0-9的数字。数字识别主要应用在识别邮件上的邮政编码。

在深度学习出现之前，传统算法(如积分投影、腐蚀膨胀、旋转等)在OCR领域占据主导地位。其标准的处理流程包括：图像预处理、文本行检测、单字符分割、单字符识别、后处理。

其中：

图像预处理主要是对图像的成像问题进行修正，包括几何变换（透视、扭曲、旋转等），去模糊、光线矫正等；
文本检测通常使用连通域、滑动窗口两个方向；
字符识别算法主要包括图像分类、模版匹配等。

受传统算法的局限性，传统OCR仅在比较规整的印刷文档上表现比较好，但在复杂场景(图像模糊、低分辨率、干扰信息)之下，文字检测、识别性能都不够理想。

自2012年AlexNet在ImageNet竞赛夺冠以来，深度学习方法开始在图像视频领域大幅超越传统算法，OCR领域也引入了深度学习，包括基于卷积神经网络（Convolutional Neural Network, CNN）来取代传统算法提取特征。深度学习OCR主要分为2步，首先是检测出图像中的文本行、接着进行文本识别。

1.1 OCR 常用检测方法

OCR文字检测就是将图片中的文字区域检测出来。

常用的基于深度学习的文字检测方法一般可以分为基于回归的、基于分割的两大类，当然还有一些将两者进行结合的方法。

1.1.1基于回归的方法

基于回归的方法又分为box回归和像素值回归：

1) box回归

采用box回归的方法主要有CTPN、Textbox系列和EAST

**优点：**对规则形状文本检测效果较好
**缺点：**无法准确检测不规则形状文本。

2) 像素值回归

采用像素值回归的方法主要有CRAFT和SA-Text，这类算法能够检测弯曲文本且对小文本效果优秀但是实时性能不够。

1.1.2 基于分割的算法

如PSENet，这类算法不受文本形状的限制，对各种形状的文本都能取得较好的效果，但是往往后处理比较复杂，导致耗时严重。目前也有一些算法专门针对这个问题进行改进，如DB，将二值化进行近似，使其可导，融入训练，从而获取更准确的边界，大大降低了后处理的耗时。

1.3 OCR常用识别方法

Rosetta

CRNN

STAR-Net

RARE

SRN

1.4 OCR常用评估指标

（1）检测阶段：先按照检测框和标注框的IOU评估，IOU大于某个阈值判断为检测准确。这里检测框和标注框不同于一般的通用目标检测框，是采用多边形进行表示。检测准确率：正确的检测框个数在全部检测框的占比，主要是判断检测指标。检测召回率：正确的检测框个数在全部标注框的占比，主要是判断漏检的指标。

（2）识别阶段：字符识别准确率，即正确识别的文本行占标注的文本行数量的比例，只有整行文本识别对才算正确识别。

（3）端到端统计：端对端召回率：准确检测并正确识别文本行在全部标注文本行的占比；端到端准确率：准确检测并正确识别文本行在检测到的文本行数量的占比；准确检测的标准是检测框与标注框的IOU大于某个阈值，正确识别的的检测框中的文本与标注的文本相同。

1.5 应用场景

在日常生活中，文字内容无处不在，根据拍摄的内容，自动分析图像中的文字信息已经成为人们的广泛诉求。而通过深度学习技术，可以自动的定位文字区域，并且学习包含丰富语义信息的特征，识别出图像中的文字内容。当前这一技术已经广泛应用于金融、交通等各行各业中。

通用场景：办公文档、广告图、表格、手写数字、自然场景图等；
卡证：身份证、银行卡、营业执照、名片等；
汽车：车牌、驾驶证、合格证等；
财务票据：火车票、飞机票、银行支票等；
医疗票据：医疗发票、病例首页等；
…

1.6 OCR面临的挑战

对应到OCR技术实现问题上，则一般面临仿射变换、尺度问题、光照不足、拍摄模糊等技术难点；另外OCR应用常对接海量数据，因此要求数据能够得到实时处理；并且OCR应用常部署在移动端或嵌入式硬件，而端侧的存储空间和计算能力有限，因此对OCR模型的大小和预测速度有很高的要求。

2.OCR检测方法

2.1 CTPN

CTPN(Connectionist Text Proposal Network)^[1]是目标检测算法Faster R-CNN 的改进算法，用于文字检测。CTPN根据文本区域的特点做了专门的优化：

使用更加符合自然场景文字检测特点的anchor（相比于物体，文字尺寸小）；
引入RNN用于处理场景文字检测中存在的序列特征；
引入Side-refinement(边界优化)提升文本框边界预测精度。

2.1.1CTPN模型结构

CTPN采用的方法是将文本行分割成一个个小块（长度是固定的），然后去检测这些小块，最后使用一种文本行构造法将所有块连起来，如图1 所示。

图1 CTPN 序列特征

CTPN网络结构如图2 所示：

图2 CTPN网络结构示意图

整个检测分为5步：

1）准备数据集、并获取锚点anchor；

2）输入图片，经过backbone（用VGG16的前5个Conv stage，即Conv5），提取图片feature map。经过VGG16之后得到的特征图长宽是原图的1/16，通道是512。

3）在Conv5得到的feature map上再做卷积核大小为3，步长为1的卷积，进一步提取特征，用于预测当前卷积核所在位置k个anchor对应的类别信息、位置信息。其中，C表示通道数。

4）把每一行的所有窗口对应的3*3*C的特征输入到BiLSTM（双向LSTM）网络中，提取文字的序列特征，这时候得到的特征是图像特征和序列特征的融合。

5）将第三步得到的特征输入到FC全连接层，并将FC层特征输入两个分类或者回归层中。

CTPN任务1的输出是 $2 k$ ，用于预测候选区域box的起始 $y$ 坐标和高度 $h$ ；任务2是用来对前景和背景两个任务的分类评分；任务3是 $k$ 个输出的side-refinement的偏移(offset)预测。

2.1.2 模型loss

CTPN 的 loss 分为三部分：

Ls：预测每个 anchor 是否包含文本区域的classification loss，采用交叉熵损失；
Lv：文本区域中每个 anchor 的中心y坐标cy与高度h的regression loss，采用Smooth L1；
Lo：文本区域两侧 anchor 的中心x坐标cx 的regression loss，采用Smooth L1。

公式如下：

$L(s_{i},V_{j},O_{k})=\frac{1}{N_{s}}\sum\limits_{i}L^{cl}_{S}(S_{i},S^{*}_{i})+\frac{λ_{1}}{N_{v}}\sum\limits_{j}L^{re}_{V}(V_{j},V^{*}_{j})+\frac{λ_{2}}{N_{o}}\sum\limits_{k}L^{re}_{O}(O_{k},O^{*}_{k})$

其中，i 表示预测的所有pn_anchor中的第 i 个，Ns表示 pn_anchor 的数量。

j 表示 IoU>0.5 的所有 pn_anchor 中的第 j 个， $v_{j}$ 为判断有文本的pn_anchor，Nv 表示和 groudtruth 的 vertical IOU>0.5 的 pn_anchor 的数量。λ1 为多任务的平衡参数，一般取值1.0。

Lo 只针对位于在文本区域的左边界和右边界的pn_anchor，来精修边缘。

2.1.3 模型缺点

对于非水平的文本的检测效果不好
参考文献

[1] Detecting Text in Natural Image with Connectionist Text Proposal Network

2.2 EAST

CTPN在水平文本的检测方面效果比较好，但是对于竖直方向的文本，或者多方向的文本，CTPN检测就很差。然而，在实际场景中，我们会遇到多种存在竖直方向文本的情况，例如很多书本封面的文本，如图1 所示。

图1 多方案文本示意图 >

因此，很多学者也提出了各种改进方法，其中，比较经典一篇的就是旷世科技在2017年提出来的EAST^[1]模型。

2.2.1 EAST 模型结构

EAST的网络结构总共包含三个部分：Feature extractor stem（特征提取分支）, Feature-merging branch（特征合并分支）以及 Output layer（输出层），网络结构如图2 所示：

图2 EAST网络结构示意图

每一部分网络结构：

1）特征提取分支

使用backbone网络提取特征，论文默认backbone为PVANet；

也可以使用其他的卷积网络，比如VGG16等

2）特征合并分支

由于在一张图片中，各个文字尺寸大小不一致，所以需要融合不同层次的特征图，小文字的预测需要用到底层的语义信息，大文字的预测要用到高层的语义信息。

上一步提取的feature map f1被最先送入unpool层(将原特征图放大２倍)；
然后与前一层的feature map f2进行拼接；
接着依次送入卷积核大小为1×1和3×3的卷积层，核数通道数随着层递减，依次为128，64，32；
重复上面三个步骤２次；
最后将经过一个卷积核大小为3×3，核数通道数为32个的卷积层；

3）输出层

网络层的输出包含文本得分和文本形状，根据不同的文本形状又分为RBOX和QUAD两种情况：

RBOX：主要用来预测旋转矩形的文本，包含文本得分和文本形状(AABB boundingbox 和rotate angle)，一共有６个输出，这里AABB分别表示相对于top，right，bottom，left的偏移；
QUAD：用来预测不规则四边形的文本，包含文本得分和文本形状(８个相对于corner vertices的偏移)，一共有９个输出，其中QUAD有８个，分别为 $(x_{i},y_{i}),i\in[1,2,3,4]$ 。

2.2.2 模型loss

EAST损失函数由两部分组成，具体公式如下：

$L=L_{s}+λ_{g}L_{g}$

其中， $L_{s}$ 为分数图损失， $L_{g}$ 为几何损失， $λ_{g}$ 表示两个损失之间的重要性。

分数图损失

使用类平衡交叉熵：

$L_{s} = -\beta Y^{*}log(\hat{Y})-(1-\beta)（1-Y^*）log(1-\hat{Y})$

几何损失

RBOX：IOU损失

$L_{AABB} = -log\frac{\hat{R}\cap R^*}{\hat{R}\cup R^*}$

选转角度损失计算： $L_{\theta}(\hat{\theta},\theta^*) = 1-cos(\hat{\theta}-\theta^*)$

$L_g=L_{AABB} + \lambda L_\theta$

其中 $\hat{R}$ 代表预测的AABB几何形状**，** $R^*$ 为其对应的地面真实情况。

QUAD：smooth L1损失

$KaTeX parse error: Got function '\tilde' with no arguments as subscript at position 86: …ilde c_i \in C_\̲t̲i̲l̲d̲e̲ ̲Q}\frac{smoothe…$

其中 $N_{Q^*}$ 是四边形的短边长度，公式如下：

$N_{Q^*} = \min\limits_{i=1}^{4} D(p_i, p_{(i mode 4)+1})$

2.2.3 模型优缺点

优点

可以检测多方向的文本

缺点

不能检测弯曲文本
参考文献

[1] EAST: An Efficient and Accurate Scene Text Detector

2.3 DBNet

一般分割算法流程是先通过网络输出文本分割的概率图，然后使用预先设定好的阈值将概率图转换为二值图，最后使用后处理操作将像素级的结果转换为检测结果。然而，这样就会使得算法性能很大程度上取决于二值化时阈值的选择。

DBNet^[1]对这个流程进行了优化，对每个像素点进行自适应二值化，二值化的阈值由网络学习得到，彻底将二值化这一步骤加入到网络里一起训练，这样最终的输出图对于阈值就会非常鲁棒。

2.3.1 模型输入标签

DB网络中，网络的输出为3个部分：概率图、阈值图和近似二值图：

概率图：图中每个像素点的值为该位置属于文本区域的概率。
阈值图：图中每个像素点的值为该位置的二值化阈值。
二值图：由概率图和阈值图通过DB算法计算得到，图中像素的值为0或1。

在构造损失函数时，我们需要获取对应的真实标签。阈值图的标签 $G_{d}$ ，概率图标签 $G_{s}$ 。DB网络中，标签的获取方式参考了PSENet(Progressive Scale Expansion Network,渐进式尺度扩展网络)中的方法，使用扩张和收缩的方式分别获取上述两个真实标签。标签的构造过程如图1 所示：

图1 DB标签构造示意图

在该方法中，对于一幅文字图像，文本区域的每个多边形使用一组线段 $G=\{S_k\}^n_{k=1}$ 来进行描述，n为线段个数。如图1 所示， $n = 14$ 。

概率图标签 $G_s$ 的获取方法使用了Vatti clipping算法，该算法常用于收缩多边形，其中，收缩的偏移量D可以使用周长L和面积A计算得到，公式如下：
$\frac{A(1-r^2)}{L}$
其中，r为收缩因子，实验中根据经验设置为0.4。

在阈值图标签 $G_d$ 的计算中，首先使用概率图标签 $G_s$ 的计算过程中得到的偏移量D进行多边形的扩充，然后计算 $G_d$ 与 $G_s$ 之间的像素到原始框最近边的归一化距离，最后将其中的值进行缩放，得到的就是最终的阈值图标签 $G_d$ 。

DB文本检测模型使用了标准的FPN结构，网络结构如图2 所示。

图2 DB模型网络结构示意图

第一模块：使用CNN网络，对输入图像提取特征，得到特征图，本实验使用的骨干网络是轻量化网络MobileNetv3，同时使用了FPN结构，获取多尺度的特征，在本实验中，我们提取4个不同尺度下的特征图做拼接。
第二模块：使用一个卷积层和两个转置卷积层的结构获取预测的概率图和阈值图；
第三模块：使用DB方法获取近似二值图。

注：这里的DB方法和本文的DB模型是有差别的，本文提出的DB方法为可微二值化（Differentiable Binarization），接下来将会详细解释。

在传统的图像分割算法中，我们获取概率图后，会使用标准二值化（Standard Binarize）方法进行处理，将低于阈值的像素点置0，高于阈值的像素点置1，公式如下：
$B_{i,j}=\left\{ \begin{aligned} 1 , if P_{i,j} >= t ,\\ 0 , otherwise \end{aligned} \right.$

但是标准的二值化方法是不可微的，所以也就无法放入到网络中进行优化。因此，本文中提出了可微二值化（Differentiable Binarization），简称DB方法。可微二值化也就是将标准二值化中的阶跃函数进行了近似，使用如下公式进行代替：

$\hat{B} = \frac{1}{1 + e^{-k(P_{i,j}-T_{i,j})}}$

其中，P是上文中获取的概率图，T是上文中获取的阈值图，k是增益因子，在实验中，根据经验选取为50。

标准二值化和可微二值化的对比图如 图3(a) 所示。

之所以DB方法会改善算法性能，我们可以在反向传播时梯度的计算上进行观察。当使用交叉熵损失时，正负样本的loss分别为 $l_+$ 和 $l_-$

$l_+ = -log(\frac{1}{1 + e^{-k(P_{i,j}-T_{i,j})}})$

$l_- = -log(1-\frac{1}{1 + e^{-k(P_{i,j}-T_{i,j})}})$

我们对输入x求偏导，则会得到：

$\frac{\delta{l_+}}{\delta{x}} = -kf(x)e^{-kx}$

$\frac{\delta{l_-}}{\delta{x}} = -kf(x)$
此时，由于有了增强因子k，错误预测对梯度的影响也就被放大了，从而可以促进模型的优化过程并产生更为清晰的预测结果。图3(b) 中， $x < 0$ 的部分为正样本预测为负样本的情况，可以看到，增益因子k将梯度进行了放大；而 图3© 中 $x > 0$ 的部分为负样本预测为正样本的情况，梯度同样也被放大了。

图3 DB算法示意图

在训练阶段，使用3个预测图与真实标签共同完成损失函数的计算以及模型训练；在预测阶段，只需要使用概率图，通过一系列的后处理方式即可获得最终的预测结果。

由于网络预测的概率图是经过收缩后的结果，所以在后处理步骤中，使用相同的偏移值将预测的多边形区域进行扩张，即可得到最终的文本框。

2.3.2 模型loss

由于训练阶段获取了3个预测图，所以在损失函数中，也需要结合这3个预测图与它们对应的真实标签分别构建3部分损失函数。总的损失函数的公式定义如下:

$L_b + \alpha \times L_s + \beta \times L_t$

其中， $L$ 为总的损失， $L_b$ 为近似二值图的损失，使用 Dice 损失； $L_s$ 为概率图损失，使用带 OHEM 的 Dice 损失； $L_t$ 为阈值图损失，使用预测值和标签间的 $L_1$ 距离。其中， $\alpha$ 和 $\beta$ 为权重系数。

接下来分析这3个loss：

1）首先是Dice Loss，Dice Loss是比较预测结果跟标签之间的相似度，常用于二值图像分割。

$dice\_loss = 1 - \frac{2 \times intersection\_area}{total\_area}$

2）其次是MaskL1 Loss，是计算预测值和标签间的 $L_1$ 距离

2）最后是Balance Loss，是带OHEM的Dice Loss，目的是为了改善正负样本不均衡的问题。OHEM为一种特殊的自动采样方式，可以自动的选择难样本进行loss的计算，从而提升模型的训练效果。

2.3.3 模型优缺点

优点

可以同时检测水平、多方向和弯曲文字；
在性能和速度上都获取不错的效果。
参考文献

[1] Real-time Scene Text Detection with Differentiable Binarization

3.OCR识别方法：CRNN

传统的文本识别方法需要先对单个文字进行切割，然后再对单个文字进行识别。本实验使用的是图像文本识别的经典算法CRNN^[1]。CRNN是2015年被提出的，到目前为止还是被广泛应用。该算法的主要思想是认为文本识别其实需要对序列进行预测，所以采用了预测序列常用的RNN网络。算法通过CNN提取图片特征，然后采用RNN对序列进行预测，最终使用CTC方法得到最终结果。

3.1 CRNN模型结构

CRNN的主要结构包括基于CNN的图像特征提取模块以及基于多层双向LSTM的文字序列特征提取模块。CRNN的网络结构如图1 所示：

图1 CRNN模型网络结构示意图

1）第一模块：使用CNN网络，对输入图像进行特征提取，从而得到特征图。本实验使用的CNN网络同样是轻量化网络MobileNetv3，其中输入图像的高度统一设置为32，宽度可以为任意长度，经过CNN网络后，特征图的高度缩放为1；

2）第二模块：Im2Seq，将CNN获取的特征图变换为RNN需要的特征向量序列的形状；

3）第三模块：使用双向LSTM（BiLSTM）对特征序列进行预测，学习序列中的每个特征向量并输出预测标签分布。这里其实相当于把特征向量的宽度视为LSTM中的时间维度；

4）第四模块：使用全连接层获取模型的预测结果；

5）第五模块：CTC转录层，解码模型输出的预测结果，得到最终输出。

3.2 模型loss

为了解决预测标签与真实标签无法对齐的问题，这里使用了CTC loss进行模型，具体参考：CTC算法

3.3模型优缺点

优点

可以进行端到端的训练；
可以进行不定长文本的识别；
模型简单，效果好。

缺点

受CTC算法对速度的要求，输出长度受到限制，识别文本不能太长。
参考文献

[1] An End-to-End Trainable Neural Network for Image-based SequenceRecognition and Its Application to Scene Text Recognition

你可能感兴趣的:(#,深度学习应用项目实战篇,深度学习,计算机视觉,ocr,人工智能,CRNN)

HttpClient使用详解 get与post请求 licux JavaHttp
转自：https://www.jianshu.com/p/375be5929bed一、HttpClient使用详解与实战一：普通的GET和POST请求简介HttpClient是ApacheJakartaCommon下的子项目，用来提供高效的、最新的、功能丰富的支持HTTP协议的客户端编程工具包，并且它支持HTTP协议最新的版本和建议。HttpClient最新版本是HttpClient4.5.3(G
DeepSeek：开启智能搜索与AI发展的新纪元 gs80140 AI 人工智能
在人工智能领域，DeepSeek正以其卓越的技术创新和强大的性能表现，成为全球瞩目的焦点。作为一款基于深度学习技术的智能搜索引擎和AI模型，DeepSeek不仅在技术上取得了重大突破，还在多个应用场景中展现了巨大的应用潜力，为用户带来了前所未有的智能体验。一、DeepSeek简介DeepSeek由杭州深度求索人工智能基础技术研究有限公司推出，是一款集自然语言处理（NLP）、计算机视觉（CV）、强化
探索高效群管：NoneBot2简易群管插件邴梅忱Walter
探索高效群管：NoneBot2简易群管插件项目地址:https://gitcode.com/gh_mirrors/no/nonebot_plugin_admin在数字化时代，群组管理已成为一项挑战。无论是社交平台还是专业论坛，高效、智能的群组管理工具都是提升用户体验的关键。今天，我们将深入介绍一款强大的开源项目——NoneBot2简易群管插件，它以其丰富的功能和灵活的配置，成为群组管理的得力助手。
【Java】已解决java.lang.ClassNotFoundException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
【Python】一文教你快速遍历文件夹下所有文件鸽芷咕 python 开发语言
鸽芷咕：个人主页个人专栏:《C++干货基地》《粉丝福利》⛺️生活的理想，就是为了理想的生活!博主简介博主致力于嵌入式、Python、人工智能、C/C++领域和各种前沿技术的优质博客分享，用最优质的内容带来最舒适的阅读体验！在博客领域获得C/C++领域优质、CSDN年度征文第一、掘金2023年人气作者、华为云享专家、支付宝开放社区优质博主等头衔。个人社区&个人社群加入点击即可介绍加入链接个人社群社群
我在京东工作已经来到第8个年头，从2016年的实习生到如今负责部门整体架构，这段职业旅程中充满了感悟。简单回顾我的个人成长里程碑：2017年正式加入京东后，从一名新人开始，逐步了解公司的业务、文化，毕设专业企业源码站2 架构
我在京东工作已经来到第8个年头，从2016年的实习生到如今负责部门整体架构，这段职业旅程中充满了感悟。简单回顾我的个人成长里程碑：2017年正式加入京东后，从一名新人开始，逐步了解公司的业务、文化，以及学习如何成为一名合格的职场人；19-21年，我开始负责一块完整的业务，并逐渐成长为小组负责人；2022年开始负责整个部门的架构，并且开始参与一些公司核心项目的设计与落地。这一路走来经历的挫折与收获也
Megatron：深度学习中的高性能模型架构 gs80140 基础知识科谱 AI 机器学习人工智能
Megatron：深度学习中的高性能模型架构Megatron是由NVIDIA推出的深度学习大规模预训练模型框架，主要针对大规模Transformer架构模型的高效训练与推理。Megatron大多用于GPT（生成式预训练模型）、BERT等Transformer模型的预训练，擅长在大规模数据集和高性能计算资源上进行训练。Megatron的主要特点1.超大模型的高效训练模型并行（ModelParalle
STM32面向对象编程架构示例杭劲钰Majestic
STM32面向对象编程架构示例【下载地址】STM32面向对象编程架构示例本仓库提供了一个STM32面向对象编程架构的完整工程示例，该示例是我自己在STM32项目中常用的编程架构。对于许多初学STM32编程的同学来说，常常会遇到多任务调度、全局变量处理、编程规范等方面的问题，导致代码混乱且难以维护。本示例旨在帮助初学者更好地理解和应用面向对象编程思想，提升代码的可读性和可维护性项目地址:https:
推荐文章：探索未来车联世界的钥匙 —— 车载SOA软件架构技术规范洪开峥
推荐文章：探索未来车联世界的钥匙——车载SOA软件架构技术规范【下载地址】车载SOA软件架构技术规范本仓库提供了一份名为“车载SOA软件架构技术规范”的资源文件下载。该文件详细描述了车载系统中面向服务的架构（SOA）的技术规范，旨在为开发者和工程师提供一个标准化的参考框架，以确保车载软件系统的可靠性、可扩展性和互操作性项目地址:https://gitcode.com/open-source-too
30秒知识快学插件指南瞿旺晟
30秒知识快学插件指南30_seconds_of_knowledgeGoogleChromeExtensionthatletsyougainnewdeveloperskills,everytimeyouopenaNewTab.项目地址:https://gitcode.com/gh_mirrors/30/30_seconds_of_knowledge项目介绍30秒知识快学是一款专为开发者设计的Goo
Webpack 模块加载、动态引入机制源码解读 AIGC小陈正则表达式 javascript 开发语言 react.js 前端
今天的文章简单探讨一下Vue和React的不同。本人Vue2和React都用过，但不熟悉Vue3，没用它做过项目。其实我对这两大框架也没有认真钻研过它们的细节，也就是工作上用它们写一些简单业务，或偶尔看看相关的博客文章，但还是有一些浅显的认识的，写下来记录一下。Vue和React都是用于构建UI界面的流行框架。它们的哲学也有很多相似的地方，我们可以认为这些特性是流行前端框架的一个趋势。它们是：组件
npm启动前端项目时报错（vue) error:0308010C:digital envelope routines::unsupported 华如锦开发本地环境配置 js java 前端 npm vue.js node.js java
vue启动项目时，npmrunserve报下面的错：error:0308010C:digitalenveloperoutines::unsupportedatnewHash(node:internal/crypto/hash:67:19)atObject.createHash(node:crypto:133:10)atFSReqCallback.readFileAfterClose[asoncom
解决：npm : 无法加载文件 D:\Node\node_global\npm.ps1，因为在此系统上禁止运行脚本小李搬砖 npm 前端 node.js
1.原因有一次下载了pnpm并配置环境后，不知道是不是配置环境的时候操作错了还是其他什么原因。再次打开一个项目使用npm或pnpm命令的时候就报错了。首先理解一下报错信息的意思，无法加载npm下载时文件存放的路径（D:\Node\node_global）下的npm.ps1这个文件，打开一看是关于执行在powershell上，node环境下执行npm相关命令的脚本，当我们使用npm命令的时候，操作系
解决 npm install 卡住不动或执行失败 XT4625 npm 前端 node.js
近期Vue项目在执行npminstall时，总是出现特别慢，等半天结果执行失败更换NPM源，使用国内的镜像源可以显著提高下载速度。例如，可以使用淘宝的NPM镜像npmconfigsetregistryhttps://registry.npmmirror.com/npmconfiggetregistry确认是否生效清理缓存，有时候缓存中的数据可能会导致问题，清理缓存后重新安装可能有助于解决问题npm
小南每日 AI 资讯 |美国与日本企业联合投资“星际之门”项目| 罗永浩老师最新初创项目上线！ | 25/01/24 小南AI学院人工智能 microsoft
近期人工智能（AI）领域的重要动态随着人工智能技术的迅猛发展，多个领域涌现出令人瞩目的创新。以下是近期AI领域的几项重大进展，涵盖技术创新、行业合作以及AI在各个领域的应用：1.AI技术创新与产品发布DeepSeek发布开源模型R1，挑战传统开发模式中国初创公司深度求索（DeepSeek）于1月27日发布开源AI模型R1。该模型以低成本实现接近OpenAIGPT-3的性能，打破了“越大越好”的传统
AIGC的底层框架和技术模块五岔路口 AIGC
AIGC（ArtificialIntelligenceGeneratedContent，人工智能生成内容）的底层框架和技术模块是构建其强大自然语言处理能力的核心组成部分。以下是对AIGC底层框架和技术模块的详细解析：底层框架AIGC的底层框架主要基于深度学习的语言模型，特别是Transformer模型及其变种，如GPT（GenerativePre-trainedTransformer）等。这些模型
使用PyInstaller将Python项目代码打包成exe 培根芝士 Python python 开发语言
PyInstaller是一个非常强大的工具，用于将Python脚本打包成独立的可执行文件（如.exe文件），使得Python应用程序可以在没有安装Python环境的机器上运行。工作原理PyInstaller的核心目标是将Python脚本及其依赖的模块打包成一个独立的可执行文件。它的工作原理可以分为以下几个步骤：（1）分析脚本依赖PyInstaller会分析你的Python脚本，找出所有导入的模块（
为什么要用tauri开发跨平台桌面扎量丙不要犟 rust tauri
1、跨平台：tauri目前能跑PC和移动端，支持windows,macos,linux,android,ios。2、体积小：electron打包非常大，特别是在macos中打包，大得可怕。我在macos中打包了一个electron项目，占600MB，改成tauri，只用了16MB。这差距太大了，macos的硬盘很贵的。3、兼容性：tauri依靠webview2或者其他类似webview的技术，确实
基于python的Kimi AI 聊天应用 hunter206206 python python 自然语言处理
因为这几天deepseek有点状况，导致apikey一直生成不了，用kimi练练手。这是一个基于MoonshotAI的Kimi接口开发的聊天应用程序，使用PythonTkinter构建图形界面。项目结构项目由三个主要Python文件组成：1.main_kimi.py主程序入口文件，继承了ChatWindow类并实现了问答逻辑：创建主应用程序窗口初始化聊天逻辑实现提交问题的处理函数2.gui.py图
C语言实现图像二值化变换项目源码爽新全效瓷兔膏
本文还有配套的精品资源，点击获取简介：本项目提供了一个C语言编程案例，专门用于解决图像处理中的“百马百担”问题，即图像二值化。项目展示如何使用C语言进行图像的读取、处理和保存，特别是二值化转换的实现，通过设定阈值将图像简化为黑白色调，以突出其特征。源码中包括了图像读取、阈值设置、像素遍历和图像写入等关键步骤，适合C语言学习者和图像处理领域开发者学习实践。1.C语言图像处理简介简介C语言作为一种高效
深度学习：基础原理与实践阿尔法星球深度学习 python 人工智能
1.深度学习概述1.1定义与发展历程深度学习是机器学习的一个分支，它基于人工神经网络的学习算法，特别是那些具有多层（深层）结构的网络。深度学习模型能够自动从原始数据中提取复杂的特征，而不需要人为设计特征提取算法。定义：深度学习可以定义为使用深层神经网络进行学习的过程，这些网络由多个非线性的变换组成，能够学习数据的多层次表示。发展历程：深度学习的起源可以追溯到1943年WarrenSturgisMc
什么是MOE架构？哪些大模型使用了MOE？明哲AI AIGC 架构人工智能大模型 MOE
在人工智能快速发展的今天，大语言模型（LLM）的规模越来越大，参数量动辄上千亿甚至万亿。然而，更大的模型往往意味着更高的计算成本和更多的资源消耗。混合专家模型（MixtureofExperts，简称MoE）作为一种创新的架构设计，为解决这一难题提供了一个优雅的解决方案。什么是混合专家模型？想象一下，如果把一个大语言模型比作一所综合性大学，传统的模型就像是让所有教授（参数）都参与每一次教学活动。而M
Vue项目禁用eslint eggcode 前端 vue.js eslint
问题代码不符合eslint规范时的终端报错：Youmayusespecialcommentstodisablesomewarnings.Use//eslint-disable-next-linetoignorethenextline.Use/*eslint-disable*/toignoreallwarningsinafile.ERRORin[eslint]....（略）方法针对整个项目在vue.
探索神经网络的奥秘：从基础理论到Python实践仲毓俏Alanna
探索神经网络的奥秘：从基础理论到Python实践【下载地址】第一章神经网络如何工作附Python神经网络编程.pdf分享本资源文件提供了关于神经网络基础知识的详细介绍，并附带了一个Python神经网络编程的PDF文件。通过学习本资源，您将能够理解神经网络的基本工作原理，并掌握如何使用Python进行神经网络编程项目地址:https://gitcode.com/Resource-Bundle-Col
探索高效图像识别：基于OpenCV的形状匹配利器崔庭盼Melvina
探索高效图像识别：基于OpenCV的形状匹配利器【下载地址】形状匹配find_scaled_shape_model资源文件本资源文件提供了使用OpenCV实现Halcon中算子`find_scaled_shape_model`的功能。该功能主要用于在图像中查找与模板形状相似的目标，并支持缩放变换。具体实现细节和使用方法可以参考相关博客文章项目地址:https://gitcode.com/open-
Moodle参考架构在AWS上的部署指南廉彬冶Miranda
Moodle参考架构在AWS上的部署指南aws-refarch-moodleMoodleReferenceArchitecturewithsupportingCloudFormationtemplates项目地址:https://gitcode.com/gh_mirrors/aw/aws-refarch-moodle1.项目基础介绍和主要编程语言项目基础介绍Moodle参考架构是一个在Amazon
什么是MoE？ CM莫问深度学习人工智能算法常见概念人工智能算法 python 深度学习 MoE 混合专家模型机器学习
一、概念MoE（MixtureofExperts）是一种深度学习架构，它结合了多个专家模型（Experts）和一个门控机制（GatingMechanism）来处理不同的输入数据或任务。MoE的核心思想是将复杂的任务分解为多个子任务，由不同的专家网络来处理，以此来提升整体模型的性能和效率。MOE通过集成多个专家来显著提高模型的容量和表达能力，每个专家可以专注于学习输入数据的不同方面或特征，使得整个模
20250202本地编译全志R系列的步骤6增加了samba处理项目南棱笑笑生杂质 r语言开发语言
sudoecho"[rootroot]">>smb.confsudoecho"comment=rootrootSharedFolder">>smb.confsudoecho"path=/">>smb.confsudoecho"#public=yes">>smb.confsudoecho"writable=yes">>smb.confsudoecho"#readonly=yes">>smb.conf
【书生·浦语大模型实战营】学习笔记（三）：“茴香豆” 搭建你的RAG 智能助理 GoAI 自然语言处理NLP 深入浅出AI 深入浅出LLM 深度学习 LLM 人工智能大模型
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接【书生·
某验第四代滑块逆向快速破解码王吴彦祖 JS逆向实战 js逆向 node.js 加密
本期地址如下，使用base64解码获得网址aHR0cHM6Ly9ndDQuZ2VldGVzdC5jb20v前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站破解某验，某盾已经是司空见惯的事情了，网上也有很多资料查阅，但是大多数都是繁琐、冗长，本文以最直接快速理解的方法讲解，稍微认真一点看完文章，你至少能在半个小时内完成破解本文大致步骤如下：找到加密位置
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">