ManManMan池

场景文字检测——CTPN模型介绍及代码实现

一、CTPN文字检测的概述

CTPN：Detecting Text in Natural Image with Connectionist Text Proposal Network，(即使用连接的文本建议框网络进行自然图像的文本检测)，是在ECCV 2016提出的一种文字检测算法。CTPN是结合CNN与LSTM的深度网络，能有效的检测出复杂场景的横向分布的文字。CTPN是从Faster RCNN改进而来，因此也是基于anchor的目标检测网络，网络架构和Faster RCNN相似，但是加入了LSTM层，其支持任意尺寸的图像输入，并能够直接在卷积层中定位文本行。即由特征提取网络VGG+连接的文本候选框选取CTPN构成。

二、CTPN模型架构

CTPN的主干特征提取网络采用了VGG16的卷积部分，通过卷积不断进行下采样，下采样的步长为16，即得到VGG的conv5的特征图；后面部分便是改进的RPN网络CTPN网络，即连接的文本建议框网络；首先在conv5特征图上做3x3的滑动窗口，来产生学习到的空间特征；由于文本具有较强的序列特征，将特征进行Reshape操作后传入双向的LSTM网络，得到上下文的编码信息；然后再进行“FC”卷积层，也就是进行特征通道数的调整；最后是传入到CTPN的预测网络(三个分支)，第一个分支的输出通道数为2xk vertical coordinates，k为anchor的数量，2分别表示预测框中心y轴和高度h的偏移量；第二个分支的输出通道数2xk scores，k为anchor的数量，2表示anchor是前景还是背景；第三个分支的输出通道数1xk side-refinement，k为anchor的数量，1表示水平方向上左边或者右边预测框中心点x轴的偏移量。

1、主干网络VGG16

VGG16是2014年ImageNet上提出的非常优秀的分类网络，其主要特征就是采样小的卷积核3x3不断进行特征提取以及最大池化进行下采样，通道数的变化采用了network in network的思想，其具体结构如下:

图片输入：原始VGG分类网络图片的输入为224x224，论文中将输入图片的最短边Reshape到600，因此下面以600x800来描述图片shape的变化。
conv1：经过两次的3x3卷积，输出通道数为64，shape为[64,600,800]，再经过一次pool_size为2的最大池化，shape变为[64,300,400]。
conv2：两次3x3卷积，输出的通道数为128，shape为(128,300,400)，再经过一次pool_size为2最大池化，输出shape为(128,150,200)。
conv3：三次3x3卷积，输出的通道数为256，shape为(256,150,200)，再经过一次pool_size为2最大池化，输出shape为(256,75,100)。
conv4：三次3x3卷积，输出的通道数为512，shape为(512,75,100)，再经过一次pool_size为2最大池化，输出shape为(512,37,50)。
conv5：三次3x3卷积，输出的通道数为512，shape为(512,37,50)。

VGG16网络的详细信息可以参考这篇博客https://blog.csdn.net/weixin_44791964/article/details/102585038

后面我们将得到的conv5(batch,512,37,50)的特征层称之为有效特征层，这与Faster RCNN的中的feature map是一样的。之后的CTPN网络便是作用在该有效特征图上。

import os
import torch
import torch.nn as nn
import torch.nn.functional as F
import torchvision.models as models

class CTPN_Model(nn.Module):
    def __init__(self):
        super().__init__()
        base_model = models.vgg16(pretrained=False)
        layers = list(base_model.features)[:-1]
        self.base_layers = nn.Sequential(*layers)  # block5_conv3 output

2、CTPN连接的文本建议框网络

类似于区域建议框网络（RPN）[25]，CTPN本质上是一个全卷积网络，允许任意大小的输入图像。

（1）原论文中，CTPN网络首先在conv5上做3x3的滑动窗口，即每个点都结合3x3区域特征获得一个长度为3x3x512的特征向量。输出(batch,9x512,37,50)的特征图，使网络学习到空间的特征。
这里解释一下conv5 feature map如何从(batch,512,37,50)变成(batch,9x512,37,50)：

在原版caffe代码中是用im2col提取每个点附近的9点临近点，然后每行都如此处理：
37x50 -> 9x37x50
接着每个通道都如此处理：
512x37x50 -> 9*512x37x50
而im2col是用于卷积加速的操作，即将卷积变为矩阵乘法，从而使用Blas库快速计算。

但是这里我们并没有遵循原始论文的做法，而是采用了一个3x3x512的卷积操作来替代上述的空间特征提取。特征层shape由(batch,512,37,50)–>(batch,512,37,50)

import os
import torch
import torch.nn as nn
import torch.nn.functional as F
import torchvision.models as models

class CTPN_Model(nn.Module):
    def __init__(self):
        super().__init__()
        base_model = models.vgg16(pretrained=False)
        layers = list(base_model.features)[:-1]
        self.base_layers = nn.Sequential(*layers)  # block5_conv3 output
		#使用一个3x3卷积来替代上述的空间特征提取
         self.rpn = basic_conv(512, 512, 3, 1, 1, bn=False)

（2）CNN学习的是感受野内的空间信息，LSTM学习的是序列特征。对于文本序列检测，显然既需要CNN抽象空间特征，也需要序列特征（毕竟文字是连续的）。使用双向的LSTM，使得它能够在两个方向上对递归上下文进行编码，以便连接感受野能够覆盖整个图像宽度。
下图显示了带有LSTM和不带有LSTM的CTPN网络的预测结果，上半部分：没有LSTM，下半部分：有LSTM，可以看到包含了上下文信息更能进行文本的精确定位。

在进入LSTM之前要进行特征层shape的变化，(batch,512,37,50)–>(batch,37,50,512)–>(batchx37,50,512)，最大时间步长Time_step=50，学习每一行的序列特征。

import os
import torch
import torch.nn as nn
import torch.nn.functional as F
import torchvision.models as models

class CTPN_Model(nn.Module):
    def __init__(self):
        super().__init__()
        base_model = models.vgg16(pretrained=False)
        layers = list(base_model.features)[:-1]
        self.base_layers = nn.Sequential(*layers)  # block5_conv3 output
		# 使用一个3x3卷积来替代上述的空间特征提取
         self.rpn = basic_conv(512, 512, 3, 1, 1, bn=False)
         # 使用双向的LSTM对上下文信息进行编码
         self.brnn = nn.GRU(512,128, bidirectional=True, batch_first=True)

（3）经过双向LSTM后，特征层shape为(batchx37,50,256)，再经过reshape操作，(batchx37,50,256)–>(batch,37,50,256)–>(batch,256,37,50)。“FC”卷积层使用1x1的卷积进行通道数的调整，256->521。

import os
import torch
import torch.nn as nn
import torch.nn.functional as F
import torchvision.models as models

class CTPN_Model(nn.Module):
    def __init__(self):
        super().__init__()
        base_model = models.vgg16(pretrained=False)
        layers = list(base_model.features)[:-1]
        self.base_layers = nn.Sequential(*layers)  # block5_conv3 output
		# 使用一个3x3卷积来替代上述的空间特征提取
         self.rpn = basic_conv(512, 512, 3, 1, 1, bn=False)
         # 使用双向的LSTM对上下文信息进行编码
         self.brnn = nn.GRU(512,128, bidirectional=True, batch_first=True)
         self.lstm_fc = basic_conv(256, 512, 1, 1, relu=True, bn=False)

（4）CTPN的Head层，从上述得到的特征层(batch,256,37,50)，获得网络最终的预测结果。如何理解这三个分支所获得的预测结果？不考虑batch维度，上述特征层的shape为(256,37,50)，也就是可以理解为该特征层将我们输入的图片划分成了37x50的区域，每个区域都存在一个特征点，如果物体的中心点落在这个区域内的话，那么就由这个特征点来负责物体的预测。
预测网路的三个分支：
第一个分支：通过1x1x2k的卷积操作，最后输出shape为(batch,2k,37,50)，
即2xk vertical coordinates，其中2代表的是相对预测框中心点坐标y和预测框的高度h的偏移量，如何理解这个相对预测框的偏移量？我们在原始图像中预先设定的很多的先验框，先验框就会根据上述预测出来的y和h的偏移量进行调整，将先验框调整称为预测框应该有的样子。k表示的是每一个特征点处设计的anchor的数量，为10。每一个区域内每一个特征点上有10个锚框来负责该区域物体的预测。

第二个分支：同样通过1x1x2k的卷积操作，最后输出shape为(batch,2k,37,50)，2xk代表的是2k scores 置信度得分，其中2就是代表的就是前景或背景，即每一个特征点处10个anchors属于前景或者背景的概率值。如果该特征点属于前景，我们才会对先验框进行上述的y和h的偏移，对先验框进行下述x的偏移。
第三个分支：通过1x1xk的卷积操作，最后输出shape为(batch,k,37,50)，k side refinement代表的是左右两侧水平方向上每个锚框中心点x坐标的偏移量，用于提高定位的准确性。

import os
import torch
import torch.nn as nn
import torch.nn.functional as F
import torchvision.models as models

class CTPN_Model(nn.Module):
    def __init__(self):
        super().__init__()
        base_model = models.vgg16(pretrained=False)
        layers = list(base_model.features)[:-1]
        self.base_layers = nn.Sequential(*layers)  # block5_conv3 output
		# 使用一个3x3卷积来替代上述的空间特征提取
         self.rpn = basic_conv(512, 512, 3, 1, 1, bn=False)
         # 使用双向的LSTM对上下文信息进行编码
         self.brnn = nn.GRU(512,128, bidirectional=True, batch_first=True)
         self.lstm_fc = basic_conv(256, 512, 1, 1, relu=True, bn=False)
         self.rpn_class = basic_conv(512, 10 * 2, 1, 1, relu=False, bn=False)
        self.rpn_regress = basic_conv(512, 10 * 2, 1, 1, relu=False, bn=False)
        self.rpn_refiment = basic_conv(512, 10, 1, 1, relu=False, bn=False)

    def forward(self, x):
        x = self.base_layers(x)
        # rpn
        x = self.rpn(x)    #[b, c, h, w]

        x1 = x.permute(0,2,3,1).contiguous()  # channels last   [b, h, w, c]
        b = x1.size()  # b, h, w, c
        x1 = x1.view(b[0]*b[1], b[2], b[3])

        x2, _ = self.brnn(x1)

        xsz = x.size()
        x3 = x2.view(xsz[0], xsz[2], xsz[3], 256)  # torch.Size([4, 20, 20, 256])

        x3 = x3.permute(0,3,1,2).contiguous()  # channels first [b, c, h, w]
        x3 = self.lstm_fc(x3)
        x = x3

        cls = self.rpn_class(x)
        regr = self.rpn_regress(x)
        refi = self.rpn_refiment(x)

        cls = cls.permute(0,2,3,1).contiguous()     # [b,h,w,c]
        regr = regr.permute(0,2,3,1).contiguous()
        refi = refi.permute(0,2,3,1).contiguous()

        cls = cls.view(cls.size(0), cls.size(1)*cls.size(2)*10, 2)
        regr = regr.view(regr.size(0), regr.size(1)*regr.size(2)*10, 2)
        refi = refi.view(refi.size(0),refi.size(1)*refi.size(2)*10,1)

        return cls, regr, refi

（5）整个CTPN的detection pipeline如下：

from ctpn_model import CTPN_Model
from torchsummary import summary

model = CTPN_Model().train().cuda()
summary(model, (3, 600,800))

3、什么是anchor？——竖直的锚框机制

anchor就是我们预先在图片设定的一些列的先验框，根据VGG16得到的特征图conv，其shape为(batch,512,37,50)，于是我们可以将图片划分成37x50的区域，每一个区域都存在一个特征点，每一个特征点都对应存在10个宽度相同wa=16，高度为11—273的先验框，由于CTPN针对的是横向排列的文字检测，所以其采用了一组（10个）等宽度的Anchors，用于定位文字位置。下图显示了其中一个特征点上存在的10个先验框。

为什么选择竖直的锚框机制？论文中提到，实质上文本与普通目标不同，它们通常具有明确的封闭边界和中心，可以从它的一部分推断整个目标。文本是一个没有明显封闭边界的序列。它可能包含多层次的组件，如笔划，字符，单词，文本行和文本区域等，这些组件之间没有明确区分。文本检测是在单词或文本行级别中定义的，因此通过将其定义为单个目标（例如检测单词的一部分）可能很容易进行错误的检测。因此，直接预测文本行或单词的位置可能很难或不可靠，因此很难获得令人满意的准确性。一个例子如图所示，其中RPN直接被训练用于定位图像中的文本行。

通过固定每个建议框的水平位置来预测其垂直位置会更准确，水平位置更难预测。与预测目标4个坐标的RPN相比，这减少了搜索空间。提出的竖直锚框机制，可以同时预测每个细粒度建议框的文本/非文本分数和y轴的位置。检测一般固定宽度的文本建议框比识别分隔的字符更可靠，分隔字符容易与字符或多个字符的一部分混淆。此外，检测一系列固定宽度文本建议框中的文本行也可以在多个尺度和多个长宽比的文本上可靠地工作。
产生竖直锚框的代码如下：

def gen_anchor(featuresize, scale):
    # 划分为56x100的网格点，每个网格点10个先验框
    heights = [11, 16, 23, 33, 48, 68, 97, 139, 198, 283]
    widths = [16, 16, 16, 16, 16, 16, 16, 16, 16, 16]
    # 10，1
    heights = np.array(heights).reshape(len(heights),1)
    widths = np.array(widths).reshape(len(widths), 1)
    base_anchor = np.array([0,0,15,15])
    # 计算第一个网格中心，最左上角的网格中心
    # xt=[7.5],yt=[7.5]
    xt = (base_anchor[0] + base_anchor[2]) / 2.0
    yt = (base_anchor[1] + base_anchor[3]) / 2.0
    # 转化为左上角和右下角的形式 x1 y1 x2 y2
    # 这里就是求出了最左上角的网格对应的9个初始先验框的左上角和右下角坐标
    x1 = xt - widths * 0.5
    y1 = yt - heights * 0.5
    x2 = xt + widths * 0.5
    y2 = yt + heights * 0.5
    base_anchor = np.hstack((x1, y1, x2, y2))
    # 特征图的大小 56,100
    h,w = featuresize
    # 这相当于将原图划分成56x100的网格，网格之间的步长为scale=16
    shift_x = np.arange(0, w) * scale
    shift_y = np.arange(0, h) * scale
    anchors = []
    for i in shift_y:
        for j in shift_x:
            anchors.append(base_anchor + [j,i,j,i])
    # (56x100x10,4)
    return np.array(anchors).reshape(-1,4)

三、如何根据预测结果将anchor调整，从而得到最后的预测框？

1、先验框的解码过程
根据预测网络我们可以得到三个预测结果：
第一个分支：2xk vertical coordinates，预测的是最后特征层上每一个特征点上每一个先验框中心点y轴坐标和高度h的变化情况；
第二个分支：2k scores，预测的是最后特征层上每一个特征点上每一个先验框内部是否包含物体，先验框为前景或背景的概率；
第三个分支：k side refinement，预测的是左右两侧水平方向上每一个特征点上每一个先验框中心点x坐标的变化情况；
先验框就是，根据最后特征层将整个图片划分成37x50的区域，每一个区域对应一个特征点，以该特征点为中心包含了10个先验框，一共存在37x50x10个先验框。

首先根据第二个分支用于判断先验框内部是否包含物体，如果内部包含物体，则根据第一个分支和第三个分支的预测结果，将先验框进行调整，调整成预测框。如何进行调整？

上述公式中vc和vh表示的就是预测框相对于先验框中心点y轴坐标和高度的偏移量，cay和ha表示的是预先设定的先验框的中心点y轴坐标和高度，cy和h表示的是预测框的中心点y轴坐标和高度h，cy=vc*ha+cay, h=exp(vh)ha，先验框调整成预测框应该有的样子。

上述公式中o表示的就是预测框相对于先验框左右两侧水平方向上中心点x轴坐标的偏移量，cax表示的是预先设定的先验框的中心点x轴坐标，wa=16表示的是先验框的宽度，xside表示的预测框的中心点x轴坐标，xside=owa+cax，进行预测框的边缘细化，下图显示了多增加k side refinement分支的预测结果：

红色框表示增加了边缘细化，黄色虚线框表示没有边缘细化。

2、预测框的非极大抑制NMS
我们得到一系列的预测框，但是我们不可能将它们都绘制在原图上，它们中大多数都是冗余测框，大多都是指向同一物体，因此我们只需要选取其中得分最大的预测框，这就是非极大抑制NMS需要做的工作，进行预测框的后处理。

3、文本线构造算法
在上面的步骤中，已经获得了下图所示的一系列单个文本预测框，接下来就要采用文本线构造办法，把这些单个的文本预测框连接成一个整体的文本检测框。
文本线构造算法的实现步骤：
按照上述预测框水平x坐标进行排序；
正向寻找：
1、沿水平正方向，寻找和boxi水平距离小于像素的预测框(每个预测框宽度16像素，也就是最多正向寻找50/16=3个)，即到boxj；
2、从预测框中，找出与boxi竖直方向重叠度overlap>0.7的预测框；
3、找出符合条件2中score得分最大的预测框；
再反向寻找：
1、沿水平负方向，寻找和boxj水平距离小于像素的预测框(每个预测框宽度16像素，也就是最多正向寻找50/16=3个)，即到boxi；
2、从预测框中，找出与boxj竖直方向重叠度overlap>0.7的预测框；
3、找出符合条件2中score得分最大的预测框；
如果上述过程中，正向找到的得分最大的预测框为boxj，反向找到的得分最大的预测框为boxi；那么我们称这样找到的一个文本序列为一个最长的连接，i->j。

具体的文本线构造算法可以参见这篇文章 htps://zhuanlan.zhihu.com/p/34757009

注意文本线构造方法是在将先验框中心点y轴坐标和高度h偏移量进行调整之后，而在边缘细化之后，在我们将单个文本预测框连接成一个整体的文本预测框之后，再进行预测框两边的边缘细化。

代码如下：

# 预测框的解码过程
def bbox_transfor_inv(anchor, regr):

    # 获得先验框中心
    Cya = (anchor[:, 1] + anchor[:, 3]) * 0.5
    # 获得先验框的高
    ha = anchor[:, 3] - anchor[:, 1] + 1

    Vcx = regr[0, :, 0]
    Vhx = regr[0, :, 1]

    Cyx = Vcx * ha + Cya
    hx = np.exp(Vhx) * ha
    xt = (anchor[:, 0] + anchor[:, 2]) * 0.5

    x1 = xt - 16 * 0.5
    y1 = Cyx - hx * 0.5
    x2 = xt + 16 * 0.5
    y2 = Cyx + hx * 0.5
    bbox = np.vstack((x1, y1, x2, y2)).transpose()

    return bbox

# 非极大抑制NMS
def nms(dets, thresh):
    x1 = dets[:, 0]
    y1 = dets[:, 1]
    x2 = dets[:, 2]
    y2 = dets[:, 3]
    scores = dets[:, 4]

    areas = (x2 - x1 + 1) * (y2 - y1 + 1)
    order = scores.argsort()[::-1]

    keep = []
    while order.size > 0:
        i = order[0]
        keep.append(i)
        xx1 = np.maximum(x1[i], x1[order[1:]])
        yy1 = np.maximum(y1[i], y1[order[1:]])
        xx2 = np.minimum(x2[i], x2[order[1:]])
        yy2 = np.minimum(y2[i], y2[order[1:]])

        w = np.maximum(0.0, xx2 - xx1 + 1)
        h = np.maximum(0.0, yy2 - yy1 + 1)
        inter = w * h
        ovr = inter / (areas[i] + areas[order[1:]] - inter)

        inds = np.where(ovr <= thresh)[0]
        order = order[inds + 1]
    return keep

# 文本线构造算法
# for predict
class Graph:
    def __init__(self, graph):
        self.graph = graph

    def sub_graphs_connected(self):
        sub_graphs = []
        for index in range(self.graph.shape[0]):
            if not self.graph[:, index].any() and self.graph[index, :].any():
                v = index
                sub_graphs.append([v])
                while self.graph[v, :].any():
                    v = np.where(self.graph[v, :])[0][0]
                    sub_graphs[-1].append(v)
        return sub_graphs


class TextLineCfg:
    SCALE = 600
    MAX_SCALE = 1200
    TEXT_PROPOSALS_WIDTH = 16
    MIN_NUM_PROPOSALS = 2
    MIN_RATIO = 0.5
    LINE_MIN_SCORE = 0.9
    MAX_HORIZONTAL_GAP = 60
    TEXT_PROPOSALS_MIN_SCORE = 0.7
    TEXT_PROPOSALS_NMS_THRESH = 0.3
    MIN_V_OVERLAPS = 0.6
    MIN_SIZE_SIM = 0.6


class TextProposalGraphBuilder:
    """
        Build Text proposals into a graph.
    """

    def get_successions(self, index):
        box = self.text_proposals[index]
        results = []
        for left in range(int(box[0]) + 1, min(int(box[0]) + TextLineCfg.MAX_HORIZONTAL_GAP + 1, self.im_size[1])):
            adj_box_indices = self.boxes_table[left]
            for adj_box_index in adj_box_indices:
                if self.meet_v_iou(adj_box_index, index):
                    results.append(adj_box_index)
            if len(results) != 0:
                return results
        return results

    def get_precursors(self, index):
        box = self.text_proposals[index]
        results = []
        for left in range(int(box[0]) - 1, max(int(box[0] - TextLineCfg.MAX_HORIZONTAL_GAP), 0) - 1, -1):
            adj_box_indices = self.boxes_table[left]
            for adj_box_index in adj_box_indices:
                if self.meet_v_iou(adj_box_index, index):
                    results.append(adj_box_index)
            if len(results) != 0:
                return results
        return results

    def is_succession_node(self, index, succession_index):
        precursors = self.get_precursors(succession_index)
        if self.scores[index] >= np.max(self.scores[precursors]):
            return True
        return False

    def meet_v_iou(self, index1, index2):
        def overlaps_v(index1, index2):
            h1 = self.heights[index1]
            h2 = self.heights[index2]
            y0 = max(self.text_proposals[index2][1], self.text_proposals[index1][1])
            y1 = min(self.text_proposals[index2][3], self.text_proposals[index1][3])
            return max(0, y1 - y0 + 1) / min(h1, h2)

        def size_similarity(index1, index2):
            h1 = self.heights[index1]
            h2 = self.heights[index2]
            return min(h1, h2) / max(h1, h2)

        return overlaps_v(index1, index2) >= TextLineCfg.MIN_V_OVERLAPS and \
               size_similarity(index1, index2) >= TextLineCfg.MIN_SIZE_SIM

    def build_graph(self, text_proposals, scores, im_size):
        self.text_proposals = text_proposals
        self.scores = scores
        self.im_size = im_size
        self.heights = text_proposals[:, 3] - text_proposals[:, 1] + 1

        boxes_table = [[] for _ in range(self.im_size[1])]
        for index, box in enumerate(text_proposals):
            boxes_table[int(box[0])].append(index)
        self.boxes_table = boxes_table

        graph = np.zeros((text_proposals.shape[0], text_proposals.shape[0]), np.bool)

        for index, box in enumerate(text_proposals):
            successions = self.get_successions(index)
            if len(successions) == 0:
                continue
            succession_index = successions[np.argmax(scores[successions])]
            if self.is_succession_node(index, succession_index):
                # NOTE: a box can have multiple successions(precursors) if multiple successions(precursors)
                # have equal scores.
                graph[index, succession_index] = True
        return Graph(graph)


class TextProposalConnectorOriented:
    """
        Connect text proposals into text lines
    """

    def __init__(self):
        self.graph_builder = TextProposalGraphBuilder()

    def group_text_proposals(self, text_proposals, scores, im_size):
        graph = self.graph_builder.build_graph(text_proposals, scores, im_size)
        return graph.sub_graphs_connected()

    def fit_y(self, X, Y, x1, x2):
        # len(X) != 0
        # if X only include one point, the function will get line y=Y[0]
        if np.sum(X == X[0]) == len(X):
            return Y[0], Y[0]
        p = np.poly1d(np.polyfit(X, Y, 1))
        return p(x1), p(x2)

    def get_text_lines(self, text_proposals, scores, im_size):
        """
        text_proposals:boxes
        """
        # tp=text proposal
        tp_groups = self.group_text_proposals(text_proposals, scores, im_size)  # 首先还是建图，获取到文本行由哪几个小框构成

        text_lines = np.zeros((len(tp_groups), 8), np.float32)

        for index, tp_indices in enumerate(tp_groups):
            text_line_boxes = text_proposals[list(tp_indices)]  # 每个文本行的全部小框
            X = (text_line_boxes[:, 0] + text_line_boxes[:, 2]) / 2  # 求每一个小框的中心x，y坐标
            Y = (text_line_boxes[:, 1] + text_line_boxes[:, 3]) / 2

            z1 = np.polyfit(X, Y, 1)  # 多项式拟合，根据之前求的中心店拟合一条直线（最小二乘）

            x0 = np.min(text_line_boxes[:, 0])  # 文本行x坐标最小值
            x1 = np.max(text_line_boxes[:, 2])  # 文本行x坐标最大值

            offset = (text_line_boxes[0, 2] - text_line_boxes[0, 0]) * 0.5  # 小框宽度的一半

            # 以全部小框的左上角这个点去拟合一条直线，然后计算一下文本行x坐标的极左极右对应的y坐标
            lt_y, rt_y = self.fit_y(text_line_boxes[:, 0], text_line_boxes[:, 1], x0 + offset, x1 - offset)
            # 以全部小框的左下角这个点去拟合一条直线，然后计算一下文本行x坐标的极左极右对应的y坐标
            lb_y, rb_y = self.fit_y(text_line_boxes[:, 0], text_line_boxes[:, 3], x0 + offset, x1 - offset)

            score = scores[list(tp_indices)].sum() / float(len(tp_indices))  # 求全部小框得分的均值作为文本行的均值

            text_lines[index, 0] = x0
            text_lines[index, 1] = min(lt_y, rt_y)  # 文本行上端 线段 的y坐标的小值
            text_lines[index, 2] = x1
            text_lines[index, 3] = max(lb_y, rb_y)  # 文本行下端 线段 的y坐标的大值
            text_lines[index, 4] = score  # 文本行得分
            text_lines[index, 5] = z1[0]  # 根据中心点拟合的直线的k，b
            text_lines[index, 6] = z1[1]
            height = np.mean((text_line_boxes[:, 3] - text_line_boxes[:, 1]))  # 小框平均高度
            text_lines[index, 7] = height + 2.5

        text_recs = np.zeros((len(text_lines), 9), np.float)
        index = 0
        for line in text_lines:
            b1 = line[6] - line[7] / 2  # 根据高度和文本行中心线，求取文本行上下两条线的b值
            b2 = line[6] + line[7] / 2
            x1 = line[0]
            y1 = line[5] * line[0] + b1  # 左上
            x2 = line[2]
            y2 = line[5] * line[2] + b1  # 右上
            x3 = line[0]
            y3 = line[5] * line[0] + b2  # 左下
            x4 = line[2]
            y4 = line[5] * line[2] + b2  # 右下
            disX = x2 - x1
            disY = y2 - y1
            width = np.sqrt(disX * disX + disY * disY)  # 文本行宽度

            fTmp0 = y3 - y1  # 文本行高度
            fTmp1 = fTmp0 * disY / width
            x = np.fabs(fTmp1 * disX / width)  # 做补偿
            y = np.fabs(fTmp1 * disY / width)
            if line[5] < 0:
                x1 -= x
                y1 += y
                x4 += x
                y4 -= y
            else:
                x2 += x
                y2 += y
                x3 -= x
                y3 -= y
            text_recs[index, 0] = x1
            text_recs[index, 1] = y1
            text_recs[index, 2] = x2
            text_recs[index, 3] = y2
            text_recs[index, 4] = x3
            text_recs[index, 5] = y3
            text_recs[index, 6] = x4
            text_recs[index, 7] = y4
            text_recs[index, 8] = line[4]
            index = index + 1

        return text_recs

四、CTPN网络的训练部分

1、将真实框转化为预测结果的形式

数据集我们选择的是ICDAR2015文本数据集，其中包含1000张文本图片以及对应的txt标签文件，其中标签文件包含文本左上、右上、左下和右下4个坐标点，以及对应的label标签值。
img：

label：
377,117,463,117,465,130,378,130,Genaxis Theatre
493,115,519,115,519,131,493,131,[06]
374,155,409,155,409,170,374,170,###
492,151,551,151,551,170,492,170,62-03
376,198,422,198,422,212,376,212,Carpark
494,190,539,189,539,205,494,206,###
374,1,494,0,492,85,372,86,###

将图片img输入进入CTPN网络，得到y、h和x偏移量的预测结果，但是我们图片的真实信息，即真实框是上述坐标的形式，因此我们需要将上述的真实框进行转化，转化成预测结果应该的形式，只有当真实结果和预测结果形式一样，我们才能进行loss的计算，进行网络的反向传播，进行网络权重参数的更新。
我们将真实框转化成预测结果的形式称之为编码，将先验框转换成预测框称之为解码。

正负样本的选择:我们将计算真实框与图片中所有先验框IOU的值，将IOU>0.7作为正样本，IOU<0.3作为负样本，IOU在0.3-0.7之间的样本作为忽略的样本。

# 真实框的编码过程
def bbox_transfrom(anchors, gtboxes):
    """
     compute relative predicted vertical coordinates Vc ,Vh
        with respect to the bounding box location of an anchor
    """
    regr = np.zeros((anchors.shape[0], 2))
    # 获得真实框的中心点y的坐标
    Cy = (gtboxes[:, 1] + gtboxes[:, 3]) * 0.5
    # 获得中心点x轴的坐标
    Cx = (gtboxes[:, 0] + gtboxes[:, 2]) * 0.5

    # 获得先验框中心点y的坐标
    Cya = (anchors[:, 1] + anchors[:, 3]) * 0.5
    # 获得先验框中心点x的坐标
    Cxa = (anchors[:, 0] + anchors[:, 2]) * 0.5

    # 或者真实框的高度
    h = gtboxes[:, 3] - gtboxes[:, 1] + 1.0
    # 或者先验框的高度
    ha = anchors[:, 3] - anchors[:, 1] + 1.0
    # 或者先验框的宽度
    wa = 16

    Vc = (Cy - Cya) / ha
    Vh = np.log(h / ha)
    Vo = (Cx-Cxa) / wa

    return np.vstack((Vc, Vh, Vo)).transpose()


def cal_rpn(imgsize, featuresize, scale, gtboxes):
    imgh, imgw = imgsize
    # 生成56x100x10个候选框，并转化为左上角和右下角x1，y1，x2，y2的形式
    # (56000,4)
    base_anchor = gen_anchor(featuresize, scale)
    #print(base_anchor.shape)
    # (56000,gt)
    overlaps = cal_overlaps(base_anchor, gtboxes)
    #print(overlaps.shape)
    # 创建一个空的labels，(56000,)
    # 正样本设为1，负样本为0，其他的为-1
    labels = np.empty(overlaps.shape[0])
    labels.fill(-1)
    # 找到每一个真实框对应的iou最大的候选框
    # 比如(10001,300,434,323,404,29458,2002,...,)  (gt,)
    gt_argmax_overlaps = overlaps.argmax(axis=0)
    # 找到每一个候选框对应的iou最大的真实框
    # (56000,)  比如(10,21,4,5,2,...,)
    anchor_argmax_overlaps = overlaps.argmax(axis=1)
    # 取出每个先验框对应的iou最大的真实框的iou值(56000,)
    anchor_max_overlaps = overlaps[range(overlaps.shape[0]), anchor_argmax_overlaps]
    # IOU > IOU_POSITIVE
    labels[anchor_max_overlaps > IOU_POSITIVE] = 1
    # IOU 
    labels[anchor_max_overlaps < IOU_NEGATIVE] = 0
    # ensure that every GT box has at least one positive RPN region
    labels[gt_argmax_overlaps] = 1
    # only keep anchors inside the image
    outside_anchor = np.where(
        (base_anchor[:, 0] < 0) |
        (base_anchor[:, 1] < 0) |
        (base_anchor[:, 2] >= imgw) |
        (base_anchor[:, 3] >= imgh)
    )[0]
    # 将超出图片区域的先验框对应的标签设置为-1，需要忽略
    labels[outside_anchor] = -1
    # subsample positive labels ,if greater than RPN_POSITIVE_NUM(default 128)
    fg_index = np.where(labels == 1)[0]
    # print(len(fg_index))
    # 正样本的数量为150个，如果超过150个，将超出的设置为-1
    if (len(fg_index) > RPN_POSITIVE_NUM):
        labels[np.random.choice(fg_index, len(fg_index) - RPN_POSITIVE_NUM, replace=False)] = -1

    # subsample negative labels
    if not OHEM:
        bg_index = np.where(labels == 0)[0]
        num_bg = RPN_TOTAL_NUM - np.sum(labels == 1)
        if (len(bg_index) > num_bg):
            # print('bgindex:',len(bg_index),'num_bg',num_bg)
            labels[np.random.choice(bg_index, len(bg_index) - num_bg, replace=False)] = -1

    # calculate bbox targets
    # debug here
    # 编码过程，获得y和h的偏移量
    bbox_targets = bbox_transfrom(base_anchor, gtboxes[anchor_argmax_overlaps, :])
    # bbox_targets=[]
    # print(len(labels),len(bbox_targets),len(base_anchor),base_anchor[0],labels[0])

    return [labels, bbox_targets], base_anchor

2、利用上述处理的真实框，与预测结果进行loss函数的计算

loss的计算分为三个部分：

1、Lcls用于区分文本与非文本的分类损失，分类损失使用的是softmax分类损失；
2、Lrev即中心点y坐标和高度h的回归loss，采用的是smooth L1 loss
3、Lreo即文本框左侧或右侧x坐标的回归loss，采用的是smooth L1 loss

在训练过程中，正负样本是极不不平衡的，一张图片中正样本可能就那几个，而负样本可能是成百上千，这样会导致计算的loss很大，因此为了解决正负样本不平衡的问题，引入了困难样本挖掘，即将正负样本的数量控制在1：3。

实现代码如下:

class RPN_REGR_Loss(nn.Module):
    def __init__(self, device, sigma=9.0):
        super(RPN_REGR_Loss, self).__init__()
        self.sigma = sigma
        self.device = device

    def forward(self, input, target):
        '''
        smooth L1 loss
        :param input:y_preds
        :param target: y_true
        :return:
        '''
        try:
            cls = target[0, :, 0]
            regr = target[0, :, 1:3]
            # apply regression to positive sample
            regr_keep = (cls == 1).nonzero()[:, 0]
            regr_true = regr[regr_keep]
            regr_pred = input[0][regr_keep]
            diff = torch.abs(regr_true - regr_pred)
            less_one = (diff<1.0/self.sigma).float()
            loss = less_one * 0.5 * diff ** 2 * self.sigma + torch.abs(1- less_one) * (diff - 0.5/self.sigma)
            loss = torch.sum(loss, 1)
            loss = torch.mean(loss) if loss.numel() > 0 else torch.tensor(0.0)
        except Exception as e:
            print('RPN_REGR_Loss Exception:', e)
            # print(input, target)
            loss = torch.tensor(0.0)

        return loss.to(self.device)


class RPN_REFI_Loss(nn.Module):
    def __init__(self, device, sigma=9.0):
        super(RPN_REFI_Loss, self).__init__()
        self.sigma = sigma
        self.device = device

    def forward(self, input, target):
        '''
        smooth L1 loss
        :param input:y_preds
        :param target: y_true
        :return:
        '''
        try:
            cls = target[0, :, 0]
            refi = target[0, :, 3]
            # apply regression to positive sample
            regr_keep = (cls == 1).nonzero()[:, 0]
            regr_true = refi[regr_keep]
            regr_pred = input[0][regr_keep]
            diff = torch.abs(regr_true - regr_pred)
            less_one = (diff<1.0/self.sigma).float()
            loss = less_one * 0.5 * diff ** 2 * self.sigma + torch.abs(1- less_one) * (diff - 0.5/self.sigma)
            loss = torch.sum(loss, 1)
            loss = torch.mean(loss) if loss.numel() > 0 else torch.tensor(0.0)
        except Exception as e:
            print('RPN_REGR_Loss Exception:', e)
            # print(input, target)
            loss = torch.tensor(0.0)

        return loss.to(self.device)


class RPN_CLS_Loss(nn.Module):
    def __init__(self,device):
        super(RPN_CLS_Loss, self).__init__()
        self.device = device

    def forward(self, input, target):
        y_true = target[0][0]
        cls_keep = (y_true != -1).nonzero()[:, 0]
        cls_true = y_true[cls_keep].long()
        cls_pred = input[0][cls_keep]
        loss = F.nll_loss(F.log_softmax(cls_pred, dim=-1), cls_true)  # original is sparse_softmax_cross_entropy_with_logits
        # loss = nn.BCEWithLogitsLoss()(cls_pred[:,0], cls_true.float())  # 18-12-8
        loss = torch.clamp(torch.mean(loss), 0, 10) if loss.numel() > 0 else torch.tensor(0.0)
        return loss.to(self.device)

3、训练细节

对于主干网络VGG16，采用了ImageNet上与训练好的权重值，而对于后面的层，包括LSTM层和Head层，则是使用均值为0，标准差为0.001的高斯分布来进行随机初始化。优化器的选择，使用动量为0.9和0.0005的权重衰减的随机梯度下降优化器，在前16k次迭代中，学习率设置为0.001，在后4k次迭代中中，学习率设置为0.0001。

4、CTPN模型的文件摆放

文本使用的数据为ICDAR2015文本数据集，数据集放在了train_data文件下，其中train_img包含了训练所需要的图片，train_label为对应的标签文件。

运行ctpn_train.py，即可训练模型的训练，大家可以修改该py文件中的batch_size大小，以及对应的学习率的大小。

注：笔者也是一名AI的新手，学习AI之路全是根据这个大佬的博客进行学习的，https://blog.csdn.net/weixin_44791964。

你可能感兴趣的:(OCR场景文本检测,计算机视觉,神经网络,python,算法,深度学习)

Python 报错：ModuleNotFoundError: No module named ‘Crypto‘
Crypto报错解决方案Python报错：ModuleNotFoundError:Nomodulenamed'Crypto'前言问题解决方案Python报错：ModuleNotFoundError:Nomodulenamed‘Crypto’前言Crypto是一个加密模块，它包含了多种加密算法，如AES、DES、RSA等。它不是Python标准库的一部分，需要使用pip安装。pycrypto和Cry
【甲烷数据集】Sentinel-5P 卫星获取的全球甲烷数据集-TROPOMI L2 CH₄ WW、forever 数据集 sentinel
目录数据概述传感器&卫星信息监测目标：甲烷（CH₄）数据产品内容空间与时间覆盖云筛选与协同观测技术文档资源数据下载Python代码绘制CH4数据参考数据概述Sentinel-5PrecursorLevel2Methane(TROPOMIL2CH₄)数据集是由欧洲哥白尼计划的Sentinel-5P卫星获取的，用于监测大气中的甲烷浓度。数据集名称：Sentinel-5PrecursorLevel2Me
非对称加密算法（RSA、ECC、SM2）——密码学基础
对称加密算法（AES、ChaCha20和SM4）Python实现——密码学基础(Python出现Nomodulenamed“Crypto”解决方案)这篇的续篇，因此实践部分少些；文章目录一、非对称加密算法基础二、RSA算法2.1RSA原理与数学基础2.2RSA密钥长度与安全性2.3RSA实现工具与库2.4RSA的局限性三、椭圆曲线密码学(ECC)3.1ECC原理与数学基础3.2常用椭圆曲线标准3.
✨ Apache Airflow：当你的工作流不再“996”，全靠这个调度大师！
文章目录️先聊聊痛点：工作流调度为啥让人头大？Airflow是谁？你的工作流“总指挥”！Airflow的核心“大脑”：理解几个关键概念Airflow的魔力大招：为什么开发者爱不释手？Airflow是万能药吗？也聊聊它的“小脾气”️哪些场景最适合召唤Airflow？如何开始你的第一次Airflow“飞行”？我的个人碎碎念（真情实感时间）总结：让Airflow做你的“流程指挥官”！还在为凌晨三点被报警
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
创建型模式大曰编程 java面试分布式设计模式
创建型模式是设计模式的核心分支，专注于对象创建机制的优化，通过封装对象实例化过程，提升系统的灵活性与可扩展性。在分布式系统中，由于多节点协作、网络通信延迟、状态一致性等特性，传统单体环境下的创建型模式需进行适应性演化。本文从分布式场景出发，系统解析单例、工厂方法、抽象工厂、建造者、原型五大创建型模式的核心原理、分布式变种及实战应用。一、单例模式：分布式环境下的唯一性保障1.1单体与分布式单例的本质
JAVA 和Python对比 xiayu98020214 在深蓝的日子 python
JAVA和Python对比1.数据类型pythonInt，float，complexnumbers都没有定义到底占用多少个字节空间。都是没有取值范围，也没有无符号的情况。JAVAJAVA有基础数据类型，都有确定占多少个字节2.全局变量python类似c语言，可以定义全局变量，全局的函数。JAVAjava都要定义类才行。3.变量声明python无需声明类型，直接使用。会造成一个困扰，这个变量到底是新
牛客华为机试题解（python版更新中）
目录一、字符串（知识点）HJ1字符串最后一个单词的长度（简单）HJ2计算某字符出现次数（简单）HJ4字符串分隔（简单）HJ5进制转换（简单）HJ10字符个数统计（简单）HJ11数字颠倒（简单）HJ12字符串反转（简单）HJ14字符串排序（简单）HJ17坐标移动（中等）HJ18识别有效的IP地址和掩码并进行分类统计（较难）自己研究的题解，也有借鉴评论区牛人思路，答案不唯一，仅供学习参考，也欢迎大家指
Three.js入门：创建第一个3D场景薯条说影 Three.js 3D场景创建跨平台设置安全异常处理 HTML骨架搭建
背景简介Three.js是一个轻量级的3D图形库，它让Web开发者能够在浏览器中创建和显示3D图形。本章介绍如何设置环境以开始使用Three.js，包括不同操作系统下的安装步骤、安全异常处理以及基本的HTML骨架创建。安装与设置操作系统兼容性：Three.js的使用不仅限于Windows系统。对于其他操作系统，如Linux和MacOS，需要将可执行文件复制到目标目录，并通过命令行启动。无论是哪种操
Three.js入门第一步：两种方式搭建你的3D项目[特殊字符]️
上一篇我们聊了学习Three.js前的“地基”知识，现在地基牢固，该正式动工了！在创造炫酷的3D世界之前，我们得先把开发环境给搭好。官方手册提供了两种主流的安装方式，分别适用于不同场景。选对方法，事半功倍！方式一：CDN+Importmap(极速上手)这是官方最为推荐的、也是最简单的入门方式，尤其适合学习、做小练习、或者快速验证一个想法。优点：无需安装任何东西！只需要一个能联网的浏览器。操作方法：
python比java_对比java和python对比
对比java和python对比java和python2011年04月18日1.难易度而言。python远远简单于java。2.开发速度。Python远优于java3.运行速度。java远优于标准python，pypy和cython可以追赶java，但是两者都没有成熟到可以做项目的程度。4.可用资源。java一抓一大把，python很少很少，尤其是中文资源。5.稳定程度。python3和2不兼容，造
C# 反射的使用及场景灵感来自小西装 c#开发语言个人开发
1，使用反映将一个对象的同名属性赋值给另一个对象2,DataTable转换成一个实体3，使用反射动态执行方法4,根据属性信息来执行对应的方法usingSystem;usingSystem.Collections.Generic;usingSystem.ComponentModel;usingSystem.Data;usingSystem.Drawing;usingSystem.Linq;using
深度学习--利用梯度下降法进行多变量的二分类（感知机）白话学生nit 深度学习分类人工智能
其实这一节涉及到了感知机的相关知识，就把这一节当作是学习感知机的引子吧。什么是二分类我们先来说一下什么是二分类，二分类指的是将结果分为两个互斥的类别，通常用来表示问题的两种可能。为什么用感知机学习二分类常见的解决问题的模型有很多，这里我们使用感知机模型。至于为什么，因为感知机模型很多地方用起来比较简便，就拿我们这一节的问题举一下例子，我们需要依照房子的价格对房子进行分类。在感知机模型中，我们可以使
QuecPython-正则表达式移远通信正则表达式 python
该模块通过正则表达式匹配数据。目前支持的操作符较少，部分操作符暂不支持。示例：importureres='''$GNRMC,133648.00,A,3149.2969,N,11706.9027,E,0.055,,311020,,,A,V*18$GNGGA,133648.00,3149.2969,N,11706.9027,E,1,24,1.03,88.9,M,,M,,*6C$GNGLL,3149.2
华为牛客网python考试题库及答案 2401_86114846 服务器
亲爱的朋友们，今天我们要讨论，牛客网华为软件测试题库牛客网华为机试题答案，让我们开始吧！目录一、字符串（知识点）HJ1字符串最后一个单词的长度（简单）HJ2计算某字符出现次数（简单）HJ4字符串分隔（简单）HJ5进制转换（简单）HJ10字符个数统计（简单）HJ11数字颠倒（简单）HJ12字符串反转（简单）HJ14字符串排序（简单）HJ17坐标移动（中等）HJ18识别有效的IP地址和掩码并进行分类统
【Python】LEGB作用域 + re模块 + 正则表达式
文章目录一LEGB作用域二re（RegularExpression）预览1.`re.match()`——从字符串开头匹配2.`re.search()`——搜索整个字符串3.`re.findall()`——返回所有匹配的字符串列表4.`re.finditer()`——返回所有匹配的迭代器5.`re.sub()`——替换匹配的字符串6.`re.split()`——按正则表达式分割字符串7.`re.co
java和ptyhon对比悟能不能悟 java 开发语言
1.语言特性对比维度JavaPython语法风格静态类型，需显式声明变量类型；代码冗长（需分号、大括号）动态类型，变量类型自动推断；简洁（缩进代替大括号，无分号）编程范式严格面向对象（OOP），强制类与对象结构多范式支持（OOP、函数式、命令式），更灵活执行方式编译型（JVM运行字节码）解释型（逐行执行）⚡2.性能与效率执行速度：Java：编译优化后运行效率高，尤其擅长高并发（如电商秒杀系统）。P
数字图像处理与Python语言实现-Box模糊CUDA实现视觉与物联智能数字图像处理与Python实现 python 深度学习计算机视觉图像处理 CUDA
Box模糊CUDA实现文章目录Box模糊CUDA实现1、Box模糊的基本原理2、算法优化：滑动窗口技术3、参数对模糊效果的影响4、Box模糊的优缺点5、与高斯模糊的对比6、实际应用场景7、算法实现7.1PyCUDA实现7.2CuPy实现7.3C++与CUDA实现8、总结在图像处理领域，**Box模糊（方框模糊或均值模糊）**是一种基础且高效的模糊算法，其核心思想是通过对像素邻域内的颜色值取平均值来
关于Python3绕过指纹识别解决ja3指纹的案例水兵没月 python
注意！！！！某XX网站实例仅作为学习案例，禁止其他个人以及团体做谋利用途！！！场景Python采集某网址页面内容aHR0cHM6Ly9jcmVkaXRiai5qeGouYmVpamluZy5nb3YuY24vY3JlZGl0LXBvcnRhbC9jcmVkaXRfc2VydmljZS9wdWJsaWNpdHkvcmVjb3JkL2JsYWNr报错信息requests.exceptions.SSLE
网页返回title“Just a moment...“，python 绕过tls指纹的几种方式记录一下
第一种：使用tls_client第三方库进行绕过importtls_clientsession=tls_client.Session(ja3_string="771,4865-4866-4867-49195-49199-49196-49200-52393-52392-49171-49172-156-157-47-53,0-23-65281-10-11-35-16-5-13-18-51-45-43-
python如何抓取网页里面的文字_如何利用python抓取网页文字、图片内容？ weixin_39917437
想必新老python学习者，对爬虫这一概念并不陌生，在如今大数据时代，很多场景都需要利用爬虫去爬取数据，而这刚好时python领域，如何实现？怎么做？一起来看下吧~获取图片：1、当我们浏览这个网站时，会发现，每一个页面的URL都是以网站的域名+page+页数组成，这样我们就可以逐一的访问该网站的网页了。2、当我们看图片列表时中，把鼠标放到图片，右击检查，我们发现，图片的内容由ul包裹的li组成，箭
如何用 Python 绕过 cloudflare（5秒盾）抓取数据：也不是很难嘛！炒青椒不放辣 Web爬虫进阶实战 python cloudflare 爬虫 5秒盾逆向
大家好！我是爱摸鱼的小鸿，关注我，收看每期的编程干货。逆向是爬虫工程师进阶必备技能，当我们遇到一个问题时可能会有多种解决途径，而如何做出最高效的抉择又需要经验的积累。本期文章将以实战的方式，带你全面了解cloudflare（5秒盾）以及如何绕过使用cloudflare服务的网站从而抓取数据特别声明：本篇文章仅供学习与研究使用，不用做任何非法用途，相关URL和API等均已做脱敏处理，若有侵权请联系作
基于 Vue3 + ECharts 实现渐变分段折线图：支持动态区间、响应式渲染与颜色控制 saadiya~ echarts 信息可视化前端
在数据可视化项目中，折线图是最常见的图表类型之一，而通过颜色分段渐变可以让用户更加直观地感知数据的变化趋势和区间风险。本文将带你实战一个基于Vue3+ECharts的渐变分段折线图组件，支持传入valueList控制每段颜色，适配多种数据类型，实现图表的动态更新与响应式自适应。一、效果预览与场景说明该组件可应用于以下场景：空气质量指标（AQI）路况拥堵指数（如：0-0.5畅通，0.5-1一般，1-
python请求有关ja3指纹问题王太歌 python 爬虫开发语言
遇见一个网站采集，无论怎样都返回空数据(实际上是有数据的)，但是抓包下来又确实是那样的，请教了一些人推测是指纹验证，拜读了网上其他大佬的博客文章后实验了一下，发现确实是这个问题！第一次知道tcp还有这个东西，让我大受震撼，值此搬运一下。参考链接及来源：Python爬虫进阶必备|JA3指纹在爬虫中的应用与定向突破python爬虫requests、httpx、aiohttp、scrapy突破ja3指纹
AI原生应用中的用户画像构建：从理论到实践全解析
AI原生应用中的用户画像构建：从理论到实践全解析关键词：用户画像、AI原生应用、特征工程、机器学习、个性化推荐、数据隐私、模型优化摘要：本文全面解析AI原生应用中用户画像构建的全过程，从基础概念到核心技术，再到实际应用和未来趋势。我们将用通俗易懂的方式讲解用户画像如何像"数字身份证"一样工作，深入探讨特征提取、模型构建等关键技术，并通过实际案例展示用户画像在推荐系统、精准营销等场景中的应用。文章还
全网最全，软件测试-性能测试面试题汇总（附答案）软件测试雪儿软件测试面试软件测试面试
前言面试题：性能测试指标有哪些？分别是什么含义？tps：每秒事务量，代表了系统的处理能力，tps越高，性能越好响应时间：从发出请求到接受到系统响应数据所花费的时间，响应时间越短，性能越好吞吐量：网络上行和下行流量的总和，吞吐量是网络瓶颈定位的重要指标错误率：在压测过程中系统出现错误的比例面试题：什么是集合点，什么场景下需要用集合点？集合点是测试脚本中的一个标记，当每个虚拟用户执行到标记处时，会停留
【干货】pythonJA3指纹绕过 kisloy 爬虫逆向 python 爬虫
requests/scrapyJA3指纹绕过requests绕过importrequestsimportrandomfromrequests.adaptersimportHTTPAdapterfromrequests.packages.urllib3.util.ssl_importcreate_urllib3_contextORIGIN_CIPHERS=("ECDH+AESGCM:DH+AESGC
豆瓣电影信息爬虫【2024年6月】教程，赋完整代码桃宝护卫队爬虫 python
豆瓣电影信息爬虫【2024年6月】教程，赋完整代码在本教程中，我们将使用以下技术栈来构建一个爬虫，用于爬取豆瓣电影列表页面的信息：完整代码放到最后；完整代码放到最后；完整代码放到最后；重要的事情说三遍。1.技术栈介绍在本教程中，我们将使用以下技术栈来构建一个爬虫，用于爬取豆瓣电影列表页面的信息：Python:一种广泛使用的高级编程语言，因其简洁的语法和强大的库支持而受到开发者的喜爱。Request
智能喷洒机器人目标识别系统：基于NanoDet的目标检测与UI界面实现 YOLO实战营机器人目标检测 ui NanoDet 计算机视觉目标跟踪深度学习
在现代农业生产中，自动化喷洒系统是实现精准农业的重要组成部分。智能喷洒机器人通过图像识别和自动控制技术，能够高效识别并精确喷洒农药、肥料等，提高农业生产效率，降低化学品使用量，减少环境污染。目标识别是智能喷洒机器人中至关重要的部分，它涉及到精准的作物和病虫害识别，确保喷洒操作的准确性。在本篇博客中，我们将构建一个基于NanoDet深度学习目标检测模型的智能喷洒机器人目标识别系统。我们将介绍如何使用
Floyd最短路算法自由的dream 算法详解算法
Floyd算法是什么？Floyd算法（弗洛伊德算法）是一种求最短路的方法，别急着叫难，实际上这一个算法非常简单，虽然它用的是DP思想。好了，现在开始介绍它的原理。Floyd的原理啊说到Floyd算法，那么得讲讲最短路，最短路，是指从一个图中一个点到别的点的最短路径，有人就会问：“哎，这个图有距离吗？”问这种问题的人就是不懂图的人，一条边的权值，就是这一条边的长度，根据出发点划分，最短路可以分成单源
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后