战争热诚

实现text-detection-ctpn一路的坎坎坷坷

　　小编在学习文字检测，因为作者提供的caffe实现没有训练代码（不过训练代码可以参考faster-rcnn的训练代码），所以我打算先使用tensorflow实现，主要是复现前辈的代码，主要是对文字检测模型进行训练。

　　代码的GitHub地址：https://github.com/eragonruan/text-detection-ctpn

　　主要写一下自己实现的过程，因为原文给的步骤，小编没有完全实现，所以首先打算解读一下原文步骤，然后加上自己的理解，写下自己可以实现的步骤。

文本检测概述

　　文本检测可以看成特殊的目标检测，但是它有别与通过目标检测，在通用目标检测中，每个目标都有定义好的边界框，检测出的bbox与当前目标的groundtruth重叠率大于0.5就表示该检测结果正确，文本检测中正确检出需要覆盖整个文本长度，且评判的标准不同于通用目标检测，具体的评判方法参见(ICDAR 2017 RobustReading Competition)．所以通用的目标检测方法并不适用文本检测。

1，参数设置

parameters

there are some parameters you may need to modify according to your requirement, you can find them in ctpn/text.yml

USE_GPU_NMS # whether to use nms implemented in cuda or not
DETECT_MODE # H represents horizontal mode, O represents oriented mode, default is H
checkpoints_path # the model I provided is in checkpoints/, if you train the model by yourself,it will be saved in output/

1.1 对其进行翻译如下：

　　根据我们的一些要求，我们可能需要修改一些参数，文件在ctpn/text.yml

USE_GPU_NMS 是否使用在cuda中实现的nms
DETECT_MODE H表示水平模式，O表示定向模式，默认为H
checkpoints_path 作者提供的模型在checkpoints/ 如果我们自己训练模型，它将保存在 output/ 下面

自己训练的模型在这个路径下面：

 checkpoints_path: output/ctpn_end2end/voc_2007_trainval

下面展示一下小编训练出来的模型：

2：环境设置

setup

requirements: python2.7, tensorflow1.3, cython0.24, opencv-python, easydict,(recommend to install Anaconda)
if you have a gpu device, build the library by

cd lib / utils 
chmod + x make.sh 
./make.sh

2.1 对其进行翻译如下：

　　需求的是python2.7 tensorflow1.3 cython0.24，opencv-python，easydict，（建议安装Anaconda）

　　（因为我有GPU）所以直接进行第三步，进入lib、utils，执行chmod+x给权限（在给权限之前，make.sh是灰色的（不可执行的文件），执行chmod+x make.sh 则变成绿色（可执行的文件））

3：准备数据

prepare data

First, download the pre-trained model of VGG net and put it in data/pretrain/VGG_imagenet.npy. you can download it from google drive or baidu yun.
Second, prepare the training data as referred in paper, or you can download the data I prepared from google drive or baidu yun. Or you can prepare your own data according to the following steps.
Modify the path and gt_path in prepare_training_data/split_label.py according to your dataset. And run

cd lib/prepare_training_data
python split_label.py

it will generate the prepared data in current folder, and then run

python ToVoc.py

to convert the prepared training data into voc format. It will generate a folder named TEXTVOC. move this folder to data/ and then run

 
   cd ../../data
ln -s TEXTVOC VOCdevkit2007

3.1 对其进行翻译

　　首先，下载预先训练的VGG网络模型并将其放在data/pretrain/VGG_imagenet.npy.
　　其次，准备论文提到的训练数据。或者我们可以放置自己的数据
　　根据我们的数据集修改prepare_training_data/split_label.py中的path和gt_path路径。并执行下面操作。

cd lib/prepare_training_data
python split_label.py

　　它将在当前文件夹中生成准备好的数据，然后运行下面代码：

python ToVoc.py

将准备好的训练数据转换为voc格式。它将生成一个名为TEXTVOC的文件夹。将此文件夹移动到数据/然后运行

cd ../../data 
ln -s TEXTVOC VOCdevkit2007

3.2 数据是否只有VOC2007？

　　作者给的数据是预处理过的数据，

　　我们下载了数据，VOCdevkit2007 只有1.06G，但是此数据可以训练自己的模式，要是想训练自己的数据，那么需要自己标注数据，找自己的数据。

　　作者使用的icdar17的multi lingual scene text dataset, 没有用voc，只是用了他的数据格式，下面给出的数据是作者实现的源数据地址。

　　gt_path的数据地址：http://rrc.cvc.uab.es/?com=contestant

　　进入2017MLT 查看如下：

　　然后我们可以发送邮件，注册用户，并激活，进入下载页面：

　　找到数据集并下载，因为这是国外网址，所以被墙了，小编没有全部下载下来，就走到了这一步，目前没有下一步（如果有人看到这篇博文，希望把下载的数据能分享给我，先在这里道声谢！！！）：

3.3 存放数据

　　作者训练使用的是6000张图片。使用train或者trainval是一样的，因为用的都是这6000张图片。可以检查一下VOCdevkit2007/VOC2007/ImageSets/Main下面的train.txt和trainval.txt是否正确，是否是6000张图片。你在用自己数据训练的时候也要特别注意一点，数据的标注格式是不是和mlt这个数据集一致，因为split_label这个函数是针对mlt的标注格式来写的，所以如果你原始数据标注格式如果和它不同，转换之后可能会是错的，那么得到的用来训练的数据集可能也不对。

　　这是作者存放数据的路径，我们修改路径，并放数据（因为源数据没有拿到，所以就数据存放也就做到这一步，没有后续！！）。

对原始gt文件进一步处理的分析（也就是对txt标注数据进行进一步处理），生成对应的xml文件部分内容截图如下：

对split_label的部分代码截取如下：

for file in files:
    _, basename = os.path.split(file)
    if basename.lower().split('.')[-1] not in ['jpg', 'png']:
        continue
    stem, ext = os.path.splitext(basename)
    gt_file = os.path.join(gt_path, 'gt_' + stem + '.txt')
    img_path = os.path.join(path, file)
    print(img_path)
    img = cv.imread(img_path)
    img_size = img.shape
    im_size_min = np.min(img_size[0:2])
    im_size_max = np.max(img_size[0:2])

    im_scale = float(600) / float(im_size_min)
    if np.round(im_scale * im_size_max) > 1200:
        im_scale = float(1200) / float(im_size_max)
    re_im = cv.resize(img, None, None, fx=im_scale, fy=im_scale, interpolation=cv.INTER_LINEAR)
    re_size = re_im.shape
    cv.imwrite(os.path.join(out_path, stem) + '.jpg', re_im)

    with open(gt_file, 'r') as f:
        lines = f.readlines()
    for line in lines:
        splitted_line = line.strip().lower().split(',')
        pt_x = np.zeros((4, 1))
        pt_y = np.zeros((4, 1))
        pt_x[0, 0] = int(float(splitted_line[0]) / img_size[1] * re_size[1])
        pt_y[0, 0] = int(float(splitted_line[1]) / img_size[0] * re_size[0])
        pt_x[1, 0] = int(float(splitted_line[2]) / img_size[1] * re_size[1])
        pt_y[1, 0] = int(float(splitted_line[3]) / img_size[0] * re_size[0])
        pt_x[2, 0] = int(float(splitted_line[4]) / img_size[1] * re_size[1])
        pt_y[2, 0] = int(float(splitted_line[5]) / img_size[0] * re_size[0])
        pt_x[3, 0] = int(float(splitted_line[6]) / img_size[1] * re_size[1])
        pt_y[3, 0] = int(float(splitted_line[7]) / img_size[0] * re_size[0])

        ind_x = np.argsort(pt_x, axis=0)
        pt_x = pt_x[ind_x]
        pt_y = pt_y[ind_x]

        if pt_y[0] < pt_y[1]:
            pt1 = (pt_x[0], pt_y[0])
            pt3 = (pt_x[1], pt_y[1])
        else:
            pt1 = (pt_x[1], pt_y[1])
            pt3 = (pt_x[0], pt_y[0])

        if pt_y[2] < pt_y[3]:
            pt2 = (pt_x[2], pt_y[2])
            pt4 = (pt_x[3], pt_y[3])
        else:
            pt2 = (pt_x[3], pt_y[3])
            pt4 = (pt_x[2], pt_y[2])

        xmin = int(min(pt1[0], pt2[0]))
        ymin = int(min(pt1[1], pt2[1]))
        xmax = int(max(pt2[0], pt4[0]))
        ymax = int(max(pt3[1], pt4[1]))

        if xmin < 0:
            xmin = 0
        if xmax > re_size[1] - 1:
            xmax = re_size[1] - 1
        if ymin < 0:
            ymin = 0
        if ymax > re_size[0] - 1:
            ymax = re_size[0] - 1

        width = xmax - xmin
        height = ymax - ymin

        # reimplement
        step = 16.0
        x_left = []
        x_right = []
        x_left.append(xmin)
        x_left_start = int(math.ceil(xmin / 16.0) * 16.0)
        if x_left_start == xmin:
            x_left_start = xmin + 16
        for i in np.arange(x_left_start, xmax, 16):
            x_left.append(i)
        x_left = np.array(x_left)

        x_right.append(x_left_start - 1)
        for i in range(1, len(x_left) - 1):
            x_right.append(x_left[i] + 15)
        x_right.append(xmax)
        x_right = np.array(x_right)

        idx = np.where(x_left == x_right)
        x_left = np.delete(x_left, idx, axis=0)
        x_right = np.delete(x_right, idx, axis=0)

        if not os.path.exists('label_tmp'):
            os.makedirs('label_tmp')
        with open(os.path.join('label_tmp', stem) + '.txt', 'a') as f:
            for i in range(len(x_left)):
                f.writelines("text\t")
                f.writelines(str(int(x_left[i])))
                f.writelines("\t")
                f.writelines(str(int(ymin)))
                f.writelines("\t")
                f.writelines(str(int(x_right[i])))
                f.writelines("\t")
                f.writelines(str(int(ymax)))
                f.writelines("\n")

3.4 参考知乎大神的准备数据如下：

　　数据标注

　　在标注数据的时候采用的是顺时针方向，一次是左上角坐标点，右上角坐标点，右下角坐标点，左下角坐标点(即x1,y1,x2,y2,x3,y3,x4,y4),，这里的标注方式与通用目标检测的目标检测方式一样，这里我标注的数据是生成到txt中，具体格式如下：

　　x1,y1,x2,y2,x3,y3,x4,y4 分别是一个框的四个角点的x，y坐标。这是因为作者用的mlt训练的，他的数据就是这么标注的，如果你要用一些水平文本的数据集，标注是x,y,w,h的，也是可以的，修改一下split_label的代码，或者写个小脚本把x,y,w,h转换成x1,y1,x2,y2,x3,y3,x4,y4就行。

　　数据处理

　　根据ctpn训练数据的要求，需要对上述数据（txt标注数据）进行进一步的处理，生成对应的xml文件，具体格式参考pascal voc 具体的训练数据截图和生成的pascal voc格式如下图：

　　处理数据的时候执行下面代码（和原文一致）

cd lib/prepare_training_data
python split_label.py
python ToVoc.py
cd ../../data
ln -s TEXTVOC VOCdevkit2007

　　注意：这里生成的数据会在当前目录下，文件夹为TEXTVOC，需要将该文件夹移至/data目录下，然后再做VOCdevikt2007的软连接。

3.5 准备数据注意事项

　　在原作者使用那6000张图片的话，roidb和image_index都是6000，因为使用的train和trainval是一样的，所以我们在使用自己数据训练的时候也要特别注意一点，数据的标注格式是不是与mlt这个数据集一致，因为split_label这个函数是针对mlt的标注格式来写的，所以我们原始数据标注格式如果和它不同，转化之后可能会是错的，那么得来的用来训练的数据集可能也不对。

　　cache是为了加速数据读取，所以不会每次重新生成，更换了数据集需要手动清理。

3.6 训练数据的格式是什么样子，是否需要准备图片？

　　其实想了解自己准备图片的格式，以及图片中的文字区域的坐标是否需要手动标出，才能训练。

　　上面也说了训练数据的格式是x1,y1,x2,y2,x3,y3,x4,y4 ，当然了自己标注比较麻烦，这里我们可以直接使用一些公开的数据集，原作者使用的额是multi lingual scene texts dataset。

4：训练

Simplely run

python ./ctpn/train_net.py

you can modify some hyper parameters in ctpn/text.yml, or just used the parameters I set.
The model I provided in checkpoints is trained on GTX1070 for 50k iters.
If you are using cuda nms, it takes about 0.2s per iter. So it will takes about 2.5 hours to finished 50k iterations.

4.1：对其进行翻译

简单的运行

　　你可以在ctpn/text.yml中修改一些参数，或者只使用作者设置的参数

　　作者提供的模型在GTX1070上训练了50K iters

　　如果我们正在使用cuda nms ,它每次约需要0.2秒，因此完成50k迭代需要大约2.5小时

当然，我们可以指定在那块显卡上运行，比如我这里指定选择第一块显卡上训练，训练的命令如下：

CUDA_VISIBLE_DEVICES="0" python ./ctpn/train_net.py

4.2 成功运行截图！！！

4.3：执行训练代码报的一个错误如下

AttributeError: module 'tensorflow.python.ops.gen_logging_ops' has no attribute '_image_summary'

　　tensroflow 新版本相较于一些老版本更改了一些函数和变量类型。可以到 \lib\fast_rcnn\train.py 内尝试把 build_image_summary(self) 函数整体替换为以下语句:

def build_image_summary(self):
    # A simple graph for write image summary
    log_image_data = tf.placeholder(tf.uint8, [None, None, 3])
    log_image_name = tf.placeholder(tf.string)
    from tensorflow.python.ops import gen_logging_ops
    from tensorflow.python.framework import ops as _ops
    log_image = tf.summary.image(str(log_image_name), 
        tf.expand_dims(log_image_data, 0), max_outputs=1)
    _ops.add_to_collection(_ops.GraphKeys.SUMMARIES, log_image)
    return log_image, log_image_data, log_image_name

　　也就是把原文中那句替换成下面这句：

log_image = tf.summary.image(str(log_image_name),
 tf.expand_dims(log_image_data, 0), max_outputs=1)

4.4 在训练时候，训练集扩展了2倍，目的是什么？

　　在训练时候，训练集扩展了2倍，图片倍翻转了，这样做的目的是扩展训练集。

5：部分代码解析

5.1 train_net.py的代码解析

import os.path
import pprint
import sys

#os.getcwd()返回当前工作目录  sys.path.append()用于将前面的工作目录添加到搜索路径中
sys.path.append(os.getcwd())
from lib.fast_rcnn.train import get_training_roidb, train_net
from lib.fast_rcnn.config import cfg_from_file, get_output_dir, get_log_dir
from lib.datasets.factory import get_imdb
from lib.networks.factory import get_network
from lib.fast_rcnn.config import cfg

if __name__ == '__main__':
    #存放训练参数
    cfg_from_file('ctpn/text.yml')
    print('Using config:')
    # pprint函数的pprint模块下的方法是一种标准的格式化输出方式。
    # pprint(object, stream=None, indent=1, width=80, depth=None, *, compact=False)
    # 这里是将训练的参数格式化显示出来
    pprint.pprint(cfg)
    # 读取VOC中的数据集
    imdb = get_imdb('voc_2007_trainval')
    print('Loaded dataset `{:s}` for training'.format(imdb.name))
    # 获得感兴趣区域的数据集
    roidb = get_training_roidb(imdb)

    # 返回程序运行结果存放的文件夹的路径
    output_dir = get_output_dir(imdb, None)
    # 返回程序运行时中间过程产生的文件。
    log_dir = get_log_dir(imdb)
    print('Output will be saved to `{:s}`'.format(output_dir))
    print('Logs will be saved to `{:s}`'.format(log_dir))

    device_name = '/gpu:0'
    print(device_name)

    # 获取VGG网络结构 定义网络结构
    network = get_network('VGGnet_train')

    train_net(network, imdb, roidb,
              output_dir=output_dir,
              log_dir=log_dir,
              pretrained_model='data/pretrain/VGG_imagenet.npy',
              max_iters=int(cfg.TRAIN.max_steps),restore=bool(int(cfg.TRAIN.restore)))
#采用VGG_Net 输入训练图片的数据集，感兴趣区域的数据集等开始训练。。

6，图片标注方法

　　如果想训练自己的数据集，那么我们可以自己去标注图片。本文将推荐一个十分好用的数据标注工具LabelImg。

　　这款工具是全图形界面，用Python和Qt写的，最牛的是其标注信息可以直接转化成为XML文件，与PASCAL VOC以及ImageNet用的XML是一样的。（具体如何使用，直接参考下面GitHub或者网上百度即可）

　　它来自下面的项目：https://github.com/tzutalin/labelImg
　　其中标签存储功能和“Next Image”、“Prev Image”的设计使用起来比较方便。
　　该软件最后保存的xml文件格式和ImageNet数据集是一样的。

Labelme 适用于图像分割任务的数据集制作
labellmg适用于图像检测任务的数据集制作
yolo_mark适用于图像检测任务的数据集制作
Vatic适用于图像检测任务的数据集制作

参考文献：https://zhuanlan.zhihu.com/p/37363942

http://slade-ruan.me/2017/10/22/text-detection-ctpn/

DeepSpeed Chat大模型训练【训练类ChatGPT 的大模型】 u013250861 #LLM/训练人工智能深度学习
第1章：DeepSpeed-Chat模型训练实战本章内容介绍如何使用微软最新发布的DeepSpeedChat来训练类ChatGPT的大模型。通过本章内容，你将了解：DS-Chat是什么？如何准备运行环境ChatGPT训练的基本知识DS-Chat的使用方法【观看视频解说】1DeepSpeed-Chat是什么？【观看视频解说】DeepSpeed-Chat是微软最新公布的一套工具，用于训练类ChatGP
【Golang学习之旅】分布式任务队列（使用 RabbitMQ / Kafka）程序员林北北分布式 golang 学习云原生 kafka rabbitmq java
文章目录前言1.什么是分布式任务队列？1.1消息队列的特点2.为什么使用RabbitMQ和Kafka？2.1RabbitMQ2.2Kafka3.RabbitMQ和Kafka的基本原理3.1RabbitMQ的基本原理3.2Kafka的基本原理前言在微服务架构中，处理异步任务是不可避免的需求。为了处理任务的异步执行，系统需要一个可靠的消息队列机制。消息队列能够保证消息的持久化、顺序性和可靠性，并且能够
主要空间数据挖掘方法 CodeYoung7 总结归纳数据挖掘地理信息
文章出自：http://blog.csdn.net/shaoz/article/details/6847925张新长马林兵等，《地理信息系统数据库》[M]，科学出版社，2005年2月第二章第二节空间数据空间数据挖掘是多学科和多种技术交叉综合的新领域，其挖掘方法以人工智能、专家系统、机器学习、数据库和统计等成熟技术为基础。下面介绍近年来出现的主要空间数据挖掘方法。1、空间分析方法利用GIS的各种空间
深入理解Golang中的new()和make()函数水草 golang 开发语言后端
在Go语言开发中，new()和make()是两个容易让开发者感到困惑的内建函数。尽管它们都用于内存分配，但其设计目的、适用场景和底层实现存在本质差异。本文将通过类型系统、内存模型和编译器实现三个维度，深入解析这两个函数的本质区别。一、类型系统的哲学分野1.1new()的通用性设计new(T)是为所有类型设计的通用内存分配器，其行为模式高度统一：//为int类型分配零值内存pInt:=new(int
二分查找！！！！ xiaolin0333 #二分查找算法二分查找
比如有个从小到大排列的数组：[5,7,7,8,8,10]找到第一个≥8的数的位置左闭右闭：vectornums{5,7,7,8,8,10};inttarget=8;intlower_bound1(){intl=0,r=nums.size()-1;while(l<=r){//[l,r]intm=l+(r-l)/2;if(nums[m]
aop解决防重复提交小羊炒饭 java spring
背景描述虽然前端控制了按钮不能连续点击，但是在网络信号弱的情况下，仍然会出现第一次点击，请求A网络信号弱，这个时候前端按钮仍然可以点击，然后用户点击第二次。结果两次请求全部成功，数据库生成了两条除了ID以外一模一样的数据。（业务上不允许这种数据出现）解决方式采用AOP，对于不能重复提交的接口在后端加上控制。第一步自定义注解/***@Authorztc*@Description防止重复提交自定义注解
Visual Studio Code使用ai大模型编成大得369 vscode ide 编辑器
1、在VisualStudioCode搜索安装roocode2、去https://openrouter.ai/settings/keys官网申请个免费的配置使用
在 Vue 2 中使用 Three.js 导入本地 3D 模型 cherryzm88 web vue2 javascript vue.js 前端 3d
引言Three.js是一个流行的JavaScript库，它能够帮助开发者轻松地在Web页面上创建3D内容。而Vue.js作为前端框架，可以与Three.js结合，构建交互式3DWeb应用。本篇博客将介绍如何在Vue2中使用Three.js加载本地3D模型。1.初始化Vue2项目如果你的项目还没有Vue2环境，可以使用VueCLI初始化：```shvuecreatemy-threejs-appcdm
计算机网络（4）TCP断开 tian-ming tcp/ip 计算机网络网络
1、TCP断开连接四次挥手流程TCP断开连接是通过四次挥手方式。双方都可以主动断开连接，断开连接后主机中的「资源」将被释放。2、为什么TIME_WAIT等待的时间是2MSL？3、为什么需要TIME_WAIT状态？4、拔掉网线后，原本的TCP连接还存在吗？可能有人觉得网线都被拔掉了，那说明物理层被断开了，那在上层的传输层理应也会断开，所以原本的TCP连接就不会存在的了。就好像，我们拨打有线电话的时候
【MySQL】表空间丢失处理（Tablespace is missing for table 错误处理） m0_74824823 面试学习路线阿里巴巴 mysql 数据库
问题背景最近，我在运行一个基于Python爬虫的项目时，爬虫需要频繁与MySQL数据库交互。不幸的是，在数据爬取过程中，Windows系统突然强制更新并重启。这次意外中断导致MySQL数据库的三个表格（2022年、2023年和2024年的数据表）出现了“Tablespaceismissing”的错误。起初，我尝试了常规的CHECKTABLE和REPAIRTABLE方法，但这些都没有解决问题。最终，
全开源商城源码后台php全端uniapp 全开源可二开功能强大商城系统源码专业软件系统开发源码下载全开源商城源码
内容目录一、详细介绍二、效果展示1.部分代码2.效果图展示三、学习资料下载一、详细介绍内置8中搭配主色(可自行扩展更多配色)、自由快捷切换适应各大行业需求已支持小程序（微信、QQ、百度、支付宝、头条&抖音、快手）+H5+APPApp.vue中修改request_url和static_url地址为自己的商城地址即可使用主题默认为红色(red)，如更改主题App.vue文件中修改default_the
鸿蒙初学者学习手册(HarmonyOSNext_API14)_组件截图（@ohos.arkui.componentSnapshot (组件截图) ）余多多_zZ harmonyos 学习华为鸿蒙鸿蒙系统
前言：这个模块可以截取组件的图片，无论组件是否已加载。截图只能拍到组件本身的大小区域。如果组件或其子组件画得超出了自己的区域，超出的部分不会出现在截图中。截图不会拍到与当前组件平级的（兄弟）组件。模块简介和注意：-XComponent场景建议：如果你正在开发一个视频播放器，应该直接从视频画面获取图片，而不是使用组件的截图功能。-组件截图注意事项：如果有一个按钮，但按钮周围有空白，截图时会显示这些空
代码随想录算法营Day44 ｜ 198. 打家劫舍，213. 打家劫舍 II，337. 打家劫舍 III 寂枫zero 算法数据结构 python leetcode
198.打家劫舍这道题要求不能偷相邻的房子，那么它的动态转移公式就是dp[i]=max(dp[i-1],dp[i-2]+nums[i])即当前索引能抢的最大值就是前一个索引的值与i-2的索引的值加上当前金额的最大值。defrob(self,nums:List[int])->int:iflen(nums)int:n=len(nums)ifnint:defhelp(root):ifnotroot:re
Java 开发中用于打印完整 SQL 语句的插件（嘎嘎有用）一口酥Hac java java sql 开发语言
文章目录背景MybatisLogFree插件使用背景在java开发中，sql日志常以问号（?）作为参数占位符，这使得调试时需要手动将问号替换为实际的参数值。对于参数较少的情况，手动替换相对简单；但当参数较多时，这一过程不仅繁琐，还容易出现错误。有对应的插件为我们解决了这个问题。MybatisLogFree插件一款IDEA插件，它能够自动将问号占位符替换为相应的参数值。打印出完整的sql语句。安装插
threejs将stl文件格式类型转为drc压缩文件类型 ccc陈陈陈 c++前端 javascript
前言项目中通过添加文件后，将stl格式的模型文件加载到场景中，后续发现stl格式文件太大，普遍是十几兆，最后研究出将stl格式文件转为drc格式文件加载，场景加载模型的过程只需要几秒即可，接上来上代码//整个项目是vue3+js的项目，通过vite进行打包，使用的pinia来替代的vuex，因为vuex已经很久没更新最新版本了，pinia是尤大神推荐的库，小伙伴可以了解下，使用方法类似但是更为简便
Kafka消息服务之Java工具类不会飞的小龙人 Java kafka java 消息队列 mq
注：此内容是本人在另一个技术平台发布的历史文章，转载发布到CSDN；ApacheKafka是一个开源分布式事件流平台，也是当前系统开发中流行的高性能消息队列服务，数千家公司使用它来实现高性能数据管道、流分析、数据集成和关键任务应用程序。Kafka可以很好地替代更传统的消息代理。消息代理的使用原因多种多样（将处理与数据生产者分离开来、缓冲未处理的消息等）。与大多数消息系统相比，Kafka具有更好的吞
网络分析工具-tcpdump 锅锅来了 Linux性能优化原理和实战 tcpdump php 网络网络协议疑难杂症
文章目录前言一、tcpdump基础官网链接命令选项详解常规过滤规则tcpdump输出一、tcpdump实践HTTP协议ICMP状态抓包前言当遇到网络疑难问题的时候，抓包是最基本的技能，通过抓包才能看到网络底层的问题一、tcpdump基础tcpdump是一个常用的网络分析工具。它基于libpcap，利用内核中的AF_PACKET套接字，抓取网络接口中传输的网络包。我们对网卡进行抓包的时候，会使得网卡
集成测试详解飞滕人生TYF 集成测试测试
集成测试详解集成测试（IntegrationTesting）是一种软件测试方法，用于验证多个模块或组件之间的交互是否符合预期。它在单元测试之后执行，确保各模块在组合后能够协同工作。一、集成测试的定义集成测试的重点是测试模块之间的接口和交互，而不是单个模块的功能。目标是发现模块集成过程中可能存在的问题，如数据格式不匹配、通信协议错误或逻辑交互缺陷。二、集成测试的特点模块交互性：测试模块间的通信是否正
ChatGPT和DeepSeek打造科研与办公的高效引擎 AAIshangyanxiu 编程算法统计语言农林生态遥感 chatgpt
一、2024大语言模型最新进展与ChatGPT各模型讲解1、2024AIGC技术最新进展介绍（生成式人工智能的基本概念与原理、最新前沿技术和发展趋势简介）2、国内外大语言模型（ChatGPT4O、Gemini、Claude、Llama3、PerplexityAI、文心一言、星火、通义千问、Kimi、智谱清言、秘塔AI等）对比分析3、OpenAI12天12场直播新功能解读与演示（ChatGPTO1模
C#中的设计模式：构建更加优雅的代码 Envyᥫᩣᩚ c#开发语言
C#在面向对象编程（OOP）方面的强大支持，我们可以探讨“C#中的设计模式”。这不仅有助于理解如何更好地组织代码，还能提高代码的可维护性和可扩展性。引言设计模式是软件工程中经过实践验证的解决方案模板，它们提供了一种标准化的方法来解决常见的开发问题。对于使用C#进行开发的程序员来说，理解和应用这些模式可以帮助创建结构良好、易于维护和扩展的应用程序。本文将介绍几种常用的设计模式，并展示如何用C#实现它
【数据挖掘】ARFF格式与数据收集布鲁惠比寿数据挖掘数据挖掘人工智能
【数据挖掘】ARFF格式与数据收集三级目录1.ARFF格式与数据收集2.稀疏数据3.属性类型4.缺失值与不正确的值5.了解数据6.知识表达7.聚类机器学习算法训练数据挖掘分析数据共享与交换三级目录1.ARFF格式与数据收集ARFF（Attribute-RelationFileFormat）是一种用于存储数据集的文本文件格式，常用于机器学习和数据挖掘领域。它可以表示结构化数据，包括属性定义、关系信息
Python 继承详解江湖一条鱼 python
继承是面向对象编程（OOP）的一个重要特性，允许一个类（子类）从另一个类（父类）继承属性和方法。继承可以提高代码的重用性，增强程序的可扩展性和可维护性。目录一、继承的作用二、继承的语法1.单继承2.多继承三、子类扩展1.添加新功能2.重写父类方法3.调用父类方法四、继承的特殊情况1.子类初始化父类2.方法解析顺序（MRO）五、抽象类与接口1.抽象类2.接口3.ABC类4.使用方法1.定义抽象基类2
常用网络工具分析（ping，tcpdump等）一户董杂 tcpdump 网络
写在前面本文看下常用网络工具。1：ping1.1：用途用于检验网络的连通性。1.2：实战在Linux环境中执行：pingwww.sina.com.cn：[root@localhost~]#pingwww.sina.com.cnPINGspool.grid.sinaedge.com(111.62.129.51)56(84)bytesofdata.64bytesfrom111.62.129.51(11
【如何学习商城源码】启山智软商城源码微信小程序小程序 java
学习商城源码是一个系统而深入的过程，需要掌握多种方法和技巧。以下是一些建议，帮助你有效地学习商城源码：一、搭建学习环境准备开发工具编程语言相关：根据商城源码使用的编程语言，安装相应的集成开发环境（IDE）。例如，若源码是Java语言编写的，可安装IntelliJIDEA或Eclipse；若是Python语言，可选择PyCharm等。这些IDE能帮助你高效地编辑、调试代码，提供语法高亮、自动补全等功
从零创建一个 Django 项目 m0_74824823 面试学习路线阿里巴巴 django python 后端
1.准备环境在开始之前，确保你的开发环境满足以下要求：安装了Python(推荐3.8或更高版本)。安装pip包管理工具。如果要使用MySQL或PostgreSQL，确保对应的数据库已安装。创建虚拟环境在项目目录中创建并激活虚拟环境，保证项目依赖隔离：#创建虚拟环境python-mvenvenv#激活虚拟环境#WindowsenvScriptsactivate#Linux/Macsourceenv/
集成测试总结文档脚本之家集成测试
1.集成测试的定义集成测试（IntegrationTesting）是在单元测试之后，将多个独立的软件模块或组件组合在一起进行测试的过程，目的是验证这些模块之间的接口、数据传递、协作逻辑是否符合设计要求，并发现因集成引发的缺陷。2.集成测试的核心目标检测模块/组件间的接口错误（如参数传递错误、数据格式不一致）。验证集成后的功能是否符合系统设计预期。确保全局数据结构在跨模块使用时的一致性。发现资源冲突
C++ 游戏开发：从零到英雄的进阶之旅孤寂大仙v c++c++android
在当今数字化时代，游戏开发已然成为极具吸引力与挑战性的领域。C++作为游戏开发中极为常用的语言之一，凭借其高性能和强大功能，长久以来都是游戏开发者的心头好。若你对游戏开发满怀热忱，却不知如何起步，这篇博客就将为你揭开C++游戏开发的神秘面纱，引领你踏上从新手到高手的进阶之路。一、为什么选择C++进行游戏开发？在游戏开发的广袤天地里，编程语言的抉择至关重要。C++以其独有的优势，成为众多开发者的不二
量子测量：如何从量子状态获取信息？ Ash Butterfield 量子计算机学习计划量子计算人工智能
量子测量是量子力学中的一个基本概念，它涉及如何从量子系统中获取信息。与经典物理不同，量子系统的状态并不是一个确定的值，而是由多个可能的状态组成的概率波函数，测量过程在其中扮演了至关重要的角色。量子测量不仅为我们提供了对量子系统的理解，也引发了许多深刻的哲学和物理学问题。本文将详细讨论量子测量的基本概念、量子态的表示、测量过程的理论基础以及一些重要的量子测量实验。1.量子态的表示在量子力学中，物理系
CCF-CSP 2013-12（前四题）啦哈拉哈算法数据结构
提前声明：由于本人自身能力，只做了前四题，根据acwing上面的CCF-CSP辅导写的。第一题：出现次数最多的数问题描述给定n个正整数，找出它们中出现次数最多的数。如果这样的数有多个，请输出其中最小的一个。输入格式输入的第一行只有一个正整数n(1≤n≤1000)，表示数字的个数。输入的第二行有n个整数s1,s2,…,sn(1≤si≤10000,1≤i≤n)。相邻的数用空格分隔。输出格式输出这n个次
代码随想录打卡第五十一天 zengy5 代码随想录刷题流程深度优先算法图论 c++leetcode
代码随想录–图论部分day51图论第二天文章目录代码随想录--图论部分一、卡码网99--岛屿数量二、卡码网100--岛屿的最大面积一、卡码网99–岛屿数量代码随想录题目链接：代码随想录给定一个由1（陆地）和0（水）组成的矩阵，你需要计算岛屿的数量。岛屿由水平方向或垂直方向上相邻的陆地连接而成，并且四周都是水域。你可以假设矩阵外均被水包围。没太看懂教程的解法，所以这里是自己的做法正常把图存进来，遍历
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默

实现text-detection-ctpn一路的坎坎坷坷

文本检测概述

1，参数设置

parameters

1.1 对其进行翻译如下：

2：环境设置

setup

2.1 对其进行翻译如下：

3：准备数据

prepare data

3.1 对其进行翻译

3.2 数据是否只有VOC2007？

3.3 存放数据

3.4 参考知乎大神的准备数据如下：

数据标注

数据处理

处理数据的时候执行下面代码（和原文一致）

3.5 准备数据注意事项

3.6 训练数据的格式是什么样子，是否需要准备图片？

4：训练

4.1：对其进行翻译

4.2 成功运行截图！！！

4.3：执行训练代码报的一个错误如下

4.4 在训练时候，训练集扩展了2倍，目的是什么？

5：部分代码解析

5.1 train_net.py的代码解析

6，图片标注方法

你可能感兴趣的:(实现text-detection-ctpn一路的坎坎坷坷)

　　数据标注

　　数据处理

　　处理数据的时候执行下面代码（和原文一致）