zzwwllii

Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes

Mask TextSpotter

摘要

Mask TextSpotter利用了端对端学习流程的简单和顺利的优势，通过语义分割获得更准确的文本检测和识别。而且，在处理不规则形状的文本实例中，如弯曲文本，优于之前的方法。

引言

近年来，场景文本检测和识别逐渐吸引了机器视觉领域中的研究兴趣，尤其是在神经网络复兴及图像数据集增长后。由于文本检测和识别提供了一个自动快速的方法来获得在自然场景中包含的文本信息，有利于很多真实世界的应用，如地理定位、即时翻译和辅助盲人。

Scene text spotting旨在同时定位和识别自然场景中的文本，在之前有很多工作研究。但是，大多数工作中，除了【27】和【3】，文本定位和后续的识别是分开处理的。首先用一个训练好的检测器从原始图片中获得文本区域，然后送到识别模块。这个流程看似简单自然，但是可能导致对于检测和识别不是最优的结果，因为这两个任务有着很高的相关性和互补性。一方面，检测质量很大程度决定了识别准确率；另一方面，识别结果可以反馈回去帮助检测阶段去除错误的正样本（FP）。

最近，针对场景文本spotting，提出了两个端对端训练的网络框架。受益于检测和识别之间的互补性，这些统一的模型很大程度上由于之前的方法。但是，在【27】和【3】中有两个主要的缺点。首先，它们都不能完全以端对端的形式进行训练。【27】在训练阶段用了课程学习模式，这里用于文本识别的自网络在前边的迭代中固定，每个阶段的训练数据也是很仔细的选择。【3】首先是分开预训练网络的检测和识别，然后联合训练直到收敛。这里主要有两个原因阻止【27】和【3】以一个流畅的端对端的形式进行模型训练。一是，文本识别部分在训练时要求准确的定位，同时在早期的迭代中定位通常是不准确的。另外，适用的LSTM和CTC loss比普通的CNN难优化。【27】和【3】的第二个限制是这些方法只关注阅读水平或有角度的文本。但是在真实世界场景中的文本实例的形状可能变化很大，形成水平的、多方向的及弯曲的形式。

在本文中，我们提出了个名为Mask TextSpotter的文本spotter，可以检测和识别任意形状的文本实例。这里，任意形状表示在真实世界中的各种形式的文本实例。受可以生成目标的形状掩模的Msak R-CNN的启发，我们通过分割实例文本区域来检测文本。因此我们的检测器可以检测任意形状的文本。除此之外，不同于之前的基于序列的识别方法，设计一维序列，我们通过在2-D的语义分割来识别文本，来解决理解不规则文本实例。另外一个优势就是识别不要求准确的定位。所以，检测任务和识别任务可以完全进行端对端的训练，受益于特征共享和联合优化。

我们在包括水平、多方向和弯曲文本的数据集上验证了我们模型的有效性。结构说明了提出算法在文本检测和端对端的文本识别任务的优势。明确地，在ICDAR2015上，在单一尺度评估，我们的方法在检测任务上获得0.86的F-Measure，比之前端对端是别人五中最高的效果高了13.2%-25.3%。

本文的主要贡献有四部分。（1）、我们针对文本spotting提出了一个可端对端训练的模型，一个简单流畅的训练方案。（2）、提出的方法可以检测和识别各种形状的文本，包括水平、多方向及弯曲文本。（3）、与之前的方法对比，我们的方法通过语义分割获得了准确的文本定位和识别。（4）、我们的方法在很多基准上，在文本检测和文本spotting上都获得了最优的效果。

相关工作

2.1、场景文本检测

在场景文本识别系统中，文本检测扮演着重要的角色。已经提出了大量的方法来检测场景文本。【21】中，Jaderberg等人用Edge Boxes生成候选框，然后用回归来微调候选框。【54】Zhang等人利用文本的对称性来检测场景文本。用精心的设计修改来改进Faster R-CNN和SSD，【56】和【30】被提出来检测水平文字。

近年来多方向场景文本检测成为了很热的话题。【52】Yao等人和【55】Zhang等人通过语义分割来检测多方向场景文本。【48】Tian和【43】Shi提出的方法是首个检测文本片段，然后通过空间关系或连接预测将其连接为文本实例。【57】Zhou和【16】He直接从密集分割图来回归文本框。【35】Lyu等人提出检测文本的角点并将其分组，然后生成文本框。【31】Liao提出了针对多方向场景文本检测的方向敏感回归。

对比流行的水平或多方向的场景文本检测，这里很少有工作关注任意形状的文本实例。最近，由于现实生活中的应用需求，任意形状的文本检测吸引了越来越多研究者的关注。在【41】中，Risnumawan等人提出了一个基于文本对称性的任意文本检测系统。在【4】中，提出了一个关注曲线方向文本检测的数据集。不同于上边提到的大部分方法，我们提出了通过实例分割来检测场景文本，可以检测任意形状的文本。

2.2、场景文本识别

场景文本识别【53】、【46】旨在将检测到的或者分割出的图片区域编码为字符序列。之前的场景文本识别方法可以大概分为三个分支：基于字符的方法、基于单词的方法和基于序列的方法。基于字符的识别方法【2】、【22】大多数首先定位单个字符然后识别再将其组合为单词。在【20】中，Jaderberg等人提出基于单词的方法，将文本识别看作是通常的英文单词（90k）的分类问题。基于序列的方法将文本识别看作是序列标签问题来解决。在【44】中，Shi等人用CNN和RNN来构建图像特征，用CTC输出识别序列。在【26】、【45】中，Lee等人和Shi等人通过基于注意力的序列-序列的模型来识别场景文本。

在我们提出的框架中的文本识别部分可以分为基于字符的方法。但是，对于之前基于字符的方法，我们用FCN同时定位和分类字符。此外，和设计为1-D序列的基于序列的方法对比，我们的方法更适合处理不规则文本（多方向文本、弯曲文本等）。

2.3、场景文本Spotting

之前的文本spotting方法大部分是将spotting过程分为两阶段。首先用一个场景文本检测器【21】、【30】、【29】来定位文本实例，然后用文本识别器【20】、【44】来获得识别文本。在【27】、【3】中，Li和Busta等人提出了端对端的方法来在一个统一的网络中检测识别文本，但是要求相对复杂的训练流程。对比这些方法，我们提出的文本spotter不仅可以进行完全端对端的训练，而且可以检测识别任意形状的场景文本。

2.4、一般的目标检测和语义分割

随着深度学习的发展，通常的目标检测和语义分割已经获得了很大的进展。大量的目标检测和分割方法被提出。受益于这些方法，场景文本检测和识别在过去的几年里也获得了明显的进步。我们的方法也是受这些方法的启发。明确的，我们的方法利用了通常的目标实例分割模型Mask R-CNN。但是，在我们的方法中的mask分支和Mask R-CNN中的分支之间，有一些关键的不同点。我们的mask分支不仅可以分割文本区域，还可以预测字符概率map，这就意味着我们的方法可以用于识别字符map中的实例序列而不是仅仅预测目标mask。

3、方法

提出的方法是一个可进行端对端训练的文本spotter，可以处理各种形状的文本。它包括一个基于实例分割的文本检测器和一个基于字符分割的文本识别器。

3.1、框架

我们提出的方法的总体结构如图2所示。功能上，框架包括四个部分：一个特征金字塔网络（FPN）作为backbone，一个区域建议网络（RPN）来生成文本候选框，一个Fast R-CNN来进行边界框回归，一个mask分支来进行文本实例分割和字符分割。在训练阶段，首先用RPN来生成大量文本候选框，然后候选框的RoI特征送入到Fast R-CNN分支中，mask分支生成准确的文本候选框、文本实例分割map以及字符分割map。

Backbone 自然图像中的文本大小变化很大。为了在所有的尺度上构建高级别的语义特征map，我们利用了有50层深的ResNet的FPN主干网络。FPN利用top-down的结构来融合来自同一尺度输入的不同分辨率的特征，用一点代价来提高准确率。

RPN RPN是用于为后续的Fast R-CNN和mask分支生成文本候选框的。根据【32】，我们根据anchor大小在不同阶段分配anchor。明确的，anchors的面积在五个阶段 {P2 ,P3 ,P4 ,P5,P6 }分别为。在每个阶段采用的不同的宽高比{0.5，1，2}也和【40】中一样。以这种方式，RPN可以处理各种大小和宽高比的区域。采用RoI Align提取候选框的区域特征。对比RoI Pooling，RoI Align保留了更准确的位置信息，这对在mask分支的分割任务是很有益的。注意到没有针对文本采用特殊的设计，例如特定的宽高比或带角度的anchor，像之前工作那样【30】、【15】、【34】.

Fast R-CNN 这个Fast R-CNN分支包括一个分类任务和一个回归任务。这个分支的主要功能是为检测提供更准确的边界框。Fast R-CNN的输入是7*7的分辨率大小，是RPN从候选框用RoI Align生成的。

Mask Branch 在mask分支中有两个任务，包括全局文本实例分割任务和一个字符分割任务。如图3所示，给定输入RoI，大小固定为16*64，通过4层卷积和一个反卷积层，mask分支预测38个map（大小为32*128），包括一个全局文本实例map，36个字符map和一个字符的背景map。全局文本实例map可以给出一个文本区域的准确定位，不管文本实例的形状。字符map是36个字符的map，包括26个字母和10个阿拉伯数字。字符的背景map不包括字符区域，用于后处理。

3.2、标签的生成

为了用输入图像I和对应的ground truth训练简单，我们为RPN、Fast R-CNN和mask分支生成目标。一般来说，ground truth包括和，这里是一个多边形，表示文本区域的位置，分别是字符的类别和位置。值得注意的是，在我们的方法中不是对所有训练样本都是必须的。

我们首先将多边形转换为水平最小外接矩形。然后根据【8、40、32】（Fast R-CNN 、Faster R-CNN、RPN）为RPN和Fast R-CNN生成目标。对于mask分支，用ground truth需要生成两种目标map，C（可能不存在）和RPN生成的候选框一样：一个用于文本实例分割的全局map和一个用于字符语义分割的字符map。给定一个正的候选框r，我们首先用【8、40、32】中的匹配机制获得最匹配的水平矩形。字符的对应得多边形也可以进一步获得。接下来，匹配得多边形和字符边界框平移，resize来对齐proposal和H*W得目标map，如下边公式：

这里是多边形和所有字符边界框更新后和原始得顶点。是候选框r得顶点。

这之后，可以通过在初始为0的mask上画标准多边形，用1填充多边形区域，生成目标全局map。字符map生成如图4a所示。我们首先收缩所有的字符边界框，通过固定它们的中心点，将边缩短为原来的四分之一。然后，在收缩后字符边界框里边的像素值设为它们对应的类别索引值，那些在收缩字符边界框外边的设为0。如果没有字符边界框标注，则所有值设为-1。

3.3、优化

如在3.1部分讨论的，我们的模型包括多个任务，我们自然的定义一个多任务loss函数：

这里是RPN和Fast R-CNN的loss函数，与【40】和【8】中的等价。Mask loss 包括全局文本实例分割loss 和字符分割loss

这里是一个平均二值交叉熵loss，是一个带权值得空间soft-max loss。在本文工作中，根据经验设置为1.0

Text instance segmentation loss 文本实例分割任务得输出是一个单一得map。N为全局map中得像素点数，是像素标签，是输出像素，我们定义如下：

这里S(x)是一个sigmoid函数。

Character segmentation loss 字符分割得输出包括37个map，对应37类（36类字符和背景类）。T为类别数，N是每个map中得像素点数。输出Map X可以看作是N*T得矩阵。以这种形式，权值空间soft-max loss可以定义为如下：

这里Y是X对应得ground truth。权重W用于平衡正样本（字符类）和背景类得损失值。背景像素得数量为，背景类得索引值为0，权值可以计算如下：

注意在推理时，sigmoid函数和soft-max函数分别用于生成全局map和字符分割map。

3.4、Inference

不同于训练过程mask分支得输入RoIs来自RPN，在推理阶段，我们用Fast R-CNN的输出作为proposals来生成预测全局map和字符map，因为Fast R-CNN的输出更准确。

明确地，推理过程如下：首先，输入一张测试图片，我们获得如【40】那样Fast R-CNN的输出，用NMS过滤冗余候选框；然后，保留的候选框送入到mask分支生成global maps 和character maps；最后，通过在global map上直接计算文本区域的轮廓来获得预测多边形，用我们提出的像素投票算法在character map上生成字符序列。

Pixel Voting 我们用我们提出的像素投票算法将预测的字符map解码为字符序列。我们首先二值化背景map，值是从0到255，阈值为192.然后我们根据在二值化map中的连接区域获得所有字符区域。我们针对所有字符map计算每个区域的均值。这个值可以看作是区域字符类别概率。具有最大均值的字符类分配给该区域。这之后，我们根据英文的书写习惯将所有字符从左至右组合起来。

Weighted Edit Distance Edit 编辑距离可以用一个给定的词典找预测序列最匹配的单词。但是，可能同时有很多个单词匹配最小编辑距离，算法不能决定哪个是最好的。上边提到的问题的主要原因是在原始编辑距离算法中的所有操作（删除、插入、代替）都很相同的成本，实际是不合理的。

受【51】启发，我们提出了权值编辑距离算法。如图5所示，不同于编辑距离，不同的操作对应相同的成本，我们提出的权值编辑距离的代价依赖于通过像素投票生成的字符概率。数学上，两个字符串a和b之间的权值编辑距离，它们的长度分别是|a|和|b|可以用描述，这里

这里是指示函数，当时等于0，否则为1；是a的第i个字符和b的第j个字符之间的距离；分别是删除、出入和替换的成本。相比之下，这些成本在标准编辑距离中都设为1。

4、实验

为了验证提出算法的有效性，我们进行了实验，在三个公开数据集上和其他最优的算法进行对比：一个水平方向的文本集ICDAR2013，一个多方向文本集ICDAR2015和一个弯曲文本集合Total-Text。

4.1、数据集

SynthText 是【12】中提出的人造数据集，包括80k张图片。在这个数据集中的大多数文本实例是多方向的，并且用旋转边界框标注了单词和字符级别，和文本序列一样。

ICDAR2013是在ICDAR 2013 Robust Reading Competition的挑战2中提出的数据集，比赛主要是自然场景图片中的水平文本检测和识别。

ICDAR2015是在ICDAR 2015 Robust Reading Competition的挑战4中提出的。和关注特定场景的聚焦文本的ICDAR2013相比，ICDAR2015更关心偶然场景中的文本检测和识别。所有的训练图片都是用单词级别的四边形标注的，同时有对应的文本。值得注意的是，在我们的训练阶段只用到单词的定位标注信息。

Total-Text是在【4】中提出的一个复杂场景文本数据集。除了水平文本和多方向文本，Total-Text也包括了大量的弯曲文本。Total-Text包括1255张训练图片和300张测试图片。所有的图片是用多边形标注的以及单词级别的文本。值得注意的是，我们在训练阶段只用了定位标注。

4.2、实现细节

Training 不同于之前的用两个独立的模型（检测器和识别器）或交替训练策略的文本spotting方法，我们模型的所有子网络可以同时进行端对端的训练。整个训练过程包括两个阶段：在SynthText上的预训练和在真实世界数据上的微调。

在预训练阶段，我们将mini-batch设为8，所有输入图像的短边resize到800，同时保持图像的纵横比。RPN和Fast R-CNN的batch size设为每张图256和512，同时正负样本比为1：3。Mask分支的batch size为16。

在微调阶段，由于缺少真实样本，采用了数据增强和多尺度训练策略。明确的，对于数据增强，我们在一定的角度范围内[-15°,15°]随机旋转输入图片。一些其他的增强tricks，如随机修改色度、亮度、对比度，也是根据【33】SSD中的使用的。对于多尺度训练，输入图像的短边随机resize到三个尺度（600，800，1000）。此外，根据【27】，额外的针对字符检测的来自【56】的1162张图像也作为训练样本。图像的mini-batch保持为8，在每个mini-batch中，对于SynthText, ICDAR2013, ICDAR2015, Total-Text和额外的图像，这些不同数据集的样本比例设为4：1：1：1：1。RPN和Fast R-CNN的batch size保持和预训练阶段一致，mask分支的在微调时设为64。

我们用SGD优化我们的模型，权值衰减为0.0001以及momentum为0.9。在预训练阶段，我们训练模型170k次迭代，初始学习率为0.005。然后在120k次迭代时学习率衰减到十分之一。在微调阶段，初始学习率为0.001，然后在40次迭代时减少到0.0001.微调过程在80k次迭代终止。

Inference 在推理阶段，输入图像的尺度依赖不同的数据集。NMS后，1000个候选框送到Fast R-CNN中。错误预警和冗余候选框分别被Fast R-CNN和NMS过滤。保留下来的候选框输入到mask分支来生成全局文本map和字符map。最后，文本实例边界框和序列用预测map生成。

我们在Caffe2中实现我们的模型，在正规的工作平台Nvidia Titan Xp GPUs进行所有的实验。模型可以并行训练，在单一的GPU上评估。

计算机网络学习----Https协议典孝赢麻崩乐急计算机网络学习 https
在互联网通信中，数据安全始终是核心需求。当用户在浏览器中输入https://访问网站时，背后隐藏着一套复杂的安全机制——HTTPS（HypertextTransferProtocolSecure）。它通过TLS/SSL协议对HTTP通信加密，而支撑这一加密体系的核心正是证书体系。本文将详细解析HTTPS的证书体系、加密通信流程、核心作用、优缺点，并结合代码示例说明其实现逻辑。HTTPS是什么？HT
Spring boot+LogBack+MDC实现链路追踪十一技术斩 java 后端 springboot spring
MDC介绍MDC(MappedDiagnosticContext，映射调试上下文)是log4j、logback及log4j2提供的一种方便在多线程条件下记录日志的功能。MDC可以看成是一个与当前线程绑定的哈希表，可以往其中添加键值对。MDC中包含的内容可以被同一线程中执行的代码所访问。当前线程的子线程会继承其父线程中的MDC的内容。当需要记录日志时，只需要从MDC中获取所需的信息即可。API说明：
HTTP,HTTPS 之凹の鸥 http https 网络协议
在网络工程师、开发工程师、运维工程师等岗位的面试中，HTTP/HTTPS是高频必考知识点，尤其在前端、后端、测试、DevOps等与网络通信相关的职位中。以下是系统化的核心考点梳理，涵盖基础概念、协议机制、安全特性及应聘高频问题。一、HTTP基础1.HTTP的核心概念(1)HTTP的定义与作用定义：HTTP（HyperTextTransferProtocol，超文本传输协议）是应用层协议，用于在客户
jvm分析篇---1、先认识下dump文件布朗克168 jvm jvm java 内存 dump
目录一、简介二、生成方式三、JavaWeb项目配置参数四、最佳实践一、简介Dump文件是JVM在运行过程中生成的内存快照文件，主要用于诊断Java应用的内存问题（如内存泄漏、OOM错误）和线程状态分析。在JavaWeb项目中，常见的dump文件类型包括：堆Dump（HeapDump）记录JVM堆内存中所有对象的详细信息，包括对象类型、引用关系和内存占用。$$\text{文件大小}\approx\t
使用C#调用webApi
1、restClient类usingSystem;usingSystem.Collections.Generic;usingSystem.IO;usingSystem.Linq;usingSystem.Net;usingSystem.Text;usingSystem.Web;namespaceTask10WebApi{publicclassRestClient{//////请求服务器地址///pr
简单WEB登录页面代码实现逆流的飞鱼简单代码 java
longin.html：登录页面，此处action引用**/**类型的地址，JSP可以用${pageContext.request.contextPath}/LS用户名:密码：LoginServlet.java用户和前台WEB页面数据进行交互packageit.tongyou.web.servlet;importjava.io.IOException;importjava.io.PrintWrit
OEC 刷机Armbain 25.05后配置说明
DHCP调整为固定IPnano/etc/netplan/00-default-use-network-manager.yaml#AddedbyArmbian##Reference:https://netplan.readthedocs.io/en/stable/netplan-yaml/##LetNetworkManagermanagealldevicesonthissystem.#Anydevi
如何区分Bug是前端问题还是后端问题？海姐软件测试缺陷管理 bug 前端
在软件测试中，精准定位Bug的归属（前端or后端）是高效协作的关键。以下是系统化的排查方法，结合技术细节和实战技巧：1.核心判断逻辑「数据vs展示」二分法：后端问题：数据本身错误（API返回错误数据/逻辑错误/数据库问题）前端问题：数据正确但展示异常（UI渲染错误/交互逻辑问题）2.四步定位法第一步：抓包分析（必做）工具：ChromeDevTools>Network/Fiddler/Charles
重学前端007 --- 响应式网页设计 CSS 排版 Sapphire～前端前端
文章目录导入字体总结浏览器给元素添加的默认值text-indent:-8px;1.text-indent属性的作用2.总结其他css导入字体这将导入OpenSans字体系列，字体粗细值为400、700和800。总结浏览器给元素添加的默认值元素默认外边距（Margin）默认内边距（Padding）作用-上下0.5em~1em无标题与内容分隔上下1em无段落间距/上下1em，左右40px无列表缩进上下
Selenium Python 代码之打开网页自动填充内容并搜索 iCloudEnd
SeleniumPython代码之打开网页自动填充内容并搜索流程通过id找到文本框inputElement.send_keys(Keys.BACK_SPACE)发送删除键，清除一下之前文字inputElement.send_keys(Keys.BACK_SPACE)发送需要查询对内容并送个回车inputElement=driver1.find_element_by_id("TextBox1")in
删除XML文件中的空格 weixin_34235105 python
应要求需要删除xml文件中的空格，制表符等字符。要求双引号和xml的text属性中包含的空格不删除。1booldelSpace(QFile&file,QStringpath)23//删除file文件中的空格，双引号以及xml中text属性中的空格不删除。file为目标文件，path为新文件保存的路径及名称。4//操作成功true，失败返回false5{6QByteArrayqfile;7QText
FFMPEG 解码流程硬解码 ImTryCatchException ffmpeg 音视频
关键流程概述初始化阶段‌av_register_all()：注册所有编解码器新版本可以不调用了avformat_network_init():网络初始化avformat_alloc_context()：创建封装格式上下文avformat_open_input()：打开媒体文件流信息解析‌avformat_find_stream_info()：获取流信息av_find_best_stream()：查
扫雷游戏介绍和代码二进制person 游戏 c语言
一.介绍游戏可以通过菜单实现继续玩或者退出游戏扫雷的棋盘是9*9的格子默认随机布置10个雷可以排查雷如果位置不是雷，就显⽰周围有⼏个雷如果位置是雷，就炸死游戏结束把除10个雷之外的所有⾮雷都找出来，排雷成功，游戏结束二.界面1.初始界面2.游戏界面3.退出界面和选择错误三.代码text2.c:#define_CRT_SECURE_NO_WARNINGS1#include"game.h"voidme
5.Kotlin协程热爱Android的人 kotlin
文章目录1.协程的基本用法1.1先添加依赖库1.2开启一个协程GlobalScope.launch函数delay()函数Thread.sleep()函数runBlocking函数1.3创建多个协程launch函数suspend关键字coroutineScope函数2.更多的作用域构建器async函数withContext()函数线程参数3.使用协程简化回调的写法suspendCoroutine函数
从API到Agent：万字洞悉LangChain工程化设计 bpluo42657 langchain
——构建下一代AI应用的核心范式迁移一、传统API范式的局限性：为什么需要Agent？接口式AI的痛点python#传统NLPAPI调用示例response=openai.Completion.create(model="text-davinci-003",prompt="请翻译：Helloworld",max_tokens=50)单次请求/响应模式缺乏状态管理与上下文延续硬编码逻辑难以应对复杂场
css实现箭头进度条惜音renee
实现的目标：源码：首先写出一个基本的样式：买家下单买家付款发货买家确认收货.progress-barli{padding:0px20px;line-height:40px;background:#50abe4;display:inline-block;color:#fff;position:relative;width:180px;text-align:center;}接下来使用:after伪类画
量子生成对抗网络：量子计算与生成模型的融合革命牧之112 量子计算生成对抗网络人工智能
引言：当生成对抗网络遇上量子计算在人工智能与量子计算双重浪潮的交汇处，量子生成对抗网络（QuantumGenerativeAdversarialNetworks,QGAN）正成为突破经典算力瓶颈的关键技术。传统生成对抗网络（GAN）在图像生成、数据增强等领域已取得辉煌成就，但其参数规模与计算复杂度随着数据维度呈指数级增长。量子计算的叠加性、纠缠性和并行性，为解决这一矛盾提供了全新思路。2025年，
[特殊字符] 简易分贝仪制作（基于麦克风 + Python） qq_27684373 python 开发语言
一、基本原理1.什么是dBSPL？**声压级（SoundPressureLevel,SPL）**定义为：SPL(dB)=20⋅log⁡10(pp0)\text{SPL(dB)}=20\cdot\log_{10}\left(\frac{p}{p_0}\right)SPL(dB)=20⋅log10(p0p)ppp：声压值（单位Pa，帕斯卡）p0=20μPa=2×10−5Pap_0=20\mu\text
猫头虎推荐｜用 AI 控制硬件设备的 MCP 工具：MCP2MQTT开源项目猫头虎猫头虎 AI 探索之路人工智能开源 AIGC gpt agi prompt AI编程
猫头虎推荐｜用AI控制硬件设备的MCP工具：MCP2MQTT开源项目MCP2MQTT是一款将物联网设备接入AI大模型的框架，它通过ModelContextProtocol（MCP）与MQTT协议的桥接，使得AI能够用自然语言实时感知并控制物理硬件。无论是机器人舵机控制，还是智能家居调光调色，你都可以借助MCP2MQTT快速原型、轻松上手。用自然语言控制硬件设备AI实时响应设备状态并调整物理参数让设
【CVPR 2025】低光增强RT-X Net（红外辅助结构引导）--part2代码讲解 BOB_BOB_BOB_ 低光增强LLIE transformer 深度学习人工智能神经网络计算机视觉
【CVPR2025】本文参考论文RT-XNET:RGB-THERMALCROSSATTENTIONNETWORKFORLOW-LIGHTIMAGEENHANCEMENTTransformerDesign下面对方法论部分进行详细分析论文提出网络类似Retinexformer/SG-LLIE，感兴趣的可以在我的主页进一步学习论文地址：arxiv代码地址：github文章目录**代码段1:导入与辅助函数
微信小程序软键盘弹出的问题结城 javascript 小程序
微信小程序软键盘弹出的问题这里记录一个微信中开发的一个小问题，1.当我开发这个页面功能的时候在缩小的状态正常情况聚焦时在手机上会有一个软键盘弹出来完全遮住了我textarea输入框2.遮住状态这个时候我们还发现页面被顶了上去，头部的导航栏没有了3.解决问题html部分/防止页面被顶我们使用adjust-position属性js部分//并且加入失去焦点，得到焦点事件，通过bindfocus事件对象我
【Network Management】ComM模块中的PNState和ChannelState间的关系汽车电子嵌入式 AUTOSAR精进之路 AUTOSAR COM ComM PNC
目录前言正文1.ComMPNC状态机1.1进入COMM_PNC_FULL_COMMUNICATION的条件1.2.进入COMM_PNC_FULL_COMMUNICATION后执行的动作2.ComMChannel状态机3.ComMUser，Channel，PNC的关系4.总结前言在《【NetworkManagement】AUTOSAR局部网络管理从0到1配置实践》一文中我们介绍了如何从0到1配置PN
通俗易懂循环神经网络（RNN）指南
本文用直观类比、图表和代码，带你轻松理解RNN及其变体（LSTM、GRU、双向RNN）的原理和应用。什么是循环神经网络循环神经网络（RecurrentNeuralNetwork,RNN）是一类专门用于处理序列数据的神经网络。与前馈神经网络不同，RNN具有“记忆”能力，能够利用过去的信息来帮助当前的决策。这使得RNN特别适合处理像语言、语音、时间序列这样具有时序特性的数据。类比：你在阅读一句话时，会
NAT的核心原理以及配置 YC运维华三运维实验服务器网络华三NAT
NAT（NetworkAddressTranslation，网络地址转换）是解决IPv4地址资源枯竭的关键技术，其核心作用是在私有网络（内部网络）与公共网络（外部网络）的边界设备上，对数据包的IP地址和端口信息进行转换，实现私有IP地址与公网IP地址的映射，从而让多个内部主机共享少量公网IP访问外部网络，或让外部网络访问内部特定服务。一、NAT核心原理概述1.NAT的核心作用节省公网IP资源：通过
bmsimilarity的打分调试参数 risc123456 elasticsearch
下面给出一条极简、可复制的DSL链路：1.建索引（默认BM25）2.插入文档3.触发BM25打分的查询---1️⃣创建索引（什么都不改，就是BM25）```jsonPUT/demo{"mappings":{"properties":{"title":{"type":"text"}//默认similarity=BM25}}}```---2️⃣插入文档```jsonPOST/demo/_doc/1{"
初识Direct3D gauss 客户端编程 direct3d Direct3D null NULL parameters 工作数据结构
第一卷朦胧的3D世界第一集初识Direct3D简介我们通过2个例子来简单的认识3D1.1接口和数据结构我们首先来看看我们以后用的比较多的接口,a.IDirect3D9b.IDirect3DDevice9c.IDirect3DVertexBuffer9d.IDirect3DIndexBuffer9e.IDirect3DSurface9f.IDirect3DTexture9g.ID3DXMesh再看看
12.15 写Android UI组件遇到问题 ideal树叶 Android学习笔记 android ui webview
1.imeOptions：android键盘中的enter键图标是可以用EditText的android:imeOptions标签变更android:ems="10":设置TextView或者Edittext编辑的字符串长度为10,超出部分不显示，该属性只有android:layout_width=“wrap_content”时才显示，是march_parent时不会有变化android:layo
01[初识Direct3D]
第一卷朦胧的3D世界第一集初识Direct3D简介我们通过2个例子来简单的认识3D1.1接口和数据结构我们首先来看看我们以后用的比较多的接口,a.IDirect3D9b.IDirect3DDevice9c.IDirect3DVertexBuffer9d.IDirect3DIndexBuffer9e.IDirect3DSurface9f.IDirect3DTexture9g.ID3DXMesh再看看
Javaweb笔记笙鹿鸣 html 前端 html5
HTMLHTML网页常用基础知识网页结构JavaSEC/SClientserver客户端–服务器JavaWebB/SBroswerServer浏览器–服务器网页的组成部分：内容（结构）、表现、行为HTML:HyperTextMarkupLanguage(超文本标记语言)ALT+F2选择浏览器HTML书写规范：表示整个html页面的开始头信息标题标题body是页面的主体内容页面主体内容表示整个htm
util-linux debug 帆子_8c3a
//copyfrominclude/debug.h//*It'spossibletoinitializethemaskbycommadelimitedstringswith//*subsystemnames(e.g."LIBMOUNT_DEBUG=options,tab").Inthiscaseis//*necessarytodefinemasknamesarray.Thisfunctionali
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不

Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes

你可能感兴趣的:(Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes)