lilicao

论文阅读（XiangBai——【CVPR2017】Detecting Oriented Text in Natural Images by Linking Segments）

XiangBai——【CVPR2017】Detecting Oriented Text in Natural Images by link Segments

作者和相关链接

作者

论文下载
石葆光，白翔，Serge Belongie

方法概括

文章简述：
- 方法名字：SegLink
- 改进版的SSD用来解决多方向的文字检测问题
方法的性能
- ICDAR15 Incidental: 0.75(f)
- MSRATD500: 0.77(f), 8.9FPS (112 ms/per image)
- ICDAR2013: 85.3(f), 20.6FPS (50 ms/per image)
算法的pipeline
- 整个检测过程分两步
  - Step 1: 图像输入到ssd网络，同时输出两类信息
    1. 第一类信息是text的box信息，有两点需要注意，一是这个box是多方向的，也就是带角度信息的；另一点是box不是整个文本行（或者单词）的box，而是文本行（或者单词）的一个部分，称为segment，可能是一个字符，或者一个单词，或者几个字符，比如图fig 1中的每个黄色框即为一个segment。
    2. 第二类信息是不同box的link信息，因为segment是类似于字符级或者单词级的，但最后目标是要输出整个文本行（或者单词），所以如果按以前传统方法，是要后处理把这些segment连接成文本行（或者单词）的，文章的高明之处在于把这个link也弄到网络中去自动学习了，网络自动学习出哪些segment属于同一个文本行（或者单词），比如图fig 1中连接两个黄框的绿色线即为一个link。
  - Step 2: 有了segment的box信息和link信息，用一个融合算法得到最后的文本行（或者单词）的box（也是带方向的, x, y, w, h, θ）

Figure 1. Illustration of SegLink. The first row shows an image with two words of different scales and orientations. (a) Segments (yellow oriented boxes) detected on the image. (b) Links (green lines) detected between pairs of adjacent segments. (c) Segments connected by links are combined into whole words. (d-f) The SegLink strategy is able to detect text in arbitrary orientation and long lines of text in non-Latin scripts.

改进的SSD的地方：

- 原版SSD只输出rectangle bounding box(x, y, w, h四个参数）→加入角度信息，输出的是oriented bounding box(x, y, w, h, θ), θ表示矩形的角度（与水平方向，按顺时针为正，逆时针为负）
- 每个feature map的每个位置上有多个不同aspect ratio的default box　→每个位置上只有１个default box（加速的原因之一）
- 每层的feature map决定的default box的scale不再人工定义(10-90，平均分５次）→scale由感受野大小来决定
- 最大的亮点：网络不但学习了segment的box，也学习了segment的link关系，来表示是否属于同一个单词（或者同一文本线）
- 训练用的groundTruth除了因为多方向所以用的是旋转后的groundTruth，还要有一个link的ｇroundTruth
- 损失函数加入了link的损失项

方法的优势
- 多方向，多语言，速度快，精度高，易训练，可检测任意长度（单词或者文本行）

方法细节

word, segment, link的定义（看不是很懂？那就往下看...)
- segment: A segment is a bounding box that covers a part of a word (for clarity we use “word” here and later, but segments also can be applied to a “text line” that contains multiple words)
- link: A link connects a pair of adjacent segments, indicating that they belong to the same word. Links are not only necessary for combining segments into whole words, but also helpful for separating two adjacent words, between which the link should be predicted as negative.
- Word: Each word is composed of a number of segments with the links between all the adjacent pairs
CNN modelCombining segments with links
- 网络结构

Figure 2. The architecture of the proposed detection network. The network consists of convolutional feature layers (shown as gray blocks) and convolutional predictors (thin gray arrows). Convolutional filters between the feature layers (some have one more convolutional layer between them) are represented in the format of “(#filters),k(kernel size)s(stride)”. Segments (yellow boxes) and links (not displayed) are detected by the predictors on multiple feature layers (indexed by l), then combined into whole words by combining algorithm.

- - 若只考虑segment的box预测部分（segment detection），网络结构上和原来的ssd相似，不同的地方在于
    1. ssd最后一个pool层变成了conv11
    2. 每个feature map的每个位置上只用了一个aspect ratio = 1（不是原来的1, 2, 3, 1/2, 1/3)
    3. 输出从(x, y, w, h)变成了(x, y, w, h, θ)，论文中提到的公式１～６实际上和ssd是一样的，换汤不换药
    - - 原图大小为，第l层的feature map大小为
      - default box 的中心位置（这个怀疑公式是不是写错了? 应该是x_a=(x+0.5）/wL*wi...?)

- - - - default box 的scale设置不再是人工设置，而是与感受野大小相关
        
        原来的ssd的scale: a_r表示default box的长宽比，sk表示第k层的default box的scale。s_min=0.2, s_max=0.9, m = 6。

- - - - 现在的ssd的scale: 分子w_I表示输入的原图大小，分母w_l表示第l层的feature map的大小，所以w_I/w_l可以表示该层的神经元的感受野。比如原图８＊８，现在feature map只剩４＊４了，说明，现在的每个像素对应原来的（８／４）×（８／４）＝　２＊２的区域，所以default box的大小设置应该与这个感受野成正比。

- - - - 预测的offsets里除了Δx, Δy, Δw, Δh,　多了一个Δθ

- within-layer link and cross-layer link detection
  - within-layer link：在同一个feature map层（conv 4_3, conv7, conv8_2, conv9_2, conv10_2, conv11这六层后面接３＊３的filters进行prediction)，每个segment与它周围的８连通的８个邻居的segment的连接情况，每个link有两个分数，一个用是正分，一个是负分，正分用来表示二者是否属于同一个单词，是否应该连接；负分表示二者是否属于不同单词，是否应该断开连接。所以，每个segment的link应该是８＊２＝１６维的向量。neighbor的规范化定义如公式(9)。如图Fig 3中的(a)图，黄色框的邻居为两个蓝色框，他们之间有link（绿色的线），表示属于同一个单词。

Figure 3. Within-Layer and Cross-Layer Links. (a) A location on conv8˙2 (yellow square), its 8-connected neighbors (blue squares). Two within-layer links (green lines) connect a segment (yellow box) and its two neighboring segments (blue boxes) on the same layer. (b) Two cross-layer links connect a segment on conv9 2 (yellow) and two segments on conv8 2.

- - cross-layer link： 因为同一个单词可能在不同层上都检测到了，只不过segment的大小有所不同。所以为了解决这种重复检测的冗余问题，引入了这个跨层链接。在相邻两层的feature map上，后面那层的segment的邻居除了自己本层的邻居外，在前一层也有它的邻居（注意只是前一层是后一层的邻居，但后一层不是前一层的邻居，所以，只有conv7, conv8_2, conv9_2, conv10_2, conv11这５层有前邻居，conv4_3无前邻居）。它的邻居是指前一层那些更小的segment。由于conv 4_3, conv7, conv8_2, conv9_2, conv10_2, conv11这几层中，后一层的feature map都是是前一层的feature map大小的一半（conv4_3后有一个２＊２的pool, conv8_2~conv10_2后分别有一个３＊３，步长为２的卷积，所以都是大小减半，但是conv7到conv8_2之间没有pool或步长为2的conv啊？），所以实际上是后一层的每个segment的前邻居就是前一层的feature map对应位置的２＊２＝４个小segment。另外，这种策略要求所有的feature map大小是偶数的，所以，输入图像要求是128的倍数（怎么算的？）。cross-layer的link的规范化定义如公式１０。如图Figure 3所示，黄色框是下一层的segment，蓝色框是上一层的更加细，更加小的框，黄色框与上一层的两个篮框有连接，说明属于同一个单词，后面会根据这个信息把这三个框融合起来。

- output of convolutional predictor，每一层的输出参数个数
  - 如下图，第l层的feature map大小为，每个位置上都有２＋５＋１６＋８＝３１维的输出。２表示是或不是字的二类分类分数，５表示位置信息x, y, w, h, θ，１６表示８个同层的neighbor的连接或者不连接２种情况，８表示前一层的4个neighbor的连接与不连接情况。当然，conv4_3层没有cross-layer link，所以只有２＋５＋１６＝２３维输出。

Figure 4. Outputs of a convolutional predictor. Cross-layer link scores are not predicted on conv4 3.

Training
- GroundTruth of segments and links
  - 如何判断一个default box为正样本？如何确定一个default box和哪个groundTruth的word进行link?

（１）　如果图上只有１个word(原始groundTruth)，则一个default box判断为正样本且和该word有link的条件

- - - - default box的中心在word里面（如图Figure 5.(1)中所示）
      - default box的高度和word的高度比小于１．５，即

（２）　如果图上有多个word(原始groundTruth)，则一个default box判断为正样本且和某word有link的条件

1. - - default box和任何word都不满足（１）中的条件，则标记为负样本，与所有word都不link。否则，标记为正样本，且与大小和该default box最接近的那个word有link。

- - 由原始的groundTruth如何得到训练要用的可以用来选择segment的groundTruth segment？
    - 如图Figure 5，先把原始的groundTruth——黄色的word bounding box绕default box的中心逆时针旋转θ（实际上这个图里的θ是负数的，所以我们看到的是顺时针旋转），把不在default box的左右两边部分裁掉，再绕default box的中心顺时针旋转θ，转回原来的word bounding box所在的位置，这样得到的那个裁切过后的矩形（也带角度）为所谓的groundTruth segment。可以看出，最终的效果实际上就是把原来的word bounding box裁到和default box宽度一样，以此来作为训练要用的groundTruth segment。之所以要这么做，是因为现在的网络目标是要找到segment，而不是要整个word。最后网络要学的offset的时候就是如图Figure 5.(4)中的蓝色default box和黄色groundTruth segment之间的offset(包括中心点的x, y, w, h, θ) （要学习的宽度的offset，Δw不是应该始终为０？）

Figure 5. The steps of calculating a groundtruth segment given a default box and a word bounding box.

- optimization
  - 目标函数：由三个部分构成，是否是text的二类分类的softmax损失，box的smooth L1 regression损失，是否link的二类的softmax损失。λ１和λ_２控制权重，最后都设为１．

- Online Hard Negative Mining和Data Augmentation的使用与SSD一样
Combining算法
- ssd网络的输出用阈值过滤一部分，α和β分别表示segment和link的阈值（这两个值用网格搜索找到最优）
- 把每个segment看做node, link当做edge，建立图模型，再用DFS(depth first search)找到连通分量，每个连通分量即为一个单词，用下面的Algorithm1进行融合输出单词的box
- Algorithm1 实际上就是一个平均的过程。先求所有segment的平均θ作为word的θ，再以得到的θ为已知条件，求出最可能过每个segment的直线（线段），以线段中点作为word的中心点（x, y），最后用线段长度加上首尾segment的平均宽度作为word的宽度，用所有segment的高度的平均作为word的高度。

实验结果

实验细节
- pretrain
  - VGG的SynthText dataset
  - learning rate = 10^-3 for first 60k iterations, decayed to 10^-4 for the rest 30k iterations
- fine tune
  - real data
  - learning rate = 10^-4 for 5-10k iterations
- SGD＋moment = 0.9
- training image size = 384*384
- batch size = 32
- grid search step = 0.1
- TensorFlow framework
- Xeon 8-core CPU (2.8 GHz), 4 Titan X Graphics Card, and 64GB RAM. The training process runs on 4 GPUs in parallel, with each GPU processing 8 out of the 32 images in a batch at a time.
- The whole training process takes less than a day. Testing is performed on one GPU
评价工具
- 多方向：ICDAR15的官方提交的评价服务器，实际上和MSRATD500的评价标准很相似，具体可以看这篇论文介绍
- 水平：Detval
ICDAR2015 Incidental库的结果

MSRA-TD500库的结果

ICDAR2013库的结果

检测结果样例

方法的局限性

α和β这两个阈值设置需要人工，虽然用了网格搜索求得
不能检测间隔很大的文本行
不能检测形变或者曲线的文本

总结与收获点

多方向是个热点，今年的多篇文章都是做多方向的
这篇文章主要是两点创新，第一加入方向信息把ssd改造成多方向的，第二把link融合到网络一起学习。方法不但性能好，速度真的是相当快，都快达到实时的要求了...

android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
swagger访问路径 igotyback swagger
Swagger2.x版本访问地址：http://{ip}:{port}/{context-path}/swagger-ui.html{ip}是你的服务器IP地址。{port}是你的应用服务端口，通常为8080。{context-path}是你的应用上下文路径，如果应用部署在根路径下，则为空。Swagger3.x版本对于Swagger3.x版本（也称为OpenAPI3）访问地址：http://{ip
C#中使用split分割字符串互联网打工人no1 c#
1、用字符串分隔：usingSystem.Text.RegularExpressions;stringstr="aaajsbbbjsccc";string[]sArray=Regex.Split(str,"js",RegexOptions.IgnoreCase);foreach(stringiinsArray)Response.Write(i.ToString()+"");输出结果：aaabbbc
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
Xinference如何注册自定义模型玩人工智能的辣条哥人工智能 AI 大模型 Xinference
环境：Xinference问题描述：Xinference如何注册自定义模型解决方案：1.写个model_config.json，内容如下{"version":1,"context_length":2048,"model_name":"custom-llama-3","model_lang":["en","ch"],"model_ability":["generate","chat"],"model
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
TextFiled 中输入金额宁梓茞
要求:输入的金额不能超过六位,小数点后面只能输入两位小数如果textFIled中第一位输入的是0,后面必须输入小数点,否则禁止输入用到textfiled代理方法#pragmamark----textFiledDelegate-----(BOOL)textField:(UITextField*)textFieldshouldChangeCharactersInRange:(NSRange)range
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
2019-07-09 AutoCompleteTextView 问题皮皮铭
实现自定义Adapter要实现Filterable接口，不然会报错重写getFilter()方法performFiltering()方法实现过滤数据的操作publishResults()用来接收performFiltering()的返回值，发布。
HarmonyOS开发实战（ Beta5.0）搜索框热搜词自动切换让开，我要吃人了 OpenHarmony HarmonyOS 鸿蒙开发 harmonyos 华为鸿蒙移动开发鸿蒙系统前端开发语言
鸿蒙HarmonyOS开发往期必看：HarmonyOSNEXT应用开发性能实践总结最新版！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）介绍本示例介绍使用TextInput组件与Swiper组件实现搜索框内热搜词自动切换。效果图预览使用说明页面顶部搜索框内热搜词条自动切换，编辑搜索框时自动隐藏。实现思路使用TextInput实现搜索框TextInput({te
uniapp使用内置地图选择插件，实现地址选择并在地图上标点神夜大侠 Uniapp vue.js uniapp
uniapp使用内置地图选择插件，实现地址选择并在地图上标点代码如下：page{background:#F4F5F6;}::-webkit-scrollbar{width:0;height:0;color:transparent;}page{height:100%;width:100%;font-size:24rpx;}image,view,input,textarea,label,text,na
HarmonyOS Next鸿蒙扫一扫功能实现 JohnLiu_ HarmonyOS Next harmonyos 华为扫一扫鸿蒙
直接使用的是华为官方提供的api，封装成一个工具类方便调用。import{common}from'@kit.AbilityKit';import{scanBarcode,scanCore}from'@kit.ScanKit';exportnamespaceScanUtil{exportasyncfunctionstartScan(context:common.Context):Promise{if
golang 实现文件上传下载 wangwei830 go
Gin框架上传下载上传（支持批量上传）httpRouter.POST("/upload",func(ctx*gin.Context){forms,err:=ctx.MultipartForm()iferr!=nil{fmt.Println("error",err)}files:=forms.File["fileName"]for_,v:=rangefiles{iferr:=ctx.SaveUplo
linux 安装Sublime Text 3 hhyiyuanyu Python学习 linux sublime text
方法/步骤打开官网http://www.sublimetext.com/3，选择64位进行下载执行命令wgethttps://download.sublimetext.com/sublime_text_3_build_3126_x64.tar.bz2进行下载3、下载完成进行解压,执行tar-xvvfsublime_text_3_build_3126_x64.tar.bz解压4、解压完成以后，移动到
sublime个人设置 bawangtianzun sublime text 编辑器
如何拥有jiangly蒋老师同款编译器(sublimec++配置竞赛向）_哔哩哔哩_bilibiliSublimeText4的安装教程（新手竞赛向）-知乎(zhihu.com)创建文件自动保存为c++打开SublimeText软件。转到"Tools"（工具）>"Developer"（开发者）>"NewPlugin"（新建插件）。在打开的新文件中，粘贴以下代码：importsublimeimport
html+css网页设计旅游网站首页1个页面 html+css+js网页设计 html css 旅游
html+css网页设计旅游网站首页1个页面网页作品代码简单，可使用任意HTML辑软件（如：Dreamweaver、HBuilder、Vscode、Sublime、Webstorm、Text、Notepad++等任意html编辑软件进行运行及修改编辑等操作）。获取源码1，访问该网站https://download.csdn.net/download/qq_42431718/897527112，点击
spring mvc @RequestBody String类型参数 zoyation spring-mvc spring mvc
通过如下配置：text/html;charset=UTF-8application/json;charset=UTF-8在springmvc的Controller层使用@RequestBody接收Content-Type为application/json的数据时，默认支持Map方式和对象方式参数@RequestMapping(value="/{code}/saveUser",method=Requ
处理标签包裹的字符串，并取出前250字符周bro 前端 javascript 开发语言
//假设这是你的HTML字符串varhtmlString=`这是一个段落。这是一个标题这是另一个段落，包含一些链接。`;//解析HTML字符串并提取文本functionextractTextFromHTML(html){varparser=newDOMParser();vardoc=parser.parseFromString(html,"text/html");vartextContent=do
css设置当字数超过限制后以省略号（...）显示周bro css 前端 vue css3 html 经验分享
1、文字超出一行，省略超出部分，显示’…’用text-overflow:ellipsis属性来，当然还需要加宽度width属来兼容部分浏览。overflow:hidden;text-overflow:ellipsis;white-space:nowrap;2、多行文本溢出显示省略号display:-webkit-box;-webkit-box-orient:vertical;-webkit-lin
360前端星计划-动画可以这么玩马小蜗
动画的基本原理定时器改变对象的属性根据新的属性重新渲染动画functionupdate(context){//更新属性}constticker=newTicker();ticker.tick(update,context);动画的种类1、JavaScript动画操作DOMCanvas2、CSS动画transitionanimation3、SVG动画SMILJS动画的优缺点优点：灵活度、可控性、性能
Kubernetes部署MySQL数据持久化沫殇-MS Kubernetes MySQL数据库 kubernetes mysql 容器
一、安装配置NFS服务端1、安装nfs-kernel-server：sudoapt-yinstallnfs-kernel-server2、服务端创建共享目录#列出所有可用块设备的信息lsblk#格式化磁盘sudomkfs-text4/dev/sdb#创建一个目录：sudomkdir-p/data/nfs/mysql#更改目录权限：sudochown-Rnobody:nogroup/data/nfs
JavaScript中秋快乐！ Q_w7742 javascript 开发语言 ecmascript
我们来实现一个简单的祝福网页~主要的难度在于使用canvas绘图当点击canvas时候，跳出“中秋节快乐”字样，需要注册鼠标单击事件和计时器。首先定义主要函数：初始化当点击canvas之后转到onCanvasClick函数，绘图生成灯笼。functiononCanvasClick(){//事件处理函数context.clearRect(0,0,canvas1.width,canvas1.heigh
k8s证书过期问题处理 olina_qin kubernetes 容器云原生
k8s证书过期问题处理opensslx509-in/etc/kubernetes/pki/apiserver.crt-noout-dateskubeadmcertsrenewallsystemctlrestartkubeleopensslx509-in/etc/kubernetes/pki/apiserver.crt-noout-text|grep"NotAfter"cp/etc/kubernet
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
Go 面向包的设计和架构分层云满笔记 golang 架构 directory layout src project
标题Go面向包的设计和架构分层序前项目架构分层工具包项目应用项目cmd/internal/internal/pkg/pkg/vendor/面向包的设计和验证包的位置依赖包导入应用级别的策略数据的发送和接收错误处理测试捕获错误不建议的目录结论Go面向包的设计和架构分层序本篇内容主要讲解golang项目的面向包设计准则和基础的架构分层。信息来自原文ArdanLabs:Package-Oriented-
2005年高考英语北京卷 - 阅读理解C 让文字更美
Howcouldwepossiblythinkthatkeepinganimalsincagesinunnaturalenvironments-mostlyforentertainmentpurposes-isfairandrespectful?我们怎么可能认为把动物关在非自然环境的笼子里——主要是为了娱乐目的——是公平和尊重的呢？Zooofficialssaytheyareconcernedab
golang学习笔记--MPG模型 xxzed golang #学习笔记学习笔记 golang
MPG模式：M（Machine）：操作系统的主线程P（Processor）：协程执行需要的资源（上下文context），可以看作一个局部的调度器，使go代码在一个线程上跑，他是实现从N：1到N：M映射的关键G（Goroutine）：协程，有自己的栈。包含指令指针（instructionpointer）和其它信息（正在等待的channel等等），用于调度。一个P下面可以有多个G1、当前程序有三个M,
matlab设置图像窗口大小,matlab 图形窗口大小的设置 weixin_39534002 matlab设置图像窗口大小
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%常用选项和小技巧%%%%%%画等值线[cchh]=contour(peaks(30),'LINESPEC','b-')clabel(cc,hh,'manual')%写文本text(5,10,'\bfmath\slmath\itmath\rmmath\alpha','color',[0.10.10.9],'fonts
由于直接在一个回答中提供完整且多语言的游戏商城代码是不现实的（因为每种语言都有其独特的语法和库），我将为你概述一个游戏商城的核心概念，并提供几种不同编程语言的基本框架或示例代码段。 uthRaman 游戏 python 开发语言
商城系统概述hailiangwang.com游戏商城系统通常包含以下部分：用户系统（登录、注册、用户信息）商品列表（游戏、DLC、虚拟货币等）购物车系统支付系统订单系统2.示例框架（伪代码）首先，我们给出一个伪代码框架，描述商城的核心逻辑。plaintextclassUser:deflogin(username,password):#验证用户登录passdefregister(username,p
初识HTTP（1） S1mple_easy 计算机网络学习笔记 http
HTTP基本概念HTTP是超⽂本传输协议，也就是HyperTextTransferProtocol超文本传输协议：HTTP是一个在计算机世界⾥专⻔在两点之间传输⽂字、图⽚、⾳频、视频等超⽂本数据的约定和规范。HTTP常见的状态码具体含义常见状态码1xx提示信息，表示目前是协议处理状态，还需后续操作2xx成功，报文已经收到并被正确处理200/204/2063xx重定向，资源位置发生变动，需要客户端重
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

论文阅读（XiangBai——【CVPR2017】Detecting Oriented Text in Natural Images by Linking Segments）

XiangBai——【CVPR2017】Detecting Oriented Text in Natural Images by link Segments

目录

作者和相关链接

方法概括

文章简述：

方法的性能

算法的pipeline

改进的SSD的地方：

方法的优势

方法细节

word, segment, link的定义（看不是很懂？那就往下看...)

CNN modelCombining segments with links

网络结构

within-layer link and cross-layer link detection

output of convolutional predictor，每一层的输出参数个数

Training

GroundTruth of segments and links

optimization

Online Hard Negative Mining和Data Augmentation的使用与SSD一样

Combining算法

实验结果

实验细节

评价工具

ICDAR2015 Incidental库的结果

MSRA-TD500库的结果

ICDAR2013库的结果

检测结果样例

方法的局限性

总结与收获点

你可能感兴趣的:(论文阅读（XiangBai——【CVPR2017】Detecting Oriented Text in Natural Images by Linking Segments）)