libo-coder

『OCR_recognition』CTC loss几种解码方式

文章目录

前言
一、贪心搜索（greedy search）
- 1.1 原理解释
- 1.2 图示说明
- 1.3 代码实现
二、束搜索（Beam Search）
- 2.1 原理解释
- 2.2 图示说明
- 2.3 代码实现
三、前缀束搜索（Prefix Beam Search）
- 3.1 原理解释
- 3.2 图示说明
- 3.3 代码实现
参考链接

前言

预测新的样本输入对应的输出字符串，这涉及到解码。按照最大似然准则，最优的解码结果为：

示例：

如上图的例子，按照时间序列展开得到栅格网络，解码的过程相当于空间搜索, 求取穷举的所有可能字符串序列中概率最大的那个。我们可以选择暴力的解码策略：穷举搜索，但时间复杂度是指数级的 $N^{T}$ ，显然不可行。

然而，上式不存在已知的高效解法。下面介绍几种实用的近似破解码方法。

一、贪心搜索（greedy search）

1.1 原理解释

虽然 p(l|x) 难以有效的计算，但是由于 CTC 的独立性假设，对于某个具体的字符串 π（去 blank 前），却容易计算：

因此，我们放弃寻找使 p(l|x) 最大的字符串，退而寻找一个使 p(π|x) 最大的字符串，即：

其中，

简化后，解码过程（构造 $π^⋆$ ）变得非常简单（基于独立性假设）： 在每个时刻输出概率最大的字符

Greedy search 是在每一步选择概率最大的输出值，这样就可以得到最终解码的输出序列（如上图例子，最终解码的输出序列 l=blank）。然而，CTC 网络的输出序列只对应了搜索空间的一条路径，一个最终标签可对应搜索空间的 N 条路径，所以概率最大的路径并不等于最终标签的概率最大，即不是最优解（如上图例子，最优解是 p(l=b) 而不是 p(l=blank)）。

1.2 图示说明

『OCR_recognition』CTC loss几种解码方式_第2张图片

1.3 代码实现

def remove_blank(labels, blank=0):
import numpy as np

def softmax(logits):
	""" 求每一列(即每个时刻)中最大值对应的 softmax 值 """"
	# 注意这里求 e 的次方时，次方数减去 max_value 其实不影响结果，
	# 因为最后可以化简成教科书上softmax的定义次方数,
	# 加入减 max_value 是因为 e 的 x 次方与 x 的极限(x 趋于无穷)为无穷，很容易溢出，
	# 所以为了计算时不溢出，就加入减 max_value 项
	# 次方数减去 max_value 后，e 的该次方数总是在 0 到 1 范围内。
	max_value = np.max(logits, axis=1, keepdims=True)
	exp = np.exp(logits - max_value)
	exp_sum = np.sum(exp, axis=1, keepdims=True)
	dist = exp / exp_sum
	return dist

def remove_blank(labels, blank=0):
	new_labels = []
	# 合并相同的标签
	previous = None
	for l in labels:
		if l != previous:
			new_labels.append(l)
			previous = l
	# 删除 blank
	new_labels = [l for l in new_labels if l != blank]
	return new_labels

def insert_blank(labels, blank=0):
	new_labels = [blank]
	for l in labels:
		new_labels += [l, blank]
	return new_labels

def greedy_decode(y, blank=0):
	# 按列取最大值，即每个时刻 t 上最大值对应的下标
	raw_rs = np.argmax(y, axis=1)
	# 移除 blank,值为 0 的位置表示这个位置是 blank
	rs = remove_blank(raw_rs, blank)
	return raw_rs, rs

np.random.seed(1111)
y_test = softmax(np.random.random([20, 6]))
label_have_blank, label_no_blank = greedy_decode(y_test)
print(label_have_blank)
print(label_no_blank)

二、束搜索（Beam Search）

贪心搜索的性能非常受限, 这种方法忽略了一个输出可能对应多个对齐结果。很多时候，如果我们能拿到 nearbest 的路径，后续可以利用其他信息来进一步优化搜索的结果。束搜索能近似找出 top 最优的若干条路径。

2.1 原理解释

基本原理是通过 $t_{i−1}$ 中 beamsize 个序列，每个序列分别连接 $t_{i}$ 中 beamsize 个节点，得到 beamsize 个新序列及对应的 score，然后按照 score 从大到小的顺序选出前 beamSize 个序列，依次推进。

2.2 图示说明

假设 beamsize=2 ，t=1 时：

『OCR_recognition』CTC loss几种解码方式_第3张图片

这个时候只会将两个概率最大的节点放进路径集合中，即有两条路径。

t=2 时：
上面的两个路径每个路径都会和下一个时间点的每一项组成新的路径，因此一共有 $beamsize\times V=2*3=6$ 个新路径。

『OCR_recognition』CTC loss几种解码方式_第4张图片

然后我们还是只保留概率最大的两条路径（次大的两个路径相等，这里舍弃掉一个）。

『OCR_recognition』CTC loss几种解码方式_第5张图片

t=3 时：

『OCR_recognition』CTC loss几种解码方式_第6张图片

和 t=2 时类似，又组成了新的 6 条路径。我们还是取概率最大的两条路径。

『OCR_recognition』CTC loss几种解码方式_第7张图片

实际使用该算法时，往往取前 20，这里前 2 只是为了方便举例。

2.3 代码实现

import numpy as np

def softmax(logits):
	""" 求每一列(即每个时刻)中最大值对应的 softmax 值 """"
	# 注意这里求 e 的次方时，次方数减去 max_value 其实不影响结果，
	# 因为最后可以化简成教科书上softmax的定义次方数,
	# 加入减 max_value 是因为 e 的 x 次方与 x 的极限(x 趋于无穷)为无穷，很容易溢出，
	# 所以为了计算时不溢出，就加入减 max_value 项
	# 次方数减去 max_value 后，e 的该次方数总是在 0 到 1 范围内。
	max_value = np.max(logits, axis=1, keepdims=True)
	exp = np.exp(logits - max_value)
	exp_sum = np.sum(exp, axis=1, keepdims=True)
	dist = exp / exp_sum
	return dist

def remove_blank(labels, blank=0):
	new_labels = []
	# 合并相同的标签
	previous = None
	for l in labels:
		if l != previous:
			new_labels.append(l)
			previous = l
	# 删除 blank
	new_labels = [l for l in new_labels if l != blank]
	return new_labels

def insert_blank(labels, blank=0):
	new_labels = [blank]
	for l in labels:
		new_labels += [l, blank]
	return new_labels

def beam_decode(y, beam_size=10):
	T, V = y.shape	# y 是个二维数组，记录了所有时刻的所有项的概率
	# 将所有的 y 中值改为 log 是为了防止溢出，因为最后得到的 p 是 y1..yn 连乘，
	# 且 yi 都在 0 到 1 之间，可能会导致下溢出,
	# 改成 log(y) 以后就变成连加了，这样就防止了下溢出
	log_y = np.log(y)
	beam = [([], 0)]	# 初始的beam
	for t in range(T):	# 遍历所有时刻t
		new_beam = []	# 每个时刻先初始化一个new_beam
		for prefix, score in beam:	# 遍历beam
			# 对于一个时刻中的每一项(一共V项)
			for i in range(V):
				# 记录添加的新项是这个时刻的第几项，对应的概率(log形式的)加上新的这项log形式的概率(本来是乘的，改成log就是加)
				new_prefix = prefix + [i]
				new_score = score + log_y[t, i]
				# new_beam 记录了对于 beam 中某一项，将这个项分别加上新的时刻中的每一项后的概率
				new_beam.append((new_prefix, new_score))
		new_beam.sort(key=lambda x: x[1], reverse=True)	# 给 new_beam 按 score 排序
		beam = new_beam[:beam_size]	# beam 即为 new_beam 中概率最大的 beam_size 个路径
	return beam

np.random.seed(1111)
y_test = softmax(np.random.random([20, 6]))
beam_chosen = beam_decode(y_test, beam_size=100)
for beam_string, beam_score in beam_chosen[:20]:
	print(remove_blank(beam_string), beam_score)

三、前缀束搜索（Prefix Beam Search）

3.1 原理解释

待理解后补全。。。

3.2 图示说明

3.3 代码实现

import numpy as np
from collections import defaultdict
ninf = float("-inf")

def softmax(logits):
	max_value = np.max(logits, axis=1, keepdims=True)
	exp = np.exp(logits - max_value)
	exp_sum = np.sum(exp, axis=1, keepdims=True)
	dist = exp / exp_sum
	return dist

def remove_blank(labels, blank=0):
	new_labels = []
	previous = None
	for l in labels:
		if l != previous:
			new_labels.append(l)
			previous = l
	new_labels = [l for l in new_labels if l != blank]
	return new_labels

def insert_blank(labels, blank=0):
	new_labels = [blank]
	for l in labels:
		new_labels += [l, blank]
	return new_labels

def _logsumexp(a, b):
	''' np.log(np.exp(a) + np.exp(b)) '''
	if a < b:
		a, b = b, a
	if b == ninf:
		return a
	else:
		return a + np.log(1 + np.exp(b - a))

def logsumexp(*args):
	'''
	from scipy.special import logsumexp
	logsumexp(args)
	'''
	res = args[0]
	for e in args[1:]:
		res = _logsumexp(res, e)
	return res

def prefix_beam_decode(y, beam_size=10, blank=0):
	T, V = y.shape
	log_y = np.log(y)
	# 最后一个字符是 blank 与最后一个字符为 non-blank 两种情况
	beam = [(tuple(), (0, ninf))]
	# 对于每一个时刻t
	for t in range(T):
		# 当我使用普通的字典时，用法一般是 dict={},添加元素的只需要 dict[element]=value 即可，调用的时候也是如此
		# dict[element]=xxx,但前提是 element 字典里，如果不在字典里就会报错
		# defaultdict 的作用是在于，当字典里的 key 不存在但被查找时，返回的不是 keyError 而是一个默认值
		# dict=defaultdict(factory_function)
		# 这个 factory_function 可以是 list、set、str 等等，作用是当 key 不存在时，返回的是函数默认值
		# 这里就是 (ninf, ninf) 是默认值
		new_beam = defaultdict(lambda: (ninf, ninf))
		# 对于 beam 中的每一项
		for prefix, (p_b, p_nb) in beam:
			for i in range(V):
				# beam 的每一项都加上时刻t中的每一项
				p = log_y[t, i]
				# 如果 i 中的这项是 blank
				if i == blank:
					# 将这项直接加入路径中
					new_p_b, new_p_nb = new_beam[prefix]
					new_p_b = logsumexp(new_p_b, p_b + p, p_nb + p)
					new_beam[prefix] = (new_p_b, new_p_nb)
					continue
				# 如果 i 中的这一项不是 blank
				else:
					end_t = prefix[-1] if prefix else None
					# 判断之前 beam 项中的最后一个元素和 i 的元素是不是一样
					new_prefix = prefix + (i,)
					new_p_b, new_p_nb = new_beam[new_prefix]
					# 如果不一样，则将 i 这项加入路径中
					if i != end_t:
						new_p_nb = logsumexp(new_p_nb, p_b + p, p_nb + p)
					else:
						new_p_nb = logsumexp(new_p_nb, p_b + p)
					new_beam[new_prefix] = (new_p_b, new_p_nb)
					# 如果一样，保留现有的路径，但是概率上要加上新的这个 i 项的概率
					if i == end_t:
						new_p_b, new_p_nb = new_beam[prefix]
						new_p_nb = logsumexp(new_p_nb, p_nb + p)
						new_beam[prefix] = (new_p_b, new_p_nb)

		# 给新的 beam 排序并取前 beam_size 个
		beam = sorted(new_beam.items(), key=lambda x: logsumexp(*x[1]), reverse=True)
		beam = beam[:beam_size]
	return beam

np.random.seed(1111)
y_test = softmax(np.random.random([20, 6]))
beam_test = prefix_beam_decode(y_test, beam_size=100)
for beam_string, beam_score in beam_test[:20]:
	print(remove_blank(beam_string), beam_score)

参考链接

https://blog.csdn.net/weixin_42615068/article/details/93767781
https://zhuanlan.zhihu.com/p/39266552

你可能感兴趣的:(#,OCR_recognition,ocr)

Python 安装使用 tesseract OCR 识别中文花果山总钻风 Python/Flask Linux python ocr 开发语言
前言：i、中文识别效果更好的开源OCR库：CnOCR使用教程ii、6款开源中文OCR使用介绍（亲测效果）：点我查看iii、windows安装tesserract教程：windows安装：点我查看教程1、点我查看教程2windows安装完成，设置好环境变量后，报找不到路径的错误点这里：解决办法本文为CentOS下安装教程Tesseract的OCR引擎目前已作为开源项目发布在GoogleProject
Python中Tesseract OCR的中文识别包实操指南
本文还有配套的精品资源，点击获取简介：TesseractOCR是一个开源的光学字符识别引擎，支持多语言包括中文识别。介绍如何在Python中使用pytesseract库进行图像文字识别，并详细说明安装TesseractOCR以及其中文语言包的步骤。提供了一个Python示例代码来展示图像识别的流程，并解释如何通过预处理提高识别准确率。此外，概述了TesseractOCR的高级功能和训练自定义模型的
Telerik Document Processing Crack
TelerikDocumentProcessingCrackTheTelerikDocumentProcessingLibraries2025Q2updateenhancesthePDFprocessinglibrarywithsupportforopticalcharacterrecognition(OCR).TelerikDocumentProcessingisasuiteofdocument
【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- PaddleOCR实例化 OCR 对象的参数介绍云天徽上 PaddleOCR python ocr 开发语言人工智能文字识别
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
paddlepaddle测试安装_python3.7中安装paddleocr及paddlepaddle包的多种方法瓦啦
升级pippip版本必须升级到20.0.4版本才能应用；方法一、在pycharm中对pip进行升级；方法二、通过命令进行升级python3.7-mpipinstall--upgradepip下载paddleOCR下载链接：https://github.com/PaddlePaddle/PaddleOCR打开paddleOCR文件夹中requirements.txt文件，更改文件中opencv-py
PaddleOCR不同模型和Paddle版本推理性能对比 dotNET跨平台 paddle
飞桨PaddleOCR这几年发布了从V2到V5的中英文OCR模型，Paddle推理框架也从2.X升级到3.0.0版本。本次对不同模型和推理框架的性能做些对比。测试条件：操作系统：win10X64CPU:13thGenIntel(R)Core(TM)i9-13900HF3.0GHz24核32线程CPU指令集：AVX,AVX2测试基于PaddleOCRSharp的C++版本SDK：https://gi
2025年最值得关注的十大OCR模型，技术进化与应用突破全面解析！蜗牛沐雨 ocr 自动化
光学字符识别（OCR）技术已经完成了从“慢、误差高、功能单一”的旧时代，向“快速、精准、多场景全覆盖”的新纪元转变。今天，OCR不再是简单的图像转文本工具，而是支撑智能办公、文档自动化、跨语言内容处理以及视觉理解的核心技术。尤其在2025年，技术格局发生了显著变化：模型更轻量，支持更复杂的文本结构识别，具备强大的多语言和多模态处理能力，能应对实时场景识别甚至复杂的工业图像分析。本文整合了GitHu
python爬虫登录校验之滑块验证、图形验证码（OCR） yuwinter Python python 爬虫 ocr 滑块验证
在爬虫过程中，验证码和滑块验证是常见的反爬措施。针对这些挑战，通常采用OCR识别图形验证码和模拟滑块拖动来处理滑块验证。以下是如何处理这两种类型验证的详细方法。1.图形验证码（OCR）a.使用tesserocr和Pillow处理图形验证码tesserocr是基于TesseractOCR引擎的Python封装，常用来识别简单的图形验证码。如果验证码不太复杂，可以用它来识别文本。步骤：安装依赖：pip
ali docker部属paddleocr 大熊程序猿 ASP.NET Core docker 容器运维
dockerpullregistry.baidubce.com/paddlepaddle/paddle:2.6.0nano/root/projects/paddleocr_server.py========================fromflaskimportFlask,requestfromwerkzeug.utilsimportsecure_filenameimportuuidfrom
使用 Xinference 命令行工具（xinference launch）部署 Nanonets-OCR-s 没刮胡子 Linux服务器技术人工智能AI 软件开发技术实战专栏 ocr
使用Xinference命令行工具（xinferencelaunch）部署Nanonets-OCR-s一、核心优势与适用场景通过xinferencelaunch命令可直接在命令行完成模型部署，无需编写Python代码，适合快速验证或生产环境批量部署。二、部署步骤：从命令行启动模型1.确认环境与依赖已安装Xinference：pipinstall"xinference[all]"GPU显存≥9GB（
Ubuntu基础（上传文件和部署Python） aaiier ubuntu linux 运维
首先打开[email protected]然后写yes，在输入密码然后就是输入ls/查看根目录ls/结果是ubuntu@x0-x-xx-xx:~$ls/binbootdevhomelib.usr-is-mergedlost+foundmntprocrunsbin.usr-is-mergedsrvtmpvarbin.usr-is-mergeddataetclibli
车牌识别与标注：基于百度OCR与OpenCV的实现（一）喜欢踢足球的老罗大模型应用开发实践之旅 ocr opencv 人工智能
车牌识别与标注：基于百度OCR与OpenCV的实现在计算机视觉领域，车牌识别是一项极具实用价值的技术，广泛应用于交通监控、智能停车场管理等领域。本文将介绍如何在macOS系统下，利用百度OCRAPI进行车牌识别，并结合OpenCV库在图片上绘制标注框和车牌号码，实现一个完整的车牌识别与标注流程。整个工程将使用PyCharm进行组织和开发。一、系统环境与工程结构系统环境操作系统：macOS开发工具：
数据标注师学习内容汇总试着数据标注师学习数据标注师
目录文本标注图像标注语音标注文本标注词性标注1词性标注2实体标注关系标注事件标注1事件标注2意图标注关键词标注分类标注问答标注对话标注图像标注拉框标注关键点标注2D标注3D标注线标注目标跟踪标注OCR标注图像分类标注语音标注语音切割转写语音校对标注拼音和停顿标注
基于PaddleOCR的表格识别系统开发 pk_xz123456 仿真模型深度学习算法深度学习开发语言分类安全 cnn
基于PaddleOCR的表格识别系统开发1.项目概述本项目旨在使用PaddleOCR框架开发一个高性能的表格识别系统，能够准确识别约30种不同类型的表格结构。系统将处理2500张合成表格图像作为训练数据，并在合成测试集上进行评估。系统核心功能包括表格检测、表格结构识别和表格内容识别三部分。1.1项目背景表格是信息传递的重要载体，广泛存在于各类文档中。传统表格识别方法需要复杂的规则和模板，而基于深度
【向上教育】国企面试手册(OCR).pdf ㏕追忆似水年华あ人工智能大数据算法旅游 c语言
国企各省面试的形式主要是结构化面试，也有少部分单位采用无领导小组讨论的面试形式。全面了解面试形式是考生须知的重要信息之一。一、结构化面试结构化面试，也称标准化面试，是相对于传统的经验型面试而言的，是根据科学制定的评价指标，运用特定的问题、评价方法和评价标准，严格遵循特定程序，通过测评人员与被测试者进行语言交流，对被测试者进行评价的标准化过程。(一)结构化面试之三大规范1.考题规范化（1）测评要素一
使用vllm部署 Nanonets-OCR-s 没刮胡子软件开发技术实战专栏 Linux服务器技术人工智能AI ocr python 深度学习
使用vLLM部署Nanonets-OCR-s模型的完整指南Nanonets-OCR-s作为基于Qwen2.5-VL-3B的多模态OCR模型，结合vLLM的高效推理引擎可显著提升部署性能。一、环境准备与依赖安装1.安装vLLM与多模态依赖#安装vLLM（含CUDA加速）pipinstallvllm==0.3.21#建议使用稳定版本pipinstalltransformers==4.35
15.OCR训练 Echo`` Halcon系统化学习 ocr 人工智能深度学习算法计算机视觉机器学习
目录1.OCR训练2.助手训练13.助手训练24.算子训练5.OCR训练联合编程6.练习1.OCR训练*OCR训练*1.分类器文件*.omc*2.halcon官方的*1.局限性只能识别数字和字母*2.样式比较单一*3.样本数量较少*...**3.训练方法*1.助手训练*1.打开OCR助手*2.选择图片*3.选择训练区域*4.分割*5.字体*6.训练文件*7.新*8.学习*9.加入训练样本*10.保
14.OCR字符识别 Echo`` Halcon系统化学习 ocr 计算机视觉算法人工智能前端
目录1.识别方法1.OCR识别2.OCR识别方法1-助手识别3.OCR识别方法2-算子分割识别4.文本分割识别2.文本分割1.借用助手设置参数文本分割+混合识别2.借用助手设置参数文本分割场景23.不同字符场景1.倾斜字符1.识别方法1.OCR识别*OCR*1.概念*光学字符识别**2.识别的是什么*1.图片里面的文字符号**3.怎么识别*1.基于halcon的OCR识别**4.halconOCR
Excel处理控件Aspose.Cells教程：Java 在 Excel 中插入和删除行和列
Aspose.Cells是Excel电子表格编程API，可加快电子表格的管理和处理任务，支持构建能够生成，修改，转换，呈现和打印电子表格的跨平台应用程序。同时不依赖于MicrosoftExcel或任何MicrosoftOfficeInterop组件，AsposeAPI支持旗下产品覆盖文档、图表、PDF、条码、OCR、CAD、HTML、电子邮件等各个文档管理领域，为全球.NET、Java、C++等1
C# WPF自定义窗口 XMJ2002 wpf
C#WPF自定义窗口书接上文，我们已经实现了如何利用百度智能云实现文字OCR功能，WPF制作文字OCR软件(一)：本地图片OCR识别，最后整体的效果是要呈现在一个窗口上的，而WPF的默认窗口并不能符合我们的需求，能够自己定义的内容少，所以这篇文章将介绍如何自定义窗口。整体实现效果如下：一、自定义标题栏首先需要在窗口定义的时候加上WindowStyle="None"AllowsTransparenc
[SQLSERVER][SQL]监控SQlserver存储过程 awonw sqlserver sqlserver sql 数据库
USE[master]GO/******Object:StoredProcedure[dbo].[sp_who_run_plus]ScriptDate:2021-09-1016:51:26******/SETANSI_NULLSONGOSETQUOTED_IDENTIFIERONGOCREATEPROC[dbo].[sp_who_run_plus]ASBEGINSELECTDB_NAME(er.[
Python+dddocr自动化突破多缺口滑块验证技术详解
Python+dddocr自动化突破多缺口滑块验证技术详解在当今互联网环境中，滑块验证已成为阻挡自动化程序的主要防线之一。本文将通过Python+dddocr实现一套完整的自动化解决方案，突破多缺口滑块验证，内容涵盖技术原理、实现细节和实战技巧。一、多缺口滑块验证的技术原理多缺口滑块验证是传统滑块验证的升级版，通过设置多个干扰项增加识别难度：验证机制图像生成验证逻辑背景图缺口碎片缺口匹配行为分析添
python代码判断两棵二叉树是否相同 Data+Science+Insight 数据结构 leetcode 算法 python 二叉树
python代码判断两棵二叉树是否相同给定两个二叉树，编写一个函数来校验它们是否相同。如果两个树在结构上相同，并且结点具有相同的值，则认为它们是相同的。判断两个二叉树是否是相同的，相同的依据是二叉树结构相同二叉树对应节点值相同#二叉树基础类#ABinaryTreenodeclassNode:#Utilitytocreatenewnodedef__init__(self,val):self.val=
OpenVINO™2025部署PaddleOCR模型 OpenVINO 中文社区经验分享
PaddleOCR模型下载OpenVINO™2025支持直接加载paddle的模型。所以可以直接先从官网直接下载PaddleOCRv5.0的模型：文本检测模型下载地址#DownloadandunzipPP-OCRv5_server_detpre-trainedmodelhttps://paddle-model-ecology.bj.bcebos.com/paddlex/official_infer
内存泄漏系列专题分析之二十二：句柄/文件描述符fd泄漏实例分析一起搞IT吧内存泄漏和内存占用拆解系列专题相机图像处理 android
【关注我，后续持续新增专题博文，谢谢！！！】上一篇我们讲了：这一篇我们开始讲：内存泄漏系列专题分析之二十二：句柄/文件描述符fd泄漏实例分析目录一、背景二、：句柄fd文件描述符内存泄漏分析思路2.1：闭源库libcvp2.socrash分析Camxhal异常日志2.2：内存分配失败，接着看kernelKMD日志2.3：crash的根因是拿不到fd2.4：分析getfdfail2.5：重新复现并分析
基于 opencv+yolov8+easyocr的车牌追踪识别（ECUT）Edward-tan 人工智能--CV python进阶全栈开发 opencv yolov8 ocr python
（本项目所有代码打包至我的资源中，大家可在我的文章底部选择下载）目录需求实现效果学习视频大致思路代码实现资源下载需求通过车辆识别技术，识别视频中每个车辆及其车牌号，车辆应进行追踪，避免重复计数量。实现效果车牌识别学习视频使用Python、Yolov8和EasyOCR自动识别车牌计算机视觉教程_哔哩哔哩_bilibili大致思路通过opencv将视频转换为帧，对帧应用车辆识别模型，并使用model.
RapidOCR4j项目学习 cmdch2017 学习
https://rapidai.github.io/RapidOCRDocs/install_usage/api/RapidOCR/#_1功能实现多平台OCR识别：支持Windows、Linux、macOS（包括Intel和ARM架构）多种图片输入方式：支持图片路径（Path）、BufferedImage、byte[]、OpenCV的Mat四种输入类型模型推理：通过ONNXRuntime加载和推理
Openssl生成RSA证书，Java实现公钥证书加密，私钥证书解密 RonTech Java 算法 Security RSA 证书加密公钥加密私钥解密 API数据加密
1、证书生成过程生成RSA私钥：genrsa-outprivate_key.pem1024把RSA私钥转换成PKCS8格式pkcs8-topk8-informPEM-inprivate_key.pem-outformPEM–nocrypt生成RSA公钥rsa-inprivate_key.pem-pubout-outrsa_public_key.pem生成供Java使用的私钥pkcs8_privat
Python处理滑块缺口验证码以及字母数字验证码识别
该功能主要运用到的模块有：re、cv2、ddddocr、matplotlib等字母数字识别该识别可以直接下载第三方工具包ddddocr进行处理使用Python的包管理工具来安装ddddocr及其所需的依赖库pipinstallddddocr具体实现，分别处理保存在本地的图片已经base64格式的图片importddddocr#识别本地图片defalphanumericProcessing(img_
PaddleOCR + Flask 构建 Web OCR 服务实战随风九天服务 flask 前端 ocr PaddleOCR
1、前言随着图像识别技术的发展，OCR（光学字符识别）已经成为很多应用场景中的基础能力。PaddleOCR是百度开源的一个高性能OCR工具库，支持中英文、多语言、轻量级部署等特性。而Flask是一个轻量级的PythonWeb框架，非常适合快速构建RESTfulAPI或小型Web应用。本文将带你一步步使用PaddleOCR+Flask搭建一个完整的WebOCR服务，实现图片上传→文字识别→返回结构化
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他