python 如何做一个识别率百分百的OCR

写在前面

当然这里说的百分百可能有点夸张，但其实想象一下，游戏里面的某个窗口的字符就是那种样子，不会变化的。而且识别的字符可能也不需要太多。中文有大几千个常用字，还有各种符号，其实都不需要。

这里针对的场景很简单，主要是有以下几点：

识别的字符不多：只要识别几十个常用字符即可，比如说26个字母，数字，还有一些中文。
背景统一，字体一致：我们不是做验证码识别，我们要识别的字符都是清晰可见的。
字符和背景易分割：一般来说就是对图片灰度化之后，黑底白字或者白底黑字这种。

技术栈

这里用到的主要就是python+opencv了。

python3
opencv-python

环境主要是以下的库：

pip install opencv-python
pip install imutils
pip install matplotlib

实现思路

首先看下图片的灰度图。

第一步：二值化，将灰度转换为只有黑白两种颜色。

第二步：图像膨胀，因为我们要通过找轮廓算法找到每个字符的轮廓然后分割，如果是字符还好，中文有很多左右偏旁，三点水这种无法将一个整体进行分割，这里通过膨胀将中文都黏在一起。

第三步：找轮廓。

第四步：外接矩形。我们需要的字符是一个矩形框，而不是无规则的。

第五步：过滤字符，这里比如说标点符号对我来说没用，我通过矩形框大小把它过滤掉。

第六步：字符分割，根据矩形框分割字符。

第七步：构造数据集，每一类基本上放一两张图片就可以。

第八步：向量搜索+生成结果，根据数据集的图片，进行向量搜索得到识别的标签。然后根据图片分割的位置，对识别结果进行排序。

具体实现

读取图片

首先先读取待识别的图片。

import cv2
import numpy as np
from matplotlib import pyplot as plt
from matplotlib.colors import NoNorm
import imutils
from PIL import Image


img_file = "test.png"
im = cv2.imread(img_file, 0)

使用matplotlib画图结果如下：

二值化

在进行二值化之前，首先进行灰度分析。

灰度值是在0到255之间，0代表黑色，255代表白色。可以看到这里背景色偏黑的，基本集中在灰度值30，40附近。而字符偏白，大概在180灰度这里。

这里选择100作为分割的阈值。

thresh = cv2.threshold(im, 100, 255, cv2.THRESH_BINARY)[1]

2值化后效果如下：

图像膨胀

接下来进行一个图像的纵向膨胀，选择一个膨胀的维度，这里选择的是7。

kernel = np.ones((7,1),np.uint8) 
dilation = cv2.dilate(thresh, kernel, iterations=1)

找轮廓

接下来调用opencv找一下轮廓，

# 找轮廓
cnts = cv2.findContours(dilation.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
cnts = imutils.grab_contours(cnts)

接下来我们再读取一下原图，绘制轮廓看下轮廓的样子。

外接矩形

对于轮廓我们可以做外接矩形，这里可以看下外接矩形的效果。

过滤字符

这里过滤字符的原理其实就是将轮廓内的颜色填充成黑色。下面的代码是将高度小于15的轮廓填充成黑色。

for i, c in enumerate(cnts): 
    x, y, w, h = cv2.boundingRect(c) 
    if (h < 15):
        cv2.fillPoly(thresh, pts=[c], color=(0))

填充后可以看到标点符号就没了。

字符分割

因为图像是个矩阵，最后字符分割就是使用切片进行分割。

for c in cnts: 
    x, y, w, h = cv2.boundingRect(c)
    if (h < 15):
        continue
    cropImg = thresh[y:y+h, x:x+w]
    plt.imshow(cropImg)
    plt.show()

构造数据集

最后我们创建数据集进行标注，就是把上面的都串起来，然后将分割后的图片保存到文件夹里，并且完成标注。

import cv2
import numpy as np
import imutils
from matplotlib import pyplot as plt
import uuid


def split_letters(im):
    # 2值化
    thresh = cv2.threshold(im, 100, 255, cv2.THRESH_BINARY)[1]
    # 纵向膨胀
    kernel = np.ones((7, 1), np.uint8)
    dilation = cv2.dilate(thresh, kernel, iterations=1)
    # 找轮廓
    cnts = cv2.findContours(dilation.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
    cnts = imutils.grab_contours(cnts)

    # 过滤太小的
    for i, c in enumerate(cnts):
        x, y, w, h = cv2.boundingRect(c)
        if h < 15:
            cv2.fillPoly(thresh, pts=[c], color=(0))

    # 分割
    char_list = []
    for c in cnts:
        x, y, w, h = cv2.boundingRect(c)
        if h < 15:
            continue
        cropImg = thresh[y:y + h, x:x + w]
        char_list.append((x, cropImg))
    return char_list


for i in range(1, 10):
    im = cv2.imread(f"test{i}.png", 0)

    for ch in split_letters(im):
        print(ch[0])
        filename = f"ocr_datas/{str(uuid.uuid4())}.png"
        cv2.imwrite(filename, ch[1])

向量搜索（分类）

向量搜索其实就是个最近邻搜索的问题，我们可以使用sklearn中的KNeighborsClassifier。

训练模型代码如下：

import os
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
import cv2
import pickle
import json

max_height = 30
max_width = 30


def make_im_template(im):
    template = np.zeros((max_height, max_width))
    offset_height = int((max_height - im.shape[0]) / 2)
    offset_width = int((max_width - im.shape[1]) / 2)
    template[offset_height:offset_height + im.shape[0], offset_width:offset_width + im.shape[1]] = im
    return template

label2index = {}
index2label = {}
X = []
y = []
index = 0
for _dir in os.listdir("ocr_datas"):
    new_dir = "ocr_datas/" + _dir
    if os.path.isdir(new_dir):
        label2index[_dir] = index
        index2label[index] = _dir
        for filename in os.listdir(new_dir):
            if filename.endswith("png"):
                im = cv2.imread(new_dir + "/" + filename, 0)
                tpl = make_im_template(im)  # 生成固定模板
                tpl = tpl / 255  # 归一化
                X.append(tpl.reshape(max_height*max_width))
                y.append(index)
        index += 1

print(label2index)
print(index2label)

model = KNeighborsClassifier(n_neighbors=1)
model.fit(X, y)

with open("simple_ocr.pickle", "wb") as f:
    pickle.dump(model, f)


with open("simple_index2label.json", "w") as f:
    json.dump(index2label, f)

这里有一点值得说的是如何构建图片的向量，我们分隔的图片的长和宽是不固定的，这里首先需要使用一个模型，将分隔后的图片放置到模板的中央。然后将模型转换为一维向量，当然还可以做一个归一化。

生成结果

最后生成结果就是还是先分割一遍，然后转换为向量，调用KNeighborsClassifier模型，找到最匹配的一个作为结果。当然这是识别一个字符的结果，我们还需要根据分割的位置进行一个排序，才能得到最后的结果。

import cv2
import numpy as np
import imutils
from sklearn.neighbors import KNeighborsClassifier
import pickle
import json


with open("simple_ocr.pickle", "rb") as f:
    model = pickle.load(f)

with open("simple_ocr_index2label.json", "r") as f:
    index2label = json.load(f)

max_height = 30
max_width = 30


def make_im_template(im):
    template = np.zeros((max_height, max_width))
    offset_height = int((max_height - im.shape[0]) / 2)
    offset_width = int((max_width - im.shape[1]) / 2)
    template[offset_height:offset_height + im.shape[0], offset_width:offset_width + im.shape[1]] = im
    return template.reshape(max_height*max_width)


def split_letters(im):
    # 2值化
    thresh = cv2.threshold(im, 100, 255, cv2.THRESH_BINARY)[1]
    # 纵向膨胀
    kernel = np.ones((7, 1), np.uint8)
    dilation = cv2.dilate(thresh, kernel, iterations=1)
    # 找轮廓
    cnts = cv2.findContours(dilation.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
    cnts = imutils.grab_contours(cnts)

    # 过滤太小的
    for i, c in enumerate(cnts):
        x, y, w, h = cv2.boundingRect(c)
        if h < 15:
            cv2.fillPoly(thresh, pts=[c], color=(0))

    # 分割
    char_list = []
    for c in cnts:
        x, y, w, h = cv2.boundingRect(c)
        if h < 15:
            continue
        cropImg = thresh[y:y + h, x:x + w]
        char_list.append((x, cropImg))
    return char_list


def ocr_recognize(fname):
    im = cv2.imread(fname, 0)
    char_list = split_letters(im)

    result = []
    for ch in char_list:
        res = model.predict([make_im_template(ch[1])])[0]  # 识别单个结果
        result.append({
            "x": ch[0],
            "label": index2label[str(res)]
        })
    result.sort(key=lambda k: (k.get('x', 0)), reverse=False) # 因为是单行的，所以只需要通过x坐标进行排序。

    return "".join([it["label"] for it in result])


print(ocr_recognize("test1.png"))

以上就是python 如何做一个识别率百分百的OCR的详细内容，更多关于python 做一个OCR的资料请关注脚本之家其它相关文章！

Gemini vs DeepSeek：Transformer 架构下的技术路线差异与企业级选择 charles666666 transformer 架构深度学习语言模型产品经理人工智能
一、引言：从商业价值切入Gemini和DeepSeek都基于Transformer架构，但在技术路线和应用场景上各有侧重。本文将解密同源Transformer下的技术分野，帮助企业做出更明智的大模型选型决策。二、Transformer核心机制精要Transformer架构是现代大语言模型的基础，其核心机制包括自注意力机制和前馈神经网络。自注意力机制使模型能够捕捉序列中元素的全局依赖关系，但也是GP
沃丰科技和印尼MAP集团战略合作，智能化服务印尼2.8亿消费者沃丰科技科技人工智能大数据
在东南亚零售市场风起云涌之际，印尼综合性零售巨头MAP集团与智能客户服务领域领军企业（Udesk）达成深度战略合作，共同启动一项具有里程碑意义的数字化转型工程——通过AI赋能MAP集团旗下客户忠诚度计划平台，为印尼2.8亿消费者打造全场景、个性化的智能客户服务体验。此次合作不仅标志着印尼零售业智能化升级的加速，更将重塑企业与消费者之间的情感连接。一.MAPClub：零售忠诚度战略要地MAP集团：在
Redis 分布式锁实现与实践佑瞻数据库与知识图谱 redis 分布式数据库
在分布式系统架构中，多个独立进程对共享资源的并发访问控制是常见需求，分布式锁作为解决这一问题的关键技术，在缓存更新、任务调度、库存管理等场景中发挥着重要作用。本文将从基础原理出发，详细阐述基于Redis的分布式锁实现方案，包括单实例模式与Redlock算法，并探讨其在实际应用中的关键考量。分布式锁核心概念分布式锁是一种跨进程、跨机器的同步机制，用于保证多个分布式节点对共享资源的互斥访问。一个可靠的
布隆过滤器详解及使用：解决缓存穿透问题豪宇刘缓存哈希算法散列表
在现代应用开发中，缓存技术被广泛应用于提升系统性能和响应速度。然而，缓存系统也带来了一些新的挑战，如缓存穿透、缓存击穿和缓存雪崩等问题。一、什么是布隆过滤器？布隆过滤器是一种空间效率很高的概率型数据结构，用于判断一个元素是否在一个集合中。它的优点是高效且占用内存少，但有一定的误判率（即可能会错误地认为某个不在集合中的元素存在于集合中），不过它不会漏报（即如果一个元素确实不在集合中，布隆过滤器一定能
仓颉编程语言：从入门到精通
为啥要瞅瞅仓颉这玩意儿？有一说一，现在的编程语言多得跟米一样，对吧？那一门新语言想火，没点绝活儿肯定不行。仓颉（Cangjie）这哥们儿，是华为搞出来的新玩意儿，静态编译的，主打的就是一个现代化、性能炸裂、安全感满满，而且天生就会搞并发。就凭这几点，已经有不少大佬开始关注了。这篇博客呢，就是你的“老司机”指南，带你把仓颉这车开得明明白白。不管你是刚上路的小白，还是开惯了Rust、Go、Java、N
【无标题】Python ---Day2 复合类型之序列类型、映射类型和集合类型的学习！！！
系列文章目录文章目录系列文章目录前言一、复合类型初识1.1列表类型1.1.1列表创建1.1.2列表运算1.1.3列表访问1.1.3.1索引1.1.3.2反向索引1.1.3.3切片1.1.4列表操作1.1.4.1添加数据1.1.4.2修改数据1.1.4.3删除数据1.2元组类型1.2.1元组创建1.2.2元组操作1.2.2.2查看元组1.2.2.3解包技能1.2.3元组运算1.2.4元组不可变二、映
脑电分析入门指南：信号处理、特征提取与机器学习 Ao000000 信号处理机器学习人工智能
脑电分析入门指南一、为什么要研究脑电1.课题目标（解决什么问题）2.输入与输出二、脑电分析的整体流程三、每一步详解1.数据采集2.预处理3.特征提取4.特征选择/降维5.分类与识别四、研究过程中遇到的挑战与解决方法五、学习感受一、为什么要研究脑电1.课题目标（解决什么问题）本课题旨在通过对脑电（EEG）的采集与分析，提取有用的神经信息，实现对某类脑状或行为的识别/预测/评估。例如：情绪识别、疾病诊
指针的const应用颖川守一算法 c++
分为三个一、const修饰指针我允许你更换存储的门牌号，但是这个里面住户的数据布局不许改#includeusingnamespacestd;intmain(){inta=10,b=20,c=10;constint*p=&a;//const修饰指针*p=10;//不允许const对于p指针指向的"值"修改p=&b;//允许const对于p指针指向的修改system("pause");return0
Unity Netcode自定义数据传输——结构体及其序列化未来的中科院院士 unity 游戏引擎
在UnityNetcode中，要实现自定义数据的网络传输，确实需要两个关键部分：✅两个必需组件：数据结构定义publicstructPlayerState:INetworkSerializable{publicintid;//字段1：玩家IDpublicboolisReady;//字段2：准备状态//...其他字段}作用：定义要传输的数据内容本质：声明"要传输什么"序列化方法实现publicvoi
Python数据分析案例｜从模拟数据到可视化：零售门店客流量差异分析全流程
1.依赖库导入importmatplotlib.pyplotaspltimportnumpyasnpimportpandasaspdfrommatplotlibimportfont_managerfromdatetimeimportdatetimematplotlib.pyplot：用于绘制图表。numpy：numpy：pandas：虽然代码中未font_manager：设置datetime：生成
Linux 中的 .bashrc 是什么？配置详解 vvw& 技术文章 Linux linux chrome 运维服务器 ubuntu 后端 centos
如果你使用过Linux终端，那么你很可能接触过.bashrc文件。这个功能强大的脚本是个性化命令行环境并使其更高效运行的关键。在本文中，我们将向你介绍这个文件是什么，在哪里可以找到它，以及如何安全地编辑它。你还将学到一些实用技能，如创建省时的命令别名、编写强大的shell函数，以及自定义终端提示的外观。最后，我们还将介绍基本的最佳实践和常见错误，帮助你建立更高效、更强大的命令行工作流程。准备强烈简
使用工厂模式和策略模式实现布隆过滤器小菜0-o 策略模式
使用工厂模式和策略模式实现布隆过滤器的大概流程如下：定义布隆过滤器接口：首先定义一个布隆过滤器接口，包括添加元素和判断元素是否存在两个基本操作。实现具体的布隆过滤器类：创建一个具体的布隆过滤器类，实现布隆过滤器接口中的方法。在这个类中，需要定义布隆过滗器的数据结构（比如位数组）、大小等属性。定义哈希策略接口：定义一个哈希策略接口，包含计算哈希值的方法。实现具体的哈希策略类：创建多个具体的哈希策略类
深度解码：企业级 AI 选型中 Gemini 与 DeepSeek 的架构对决 charles666666 人工智能架构语言模型深度学习产品经理机器学习
开篇：技术选型会议中的认知困局当技术团队尝试评估基于MoE（专家混合）架构的Gemini1.5Pro和DeepSeek-V3时，决策者往往陷入认知混乱。尽管两者同属MoE架构，实际测试表现却大相径庭。这种混乱源于对参数规模的盲目崇拜。Gemini1.5Pro拥有1.5万亿参数，而DeepSeek-V3参数规模仅为前者的一半。但在实际企业场景测试中，DeepSeek在中文语义理解任务中的准确率却高出
java组件化设计_构建之路—谈谈组件化后端构建和实现
前言这一篇文章，准备了很久，构思了很久，草稿了很久。从个人编程至今，历经了C，C++，Java，到现如今的NodeJS。也后端到前端，再回到后端。更从学校里的学生信息管理系统到大型商业系统构建，是的，我曾一直以为编程也就是如此了，由瀑布模型，敏捷开发，设计模式等等组成的软件工程大致就是如此了。相信可能很多人也会有和我类似的想法，是否也都曾迷茫过？幸运的是，伴随着对前端的接触和深入，云雾散开。前端组
从 callTool 到思考型调用：月影 Resolver 颠覆传统 MCP 的三板斧 weixin_55007223 月影陪伴智能体 AI编程语言模型人工智能
3ms与2s——这是Resolver用两条完全不同的路径给出的答案。当大多数MCP集成还停留在callTool(…)的机械时代，月影把“工具调用”推进了一格：让语义去找工具，让工具自己组队。这不是一次简单的工程优化，而是我们对“人机协作边界”的一次重新提问。我们相信——工具不只是工具，而是智能的触角；而Resolver，是月影整个意识系统中最冷静、最精准的那个判断节点。结果也在验证这一点：95%日
C语言易错点整理（一） WangJiaLeLeLeLe c语言算法数据结构
1、对于字符数组而言，只是将这些字符放进我们所开辟的空间里，不能直接用strlen计算，因为没有"\0"，会导致出现随机值，例如一下代码chararr[]={'b','i','t'};printf("%d",strlen(arr));2、switch语句中，关键字包含case、break、default，但是不包含continue（不执行其下面的语句直接返回判断条件判断）3、在不同作用域中可以有相
【机器学习-08】参数调优宝典：网格搜索与贝叶斯搜索等攻略云天徽上机器学习机器学习人工智能
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
来，C语言刷题(中)（保姆式详解）白子寰 C语言题集 c语言算法
目录关于VS2022调试技巧步骤一步骤二步骤三关于Debug和Release版本区别编程题1.计算求和2.水仙花数3.打印菱形4.喝汽水问题递归题组（1）关于递归的描述（2）打印一个整数的每一位（3）求阶层①递归方式②非递归方式(4)计算一个数的每位之和(5)n的k次方操作符讲解（1）进制位的转化（2）原码，反码，补码（3）按位异或^（4）按位或与&编程题（1）交换两个变量(2)统计二进制中1的个
常见代码试题
指针概念辨析指针-指针得到的是指针和指针值之间的元素个数整形指针解引用访问4个字节指针可以比较大小整形指针+1意味着向后偏移4个字节当使用free释放掉一个指针内容后，指针变量的值不会被更改，需要手动置NULL野指针是指向未分配或者已经释放的内存地址char*p="hello";中p指向字符串第一个元素地址数组指针是指针；指针数组是数组int*fun(inta,intb)与(int*)fun(in
PPT 图形制作神器推荐：从基础到 AI 的高效工具指南
在当今信息飞速传播的时代，PPT已成为展示观点、传递信息的重要媒介。一份出色的PPT，不仅要有清晰的逻辑和丰富的内容，美观且直观的图形更是吸引观众注意力、提升信息传达效率的关键。无论是商务汇报中展示数据趋势的图表，还是教学课件里解释概念的示意图，恰当的PPT图形都能让演示效果事半功倍。那么，如何高效地生成这些助力PPT出彩的图形呢？接下来，我们将深入探讨多种实用方法，并着重为您推荐功能强大的Pic
打造自己的组件库（一）宏函数解析行云＆流水 Vue3组件库 vue3组件库 vue.js javascript 前端
1.初始化项目npmcreatevite生成项目后，文件目录如下：├──.idea/#IntelliJIDEA配置目录├──.vscode/#VSCode配置目录├──public/#静态资源目录│└──vite.svg#Vite默认图标├──src/#源代码目录│├──assets/#项目资源文件││└──vue.svg#Vue图标│├──components/#Vue组件目录││└──Hell
前端如何实现大文件上传行云＆流水 Vue3 前端 typescript 前端
一、基础技术实现文件分片（切片上传）将大文件按固定大小（如2MB/片）切割为多个Blob分片，通过file.slice()实现。优势：避免单次请求超时，支持断点续传。并发控制与异步上传使用Promise.all控制并发，避免浏览器请求阻塞。关键点：上传失败需自动重试。代码实现切片上传importaxiosfrom"axios";import{onMounted}from"vue";function
KTO（Kahneman-Tversky Optimization）技术详解与工程实现 DK_Allen 大模型深度学习 pytorch 人工智能 KTO
KTO（Kahneman-TverskyOptimization）技术详解与工程实现一、KTO核心思想KTO是基于行为经济学前景理论（ProspectTheory）的偏好优化方法，突破传统偏好学习需要成对数据的限制，仅需单样本绝对标注（好/坏）即可优化模型。其创新性在于：损失函数设计：将人类对"收益"和"损失"的非对称心理反应量化数据效率：无需构建偏好对（y_w>y_l），直接利用松散标注二、KT
Python中字符串的操作方法幻鸩605 python java 开发语言
字符串拼接使用+运算符将多个字符串连接起来。例如：s1="Hello"s2="World"result=s1+""+s2print(result)#输出：HelloWorld字符串重复使用*运算符重复字符串。例如：s="abc"result=s*3print(result)#输出：abcabcabc字符串长度使用len()函数获取字符串长度。例如：s="Python"length=len(s)pr
C语言预处理详解
目录1.预定义符号2.#define定义常量3.#define定义宏4.带有副作用的宏函数5.宏替换的规则6.宏函数的对比1.预定义符号C语言设置了一些预定义符号,可以直接使用,预定义符号也是在预处理期间处理的//进行编译的源文件__FILE__//文件当前的行号__LINE__//文件被编译的日期__DATE__//文件被编译的时间__TIME__//如果编译器遵循ANSIC，其值为1，否则未定
常见的网络攻击方式及防御措施神的孩子都在歌唱计算机网络原理网络运维服务器
常见的网络攻击方式及防御措施：全面解析网络安全威胁前言肝文不易，点个免费的赞和关注，有错误的地方请指出，看个人主页有惊喜。作者：神的孩子都在歌唱在信息化高速发展的今天，网络安全威胁无处不在，不论是个人用户、企业组织，甚至是政府部门，都面临着各种形式的网络攻击。今天，神唱就来带大家一起深入了解常见的网络攻击方式以及如何有效防御这些攻击。一.网络攻击的基本概念1.1什么是网络攻击？网络攻击是指攻击者通
打造自己的组件库（二）CSS工程化方案行云＆流水 Vue3组件库前端 Vue3 vue3组件库 vue.js 前端
1.css工程化方案1.1.目录结构设计src/assets/styles/├──index.scss#主入口文件├──variables.scss#全局CSS变量定义├──mixins.scss#SCSS混入├──reset.scss#样式重置└──theme/├──light.scss#亮色主题└──dark.scss#暗色主题1.2.CSS工程化特点1.2.1模块化导入@use'./them
使用Ora2Pg迁移Oracle数据到openGauss hid_clf-2oizpt7skaq oracle 数据库
下载及安装Ora2Pg1.下载说明PerlDBD：SearchtheCPAN-metacpan.org#只需在搜索输入框中输入模块的全名（例如：DBD::Oracle、DBD::Pg）Ora2Pg：Ora2Pg:MigratesOracletoPostgreSQL在Windows下，应该安装StrawberryPerl（StrawberryPerlforWindows）和操作系统对应的Oracle
Spring 进阶-第三十篇：Spring 框架的未来发展与前沿技术融合程序员勇哥 Java全套教程 spring java 后端 SpringBoot spring cloud
Spring进阶-第三十篇：Spring框架的未来发展与前沿技术融合一、云原生技术与Spring1.1Spring对云原生的支持演进Spring与云原生技术的融合经历了从适配到深度整合的过程：早期探索（2015-2018）：通过spring-boot-starter-container等模块初步支持容器化部署，简化Docker镜像构建；推出SpringCloud生态，提供服务注册与发现（Eurek
大小不足5M，轻量级PDF阅读工具
“你是否也遇见过这样的窘境：明明只需要打开查看几页内容，却要安装一个几十兆甚至上百兆的软件，等待半天才能加载完成，老旧电脑更是卡顿得让人失去耐心。直到我发现了SmartPDF，才明白原来一款纯粹的PDF阅读器可以如此轻巧高效。它像一把精准的手术刀，剔除了所有冗余功能，只留下最核心的阅读体验，却解决了日常使用中的诸多痛点。4.7M的体积，装得下所有阅读需求第一次看到SmartPDF的安装包时，我简直
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他