coder-pig

小猪的Python学习之旅 —— 13.文字识别库pytesseract初体验

标签：Python

引言

度过了短暂的春节假期，又要开始继续搬砖了，因为还处于节后
综合征，各种散漫，不想看任何代码相关的东西，根本挤不出学习热情…
恰逢前几天，公司的UI妹子安利了一个卖萌的新番：小木乃伊到我家

就是图中的这四只小东西，敲可爱的说，分别叫：

小伊(木乃伊)，可尼(小鬼，牛)，啊勇(龙)，胖嘟嘟

UI妹子尤其喜欢可尼，是挺萌的，突然想找些相关的手机或者电脑壁纸，
壁纸没找到，却在 小木乃伊到我家吧 里找到了一些自制的表情包：
https://tieba.baidu.com/p/5522091060

表情都很有趣嘛，写个脚本把图片都爬下来？走一波流程：

Step 1：Network抓包看下返回的数据是否和Element一致，
或者说有我们想要的数据，而不是通过JS黑魔法进行加载的；

复制下第一个图的图片链接，到Network选项卡里的Response
里查找以下，嗯，找得到，可以：

Step 2：滚动到底，抓包没有发现Ajax动态加载数据的踪迹

Step 3：点击第二页，抓包发现了Ajax加载的痕迹！！！

同样拿第一个图的url搜下，同样可以找到

三个参数猜测pn为page_number，即页数，PostMan或者自己
写代码模拟请求，记得塞入Host和X-Requested-With，验证pn=1
是否为第一页数据，验证通过，即所有页面数据都可以通过这个
接口拿到；

Step 4：先加载拿到末页是第几页，然后走一波循环遍历即可
解析数据获得图片url，写入文件，使用多个线程进行下载
比较简单，就不详解了，直接给出代码，看不懂的自己复习去：

# 抓取百度贴吧某个帖子里的所有图片
import coderpig_n as cpn
import requests
import time
import threading
import queue

tiezi_url = "https://tieba.baidu.com/p/5522091060"
headers = {
    'Host': 'tieba.baidu.com',
    'User-Agent': cpn.user_agent_dict['chrome'],
}

pic_save_dir = 'output/Picture/BaiduTieBa/'
pic_urls_file = 'tiezi_pic_urls.txt'
download_q = queue.Queue()  # 下载队列


# 获得页数
def get_page_count():
    try:
        resp = requests.get(tiezi_url, headers=headers, timeout=5)
        if resp is not None:
            soup = cpn.get_bs(resp.text)
            a_s = soup.find("ul", attrs={'class': 'l_posts_num'}).findAll("a")
            for a in a_s:
                if a.get_text() == '尾页':
                    return a['href'].split('=')[1]
    except Exception as e:
        print(str(e))


# 下载线程
class PicSpider(threading.Thread):
    def __init__(self, t_name, func):
        self.func = func
        threading.Thread.__init__(self, name=t_name)

    def run(self):
        self.func()


# 获得每页里的所有图片
def get_pics(count):
    while True:
        params = {
            'pn': count,
            'ajax': '1',
            't': int(time.time())
        }
        try:
            resp = requests.get(tiezi_url, headers=headers, timeout=5, params=params)
            if resp is not None:
                soup = cpn.get_bs(resp.text)
                imgs = soup.findAll('img', attrs={'class': 'BDE_Image'})
                for img in imgs:
                    cpn.write_str_data(img['src'], pic_urls_file)
                return None
        except Exception as e:
            pass
    pass


# 下载线程调用的方法
def down_pics():
    global download_q
    while not download_q.empty():
        data = download_q.get()
        download_pic(data)
        download_q.task_done()


# 下载调用的方法
def download_pic(img_url):
    while True:
        proxy_ip = {
            'http': 'http://' + cpn.get_dx_proxy_ip(),
            'https': 'https://' + cpn.get_dx_proxy_ip()
        }
        try:
            resp = requests.get(img_url, headers=headers, proxies=proxy_ip, timeout=5)
            if resp is not None:
                print("下载图片:" + resp.request.url)
                pic_name = img_url.split("/")[-1]
                with open(pic_save_dir + pic_name, "wb+") as f:
                    f.write(resp.content)
                return None
        except Exception as e:
            pass


if __name__ == '__main__':
    cpn.is_dir_existed(pic_save_dir)
    print("检索判断链接文件是否存在：")
    if not cpn.is_dir_existed(pic_urls_file, mkdir=False):
        print("不存在，开始解析帖子...")
        page_count = get_page_count()
        if page_count is not None:
            headers['X-Requested-With'] = 'XMLHttpRequest'
            for page in range(1, int(page_count) + 1):
                get_pics(page)
        print("链接已解析完毕！")
        headers.pop('X-Requested-With')
    else:
        print("存在")
    print("开始下载图片~~~~")
    headers['Host'] = 'imgsa.baidu.com'
    pic_list = cpn.load_list_from_file(pic_urls_file)
    threads = []
    for pic in pic_list:
        download_q.put(pic)
    for i in range(0, len(pic_list)):
        t = PicSpider(t_name='线程' + str(i), func=down_pics)
        t.daemon = True
        t.start()
        threads.append(t)
    download_q.join()
    for t in threads:
        t.join()
    print("图片下载完毕")

运行结果：

接着在和UI妹子聊天的时候就可以拿这些表情来斗图了，但是问题来了，
总共有165个图，我每次想说什么都要打开图片一个个看文字是否
符合场景，然后才发，有点呆，而且浪费时间，有没有什么快点
找到表情的方法呢？

答：直接把表情里的文字作为图片名不就好了，直接文件搜索搜关键字；

但是问题又来了，一张张去改文件名？多呆哦！

突然想起之前看过一篇头脑王者答题辅助脚本的文章，就是
利用OCR文字识别，把识别出来的文字丢百度上搜索，选项频度最高
的一般就是正确答案，可以试一波这个套路，谷歌为我们提供了一个
免费的ORC文字识别引擎：Tesseract
仓库地址：https://github.com/tesseract-ocr/tesseract

1.装一波环境

稳定版本是3.0，4.0版本还处于研发，一开始以为新版的肯定牛逼
一些，装了4.0的发现对于中文的识别效率超低，差太远了，后来
又换回了3.0版本，情况稍微好一些，当然可以通过其他方法提高
中文识别率，图片裁剪，调节对比度，黄底黑字，自己训练语言库等，
不是本节的学习范畴，本节写个简单的例子了解下怎么用而已～

更多可移步到：ubuntu下使用Tesseract-ocr(编译、安装、使用、训练新的语言库)
各个版本介绍：https://github.com/tesseract-ocr/tesseract/wiki/ReleaseNotes

Ubuntu 14.04 环境安装(其他系统环境后续用到再补充…)

1.安装tesseract-ocr

sudo apt-get install tesseract-ocr
tesseract --version

2.安装pytesseract与Image

sudo pip install pytesseract
sudo pip install Image

3.下载tesseract中文简体字库

默认安装后是不带中文简体库的，官方仓库走一波：
https://github.com/tesseract-ocr/tessdata
记得选择版本Tag，3.0的tesseract-ocr是用不了4.0的字库的！！！
如果你下错了，调用的时候会报3.0用不了4.0的字库的错误！！！

这两个就是对应中文简体与繁体：

字库下载后需要放到下面的目录下：/usr/share/tesseract-ocr/tessdata
然后你发现字库文件无法拷贝到该目录下，因为需要权限，这里可以通过
命令行拷贝一波：

sudo cp '/home/jay/下载/chi_sim.traineddata' /usr/share/tesseract-ocr/tessdata

前面是源文件，后面是拷贝到哪个目录下。

好了，到此就准备完成了，接着写个简单的程序来识别一波！

2.识别一波图片

代码忒简单，创建一个Image对象，调用下pytesseract.image_to_string()方法
就能识别文字了，参数依次是Image对象，识别语言类型，chi_sim中文简体

import pytesseract
from PIL import Image

image = Image.open('1.png')
text = pytesseract.image_to_string(image, lang='chi_sim')
print(text.replace(" ", ""))

随手截一波掘金首页的分类栏：

运行一波：

识别结果有点感人，调一张表情图试试：

识别结果：

？？？都识别出来什么东西，后面试了几张图片我还发现不止识别
错误，有时连字都识别不出来…在不自己去训练字体库的情况下，
中文识别率真心感人，不过最大的有点优点还是：Tesseract免费。
识别数字或者英语的时候，还凑合，随手复制一段英文：

设置下lang=’eng’，输出结果：

免费的识别率低，试试收费的怎样，百度云OCR

3.试试百度云OCR

收费，每天免费500次，拿来完成我们这个图片命名的小脚本足矣！
官方文档：文字识别 - Python SDK文档

配置流程：

1.开通文字识别服务：https://cloud.baidu.com/product/ocr.html

2.创建一个应用，然后记下API Key 和 Secret Key 程序里要用

3.点右上角->用户中心，抄下自己的用户ID

4.pip命令安装一波

sudo pip install baidu-aip

编写简单代码：

from aip import AipOcr

# 新建一个AipOcr对象
config = {
    'appId': 'XXX',
    'apiKey': 'YYY',
    'secretKey': 'ZZZ'
}
client = AipOcr(**config)


# 读取图片
def get_file_content(file_path):
    with open(file_path, 'rb') as fp:
        return fp.read()

# 识别图片里的文字
def img_to_str(image_path):
    image = get_file_content(image_path)
    # 调用通用文字识别, 图片参数为本地图片
    result = client.basicGeneral(image)
    # 结果拼接返回
    if 'words_result' in result:
        return '\n'.join([w['words'] for w in result['words_result']])


if __name__ == '__main__':
    print(img_to_str('1.png'))

试试上面掘金的那个，输出结果：

啧啧，可以的，试试搞基那个表情？

嗯，还是有点小错误，在文档里找到：

把basicGeneral 改为 basicAccurate，结果：

啧啧，完美识别，稍微慢了一点点，接下来把代码完善下，
把所有的图片重命名一波咯！

4.实战：利用百度OCR识别自动修改文件名

遍历文件夹，获得所有的图片路径，然后文字识别一波，获得结果集
里长度最长的字符串作为文件名，能识别的就修改下文件名，完整代码
如下：

import os
from aip import AipOcr

# 新建一个AipOcr对象
config = {
    'appId': 'XXX',
    'apiKey': 'YYY',
    'secretKey': 'ZZZ'
}
client = AipOcr(**config)

pic_dir = r"/home/jay/图片/BaiduTieBa/"


# 读取图片
def get_file_content(file_path):
    with open(file_path, 'rb') as fp:
        return fp.read()


# 识别图片里的文字
def img_to_str(image_path):
    image = get_file_content(image_path)
    # 调用通用文字识别, 图片参数为本地图片
    result = client.basicGeneral(image)
    # 结果拼接返回
    words_list = []
    if 'words_result' in result:
        if len(result['words_result']) > 0:
            for w in result['words_result']:
                words_list.append(w['words'])
            file_name = get_longest_str(words_list)
            print(file_name)
            os.rename(image_path, pic_dir + str(file_name).replace("/", "") + '.jpg')


# 获取字符串列表中最长的字符串
def get_longest_str(str_list):
    return max(str_list, key=len)


# 遍历某个文件夹下所有图片
def query_picture(dir_path):
    pic_path_list = []
    for filename in os.listdir(dir_path):
        pic_path_list.append(dir_path + filename)
    return pic_path_list


if __name__ == '__main__':
    pic_list = query_picture(pic_dir)
    if len(pic_list) > 0:
        for i in pic_list:
            img_to_str(i)

运行结果：

要注意一点，高精度版免费只有50次，我一开始不知道，后面跑程序
突然卡住一直不动，这点要注意，后面还是用回了普通模式，所以有
些文件名并不完全是对的，就调调API的事，非常简单，项目有极大
刚需要用到文字识别的自行去官网了解吧～

5.小结

本节简单的了解了一下pytesseract这个免费的OCR识别库，
对于中文的识别率不高，后面试了下百度云OCR，顺道写了
一个简单的实战项目，都比较简单，那么本节就到这里啦～

来啊，Py交易啊

想加群一起学习Py的可以加下，智障机器人小Pig，验证信息里包含：
Python，python，py，Py，加群，交易，屁眼中的一个关键词即可通过；

验证通过后回复加群即可获得加群链接(不要把机器人玩坏了！！！)～～～
欢迎各种像我一样的Py初学者，Py大神加入，一起愉快地交流学♂习，van♂转py。

在Robot Framework中Run Keyword If的用法吾爱乐享 Robot Framework Robot Framework
基本用法使用ELSE使用ELSEIF使用内置变量使用Python表达式本文永久更新地址:在RobotFramework中，RunKeywordIf是一个条件执行的关键字，它允许根据某个条件来决定是否执行某个关键字。下面是RunKeywordIf的基本用法：RunKeywordIfconditionkeyword...ELSEkeyword这里的condition是一个表达式，如果该表达式为真（即条
JAVA————十五万字汇总 MeyrlNotFound java 开发语言
JAVA语言概述JAVA语句结构JAVA面向对象程序设计（一）JAVA面向对象程序设计（二）JAVA面向对象程序设计（三）工具类的实现JAVA面向对象程序设计（四）录入异常处理JAVA图形用户界面设计JAVA系统主界面设计JAVA图形绘制JAVA电子相册JAVA数据库技术（一）JAVA数据库技术（二）JAVA数据库技术（三）拓展：JAVA导入/导出——输入/输出JAVA网络通信JAVA多线程编程技
基于32单片机的无人机直流电机闭环调速系统设计赵谨言论文毕业设计经验分享
标题:基于32单片机的无人机直流电机闭环调速系统设计内容:1.摘要本文针对无人机直流电机调速需求，设计了基于32单片机的无人机直流电机闭环调速系统。背景在于无人机应用场景不断拓展，对电机调速精度和稳定性要求日益提高。目的是开发一套高精度、响应快的闭环调速系统，以提升无人机飞行性能。方法上，采用32单片机作为控制核心，结合编码器反馈电机转速信息，运用PID控制算法实现闭环调速。通过实验测试，结果表明
解锁区块链智能合约的未来：构建支持仿真测试的MySQL环境墨夶数据库学习资料1 区块链智能合约 mysql
在区块链技术快速发展的今天，智能合约作为其核心组件之一，正在改变我们处理交易、管理资产乃至构建商业逻辑的方式。然而，对于许多开发者而言，在正式部署之前如何有效地测试和验证智能合约的行为仍然是一个不小的挑战。本文将详细介绍如何设计并实现一个基于MySQL的支持智能合约仿真执行的环境，使您能够在传统的关系型数据库中体验到智能合约的强大功能。一、为什么选择MySQL？尽管以太坊等平台提供了专门用于编写和
解锁区块链智能合约版本管理的新纪元——MySQL架构下的革新之道墨夶数据库学习资料1 区块链智能合约 mysql
在区块链技术蓬勃发展的今天，智能合约作为去中心化应用（DApps）的核心组件，其版本管理和升级机制的重要性日益凸显。然而，传统的智能合约一旦部署便难以更改的特性给开发者带来了不小的挑战。面对这一难题，如何构建一个既能够保障数据安全又便于维护和更新的智能合约管理系统成为了业界关注的焦点。本文将深入探讨基于MySQL数据库设计支持智能合约版本控制的解决方案，旨在为读者提供一套完整的、易于实施的技术框架
在虚拟机上安装Hadoop 杜清卿 hadoop
基本步骤与安装java一致:先用finalshell将hadoop-3.1.3.tar.gz导入到opt目录下面的software文件夹下面，然后解压,最后配置环境变量。1.使用finalshell上传。这里直接鼠标拖动操作即可。2.解压。进入到Hadoop安装包路径下，cd/opt/software/，再解压安装文件到/opt/module下，对应的命令是:tar-zxvfhadoop-.1.3
一个普通的vue权限管理方案-菜单权限控制 han_hanker vue.js 前端 javascript
渲染左侧菜单0&&sidebar.name!==sidebar.children[0].name">{{sidebar.meta.title}}0">{{child1.meta.title}}{{child.name}}{{child1.name}}{{sidebar.name}}import{getUserFuncPerm}from'@/api/user'exportdefault{name:'
嵌入式硬件设计 — 智能设备背后的隐形架构大师 m0_74825238 面试学习路线阿里巴巴嵌入式硬件架构
目录引言?一、嵌入式硬件设计概述（一）需求分析（二）硬件选型（三）电路设计（四）PCB制作与焊接（五）硬件调试与测试（六）软件移植与开发二、嵌入式硬件选型（一）微控制器（MCU）/微处理器（MPU）（二）存储器（三）传感器与执行器（四）电源管理芯片（五）通信接口芯片三、嵌入式硬件代码开发（一）开发环境搭建（二）底层驱动程序开发引言嵌入式系统已经渗透到我们生活的方方面面，从智能手机、智能家居到工业自
七天免登录为什么不能用seesion，客户端的http请求自动携带cookei的机制（比较重要）涉及HTTP规范哥谭居民0001 java tomcat http
如果是七天免登录,和session肯定没关系,因为session不能持久化,主要是客户端一旦关闭,seesion就失效了///所以必须是能持久化的，这就清晰了，要莫在的服务器保存，要摸在客户端设置cook机制1.使用Cookie实现七天免登录前端（登录页面）在登录页面中，提供一个“记住我”选项，允许用户选择是否启用免登录功能。jsp复制记住我后端（Servlet）在登录成功后，根据用户是否勾选“记
法律行业——合同审查与AI律师 zhouyaowei1983 人工智能人工智能
一、引言：AI技术重构法律行业新格局‌随着AI技术从实验室走向规模化应用，法律行业正经历从“经验驱动”向“数据驱动”的范式转变。这一变革的核心驱动力源于法律服务的两大根本矛盾：‌传统人工服务效率瓶颈‌与‌市场对高精度、低成本法律产品的迫切需求‌‌。‌1.法律行业数字化转型的底层逻辑‌‌技术革命推手‌：以DeepSeekR1大模型为代表的开源AI技术，让法律文本解析、案例推理等复杂任务实现平民化应用
使用 Resilience4j 实现重试树懒_Zz Spring spring cloud spring boot spring
在本文中，我们将首先简要介绍Resilience4j，然后深入研究其重试模块。我们将了解何时以及如何使用它，以及它提供哪些功能.什么是Resilience4j？应用程序通过网络通信时，许多事情都可能出错。由于连接中断、网络故障、上游服务不可用等原因，操作可能会超时或失败。应用程序可能会相互过载、无响应，甚至崩溃。Resilience4j是一个Java库，可帮助我们构建具有弹性和容错能力的应用程序。
Tomcat从入门到精通：全方位深度解析与实战教程墨瑾轩一起学学Java【一】运维 tomcat java
一、Tomcat入门1.Tomcat简介ApacheTomcat，简称Tomcat，是一个开源的轻量级应用服务器，专为运行JavaServlet和JavaServerPages(JSP)技术设计。它是JavaWeb开发中最常用的Servlet容器之一，遵循JavaServlet和JavaServerPages规范，为开发者提供了一个稳定的、易于使用的部署环境。2.安装与启动安装下载最新版Tomca
Apache Tomcat 远程代码执行漏洞复现(CVE-2025-24813)（附脚本） iSee857 漏洞复现 apache tomcat java web安全安全
免责申明：本文所描述的漏洞及其复现步骤仅供网络安全研究与教育目的使用。任何人不得将本文提供的信息用于非法目的或未经授权的系统测试。作者不对任何由于使用本文信息而导致的直接或间接损害承担责任。如涉及侵权，请及时与我们联系，我们将尽快处理并删除相关内容。0x01产品描述：ApacheTomcat是一个开源的JavaServlet容器和Web服务器，支持运行JavaServlet、JavaServerP
深入剖析 Spring Boot 应用上下文 (Application Context)：核心概念与实践应用无眠_ spring boot java rpc
深入剖析SpringBoot应用上下文(ApplicationContext)：核心概念与实践应用引言在SpringBoot的世界里，应用上下文(ApplicationContext)扮演着至关重要的角色。它不仅是Spring框架的核心容器，负责管理应用中所有Bean的生命周期和依赖关系，更是SpringBoot应用得以运行的基础环境。理解ApplicationContext的概念、作用和工作原理
Spring Boot 外部化配置 (Externalized Configuration) 超详解：灵活管理应用配置，打造可移植、可扩展的应用无眠_ spring boot 数据库 oracle
引言在SpringBoot应用开发中，配置管理是至关重要的环节。不同的环境(开发、测试、生产)通常需要不同的配置参数，例如数据库连接、端口号、日志级别、第三方API密钥等等。SpringBoot外部化配置(ExternalizedConfiguration)提供了一套强大的机制，允许我们将应用的配置从代码中解耦出来，并通过多种外部来源进行灵活管理，从而打造出可移植、可扩展、易于维护的SpringB
MyBatis-plus 2.x -＞ 3.x 版本升级笔记三只松鼠@ 工作日常 spring java sql
参考链接：https://github.com/baomidou/mybatis-plus/issues/32621.官方更新日志升级JDK8+优化性能Wrapper支持lambda语法模块化MP合理的分配各个包结构移除com.baomidou.mybatisplus.extension.injector.methods.additional包下的过时类fix:初始化TableInfo中遇到多个字
Java-校验值区间值的连续性江节胜-胜行全栈AI java 状态模式开发语言
最新版本更新https://code.jiangjiesheng.cn/article/363?from=csdnc＜30，30≤c＜60，60≤c＜100，100≤c有值时，必须收尾相等。BigDecimalendCheckValue=null;for(BssCompareMethodParameterConfigAddVOconfigRow:actualSampleCompareList){e
JAVA集合arraylist存取数据_ArrayList集合月小烟
集合出现的原因数组存储数据是固定存储,当遇到要存储数据的个数不确定的时候数组就不满足了,集合就出现了集合存储数据的个数,可以随着数据量的变化而变化,不会造成越界或者大量的空间浪费存储数据的个数是可变的ArrayList:java.util包下底层维护了一个数组线程不同步(处理速度快)创建ArrayList对象的格式:ArrayList集合名字=newArrayList();:泛型,代表了集合中要存
Android 和 Linux 之间关联和区别测试也是会开发的 android linux 运维
1.核心：基于Linux内核底层依赖：Android的核心系统服务（如进程管理、内存管理、硬件驱动等）依赖于Linux内核。Android使用Linux内核的修改版本（如AndroidCommonKernel），并针对移动设备的特性（电源管理、低内存优化等）进行了定制。开源协议：Linux内核采用GPL协议，因此Android对内核的修改必须开源（厂商发布的Android设备内核代码需公开）。2.
RabbitMQ-死信交换机和死信队列 ui99tew1 rabbitmq 分布式
在RabbitMQ的使用过程中，死信交换机（DeadLetterExchange，简称DLX）和死信队列（DeadLetterQueue，简称DLQ）是解决消息处理失败的一种高效机制。这套机制不仅能帮助系统保证消息的可靠性，还能在消息处理出现问题时提供有效的错误处理和消息追踪方式。接下来，我将详细解释什么是死信队列和死信交换机，以及它们是如何工作的。死信队列和死信交换机的定义死信交换机是一种特殊的
某个业务采用【规则引擎】重构大幅降低耗时 sunnyboy_4 java 规则引擎
需求分析需求：由于业务的计算规则比较复杂，经过几年的规则迭代。后续维护维护起来比较麻烦，所以花了2周时间进行重构。本次采用Liteflow规则引擎进行重构，好处在于规则配置在xml配置文件中可以清晰的梳理业务的流向，在每个规则节点只负责各自的业务。将复杂的业务对象化，方便后续的维护与更新。项目已经经过生产数据验证。2、业务流程图，这是根据规则引擎编写的，方便后续定位3、这个方案的优点可以动态组合模
Vue3-笔记002-Ref与Reactive ·焱· vue3学习笔记笔记 vue.js javascript
002-Ref与Reactive-目录Refref案例ref与RefifRefshallowReftriggerRefcustomRefdom元素的refReactive与ref的共同点与ref的不同点数组的异步赋值问题readonlyshallowReactivetoReftoRefstoRawRef接受一个内部值并返回一个响应式且可变的ref对象。ref对象仅有一个.valueproperty
Vue3-day3-Ref-Reactive 金串串 vue.js javascript 前端
Ref：创建基本类型的响应式数据作用：定义响应式变量语法：letxxx=ref(初始值)返回值：一个RefImpl的实例对象，简称ref对象或者ref，ref对象的value属性是响应式的注意点：js中操作数据需要：xxx.value，但模板中不需要.value，直接使用即可。对于letname=ref('张三')来说，name不是响应式的，name.value是响应式的。代码段姓名：{{name
《Java线程池深度解析：从核心参数到饱和策略实战》云之兕 java基础入门到精通 java 开发语言
"线程池核心数设置多少合适？为什么任务队列满了会导致OOM？如何设计可降级的异步任务系统？"本文通过电商秒杀场景贯穿线程池参数调优全过程，结合ThreadPoolExecutor源码解析核心机制，并给出动态线程池与监控报警的最佳实践。一、线程池核心参数关系图解graphLRA[提交任务]-->B{核心线程是否已满?}B-->|否|C[创建核心线程执行]B-->|是|D{队列是否已满?}D-->|否
专利信息管理知识产权基于Spring Boot SSM QQ1978519681计算机程序 java 前端数据库毕业设计计算机毕业设计 spring boot
目录一、需求分析1.1系统用户角色与权限1.2专利信息管理功能二、数据分析与报表生成三、系统性能与安全性四用户体验与界面设计五扩展性与可维护性六、法律法规与合规性七.技术选型与实现‌7.1技术选型‌：‌7.2实现方式‌：随着科技的不断发展和知识产权保护意识的提升，专利信息管理系统的需求日益增加。基于SpringBoot的专利信息管理系统旨在提供一个高效、便捷的平台，帮助用户全面管理专利信息。该系统
Kotlin的inline、noinline和crossinline关键字我们间的空白格 android kotlin android
一、inlineinline翻译成中文的意思就是内联，在kotlin里面inline被用来修饰函数，表明当前函数在编译时是以内嵌的形式进行编译的，从而减少了一层函数调用栈：inlinefunfun1(){Log.i("tag","1")}//调用funmainFun(){fun1()}//实际编译的代码funmainFun(){Log.i("tag","1")}这样写的一点好处就是调用栈会明显变浅
Spring Boot 与 Couchbase 整合教程嘵奇提升自己 spring boot 后端 java
精心整理了最新的面试资料和简历模板，有需要的可以自行获取点击前往百度网盘获取点击前往夸克网盘获取SpringBoot与Couchbase整合教程环境要求JDK8+SpringBoot2.7.xCouchbaseServer7.xMaven/Gradle步骤1：创建SpringBoot项目使用start.spring.io创建项目，添加以下依赖：SpringWeb（可选，用于RESTAPI）Spri
vue3 v-for循环子组件上绑定ref并且取值华山令狐虫 javascript 前端 vue vue3
vue3v-for循环子组件上绑定ref并且取值//要循环的变量constviews=ref([])//数组存所有refdomconstitemsRef=ref([])constrefresh=(index)=>{//取出refdom子组件并且调用其方法itemsRef.value[index].initChart()}(itemsRef[index]=el)">
kotlin - inline、noinline、crossinline使用六毛六66 Kotlin例子 kotlin android
kotlin-inline、noinline、crossinline使用inline内联函数：用inline关键字标记的函数，避免函数调用的开销，消除Lambda带来的运行时开销noinline禁止内联：一个高阶函数接收了两个或者更多的函数类型的参数，就用加上inline。如果只想内联一个函数，另一个函数就要用noinlinecrossinline：使用crossinline防止非局部返回，关键字
如何加快制造业数字化转型九河智造云制造云计算
加速制造业数字化转型的五大战略支点制造业数字化转型已进入深水区。工信部数据显示，2025年我国规模以上工业企业数字化研发工具普及率达88%，但全流程数字化覆盖率不足35%。破解转型困局需要构建“政策引导-技术突破-场景落地-生态协同”的加速机制，通过五大核心战略实现质效突破。一、强化顶层设计：构建转型制度保障体系政策创新需突破三大瓶颈：专项资金引导：设立2000亿元制造业数字化专项基金，对智能工厂
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

小猪的Python学习之旅 —— 13.文字识别库pytesseract初体验

小猪的Python学习之旅 —— 13.文字识别库pytesseract初体验

1.装一波环境

2.识别一波图片

3.试试百度云OCR

4.实战：利用百度OCR识别自动修改文件名

5.小结

你可能感兴趣的:(Python,小猪的Python学习之旅,Python,爬虫,OCR,pytesseract)