欣然～

使用easyocr、PyPDF2对图像及PDF文档进行识别

一、概述

本 Python 脚本的主要功能是对当前目录及其子目录下的图片和 PDF 文件进行光学字符识别（OCR）处理。它使用 easyocr 库处理图片中的文字，使用 PyPDF2 库提取 PDF 文件中的文本，并将处理结果保存为文本文件。同时，脚本会记录详细的处理日志，方便用户跟踪处理过程和排查问题。

二、环境要求

Python 版本：建议使用 Python 3.6 及以上版本。
依赖库：
- easyocr：用于图片的 OCR 识别。
- PyPDF2：用于读取 PDF 文件并提取文本。
- Pillow（PIL）：虽然脚本中未直接使用，但 easyocr 处理图像时可能依赖。

你可以使用以下命令安装这些依赖库：

收起

bash

pip install easyocr PyPDF2 Pillow

三、脚本结构与功能模块

1. 导入必要的库

收起

python

import os
import time
import easyocr
from PyPDF2 import PdfReader
from PIL import Image

导入了处理文件系统、时间、OCR 识别、PDF 读取和图像处理所需的库。

2. 设置模型下载路径

收起

python

model_storage_directory = './easyocr_models'
os.makedirs(model_storage_directory, exist_ok=True)

定义了 easyocr 模型的存储目录，并确保该目录存在。

3. 检查网络连接

收起

python

def check_network():
    try:
        import urllib.request
        urllib.request.urlopen('https://www.baidu.com', timeout=5)
        return True
    except:
        return False

该函数尝试访问百度网站，以检查网络连接是否正常。如果能成功访问，则返回 True，否则返回 False。

4. 初始化 EasyOCR reader

收起

python

try:
    print("Initializing EasyOCR...")
    print(f"Model storage directory: {os.path.abspath(model_storage_directory)}")
    
    if not check_network():
        print("Network connection failed. Please check your internet connection.")
        exit(1)
        
    print("Downloading models (this may take several minutes)...")
    reader = easyocr.Reader(
        ['ch_sim', 'en'],
        model_storage_directory=model_storage_directory,
        download_enabled=True,
        verbose=True
    )
    print("EasyOCR initialized successfully")
except Exception as e:
    print(f"Failed to initialize EasyOCR: {str(e)}")
    exit(1)

打印初始化信息和模型存储目录的绝对路径。
检查网络连接，若网络异常则输出错误信息并退出程序。
下载 easyocr 所需的模型，支持中文（简体）和英文识别。
若初始化成功，打印成功信息；若出现异常，打印错误信息并退出程序。

5. 处理图片文件

收起

python

def process_image(image_path):
    """处理图片文件"""
    try:
        result = reader.readtext(image_path)
        text = '\n'.join([item[1] for item in result])
        return text
    except Exception as e:
        print(f"Error processing image {image_path}: {str(e)}")
        return ""

接受图片文件路径作为参数。
使用 easyocr 对图片进行 OCR 识别，提取识别结果中的文本并拼接成字符串返回。
若处理过程中出现异常，打印错误信息并返回空字符串。

6. 处理 PDF 文件

收起

python

def process_pdf(pdf_path):
    """处理PDF文件"""
    try:
        text = ""
        reader = PdfReader(pdf_path)
        for page in reader.pages:
            text += page.extract_text()
        return text
    except Exception as e:
        print(f"Error processing PDF {pdf_path}: {str(e)}")
        return ""

接受 PDF 文件路径作为参数。
使用 PyPDF2 读取 PDF 文件的每一页，并提取文本拼接成字符串返回。
若处理过程中出现异常，打印错误信息并返回空字符串。

7. 保存提取的文本

收起

python

def save_text(text, output_path):
    """保存提取的文本"""
    with open(output_path, 'w', encoding='utf-8') as f:
        f.write(text)

接受文本内容和输出文件路径作为参数。
将文本内容以 UTF-8 编码写入指定的输出文件。

8. 主函数 `main`

收起

python

def main():
    # 尝试多个可能的输出目录位置
    output_folders = [
        './output_text',  # 当前目录
        os.path.expanduser('~/ocr_output'),  # 用户主目录
        os.path.join(os.getcwd(), 'ocr_output')  # 当前工作目录
    ]
    
    output_folder = None
    for folder in output_folders:
        try:
            os.makedirs(folder, exist_ok=True)
            output_folder = folder
            print(f"Using output directory: {os.path.abspath(output_folder)}")
            break
        except Exception as e:
            print(f"Failed to create output directory {folder}: {str(e)}")
    
    if output_folder is None:
        print("Error: Could not create any output directory")
        exit(1)
    
    # 初始化日志
    log_file = os.path.join(output_folder, 'ocr_log.txt')
    # 重定向标准输出到日志文件
    import sys
    class Logger(object):
        def __init__(self, filename):
            self.terminal = sys.stdout
            self.log = open(filename, "a", encoding='utf-8')

        def write(self, message):
            self.terminal.write(message)
            self.log.write(message)

        def flush(self):
            pass
            
    sys.stdout = Logger(log_file)
    print("OCR Processing Log\n")
    print(f"Starting OCR processing at {time.strftime('%Y-%m-%d %H:%M:%S')}")

    # 支持的图片格式
    image_extensions = ['.bmp', '.jpg', '.jpeg', '.png', '.tiff', '.gif']
    
    # 遍历当前目录及子目录
    for root, dirs, files in os.walk('.'):
        for file in files:
            file_path = os.path.join(root, file)
            base_name, ext = os.path.splitext(file)
            
            try:
                # 处理图片文件
                if ext.lower() in image_extensions:
                    print(f"Processing image: {file_path}")
                    text = process_image(file_path)
                    output_path = os.path.join(output_folder, f"{base_name}.txt")
                    save_text(text, output_path)
                    print(f"Successfully processed image: {file_path} -> {output_path}")
                    with open(log_file, 'a') as f:
                        f.write(f"Success: {file_path} -> {output_path}\n")
                
                # 处理PDF文件
                elif ext.lower() == '.pdf':
                    print(f"Processing PDF: {file_path}")
                    text = process_pdf(file_path)
                    output_path = os.path.join(output_folder, f"{base_name}.txt")
                    save_text(text, output_path)
                    print(f"Successfully processed PDF: {file_path} -> {output_path}")
                    with open(log_file, 'a') as f:
                        f.write(f"Success: {file_path} -> {output_path}\n")
                        
            except Exception as e:
                error_msg = f"Error processing {file_path}: {str(e)}"
                print(error_msg)
                with open(log_file, 'a') as f:
                    f.write(error_msg + "\n")

输出目录处理：尝试在多个预设位置创建输出目录，若创建成功则使用该目录，若所有尝试均失败则输出错误信息并退出程序。
日志初始化：在输出目录下创建 ocr_log.txt 日志文件，将标准输出重定向到该日志文件，同时保留在终端的输出。记录日志头部信息和处理开始时间。
文件遍历与处理：遍历当前目录及其子目录下的所有文件，对图片文件调用 process_image 函数处理，对 PDF 文件调用 process_pdf 函数处理。将处理结果保存为文本文件，并在日志中记录成功或失败信息。

9. 程序入口

收起

python

if __name__ == "__main__":
    main()

当脚本作为主程序运行时，调用 main 函数开始执行。

四、使用方法

将脚本保存为一个 Python 文件（例如 ocr_process.py）。
确保所需的依赖库已安装。
打开终端或命令提示符，进入脚本所在的目录。
运行脚本：

收起

bash

python ocr_process.py

脚本会自动处理当前目录及其子目录下的图片和 PDF 文件，并将处理结果保存到指定的输出目录中，同时生成处理日志。

五、注意事项

由于 easyocr 模型下载可能需要一定时间，首次运行脚本时请确保网络连接稳定，耐心等待模型下载完成。
对于 PDF 文件，PyPDF2 只能提取文本内容，若 PDF 为扫描版或加密文件，可能无法正常提取文本。
若处理过程中出现错误，请查看日志文件 ocr_log.txt 以获取详细的错误信息。

完成代码

import os
import time
import easyocr
from PyPDF2 import PdfReader
from PIL import Image

# 设置模型下载路径
model_storage_directory = './easyocr_models'
os.makedirs(model_storage_directory, exist_ok=True)

# 检查网络连接
def check_network():
    try:
        import urllib.request
        urllib.request.urlopen('https://www.baidu.com', timeout=5)
        return True
    except:
        return False

# 初始化EasyOCR reader
try:
    print("Initializing EasyOCR...")
    print(f"Model storage directory: {os.path.abspath(model_storage_directory)}")
    
    if not check_network():
        print("Network connection failed. Please check your internet connection.")
        exit(1)
        
    print("Downloading models (this may take several minutes)...")
    reader = easyocr.Reader(
        ['ch_sim', 'en'],
        model_storage_directory=model_storage_directory,
        download_enabled=True,
        verbose=True
    )
    print("EasyOCR initialized successfully")
except Exception as e:
    print(f"Failed to initialize EasyOCR: {str(e)}")
    exit(1)

def process_image(image_path):
    """处理图片文件"""
    try:
        # 使用EasyOCR提取文本
        result = reader.readtext(image_path)
        # 合并所有识别结果
        text = '\n'.join([item[1] for item in result])
        return text
    except Exception as e:
        print(f"Error processing image {image_path}: {str(e)}")
        return ""

def process_pdf(pdf_path):
    """处理PDF文件"""
    try:
        text = ""
        reader = PdfReader(pdf_path)
        for page in reader.pages:
            text += page.extract_text()
        return text
    except Exception as e:
        print(f"Error processing PDF {pdf_path}: {str(e)}")
        return ""

def save_text(text, output_path):
    """保存提取的文本"""
    with open(output_path, 'w', encoding='utf-8') as f:
        f.write(text)

def main():
    # 尝试多个可能的输出目录位置
    output_folders = [
        './output_text',  # 当前目录
        os.path.expanduser('~/ocr_output'),  # 用户主目录
        os.path.join(os.getcwd(), 'ocr_output')  # 当前工作目录
    ]
    
    output_folder = None
    for folder in output_folders:
        try:
            os.makedirs(folder, exist_ok=True)
            output_folder = folder
            print(f"Using output directory: {os.path.abspath(output_folder)}")
            break
        except Exception as e:
            print(f"Failed to create output directory {folder}: {str(e)}")
    
    if output_folder is None:
        print("Error: Could not create any output directory")
        exit(1)
    
    # 初始化日志
    log_file = os.path.join(output_folder, 'ocr_log.txt')
    # 重定向标准输出到日志文件
    import sys
    class Logger(object):
        def __init__(self, filename):
            self.terminal = sys.stdout
            self.log = open(filename, "a", encoding='utf-8')

        def write(self, message):
            self.terminal.write(message)
            self.log.write(message)

        def flush(self):
            pass
            
    sys.stdout = Logger(log_file)
    print("OCR Processing Log\n")
    print(f"Starting OCR processing at {time.strftime('%Y-%m-%d %H:%M:%S')}")

    # 支持的图片格式
    image_extensions = ['.bmp', '.jpg', '.jpeg', '.png', '.tiff', '.gif']
    
    # 遍历当前目录及子目录
    for root, dirs, files in os.walk('.'):
        for file in files:
            file_path = os.path.join(root, file)
            base_name, ext = os.path.splitext(file)
            
            try:
                # 处理图片文件
                if ext.lower() in image_extensions:
                    print(f"Processing image: {file_path}")
                    text = process_image(file_path)
                    output_path = os.path.join(output_folder, f"{base_name}.txt")
                    save_text(text, output_path)
                    print(f"Successfully processed image: {file_path} -> {output_path}")
                    with open(log_file, 'a') as f:
                        f.write(f"Success: {file_path} -> {output_path}\n")
                
                # 处理PDF文件
                elif ext.lower() == '.pdf':
                    print(f"Processing PDF: {file_path}")
                    text = process_pdf(file_path)
                    output_path = os.path.join(output_folder, f"{base_name}.txt")
                    save_text(text, output_path)
                    print(f"Successfully processed PDF: {file_path} -> {output_path}")
                    with open(log_file, 'a') as f:
                        f.write(f"Success: {file_path} -> {output_path}\n")
                        
            except Exception as e:
                error_msg = f"Error processing {file_path}: {str(e)}"
                print(error_msg)
                with open(log_file, 'a') as f:
                    f.write(error_msg + "\n")

if __name__ == "__main__":
    main()

你可能感兴趣的:(dubbo)

Dubbo 令牌验证：防止服务被非法调用 Java技术栈实战 dubbo 网络 ai
Dubbo令牌验证：防止服务被非法调用关键词：Dubbo、令牌验证、分布式服务、服务安全、非法调用防护摘要：在分布式系统中，服务暴露在网络中可能面临非法调用的风险。Dubbo作为国内最流行的分布式服务框架，提供了「令牌验证」这一轻量级安全机制，能有效阻止未授权服务的访问。本文将用「小区门禁卡」的生活化比喻，结合代码示例和实战案例，从原理到落地手把手教你掌握Dubbo令牌验证，彻底搞懂如何为服务调用
DDD 分层架构实战指南：从项目结构到落地挑战
一、项目结构详解（以电商订单系统为例）src/main/java├──com.example│├──common#通用工具类、基础异常、常量│├──order#订单限界上下文（模块示例）││├──interfaces#用户接口层│││├──controller#HTTP/RESTAPI│││├──rpc#Dubbo/gRPC接口│││└──consumer#消息队列消费者（如Kafka监听）││├
Dubbo3泛化调用实战指南
Dubbo3的泛化调用允许客户端在不依赖服务端接口JAR包的情况下发起远程调用，适用于动态调用、网关转发等场景。以下是具体实现方式：一、客户端泛化调用API编程方式通过GenericService接口动态调用，参数和返回值使用Map或基本类型表示：//创建泛化引用配置ReferenceConfigreference=newReferenceConfig<>();reference.setInter
dubbo+spring_maven 遇到的问题 dubbojar包版本和jdk问题 uplinker dubbo dubbo jdk spring maven
Exceptioninthread"main"org.springframework.beans.factory.BeanCreationException:Errorcreatingbeanwithname'xxx.ISystemService':Instantiationofbeanfailed;nestedexceptionisjava.lang.ExceptionInInitializer
Dubbo与Zookeeper核心解析 Java开发廖志伟 Java场景面试宝典 Dubbo Service Discovery Distributed Systems
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
中间件复习（java向，示例代码为java），所有问题都会有链接单独解析搞不懂语言的程序员重拾java 中间件中间件 java 开发语言
根据近些年情况整理的Java服务常用中间件及面试复习指南（每个中间件10个以上问题+实战模拟）一、核心中间件清单（2020-2023高频使用）中间件分类典型中间件核心应用场景RPC框架Dubbo3.x、gRPC、SpringCloudOpenFeign微服务通信、跨语言调用消息队列Kafka、RocketMQ、RabbitMQ异步解耦、削峰填谷、顺序消息缓存Redis（集群/Redisson）、C
Feign和Dubbo的技术选型对比分析 Amarantine、沐风倩✨ dubbo spring boot 后端
现在公司项目要做SpringBoot升级2.7.18—>3.4.1。因此我们需要参考芋道的项目和公司当前项目做一个依赖、技术选型、项目结构差异对比分析。我们公司当前用的Dubbo，而芋道最新的一版却用了Feign来代替Dubbo。所以该文章进行一下对比分析。一、Dubbo与Feign简介特性维度Dubbo(3.x)OpenFeign(SpringCloud)通信协议多协议（默认Dubbo、支持gR
Java面试必备：Dubbo 与 Spring Cloud Gateway 的区别二进制11 #SpringCloud面试题 java 面试 dubbo SpringCloud 后端开发语言
SpringCloud面试题-Dubbo和SpringCloudGateway有什么区别?概述Dubbo和SpringCloudGateway都是微服务架构中的重要组件，但它们的设计目标和应用场景有显著差异。Dubbo是一个高性能的RPC框架，而SpringCloudGateway是一个API网关解决方案。核心区别特性DubboSpringCloudGateway类型RPC框架API网关主要功能服
Netty4.1 - TCP粘包拆包解决方案及案例代码 wwyh520 IO编程 netty
Netty是目前业界最流行的NIO框架之一，它的健壮性、高性能、可定制和可扩展性在同类框架中都是首屈一指。它已经得到了成百上千的商业项目的验证，例如Hadoop的RPC框架Avro就使用了Netty作为底层通信框架，其他的业界主流RPC框架，例如：Dubbo、Google开源的gRPC、新浪微博开源的Motan、Twitter开源的finagle也使用Netty来构建高性能的异步通信能力。另外，阿
Dubbo异步调用方式以及在商详中的应用 DavidSoCool dubbo Java java
Dubbo异步调用三种方式从2.7.0开始，Dubbo的所有异步编程接口开始以CompletableFuture为基础基于NIO的非阻塞实现并行调用，客户端不需要启动多线程即可完成并行调用多个远程服务，相对多线程开销较小。使用CompletableFuture签名的接口需要服务提供者事先定义CompletableFuture签名的服务，具体参见服务端异步执行接口定义：publicinterface
Dubbo 初识：分布式服务的敲门砖 CarlowZJ AI应用落地+AI微服务 dubbo
目录一、引言二、Dubbo的诞生背景三、Dubbo核心概念详解（一）服务提供者（Provider）（二）服务消费者（Consumer）（三）注册中心（Registry）（四）远程过程调用（RPC）四、Dubbo的优势特色（一）高透明性（二）高扩展性（三）高性能五、Dubbo的应用场景（一）大型电商系统（二）企业级微服务架构（三）遗留系统改造升级六、Dubbo的简单应用示例（一）环境准备（二）创建D
什么是Sentinel 2401_85327573 sentinel java 微服务
什么是SentinelSentinel是阿里巴巴开源的面向分布式服务架构中的流量治理组件，主要用于提供服务保护功能，帮助微服务系统应对高并发场景下的流量冲击、系统故障等问题。Sentinel的核心目标是通过轻量级的实现方式，在微服务中实现高可用性和稳定性，减少手动干预。它支持与SpringCloud、Dubbo等框架无缝集成，并可通过Nacos等配置中心实现动态规则管理。Sentinel的实现原理
深入理解Dubbo与Zookeeper在Java分布式架构中的应用 Aurora曙光
本文还有配套的精品资源，点击获取简介：本文详细解析了Dubbo与Zookeeper在分布式系统构建中的应用，包括如何通过这两个工具实现服务注册、发现、负载均衡和容错处理等核心功能，以及如何将它们集成以提高系统灵活性和可扩展性。文章还提供了使用Dubbo与Zookeeper的实例文档和项目代码，帮助开发者深入理解这两项技术。1.Dubbo与Zookeeper在分布式系统中的应用1.1分布式系统简介与
Dubbo与Zookeeper技术解析 AIHacksCash Java场景面试宝典 Dubbo Microservices Distributed Systems
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
JVM参数 SurvivorRatio=18带来的问题 Aliano217 jvm
在JVM参数中：exportJAVA_MEM_OPTS="-server-Xms4096m-Xmx4096m-Xmn1024m-XX:SurvivorRatio=18-XX:+UseConcMarkSweepGC-XX:MetaspaceSize=256m-XX:MaxMetaspaceSize=256m-XX:CompressedClassSpaceSize=128m-Ddubbo.protoc
600+ 道 Java面试题及答案整理(建议收藏) 等风来.长 java 程序人生学习面试 jvm
最全的Java面试题，题目涉及Java基础、集合、多线程、IO、分布式、Spring全家桶、MyBatis、Dubbo、缓存、消息队列、Linux…等等。题库共600+道，带全部答案，非常齐全！Java基础1、面向对象编程有哪些特征？2、JDK与JRE的区别是什么？3、Java有哪几种基本数据类型？4、==和equals比较有什么区别？5、public,private,protected,默认的区
Java面试题及答案最全总结隔壁老王的代码 java 开发语言
最近很多同学在忙着找工作，给大家整理了一份非常全面的Java面试题及答案。涉及的内容非常全面，包含：多线程、JVM、Spring、MySQL、Redis、Dubbo…等内容，希望对找工作的同学有所帮助。文末有题目答案~Java多线程面试题并发编程三要素？同步方法和同步块哪个是更好的选择?谈谈原子性？哪些使用到了？谈谈可见性？哪些使用到了？谈谈有序性？举一个例子？什么是线程池？线程池有哪些创建方式？
Java求职者面试指南：微服务技术与源码原理深度解析迢迢星万里灬 Java面试宝典 Java 面试指南微服务 Spring Cloud Dubbo Netty 分布式系统
Java求职者面试指南：微服务技术与源码原理深度解析第一轮：基础概念问题1.请解释一下什么是微服务架构？微服务架构是一种将应用程序拆分为一组小型、独立的服务的软件开发方法。每个服务都运行在自己的进程中，并通过轻量级的通信机制（如HTTP或gRPC）进行通信。这种架构允许团队独立开发、部署和扩展服务，从而提高灵活性和可维护性。2.SpringCloud和Dubbo在微服务中的区别是什么？Spring
Spring Boot整合Dubbo+Zookeeper实现RPC调用 Java布道者 java-zookeeper spring boot dubbo
技术栈说明Dubbo：Dubbo作为RPC框架，能在多个服务之间实现远程服务的调用。比如有两个独立的微服务A和B，A服务想要调用B服务时，因为两者不在同个内存空间中，不能直接调用，所以可以通过Dubbo实现这点。功能和SpringCloud的Feign相同，两者都是应用于微服务架构的远程调用框架Zookeeper：作为注册中心去管理Dubbo服务，这点和Eureka、Nacos相同。概述通过一个示
【分布式】基于Dubbo实现对远程调用接口的封装沉着的码农 Spring 分布式 Java 分布式 dubbo java spring
基于Dubbo实现对远程调用接口的封装服务调用者调用统一包装工具RemoteCallWrapper使用举例服务提供者提供Facade注解实现统一RPC结果包装定义Facade注解定义注解的切面处理类服务调用者调用在调用服务中给被调服务添加@DubboReference(version="1.0.0")注解@Slf4j@RequiredArgsConstructor@RestController@R
Dubbo源码分析：用了很多年Dubbo，觉得自己挺厉害？程序员秋天 dubbo dubbo
Dubbo作为由阿里巴巴开发的高性能开源框架，用于构建分布式服务体系，以其简洁、灵活和可扩展的特性广受欢迎。要全面理解Dubbo的内部运行机制，并充分发挥其潜力，深入研究其源代码是至关重要的。本文将对Dubbo源码进行全面分析，重点解析其关键组件、设计模式和架构概念，带您领略Dubbo的魅力。1.Dubbo架构Dubbo采用分层架构，推崇松耦合和模块化设计。Dubbo核心由应用层、框架层和协议层组
Dubbo核心源码分析（二）爱吃biangbiang面 Dubbo 微服务开发 dubbo
1.2.3源码分析上一章简单演示了DubboSPI的使用方法，首先通过ExtensionLoader的getExtensionLoader方法获取一个ExtensionLoader实例，然后再通过ExtensionLoader的getExtension方法获取拓展类对象。下面我们从ExtensionLoader的getExtension方法作为入口，对拓展类对象的获取过程进行详细的分析。publi
dubbo源码深度解析_SpringBoot源码深度解析
Spring开源框架，解决企业级开发的复杂性的问题，简化开发AOP，IOCSpring配置越来多，配置不方便管理！Javaweb---Servlet+tomcat+Struct2SpringMVCSPRINGboot.....所有的技术框架：从一个复杂的场景慢慢的衍生出来一种规范！简单的配置！==SpringBoot：自动配置！==Springboot怎么自动配置，核心原理！当之无愧的Java领域
使用dubbo-go搭建dubbo接口测试平台捉虫大师 dubbo go dubbo dubbo-go
背景http接口测试只需要一个curl命令，但dubbo协议没有这样的现成接口测试工具。通常公司内的dubbo控制台或其他平台会集成一个dubbo接口测试工具。调用一个dubbo接口，需要知道服务名service、方法名method和参数args。正常的调用，调用方需引入服务提供方定义的接口jar包。作为接口测试平台，没办法引入所有提供方定义的接口jar包，可以有以下方案来解决：dubbo支持te
Nacos架构与原理 - Nacos-Sync
作者简介：大家好，我是码炫码哥，前中兴通讯、美团架构师，现任某互联网公司CTO，兼职码炫课堂主讲源码系列专题代表作：《jdk源码&多线程&高并发》，《深入tomcat源码解析》，《深入netty源码解析》，《深入dubbo源码解析》，《深入springboot源码解析》，《深入spring源码解析》，《深入redis源码解析》等联系qq：184480602，加我进群，大家一起学习，一起进步，一起对
如何快速设计一个高并发系统？张彦峰ZYF 后端架构 rabbitmq elasticsearch database redis 数据库
目录一、高并发系统的必要性二、高并发系统基本思路三、系统拆分简述（一）系统拆分（二）使用Dubbo进行服务治理（三）为每个子系统分配独立数据库（四）高并发场景下的运行情况四、缓存必杀技（一）Redis在高并发场景中的优势（二）缓存使用策略（三）缓存一致性与过期策略（四）缓存穿透、雪崩与击穿的处理（五）生产环境重点关注和投入五、引入消息队列（MQ）（一）消息队列作用回顾1.解耦与异步处理2.削峰填谷
个典型的 Java 泛型在反序列化场景下“类型擦除 + 无法推断具体类型”导致的隐性 Bug 魔道不误砍柴功 Java使用与案例分享 java bug
今天遇到一个问题：一个典型的Java泛型在反序列化场景下“类型擦除+无法推断具体类型”导致的隐性Bug，尤其是在RPC（如Dubbo、Feign等）和本地JVM内直连调用共存时，这种问题会显现得非常明显。A服务暴露了一个RPC接口规范，如下：publicclassWeaResultimplementsSerializable{privatestaticfinallongserialVersionU
《深入理解Apache Dubbo与实战》第三章的阅读笔记我在阳澄湖畔吃炸鸡后端 JAVA Dubbo java
文章目录前言一、注册中心概述1.简介2.工作流程二、Zookeeper注册1.原理2.发布/订阅三、Redis的注册四、缓存五、设计模式前言本文是《深入理解ApacheDubbo与实战》第三章的阅读笔记。第三章的主要内容是讲注册中心，书中主要围绕：1.注册中心的工作流程2.注册中心的数据结构3.订阅发布的实现4.缓存机制5.重试机制6.设计模式这几个部分讲解一、注册中心概述1.简介Dubbo通过注
微服务架构 | 12.1 使用 Apache Dubbo 实现远程通信多氯环己烷微服务 rpc dubbo spring cloud alibaba 分布式
12.1使用ApacheDubbo实现远程通信前言1.Dubbo基础知识1.1Dubbo是什么1.2Dubbo的架构图1.3SpringCloud与Dubbo的区别1.4Dubbo的特点1.5Dubbo的6种容错模式1.6Dubbo的4种负载均衡策略1.7主机绑定规则2.构建Dubbo服务提供方2.1构建服务接口模块2.2添加pom.xml依赖文件2.3修改application.yml配置文件2
Zookeeper与Dubbo微服务实战之Zookeeper篇 AARM Zookeeper Zookeeper 基础学习慕课笔记
文章目录zookeeper环境搭建linux下jdk环境搭建一、安装jdkjdk1.8.0_211链接zookeeper链接，新版本只有带bin的是编译过的更是我们需要的，另一个版本只是源码1、将jdk和zookeeper通过ftp转移到linux/home下2、解压jdk和zookeeper到/usr/和/usr/local下解压jdk和zookeeper修改解压之后的jdk和zookeeper
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他