VIP_CQCRE

Python 处理 PDF 的神器 -- PyMuPDF

这是「进击的Coder」的第 724 篇技术分享

作者：冰__蓝

来源：https://blog.csdn.net/ling620/article/details/120035699

“

阅读本文大概需要 13 分钟。

”

# 1、PyMuPDF简介

1. 介绍

在介绍PyMuPDF之前，先来了解一下MuPDF，从命名形式中就可以看出，PyMuPDF是MuPDF的Python接口形式。

MuPDF

MuPDF 是一个轻量级的 PDF、XPS和电子书查看器。MuPDF 由软件库、命令行工具和各种平台的查看器组成。

MuPDF 中的渲染器专为高质量抗锯齿图形量身定制。它以精确到像素的几分之一内的度量和间距呈现文本，以在屏幕上再现打印页面的外观时获得最高保真度。

这个观察器很小，速度很快，但是很完整。它支持多种文档格式，如PDF、XPS、OpenXPS、CBZ、EPUB和FictionBook 2。您可以使用移动查看器对PDF文档进行注释和填写表单(这个功能很快也将应用于桌面查看器)。

命令行工具允许您注释、编辑文档，并将文档转换为其他格式，如HTML、SVG、PDF和CBZ。您还可以使用Javascript编写脚本来操作文档。

PyMuPDF

PyMuPDF(当前版本1.18.17)是支持MuPDF(当前版本1.18.*)的Python绑定。

使用PyMuPDF，你可以访问扩展名为“.pdf”、“.xps”、“.oxps”、“.cbz”、“.fb2”或“.epub”。此外，大约10种流行的图像格式也可以像文档一样处理:“.png”，“.jpg”，“.bmp”，“.tiff”等。

# 2. 功能

对于所有支持的文档类型可以：

解密文件
访问元信息、链接和书签
以栅格格式（PNG和其他格式）或矢量格式SVG呈现页面
搜索文本
提取文本和图像
转换为其他格式：PDF, (X)HTML, XML, JSON, text
对于PDF文档，存在大量的附加功能:它们可以创建、合并或拆分。页面可以通过多种方式插入、删除、重新排列或修改(包括注释和表单字段)。
可以提取或插入图像和字体
完全支持嵌入式文件
pdf文件可以重新格式化，以支持双面打印，色调分离，应用标志或水印
完全支持密码保护:解密、加密、加密方法选择、权限级别和用户/所有者密码设置
支持图像、文本和绘图的 PDF 可选内容概念
可以访问和修改低级 PDF 结构
命令行模块"python \-m fitz…"具有以下特性的多功能实用程序
- 加密/解密/优化
- 创建子文档
- 文档连接
- 图像/字体提取
- 完全支持嵌入式文件
- 保存布局的文本提取(所有文档)
新:布局保存文本提取!
脚本fitzcliy .py通过子命令“gettext”提供不同格式的文本提取。特别有趣的当然是布局保存，它生成的文本尽可能接近原始物理布局，周围有图像的区域，或者在表格和多列文本中复制文本。

# 2、安装

PyMuPDF可以从源码安装，也可以从wheels安装。

对于Windows, Linux和Mac OSX平台，在PyPI的下载部分有wheels。这包括Python 64位版本3.6到3.9。Windows版本也有32位版本。从最近开始，Linux ARM架构也出现了一些问题——查找平台标签manylinux2014_aarch64。

除了标准库，它没有强制性的外部依赖项。只有在安装了某些包时，才会有一些不错的方法:

Pillow：当使用Pixmap.pil_save()和 Pixmap.pil_tobytes()时需要
fontTools：当使用Document.subset_fonts()时需要
pymupdf-fonts 是一个不错的字体选择，可以用于文本输出方法

使用pip安装命令：

pip install PyMuPDF

导入库：

import fitz

关于命名`fitz`的说明

这个库的标准Python导入语句是import fitz。这是有历史原因的:
MuPDF的原始渲染库被称为Libart。

在Artifex软件获得MuPDF项目后，开发的重点转移到编写一种新的现代图形图书馆称为“Fitz”。Fitz最初是作为一个研发项目，以取代老化的Ghostscript图形库，但却成为了MuPDF的渲染引擎(引用自维基百科)。

# 3、使用方法

1. 导入库，查看版本

import fitz
print(fitz.__doc__)
PyMuPDF 1.18.16: Python bindings for the MuPDF 1.18.0 library.
Version date: 2021-08-05 00:00:01.
Built for Python 3.8 on linux (64-bit).

2. 打开文档

doc = fitz.open(filename)

这将创建Document对象doc。文件名必须是一个已经存在的文件的python字符串。
也可以从内存数据打开文档，或创建新的空PDF。您还可以将文档用作上下文管理器。

3. Document的方法和属性

方法/属性	描述
`Document.page_count`	页数 (int)
`Document.metadata`	元数据 (dict)
`Document.get_toc()`	获取目录 (list)
`Document.load_page()`	读取页面

示例：

>>> doc.count_page
1
>>> doc.metadata
{'format': 'PDF 1.7',
 'title': '',
 'author': '',
 'subject': '',
 'keywords': '',
 'creator': '',
 'producer': '福昕阅读器PDF打印机 版本 10.0.130.3456',
 'creationDate': "D:20210810173328+08'00'",
 'modDate': "D:20210810173328+08'00'",
 'trapped': '',
 'encryption': None}

4. 获取元数据

PyMuPDF完全支持标准元数据。Document.metadata是一个具有以下键的Python字典。

它适用于所有文档类型，但并非所有条目都始终包含数据。元数据字段为字符串，如果未另行指示，则为无。还要注意的是，并非所有数据都始终包含有意义的数据——即使它们不是一个都没有。

Key	Value
producer	producer (producing software)
format	format: ‘PDF-1.4’, ‘EPUB’, etc.
encryption	encryption method used if any
author	author
modDate	date of last modification
keywords	keywords
title	title
creationDate	date of creation
creator	creating application
subject	subject

5. 获取目标大纲

toc = doc.get_toc()

6. 页面(Page)

页面处理是MuPDF功能的核心。

您可以将页面呈现为光栅或矢量（SVG）图像，可以选择缩放、旋转、移动或剪切页面。
您可以提取多种格式的页面文本和图像，并搜索文本字符串。
对于PDF文档，可以使用更多的方法向页面添加文本或图像。

首先，必须创建一个页面Page。这是Document的一种方法：

page = doc.load_page(pno) # loads page number 'pno' of the document (0-based)
page = doc[pno] # the short form

这里可以使用任何整数-inf。负数从末尾开始倒数，所以doc[-1]是最后一页，就像Python序列一样。

 
   更高级的方法是将文档用作页面的迭代器： 
   for page in doc:
    # do something with 'page'

# ... or read backwards
for page in reversed(doc):
    # do something with 'page'

# ... or even use 'slicing'
for page in doc.pages(start, stop, step):
    # do something with 'page' 
    
    接下来，主要介绍Page的常用操作！ 
    
   a. 检查页面的链接、批注或表单字段 
   使用某些查看器软件显示文档时，链接显示为==“热点区域”==。如果您在光标显示手形符号时单击，您通常会被带到该热点区域中编码的标记。以下是如何获取所有链接： 
   # get all links on a page
links = page.get_links() 
   links是一个Python字典列表。 
   还可以作为迭代器使用： 
   for link in page.links():
    # do something with 'link' 
   如果处理PDF文档页面，还可能存在注释（Annot）或表单字段（Widget），每个字段都有自己的迭代器： 
   for annot in page.annots():
    # do something with 'annot'

for field in page.widgets():
    # do something with 'field' 
   b. 呈现页面 
   此示例创建页面内容的光栅图像： 
   pix = page.get_pixmap() 
   pix是一个Pixmap对象，它（在本例中）包含页面的RGB图像，可用于多种用途。 
   方法Page.get_pixmap()提供了许多用于控制图像的变体：分辨率、颜色空间（例如，生成灰度图像或具有减色方案的图像）、透明度、旋转、镜像、移位、剪切等。 
   例如：创建RGBA图像（即，包含alpha通道），指定pix=page.get_pixmap（alpha=True）。\ 
   Pixmap包含以下引用的许多方法和属性。其中包括整数宽度、高度（每个像素）和跨距（一个水平图像行的字节数）。属性示例表示表示图像数据的矩形字节区域（Python字节对象）。 
   还可以使用page.get_svg_image()创建页面的矢量图像。 
   c. 将页面图像保存到文件中 
   我们可以简单地将图像存储在PNG文件中： 
   pix.save("page-%i.png" % page.number) 
   d. 提取文本和图像 
   我们还可以以多种不同的形式和细节级别提取页面的所有文本、图像和其他信息： 
   text = page.get_text(opt) 
   对opt使用以下字符串之一以获取不同的格式： 
    
    "text"：（默认）带换行符的纯文本。无格式、无文字位置详细信息、无图像 
    "blocks"：生成文本块（段落）的列表 
    "words"：生成单词列表（不包含空格的字符串） 
    "html"：创建页面的完整视觉版本，包括任何图像。这可以通过internet浏览器显示 
    "dict"/"json"：与HTML相同的信息级别，但作为Python字典或resp.JSON字符串。 
    "rawdict"/"rawjson"："dict"/"json"的超级集合。它还提供诸如XML之类的字符详细信息。 
    "xhtml"：文本信息级别与文本版本相同，但包含图像。 
    "xml"：不包含图像，但包含每个文本字符的完整位置和字体信息。使用XML模块进行解释。 
    
   e. 搜索文本 
   您可以找到某个文本字符串在页面上的确切位置： 
   areas = page.search_for("mupdf") 
   这将提供一个矩形列表，每个矩形都包含一个字符串“mupdf”（不区分大小写）。您可以使用此信息来突出显示这些区域（仅限PDF）或创建文档的交叉引用。 
    7. PDF操作 
   PDF是唯一可以使用PyMuPDF修改的文档类型。其他文件类型是只读的。 
   但是，您可以将任何文档（包括图像）转换为PDF，然后将所有PyMuPDF功能应用于转换结果,Document.convert_to_pdf()。 
   Document.save()始终将PDF以其当前（可能已修改）状态存储在磁盘上。 
   通常，您可以选择是保存到新文件，还是仅将修改附加到现有文件（“增量保存”），这通常要快得多。 
   下面介绍如何操作PDF文档。 
   a. 修改、创建、重新排列和删除页面 
   有几种方法可以操作所谓页面树（描述所有页面的结构）： 
    
    PDF:Document.delete_page()和Document.delete_pages()删除页面 
    Document.copy_page()、Document.fullcopy_page()和Document.move_page()将页面复制或移动到同一文档中的其他位置。 
    Document.select()将PDF压缩到选定页面，参数是要保留的页码序列。这些整数都必须在0<=i
因此，您可以轻松地使用创建新的PDF： 
    - 第一页或最后10页 
      
      仅奇数页或偶数页（用于双面打印） 
      包含或不包含给定文本的页 
      颠倒页面顺序 
      
    保存的新文档将包含仍然有效的链接、注释和书签（i.a.w.指向所选页面或某些外部资源）。 
    Document.insert_page()和Document.new_page()插入新页面。 
    
   此外，页面本身可以通过一系列方法进行修改（例如页面旋转、注释和链接维护、文本和图像插入）。 
   b. 连接和拆分PDF文档 
   方法Document.insert_pdf()在不同的pdf文档之间复制页面。下面是一个简单的joiner示例（doc1和doc2在PDF中打开）： 
   # append complete doc2 to the end of doc1
doc1.insert_pdf(doc2) 
   下面是一个拆分doc1的片段。它将创建第一页和最后10页的新文档： 
   doc2 = fitz.open() # new empty PDF
doc2.insert_pdf(doc1, to_page = 9) # first 10 pages
doc2.insert_pdf(doc1, from_page = len(doc1) - 10) # last 10 pages
doc2.save("first-and-last-10.pdf") 
   c. 保存 
   Document.save()将始终以当前状态保存文档。 
   您可以通过指定选项incremental=True将更改写回原始PDF。这个过程（通常）非常快，因为更改会附加到原始文件，而不会完全重写它。 
   d. 关闭 
   在程序继续运行时，通常需要“关闭”文档以将底层文件的控制权交给操作系统。 
   这可以通过Document.close()方法实现。除了关闭基础文件外，还将释放与文档关联的缓冲区。 
    
   End 
   崔庆才的新书《Python3网络爬虫开发实战（第二版）》已经正式上市了！书中详细介绍了零基础用 Python 开发爬虫的各方面知识，同时相比第一版新增了 JavaScript 逆向、Android 逆向、异步爬虫、深度学习、Kubernetes 相关内容，‍同时本书已经获得 Python 之父 Guido 的推荐，目前本书正在七折促销中！ 
   内容介绍：《Python3网络爬虫开发实战（第二版）》内容介绍 
    
   扫码购买 
    
    
   点个在看你最好看

PyCharm 对接 DeepSeek 大模型的详细操作流程程之编 pycharm ide python
以下是使用PyCharm对接DeepSeek大模型的详细操作流程，基于Python开发环境。假设你已具备DeepSeekAPI的访问权限（需提前申请APIKey）：步骤1：PyCharm环境准备创建新项目打开PyCharm→NewProject→选择纯Python项目→指定项目路径→创建虚拟环境（建议选Virtualenv）。安装依赖库打开终端（Terminal）执行以下命令：pipinstall
flink-cdc实时增量同步mysql数据到elasticsearch 大数据技术派 #Flink elasticsearch flink mysql
什么是CDC？CDC是（ChangeDataCapture变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。1.环境准备mysqlelasticsearchflinkonyarn说明：如果没有安装hadoop，那么可以不用yarn，直
Java jar包后台运行方式详解我真的不想做程序员 java java jar 后端开发语言 ide
目录一、打包成jar文件二、后台运行jar文件三、示例四、总结在Java开发中，我们经常需要将应用程序打包成可执行的jar文件，并在后台运行。这种方式对于部署长时间运行的任务或需要持续监听事件的应用程序非常重要。本文将详细介绍如何实现Javajar包的后台运行，并通过具体代码示例帮助您更好地理解和应用。一、打包成jar文件要将Java应用程序打包成jar文件，首先需要确保项目的目录结构符合要求。一
600条最强 Linux 命令总结（非常详细）零基础入门到精通，收藏这一篇就够了网安导师小李程序员编程网络安全 linux 运维服务器学习 web安全 python java
一、基本命令uname-m显示机器的处理器架构uname-r显示正在使用的内核版本dmidecode-q显示硬件系统部件(SMBIOS/DMI)hdparm-i/dev/hda罗列一个磁盘的架构特性hdparm-tT/dev/sda在磁盘上执行测试性读取操作系统信息arch显示机器的处理器架构uname-m显示机器的处理器架构uname-r显示正在使用的内核版本dmidecode-q显示硬件系统部
MySQL保姆级教程（SQL语法基础篇）从小白到高手的进阶指南，收藏这一篇就够了网安导师小李网络安全编程程序员 mysql sql adb 安全 web安全网络自动化
本章节精心构构造SQL语法学习之旅的基石，旨在从基础出发，逐步深入，全面解析SQL语法规则并辅以丰富实例。通过这一篇章，您将循序渐进地掌握MySQL的核心语法，开启数据库操作的新境界。1：SQL语言概述SQL（StructuredQueryLanguage），简称SQL。结构化查询语言包含6个部分：类型释义范例数据查询语言DQL：DataQueryLanguage如SELECT数据操作语言DML：
JS: 类型转换 + 运算符 + 循环 ..儒 javascript 开发语言 ecmascript
类型转换一，为什么需要类型转换JavaScript是弱数据类型：JavaScript也不知道变量到底属于那种数据类型，只有赋值了才清楚。坑：使用表单、prompt获取过来的数据默认是字符串类型的，此时就不能直接简单的进行加法运算。console.log（'1000e'+‘2000')//输出结果100002000此时需要转换变量的数据类型。通俗来说，就是把一种数据类型的变量转换成我们需要的数据类型
Uniapp组件 Textarea 字数统计和限制 weixin_42220130 uniapp 微信小程序 uni-app textarea 输入框统计限制
UniappTextarea字数统计和限制在Uniapp中，可以通过监听textarea的input事件来实现字数统计功能。以下是一个简单的示例，展示如何在textarea的右下角显示输入的字符数。示例代码首先，在模板中定义一个textarea元素，并绑定input事件处理函数：{{fontNum}}/200然后，在JavaScript部分定义updateFontNum方法来更新字符数：expor
接口测试中遇到的最大的困难是什么？Java接口测试中用到的框架有哪些？海姐软件测试接口测试测试工具
接口测试中的最大困难环境依赖与数据准备接口测试常依赖外部服务或数据库，测试环境不稳定（如第三方接口延迟）会导致测试结果不可靠。解决方案：使用Mock技术（如Mockito）模拟外部依赖，或通过Docker容器化测试环境，确保数据隔离。参数与逻辑复杂度复杂接口可能涉及多参数组合、加密签名（如Token、OAuth）或动态参数（如时间戳），手工构造请求容易出错。示例：电商接口需同时验证商品库存、用户优
如何有效管理 JavaScript 中的内存：垃圾回收与最佳实践名之以父 JavaScript 前端安全 javascript 前端框架 react.js vue.js 网络
“垃圾回收是现代编程语言的核心特性之一，它使得开发者可以专注于功能实现，而无需担心内存管理的细节。”——在JavaScript中，垃圾回收（GC）是一个自动化的内存管理过程，它帮助我们确保不再使用的内存得到释放。尽管JavaScript的垃圾回收机制非常强大，但如果对其原理和工作方式不够了解，也可能导致一些性能问题和内存泄漏。本文将深入探讨JavaScript中的垃圾回收机制、算法以及如何优化垃圾
【JavaScript 】垃圾回收机制进阶解析：提高性能的终极指南名之以父 JavaScript java jvm 开发语言前端安全网络 vue.js
“垃圾回收机制不仅是内存管理的基石，更是高效Web开发的保障。在JavaScript中，理解其工作原理至关重要。”在JavaScript中，垃圾回收（GarbageCollection，GC）是一个自动化的内存管理过程，能够有效防止内存泄漏虽然这看似是一个简单的机制，但背后却包含着丰富的理论与实现细节。理解这些原理，不仅能够帮助我们写出更高效的代码，还能避免一些性能问题和内存泄漏。本文将带你深入探
Hive在大数据集群下的部署正在绘制中大数据大数据 hive
hive安装1）把apache-hive-3.1.3-bin.tar.gz上传到Linux的/opt/software目录下2）解压apache-hive-3.1.3-bin.tar.gz到/opt/module/目录下面tar-zxvf/opt/software/apache-hive-3.1.3-bin.tar.gz-C/opt/module/3）修改apache-hive-3.1.3-bin
搭建分布式Hive集群逸曦玥泱大数据运维分布式 hive hadoop
title:搭建分布式Hive集群date:2024-11-2923:39:00categories:-服务器tags:-Hive-大数据搭建分布式Hive集群本次实验环境：Centos7-2009、Hadoop-3.1.4、JDK8、Zookeeper-3.6.3、Mysql-5.7.38、Hive-3.1.2功能规划方案一（本地运行模式）Master主节点（Mysql+Hive）192.168
量子计算如何颠覆能源优化领域：从理论到实践 Echo_Wish 人工智能前沿技术量子计算能源
量子计算如何颠覆能源优化领域：从理论到实践大家好，我是Echo_Wish，一个热爱探索前沿技术的人工智能与Python领域的技术分享者。今天，我们将深入探讨一个激动人心的话题——量子计算在能源优化中的应用。这不仅是科技领域的全新趋势，也可能为全人类的能源利用效率带来革命性突破。从理论模型到实际应用，量子计算已经在一些能源相关领域崭露头角，例如电网优化、可再生能源分配和物流节能规划。以下，让我们一步
Kibana 单机与集群部署教程闲人编程大数据集群部署教程大数据集群单机部署 Kibana 日志分析数据可视化
目录Kibana单机与集群部署教程第一部分：Kibana概述第二部分：Kibana单机部署教程1.安装Kibana1.1安装依赖项1.2下载和安装Kibana1.3启动Kibana2.单机案例代码实现（Python）3.常见问题及解决方法3.1无法启动Kibana服务3.2Kibana无法连接到Elasticsearch第三部分：Kibana集群部署教程1.配置集群节点1.1配置Elasticse
JavaScript面试宝典傻小胖 javascript 面试前端
1.JS由哪三部分组成？JavaScript由以下三部分组成：ECMAScript（ES）：JavaScript的核心语法，如变量、作用域、数据类型、函数、对象等。DOM（文档对象模型）：用于操作HTML和XML文档的API，可以动态修改网页内容、结构和样式。BOM（浏览器对象模型）：用于操作浏览器窗口和页面，例如window、navigator、location、history、screen等对
ES8的Java API client 8.0 简单示例操作 Elasticsearch it-shiyadi es java elasticsearch 开发语言
1.加入依赖co.elastic.clientselasticsearch-java8.12.22.配置类@Slf4j@ConfigurationpublicclassElasticSearchConfig{@Value("${elasticsearch.hosts}")privateStringhosts;@Value("${elasticsearch.port}")privateintport
INCA二次开发GUI实例化智海行舟 python 个人开发
【摘要】本文基于ETASINCA二次开发实践，深入探讨如何构建完整的自动化测试GUI系统。通过Python语言结合COM接口技术，实现从软件架构设计到功能模块开发的完整闭环，为汽车电子领域工程师提供可复用的开发范式。一、INCA二次开发技术背景1.1行业应用需求在汽车电子开发领域，ETASINCA作为行业标准标定工具，其自动化测试需求日益增长。传统的手动操作模式存在以下痛点：重复性操作耗时严重（单
【Spring】_Spring事务与事务传播机制 _周游 Spring JavaEE 数据库 sql
目录1.创建项目、数据库及MyBatis配置1.1创建数据库及java实体类1.2使用yml配置MyBatis1.3对应三层架构开发2.Spring编程式事务2.1编写UserController类2.2接口测试2.23关于事务回滚与事务提交的日志3.Spring声明式事务3.1编写TransController类3.2接口测试3.3关于@Transactional实现事务回滚的情况3.3.1重新
如何通过API用Python获取北向资金流向数据？量化问财量化软件 QMT 量化交易 Python 量化炒股 PTrade QMT 量化交易量化软件 deepseek
推荐阅读：《【最全攻略】免费的量化软件有哪些？券商的交易接口怎么获取？》如何通过API用Python获取北向资金流向数据？北向资金指的是通过沪港通和深港通渠道，从香港市场流入A股市场的资金。对于投资者来说，了解北向资金流向对于把握市场趋势和投资决策具有重要意义。本文将介绍如何通过API用Python获取北向资金流向数据。理解北向资金流向数据北向资金流向数据主要包括以下几个方面：资金流入量：指通过沪
【新手向】从零开始学习Java（Day29）Java 网络编程星河天欲瞩从零开始学习Java 学习 java 开发语言 jvm 网络后端
每天二十分钟，成就Java大神，点点关注不迷路！今天是第二十九天，给坚持到这里的小伙伴点个赞！对抗混乱即修行，共勉！目录网络编程基础概念Socket（套接字）ServerSocket类（服务器端）构造方法常用方法Socket类构造方法常用方法InetAddress类本地实例服务端客户端运行步骤下节预告网络编程基础概念网络编程是指编写运行在多个设备（计算机）的程序，这些设备都通过网络连接起来。网络模
八股文-Linux系统部分 im长街八股文专栏 linux 服务器
目录权限掩码有什么作用?直到粘滞位吗?怎样将程序停留在预处理过程/编译/汇编过程后?用过gdb吗?讲讲常见的热键谈谈你对整个计算机体系的认识什么是进程?谈谈你自己的理解?进程在运行时可能会出现哪些状态?Fork函数了解多少?了解过僵尸进程和孤儿进程吗?并行和并发的区别?当发生进程切换后再次被调度时,怎样知道上次运行到哪儿了?了解过哪些环境变量什么是地址空间?和物理内存是什么关系?为什么要有它?谈谈
八股文-Linux网络部分 im长街八股文专栏 linux 网络
目录TCP和UDP的区别套接字编程一般的流程是什么Cookie,session和token有什么区别HTTP和HTTPS的区别讲一下TCP的三次握手和四次挥手TCP通过什么来保证可靠性TCP通过什么方式来提高性能了解哪些TCP协议的报头数据如何解决TCP的粘包问题什么是IP协议IP协议的字段了解多少什么是网段划分WAN口ip和LAN口ip的作用了解过NAT技术吗谈一谈你对ARP协议的理解有了ip地
【Servlet】深入解析 Servlet 启动过程 —— 原理分析、代码实战及在 JDK 和 Spring 中的应用工一木子原理分析 Servlet java servlet
深入解析Servlet启动过程——原理分析、代码实战及在JDK和Spring中的应用在JavaWeb开发中，Servlet是一种用于创建动态Web应用程序的核心技术。作为JavaEE（现在是JakartaEE）的基础，Servlet在处理客户端请求、生成响应等方面发挥着重要作用。理解Servlet的启动过程，不仅能帮助我们调试和优化应用，还能为深入掌握JavaWeb开发的核心原理打下坚实基础。本文
JavaScript模块化开发的演进历程 IronKee JavaScript javascript 前端
写在前面的话js模块化历程记录了js模块化思想的诞生与变迁历史不是过去，历史正在上演，一切终究都会成为历史拥抱变化，面向未来延伸阅读-JavaScript诞生（这也解释了JS为何一开始没有模块化）JavaScript因为互联网而生，紧随着浏览器的出现而问世1990年底，欧洲核能研究组织（CERN）科学家Tim，发明了万维网（WorldWideWeb），最早的网页只能在操作系统的终端里浏览，非常不方
go执行java -jar 完成DSA私钥解析并签名 DavidSoCool java jar golang
起因，最近使用go对接百度联盟api需要使用到DSA私钥完成签名过程，在百度提供的代码示例里面没有go代码的支持，示例中仅有php、python2和3、java的代码，网上找了半天发现go中对DSA私钥解析支持不友好，然后决定使用在java中完成签名计算过程，生成可执行jar后由外部传入参数获取签名数据。百度联盟api文档说明：1）权限开通后，登录百度联盟媒体平台（union.baidu.com）
基于Java的智能家居设计：模块化智能插座的设计与实现 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
智能家居,Java,模块化设计,智能插座,物联网,MQTT,RESTfulAPI1.背景介绍智能家居已成为现代生活的重要趋势，它通过将各种智能设备连接到网络，实现对家居环境的自动化控制和远程管理。智能插座作为智能家居的基础设备之一，能够远程控制电器开关，监测电器功耗，并根据用户需求实现定时开关等功能。传统的智能插座往往采用单片机或嵌入式系统，功能相对单一，难以扩展和升级。随着物联网技术的快速发展，
【30天玩转python】项目实战：从零开始开发一个Python项目爱技术的小伙子 30天玩转python linux 运维服务器
项目实战：从零开始开发一个Python项目在学习Python的过程中，开发一个完整的项目是非常重要的实战练习。它不仅能够帮助你巩固所学的知识，还能提高实际编程能力。本文将带领你从零开始开发一个Python项目，介绍从项目规划、环境搭建、代码实现到项目发布的完整过程。我们将以一个简单的“任务管理系统”为例，逐步讲解如何构建、测试和优化这个项目。1.项目规划1.1项目简介我们将开发一个基于命令行的任务
本地部署Hive集群克里斯蒂亚诺罗纳尔多阿维罗 hive hadoop 数据仓库
规划服务机器Hive本体部署在Node1元数据服务所需的关系型数据库(MYSQL)部署在Node1安装MYSQL数据库#更新密钥rpm--importhttps://repo.mysql.com/RPM-GPG-KEY-mysql-2022#安装Mysqlyum库rpm-Uvhhttp://repo.mysql.com//mysql57-community-release-el7-7.noarch
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
MySql索引使用沐千熏 mysql 数据库
索引类型#主键索引：PRIMARY这设立主键后数据库自动建立索引，InnoDB为聚簇索引，主键索引列不能为空（NUll）；#唯一索引：UNIQUE索引列的值必须唯一。可以为空值，但是必须只有一个；#普通索引（组合索引）：NORMAL也称为非唯一索引，允许重复值和NULL值。一个索引可以包含多个列，多个列共同组成一个复杂的索引；#全文索引：FULLTEXTFullText（MySQL5.7之前，只有
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin