欣一2002

Python处理PDF神器：PyMuPDF的安装与使用

1、PyMuPDF简介

1. 介绍

在介绍PyMuPDF之前，先来了解一下MuPDF，从命名形式中就可以看出，PyMuPDF是MuPDF的Python接口形式。

MuPDF

MuPDF 是一个轻量级的 PDF、XPS和电子书查看器。MuPDF 由软件库、命令行工具和各种平台的查看器组成。

MuPDF 中的渲染器专为高质量抗锯齿图形量身定制。它以精确到像素的几分之一内的度量和间距呈现文本，以在屏幕上再现打印页面的外观时获得最高保真度。

这个观察器很小，速度很快，但是很完整。它支持多种文档格式，如PDF、XPS、OpenXPS、CBZ、EPUB和FictionBook 2。您可以使用移动查看器对PDF文档进行注释和填写表单(这个功能很快也将应用于桌面查看器)。

命令行工具允许您注释、编辑文档，并将文档转换为其他格式，如HTML、SVG、PDF和CBZ。您还可以使用Javascript编写脚本来操作文档。

PyMuPDF

PyMuPDF(当前版本1.18.17)是支持MuPDF(当前版本1.18.*)的Python绑定。

使用PyMuPDF，你可以访问扩展名为“.pdf”、“.xps”、“.oxps”、“.cbz”、“.fb2”或“.epub”。此外，大约10种流行的图像格式也可以像文档一样处理:“.png”，“.jpg”，“.bmp”，“.tiff”等。

2. 功能

对于所有支持的文档类型可以：

解密文件
访问元信息、链接和书签
以栅格格式（PNG和其他格式）或矢量格式SVG呈现页面
搜索文本
提取文本和图像
转换为其他格式：PDF, (X)HTML, XML, JSON, text
对于PDF文档，存在大量的附加功能:它们可以创建、合并或拆分。页面可以通过多种方式插入、删除、重新排列或修改(包括注释和表单字段)。
可以提取或插入图像和字体
完全支持嵌入式文件
pdf文件可以重新格式化，以支持双面打印，色调分离，应用标志或水印
完全支持密码保护:解密、加密、加密方法选择、权限级别和用户/所有者密码设置
支持图像、文本和绘图的 PDF 可选内容概念
可以访问和修改低级 PDF 结构
命令行模块"python -m fitz…"具有以下特性的多功能实用程序
新:布局保存文本提取!
脚本fitzcliy .py通过子命令“gettext”提供不同格式的文本提取。特别有趣的当然是布局保存，它生成的文本尽可能接近原始物理布局，周围有图像的区域，或者在表格和多列文本中复制文本。
- 加密/解密/优化
- 创建子文档
- 文档连接
- 图像/字体提取
- 完全支持嵌入式文件
- 保存布局的文本提取(所有文档)

2、安装

PyMuPDF可以从源码安装，也可以从wheels安装。

对于Windows, Linux和Mac OSX平台，在PyPI的下载部分有wheels。这包括Python 64位版本3.6到3.9。Windows版本也有32位版本。从最近开始，Linux ARM架构也出现了一些问题——查找平台标签manylinux2014_aarch64。

除了标准库，它没有强制性的外部依赖项。只有在安装了某些包时，才会有一些不错的方法:

Pillow：当使用Pixmap.pil_save()和 Pixmap.pil_tobytes()时需要
fontTools：当使用Document.subset_fonts()时需要
pymupdf-fonts 是一个不错的字体选择，可以用于文本输出方法

使用pip安装命令：

pip install PyMuPDF

导入库：

import fitz

关于命名`fitz`的说明

这个库的标准Python导入语句是import fitz。这是有历史原因的:
MuPDF的原始渲染库被称为Libart。

在Artifex软件获得MuPDF项目后，开发的重点转移到编写一种新的现代图形图书馆称为“Fitz”。Fitz最初是作为一个研发项目，以取代老化的Ghostscript图形库，但却成为了MuPDF的渲染引擎(引用自维基百科)。

3、使用方法

1. 导入库，查看版本

import fitz
print(fitz.__doc__)
PyMuPDF 1.18.16: Python bindings for the MuPDF 1.18.0 library.
Version date: 2021-08-05 00:00:01.
Built for Python 3.8 on linux (64-bit).

2. 打开文档

doc = fitz.open(filename)

这将创建Document对象doc。文件名必须是一个已经存在的文件的python字符串。也可以从内存数据打开文档，或创建新的空PDF。您还可以将文档用作上下文管理器。

3. Document的方法和属性

示例：

>>> doc.count_page
1
>>> doc.metadata
{'format': 'PDF 1.7',
 'title': '',
 'author': '',
 'subject': '',
 'keywords': '',
 'creator': '',
 'producer': '福昕阅读器PDF打印机 版本 10.0.130.3456',
 'creationDate': "D:20210810173328+08'00'",
 'modDate': "D:20210810173328+08'00'",
 'trapped': '',
 'encryption': None}

4. 获取元数据

PyMuPDF完全支持标准元数据。Document.metadata是一个具有以下键的Python字典。

它适用于所有文档类型，但并非所有条目都始终包含数据。元数据字段为字符串，如果未另行指示，则为无。还要注意的是，并非所有数据都始终包含有意义的数据——即使它们不是一个都没有。

5. 获取目标大纲

toc = doc.get_toc()

6. 页面(`Page`)

页面处理是MuPDF功能的核心。
• 您可以将页面呈现为光栅或矢量（SVG）图像，可以选择缩放、旋转、移动或剪切页面。
• 您可以提取多种格式的页面文本和图像，并搜索文本字符串。
• 对于PDF文档，可以使用更多的方法向页面添加文本或图像。

首先，必须创建一个页面Page。这是Document的一种方法：

page = doc.load_page(pno) # loads page number 'pno' of the document (0-based)
page = doc[pno] # the short form

这里可以使用任何整数-inf。负数从末尾开始倒数，所以doc[-1]是最后一页，就像Python序列一样。

 
   更高级的方法是将文档用作页面的迭代器： 
   for page in doc:
    # do something with 'page'
    
# ... or read backwards
for page in reversed(doc):
    # do something with 'page'
    
# ... or even use 'slicing'
for page in doc.pages(start, stop, step):
    # do something with 'page' 
    
    
    接下来，主要介绍Page的常用操作！ 
    
   a. 检查页面的链接、批注或表单字段 
   使用某些查看器软件显示文档时，链接显示为==“热点区域”==。如果您在光标显示手形符号时单击，您通常会被带到该热点区域中编码的标记。以下是如何获取所有链接： 
   # get all links on a page
links = page.get_links() 
   links是一个Python字典列表。 
   还可以作为迭代器使用： 
   for link in page.links():
    # do something with 'link' 
   如果处理PDF文档页面，还可能存在注释（Annot）或表单字段（Widget），每个字段都有自己的迭代器： 
   for annot in page.annots():
    # do something with 'annot'
    
for field in page.widgets():
    # do something with 'field' 
   b. 呈现页面 
   此示例创建页面内容的光栅图像： 
   pix = page.get_pixmap() 
   pix是一个Pixmap对象，它（在本例中）包含页面的RGB图像，可用于多种用途。 
   方法Page.get_pixmap()提供了许多用于控制图像的变体：分辨率、颜色空间（例如，生成灰度图像或具有减色方案的图像）、透明度、旋转、镜像、移位、剪切等。 
   例如：创建RGBA图像（即，包含alpha通道），指定pix=page.get_pixmap（alpha=True）。 
   Pixmap包含以下引用的许多方法和属性。其中包括整数宽度、高度（每个像素）和跨距（一个水平图像行的字节数）。属性示例表示表示图像数据的矩形字节区域（Python字节对象）。 
   还可以使用page.get_svg_image()创建页面的矢量图像。 
   c. 将页面图像保存到文件中 
   我们可以简单地将图像存储在PNG文件中： 
   pix.save("page-%i.png" % page.number) 
   d. 提取文本和图像 
   我们还可以以多种不同的形式和细节级别提取页面的所有文本、图像和其他信息： 
   text = page.get_text(opt) 
   对opt使用以下字符串之一以获取不同的格式： 
    
    "text"：（默认）带换行符的纯文本。无格式、无文字位置详细信息、无图像 
    "blocks"：生成文本块（段落）的列表 
    "words"：生成单词列表（不包含空格的字符串） 
    "html"：创建页面的完整视觉版本，包括任何图像。这可以通过internet浏览器显示 
    "dict"/"json"：与HTML相同的信息级别，但作为Python字典或resp.JSON字符串。 
    "rawdict"/"rawjson"："dict"/"json"的超级集合。它还提供诸如XML之类的字符详细信息。 
    "xhtml"：文本信息级别与文本版本相同，但包含图像。 
    "xml"：不包含图像，但包含每个文本字符的完整位置和字体信息。使用XML模块进行解释。 
    
   e. 搜索文本 
   您可以找到某个文本字符串在页面上的确切位置： 
   areas = page.search_for("mupdf") 
   这将提供一个矩形列表，每个矩形都包含一个字符串“mupdf”（不区分大小写）。您可以使用此信息来突出显示这些区域（仅限PDF）或创建文档的交叉引用。 
   7. PDF操作  
   PDF是唯一可以使用PyMuPDF修改的文档类型。其他文件类型是只读的。 
   但是，您可以将任何文档（包括图像）转换为PDF，然后将所有PyMuPDF功能应用于转换结果,Document.convert_to_pdf()。 
   Document.save()始终将PDF以其当前（可能已修改）状态存储在磁盘上。 
   通常，您可以选择是保存到新文件，还是仅将修改附加到现有文件（“增量保存”），这通常要快得多。 
   下面介绍如何操作PDF文档。 
   a. 修改、创建、重新排列和删除页面 
   有几种方法可以操作所谓页面树（描述所有页面的结构）： 
    
    PDF:Document.delete_page()和Document.delete_pages()删除页面 
    Document.copy_page()、Document.fullcopy_page()和Document.move_page()将页面复制或移动到同一文档中的其他位置。 
    Document.select()将PDF压缩到选定页面，参数是要保留的页码序列。这些整数都必须在0<=i范围内。执行时，此列表中缺少的所有页面都将被删除。剩余的页面将按顺序出现，次数相同（！）正如您所指定的那样。
因此，您可以轻松地使用创建新的PDF：
保存的新文档将包含仍然有效的链接、注释和书签（i.a.w.指向所选页面或某些外部资源）。
 
      
      第一页或最后10页 
      仅奇数页或偶数页（用于双面打印） 
      包含或不包含给定文本的页 
      颠倒页面顺序 
     
 
    Document.insert_page()和Document.new_page()插入新页面。
此外，页面本身可以通过一系列方法进行修改（例如页面旋转、注释和链接维护、文本和图像插入）。 
   
 
   b. 连接和拆分PDF文档 
   方法Document.insert_pdf()在不同的pdf文档之间复制页面。下面是一个简单的joiner示例（doc1和doc2在PDF中打开）： 
   # append complete doc2 to the end of doc1
doc1.insert_pdf(doc2) 
   下面是一个拆分doc1的片段。它将创建第一页和最后10页的新文档： 
   doc2 = fitz.open() # new empty PDF
doc2.insert_pdf(doc1, to_page = 9) # first 10 pages
doc2.insert_pdf(doc1, from_page = len(doc1) - 10) # last 10 pages
doc2.save("first-and-last-10.pdf") 
   c. 保存 
   Document.save()将始终以当前状态保存文档。 
   您可以通过指定选项incremental=True将更改写回原始PDF。这个过程（通常）非常快，因为更改会附加到原始文件，而不会完全重写它。 
   d. 关闭 
   在程序继续运行时，通常需要“关闭”文档以将底层文件的控制权交给操作系统。 
   这可以通过Document.close()方法实现。除了关闭基础文件外，还将释放与文档关联的缓冲区。 
    
    来源：网络 
    
   推荐阅读： 
   数据分析师必知必会的统计学知识
 
   最全整理！37 个 Python Web 开发框架总结
 
   决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost总结
 
   Linux 操作必备 150 个命令，速度收藏～
 
   分享、收藏、点赞、在看安排一下？

算法竞赛备考冲刺必刷题（C++） | 洛谷 P8814 解密热爱编程的通信人算法 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P8814[CSP-J2022]解密-洛
Java Fork/Join 框架详解 empti_ 数据结构与算法 java
JavaFork/Join框架详解Fork/Join框架是Java7引入的一个并行编程框架，专门设计用来高效地实现分治算法（Divide-and-Conquer）。它通过工作窃取（Work-Stealing）算法来最大化多核处理器的利用率。一、核心概念1.基本组成ForkJoinPool：特殊的线程池，管理工作线程ForkJoinTask：表示任务的抽象类，有两个重要子类：RecursiveAct
Java注解的实现原理 empti_ Java基础 java
Java注解的实现原理Java注解的实现涉及Java语言规范、编译器处理和JVM支持等多个层面。下面我将详细解释注解在Java中的实现机制。一、注解的本质注解本质上是一种特殊的接口，所有注解类型都隐式继承自java.lang.annotation.Annotation接口。当你定义一个注解时：public@interfaceMyAnnotation{Stringvalue();}编译器实际上会生成
程序化交易系统中如何精准获取MACD、KDJ、BOLL等基础指标的值？股票程序化交易接口量化交易股票API接口 Python股票量化交易程序化交易系统 macd指标 kdj指标 boll指标股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>基础指标在程序化交易系统中的重要性基础指标对交易决策的指导意义MACD、KDJ、BOLL等基础指标在程序化交易系统中扮演着重要角色。MACD可以帮助判断市场的趋势和买卖信号，通过分析其快线和慢线的交叉情况，能为投资者提供入场和出场的参
股票程序化交易软件如何选择？这些要点你知道吗股票程序化交易接口量化交易股票API接口 Python股票量化交易区块链股票程序化交易软件功能特性稳定性成本股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>了解软件功能特性基础交易功能基础交易功能是股票程序化交易软件的核心。它应具备快速下单、撤单等基础操作能力。比如在行情快速变化时，能让投资者迅速抓住机会下单，或者及时撤单避免损失。软件的交易界面要简洁明了，方便投资者操作。还应支持多种交
【网络】Linux 内核优化实战 - net.core.rmem_max 锅锅来了 Linux性能优化原理和实战网络 linux 运维
目录参数作用与原理默认值与查看方法调整场景与方法适用场景调整方法与其他参数的协同性能影响与注意事项典型案例总结net.core.rmem_max是Linux内核中控制套接字接收缓冲区（ReceiveBuffer）最大允许值的参数。它与net.core.rmem_default（默认值）共同决定了网络数据接收的性能上限和内存使用策略。以下是详细解析：参数作用与原理核心功能：限制单个套接字接收缓冲区的
RK3566系统移植 | 基于rk-linux-sdk移植uboot（2017.09） Mculover666 linux
文章目录一、测试已有的配置二、移植到fireflyROC-RK3566开发板1.新建单板2.新建设备树3.编译4.测试一、测试已有的配置查看rksdk中提供的uboot中对于rk3566的配置：rk3566.config内容如下：CONFIG_BASE_DEFCONFIG="rk3568_defconfig"CONFIG_LOADER_INI="RK3566MINIALL.ini"因为rk3566
Linux I/O 文件操作详解：从系统调用到实际工程应用平凡灵感码头 linux学习 linux 运维服务器
一、写在前面在Linux或任何类Unix操作系统中，文件是一切的核心——无论是硬盘上的文本文件，还是串口设备、GPIO寄存器、甚至网络接口，几乎都被抽象为“文件”。理解Linux下的I/O文件操作机制，不仅是嵌入式开发的基础，也是进行系统编程与底层控制的关键。二、I/O的本质：一切皆文件Linux将外设抽象成文件的方式，统一了对各种资源的操作模型。你可以用open打开串口设备/dev/ttyS0，
Python爬虫实战：全方位爬取知乎学习板块问答数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫学习开发语言 scrapy 游戏
1.项目背景与爬取目标知乎是中国最大的知识问答社区，聚集了大量高质量的学习资源和经验分享。爬取知乎“学习”板块的问答数据，可以为学习资料整理、舆情分析、推荐系统开发等提供数据支持。本项目目标：爬取“学习”话题下的热门问答列表抓取每个问答的标题、作者、回答内容、点赞数、评论数等详细信息实现动态加载内容的抓取，包含图片和富文本避免被反爬机制限制，保证数据采集稳定结合数据分析，为后续应用打基础2.知乎“
Python实战：自动在知乎回答点赞并采集内容的高阶爬虫教程 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 okhttp 学习
✨写在前面：为什么做知乎自动化操作？知乎作为中国领先的知识问答平台，拥有大量结构化内容。对于研究舆情分析、情绪识别、用户画像，甚至产品舆情反馈采集的用户来说，如何自动获取知乎内容并进行交互行为（如点赞、回答），是一个非常实用的能力。本文将手把手带你用Python完成以下目标：✅自动登录知乎✅自动搜索某个关键词下的热门问题✅自动点赞高质量回答✅自动采集回答内容（文本、点赞数、评论数等）✅自动保存为本
Python爬虫实战：爬取知乎问答与用户信息 Python爬虫项目 python 爬虫 php 数据分析开发语言开源
简介随着网络信息量的爆炸，如何有效获取有价值的内容，成为了数据分析、机器学习等领域的基础之一。爬虫作为数据采集的基本工具之一，常常被用来获取互联网上的公开数据。在这篇博客中，我们将结合最新的Python爬虫技术，详细讲解如何爬取知乎问答与用户信息。本文将会介绍：Python爬虫的基础知识知乎问答网页结构分析使用Python进行知乎数据爬取爬取知乎问答内容与用户信息如何处理和存储爬取的数据使用最新的
并行归并排序的 Java 实现 empti_ 数据结构与算法 java 算法排序算法
并行归并排序Java实现importjava.util.concurrent.RecursiveAction;importjava.util.concurrent.ForkJoinPool;publicclassParallelMergeSort{//主方法，供外部调用publicstaticvoidparallelMergeSort(int[]array){ForkJoinPoolpool=ne
python实战项目79：采集知乎话题下的所有回答 wp_tao Python副业接单实战项目 python 开发语言
python实战项目79：采集知乎话题下的所有回答一、项目介绍二、代码使用方法三、drissionpage的优缺点四、完整代码五、注意事项一、项目介绍需求是采集知乎某话题下的所有回答，这里以话题“大学宿舍相处之间遇到莫名其妙的冷落怎么办呢？”为例，网页链接为https://www.zhihu.com/question/1898156781215146265，其中189815678121514626
【网络】Linux 内核优化实战 - net.ipv4.tcp_rmem 和 net.core.rmem_default 关系锅锅来了 Linux性能优化原理和实战网络 linux tcp/ip
net.ipv4.tcp_rmem和net.core.rmem_default都是Linux内核中控制网络接收缓冲区的参数，但它们的作用范围、优先级和使用场景存在明显区别。以下是详细对比：核心区别参数net.ipv4.tcp_rmemnet.core.rmem_default作用协议仅针对TCP协议针对所有网络协议（TCP、UDP等）参数类型三元组：mindefaultmax单个值：默认缓冲区大小
使用 pip 命令下载 whl离线安装包、安装三希 pip
使用pip命令直接从线上下载whl离线安装包并转存到离线环境的过程实际上是分两步进行的：第一步：在线环境下载whl包bash#在具有网络连接的环境中pipdownload--only-binary=:all:--wheel--platform--python-version这里的参数说明：：需要下载的Python包名称。--only-binary=:all:：只下载二进制包（即whl文件）。--w
MySQL表达式之公用表表达式(CTE)的使用示例 @Corgi 后端开发 mysql 数据库 CTE
示例一数据表中有每个企业每年每月并且每月的产值是累加的数据的数据记录需求：统计企业产值能力，找出所有家企业中产值最高的企业，其产值记为P。对于第i家企业，其产值为Pi则该企业的产值能力评分=Pi/P×100。SQL：--使用ROW_NUMBER()为每个企业每年每个月的产值排名，筛选出每个企业每年最大月份的产值。WITHMaxMonthlyOutputAS(SELECTcompany_id,dec
Memfault 简介及在Nordic nRF91 系列 DK的应用
1：Memfault是一个云平台，它允许您和您的团队持续监控设备、调试固件问题，并将OTA更新部署到您的设备群，从而以软件的速度交付硬件产品。Memfault以嵌入式优先：支持运行在任何实时操作系统（RTOS）或Android、Linux等操作系统上的嵌入式系统和设备它适用于任何设备：从功能强大的SoC一直到功能受限的MCU，Memfault都能适配您设备的可用闪存、RAM和带宽我们的SDK是专为
AWS Lambda与RDS连接优化之旅 t0_54manong 编程问题解决手册 aws 云计算个人开发
在云计算的时代，AWSLambda与RDS的结合为开发者提供了高效且灵活的解决方案。然而，在实际应用中，我们常常会遇到一些性能瓶颈。本文将通过一个真实案例，探讨如何优化AWSLambda与RDS之间的连接，以提高API的响应速度。背景介绍最近，我们在AWS上部署了一个使用Dotnet6开发的API，它通过APIGateway暴露给外部，并连接到同VPC内的MySQLAuroraRDS数据库。部署前
游戏寻路之A*算法（GUI演示） jforgame 从零开始搭建游戏服务器框架 java A星自动寻路
一、A*算法介绍A*算法是一种路径搜索算法，用于在图形网络中找到最短路径。它结合了Dijkstra算法和启发式搜索的思想，通过综合利用已知的最短路径和估计的最短路径来优化搜索过程。在游戏自动寻路得到广泛应用。二、A*算法的基本思想在图形网络中选择一个起点和终点。维护两个列表：开放列表和关闭列表。开放列表用于存储待考虑的节点，关闭列表用于存储已考虑过的节点。将起点加入开放列表。循环以下工作当open
Linux ps 指令 halugin Linux指令 linux 运维
Linuxps指令ps（ProcessStatus）是Linux系统中用于查看进程状态的核心命令行工具。它提供系统当前运行进程的快照，显示进程ID、CPU和内存使用情况、运行状态等信息。作为系统管理员或开发人员，ps是监控系统资源、排查性能问题和管理系统进程的必备工具。其灵活的选项和输出格式使其适用于从简单查询到复杂分析的各种场景。什么是ps指令？概述ps是一个经典的Linux/Unix命令，用于
Linux netstat 指令 halugin Linux指令 linux 运维
Linuxnetstat指令netstat（NetworkStatistics）是Linux系统中用于查看网络状态、连接、路由表和接口统计信息的经典命令行工具。它为系统管理员和开发人员提供了强大的网络诊断功能，帮助分析网络连接、监控流量以及排查网络问题。尽管在现代Linux系统中，netstat正在被更新的工具（如ss）部分取代，但其简单性和广泛适用性使其仍然是许多场景下的首选工具。什么是nets
Linux ss 指令 halugin Linux指令 linux 运维
Linuxss指令ss（SocketStatistics）是Linux系统中用于显示网络套接字（socket）信息的现代命令行工具，是netstat的继任者，性能更高、输出更简洁。它提供详细的网络连接、监听端口和协议统计信息，广泛用于网络监控、故障排查和性能分析。相比传统的netstat，ss直接从内核获取数据显示更快，功能更强大，适合现代Linux系统。什么是ss指令？ss是Linux系统中的一
【Python】如何使用.whl文件安装Python包？ civilpy python 开发语言
基本原理在Python的世界中，.whl文件是一种分发格式，它代表“Wheel”。Wheel是一种Python包格式，旨在提供一种快速、可靠且兼容的方式，用于安装Python库。与源代码包相比，Wheel文件是预编译的，这意味着它们已经包含了编译后的扩展模块，这使得安装过程更快，更简单。代码示例以下是使用.whl文件安装Python包的示例步骤：示例1：基本安装假设你已经下载了一个名为exampl
Spring Boot项目初始化加载自定义配置文件内容到静态属性字段 @Corgi Java面试题 spring boot 后端 java
文章目录创建配置文件cXXX.properties配置类XXXConfig.java添加第三方JAR包创建配置文件cXXX.properties在resource目录下新建配置文件cXXX.properties，内容如下：#商户号mch_id=xxxxx#商户密码pwd=xxxx#接口请求地址req_url=https://xxx#异步回调通知地址（请替换为实际地址）notify_url=htt
如何安装 `.whl` 文件（Python Wheel 包）喝醉酒的小白 Liunx Python模块 python 开发语言
目录标题如何安装`.whl`文件（PythonWheel包）安装前提安装方法（3种）方法1：直接使用pip安装（推荐）方法2：先进入文件目录再安装方法3：使用绝对路径（适合脚本中调用）⚠️常见问题解决问题1：版本不兼容错误问题2：缺少依赖问题3：权限不足验证安装进阶技巧如何安装.whl文件（PythonWheel包）.whl文件是Python的二进制分发格式（Wheel格式），用于快速安装Pyth
Python 数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙清水白石008 python Python题库 python 数据挖掘动画
Python数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙引言在数字化浪潮席卷全球的今天，数据已成为企业和组织最重要的战略资产。海量数据蕴藏着巨大的价值，等待我们去挖掘和发现。数据挖掘(DataMining)，作为从海量数据中提取有价值知识和模式的关键技术，正日益受到各行各业的重视。它如同探矿者的火眼金睛，能够穿透数据的迷雾，发现隐藏在背后的规律和趋势，为商业决策、科学研究和社会发展提供强有
PyWavelets shangjg3 PyTorch pytorch 人工智能 python
PyWavelets（pywt）是Python中用于小波变换的核心库，提供了丰富的信号处理和图像处理功能。以下是其核心功能的详细介绍：1.小波变换基础（1）离散小波变换（DWT）将信号分解为近似系数（Approximation）和细节系数（Detail）。importpywtimportnumpyasnp#示例信号signal=np.array([1
Nginx与Tomcat：谁更适合你的服务器？当归1024 java 中间件 nginx nginx tomcat 服务器
nginx和Tomcat是两种不同类型的服务器软件，它们各有不同的用途和特点：基本定义nginx轻量级的HTTP服务器和反向代理服务器主要用于静态文件服务、负载均衡、反向代理TomcatJavaWeb应用服务器专门用于运行JavaWeb应用（JSP、Servlet）主要区别1.功能定位nginx：静态文件服务器反向代理服务器负载均衡器HTTP缓存服务器Tomcat：Java应用容器JSP/Serv
Spring AI Alibaba 支持国产大模型的Spring ai框架程序员老陈头面试学习路线阿里巴巴 spring 人工智能 java
总计30万奖金，SpringAIAlibaba应用框架挑战赛开赛点此了解SpringAI：java做ai应用的最好选择过去，Java在AI应用开发方面缺乏一个高效且易于集成的框架，这限制了开发者快速构建和部署智能应用程序的能力。SpringAI正是为解决这一问题而生，它提供了一套统一的接口，使得AI功能能够以一种标准化的方式被集成到现有的Java项目中。此外，SpringAI与原有的Spring生
Anaconda插件开发 lyh1344 数据库开发
开发环境准备安装Anaconda或Miniconda，确保conda命令可用。推荐使用Python3.7及以上版本。创建独立的开发环境以避免依赖冲突：condacreate-nplugin_devpython=3.8condaactivateplugin_dev插件结构设计Anaconda插件通常采用Python包的标准结构。核心文件包括__init__.py和setup.py。典型目录结构如下：
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发

Python处理PDF神器：PyMuPDF的安装与使用

1. 介绍

2. 功能

2、安装

关于命名fitz的说明

3、使用方法

1. 导入库，查看版本

2. 打开文档

3. Document的方法和属性

4. 获取元数据

5. 获取目标大纲

6. 页面(Page)

a. 检查页面的链接、批注或表单字段

b. 呈现页面

c. 将页面图像保存到文件中

d. 提取文本和图像

e. 搜索文本

7. PDF操作

a. 修改、创建、重新排列和删除页面

b. 连接和拆分PDF文档

c. 保存

d. 关闭

推荐阅读：

你可能感兴趣的:(列表,python,linux,java,mysql)

关于命名`fitz`的说明

6. 页面(`Page`)