谁是谁的小确幸

8、【办公自动化】Python实现PDF文件的批量操作

说明

平时工作中，经常会和 PDF 文件打交道，比如，合并、拆分、加解密、添加和去除水印、提取指定内容、转换成其他文件格式等操作。如果只是处理单个 PDF 文件的话，有些操作是比较简单的，而如果需要批量处理 PDF 文件的话，则会比较麻烦，且会做很多的重复工作，在 Python 面前，这些批量操作并不会那么繁琐。

下面介绍下 Python 实现 PDF 文件这些批量操作的实现，建议使用 Python 的第三方模块 PyPDF2 来操作 PDF 文件，该模块能完成拆分、合并、剪切和转换等多种操作，也可以向 PDF 文件添加自定义数据、查看选项和密码等。我们可以先去 pypi 官网搜索该模块，了解并学习下它的 API。

使用命令 pip install pypdf2 安装该模块后，就可以愉快的玩转 PDF 文件了。在学习该模块 API 时，有个需要注意的问题，就是 PdfFileReader、PdfFileWriter、PdfFileMerger 这几个类，会在3.0.0版本被移除，建议使用 PdfReader、PdfWriter、PdfMerger。

__all__ = [
    "__version__",
    "PageRange",
    "PaperSize",
    "DocumentInformation",
    "parse_filename_page_ranges",
    "PdfFileMerger",  # will be removed in PyPDF2 3.0.0; use PdfMerger instead
    "PdfFileReader",  # will be removed in PyPDF2 3.0.0; use PdfReader instead
    "PdfFileWriter",  # will be removed in PyPDF2 3.0.0; use PdfWriter instead
    "PdfMerger",
    "PdfReader",
    "PdfWriter",
    "Transformation",
    "PageObject",
    "PasswordType",
]

一、PDF文件的批量合并

要实现批量合并，就要读取和合并有关的类，则需要引入PdfReader、PdfMerger，如下：

from PyPDF2 import PdfReader,PdfMerger

接着，需要判断合并后的目标路径是否存在，获取源路径下 PDF 文件列表，为批量操作做好准备，这里使用 pathlib 模块的 Path 类实现，如下：

from pathlib import Path

src_path = input("请输入你要批量合并pdf文件所在的目录: ")
if len(src_path) == 0:
    src_path = "D:\\XXX\\test-pdf\\wheat\\"
src_dir = Path(src_path)
# 目标路径及合并后的pdf文件名称
desc_dir = Path(src_path + 'PDF_合并.pdf')
# 判断目标路径是否存在
if not desc_dir.parent.exists():
    desc_dir.parent.mkdir(parents=True)
# 获取源目录下的PDF文件列表
pdf_list = list(src_dir.glob("*.pdf"))

通过遍历源目录下的 PDF 文件实现批量操作，过程如下：

total_pages = 0
merger = PdfMerger()
for pdf in pdf_list:
    # 读取pdf文件
    reader = PdfReader(pdf)
    # 追加到合并对象里
    merger.append(reader)
    # 用于统计合并后的总页数
    count = reader.getNumPages()
    print(f"{pdf.name} 的页数为: {count}")
    total_pages += count
merger.write(desc_dir)
merger.close()
print(f"合并后的PDF文件页数为: {total_pages}")

在本地的 D:\\XXX\\test-pdf\\wheat\\ 目录下，准备了之前爬取的四个城市的包含天气数据的 PDF 文件，作为测试文件：

执行代码后，输出日志如下：

合并后的文件情况：

完美~~

二、PDF文件的批量拆分

如果单个 PDF 文件的页数过多，可能导致阅读翻看不便，可以将其拆分成几个部分。这里，使用 Python 实现页数过多的多个 PDF 文件的批量拆分操作，需要的依赖仍是 pathlib、PyPDF2 等模块。

from PyPDF2 import PdfReader, PdfWriter
from pathlib import Path

首先，需要指定待拆分文件的源路径，以及拆分页数。遍历这些 PDF 文件时，需要判断当前的 PDF 文件页数是否大于设置拆分页数，是的话再进行拆分处理，判断如下：

def split_pdf(src, num):
    src_dir = Path(src)
    for pdf in list(src_dir.glob("*.pdf")):
        reader = PdfReader(pdf)
        pages = reader.getNumPages()
        pages_num = int(num)
        # 当前PDF文件的页数大于设置拆分页数再进行拆分处理
        if pages > pages_num:
            split_by_pages_num(src_dir, pdf, reader, pages, pages_num)
        else:
            print(f'{pdf.name} 页数为: {pages},小于设置拆分页数{pages_num}，不进行拆分!')
            continue

接着，就对待拆分的文件进行处理了，按指定拆分页数，需要计算出当前 PDF 文件拆分后得到的份数，每份里面还要计算出起始页和终止页的位置，判断如下：

def split_by_pages_num(src_dir, pdf, reader, pages, pages_num):
    # 计算PDF文件拆分后的份数
    parts = pages // pages_num + 1
    for part in range(parts):
        # 计算每份的起始页和终止页
        start = pages_num * part
        if part == (parts - 1):
            end = pages - 1
        else:
            end = start + pages_num - 1
        # 拆分后的写入新的pdf文件
        write_pdf_part(src_dir, pdf, reader, part, start, end)
    print(f'{pdf.name}页数为{pages},已拆分成了{parts}部分')

根据起始页和终止页的位置，最终写入新部分的 PDF 文件，如下：

def write_pdf_part(src_dir, pdf, reader, part, start, end):
    writer = PdfWriter()
    for split_part in range(start, end + 1):
        writer.addPage(reader.getPage(split_part))
    part_name = f"{pdf.stem}_第{part + 1}部分.pdf"
    part_file = src_dir / part_name
    with open(part_file, 'wb') as out_file:
        writer.write(out_file)

这里，准备了三个页数较大的测试文件，页数最小的小于 500，最大有 2500 多页，如下：

测试的话，默认指定拆分的页数为 500，代码如下：

if __name__ == '__main__':
    src_path = input("请输入你要批量拆分pdf文件所在的目录: ")
    page_num = input("请输入你拆分的页数：")
    if len(src_path) == 0:
        src_path = "D:\\XXX\\test-pdf\\wheat-split\\"
    if len(page_num) == 0:
        page_num = "500"
    # 批量拆分PDF文件
    split_pdf(src_path, page_num)

输出日志：

效果：

不足500页的不进行拆分，而拆分的文件，非最后一部分都是500页，其余的都放在了最后一页！完美~~

三、PDF文件的加密和解密

1、加密

PDF 文件加密是指在打开 PDF 文件时设置密码，主要是为了文件的安全性，防止重要的文件泄密。

Python 实现多个 PDF 文件批量设置访问密码是很简单的，过程是读取源文件，调用输出流的加密方法，然后再写入新的文件即可，代码如下：

def encrypt_pdf(src, pwd):
    src_dir = Path(src)
    for pdf in list(src_dir.glob("*.pdf")):
        reader = PdfReader(pdf)
        pages = reader.getNumPages()
        writer = PdfWriter()
        for page in range(pages):
            writer.addPage(reader.getPage(page))
        # 加密
        writer.encrypt(pwd)
        desc_name = f"{pdf.stem}_encrypt.pdf"
        desc_file = src_dir / desc_name
        # 生成加密后文件
        with open(desc_file, 'wb') as out_file:
            writer.write(out_file)
        print(f"{pdf.name}加密完成，加密后的文件为{desc_name}")

测试文件如下：

测试代码如下：

if __name__ == '__main__':
    src_path = input("请输入你要批量合并pdf文件所在的目录: ")
    pwd = input("请输入你要加密的密码: ")
    if len(src_path) == 0:
        src_path = "D:\\XXX\\test-pdf\\wheat-encrypt\\"
    # 加密方法
    encrypt_pdf(src_path, pwd)

输出日志：

效果：

打开其中一个加密后的文件：

2、解密

PDF 文件的解密也很简单，思路与加密类似，通过调用输入流的解密方法，但前提要知道解密的密码。

在上面的代码基础上，把加密代码换成解密代码即可。需要注意将解密代码放在输入流创建的后面，并且先解密才能继续后面的获取分页的操作，如下：

# 解密
    if reader.is_encrypted:
        reader.decrypt(pwd)

准备三个被加密的测试文件，如下：

测试代码如下：

if __name__ == '__main__':
    src_path = input("请输入你要批量合并pdf文件所在的目录: ")
    pwd = input("请输入你要解密的密码: ")
    if len(src_path) == 0:
        src_path = "D:\\XXX\\test-pdf\\wheat-decrypt\\"
    # 解密方法
    decrypt_pdf(src_path, pwd)

输出日志：

效果：

打开检查一下，解密后的 PDF 文件不需要访问密码！完美~~

四、PDF文件添加水印

PDF 文件添加水印，主要用来防止文件内容被他人随意盗用！水印可以是图片水印，也可以是文字水印，主要是看需求了。

1、添加文字水印

Python 实现为 PDF 文件添加文字水印的思路是，通过第三方模块 reportlab 来制作 PDF 格式的文字水印文件，然后将 PDF 文件与文字水印文件融为一体，就实现了添加水印目的。

安装好 reportlab 模块之后，我们按需导入将要使用到的模块，如下：

from PyPDF2 import PdfReader, PdfWriter
from pathlib import Path
from reportlab.pdfbase import ttfonts, pdfmetrics
from reportlab.pdfgen import canvas
from reportlab.lib.units import cm

首先，自定义一个用来创建文字水印文件的方法，并设置水印文字的字体，字号，倾斜度，透明度，色度等格式。

def create_watermark_file(ttfPath, context):
    file_name = "watermark.pdf"
    c = canvas.Canvas(file_name, pagesize=(30 * cm, 30 * cm))
    # 设置文字水印的坐标，字体格式，倾斜度，透明度，颜色等
    c.translate(5 * cm, 0 * cm)
    # font_name = "阿里巴巴普惠体"
    # pdfmetrics.registerFont(ttfonts.TTFont(font_name, ttfPath))
    # c.setFont(font_name, 25)
    c.rotate(30)
    c.setFillAlpha(0.4)
    c.setFillColorRGB(0, 0, 0)
    for m in range(0, 30, 5):
        for n in range(0, 30, 5):
            c.drawString(m * cm, n * cm, context)
    c.save()
    return file_name

有了创建文字水印文件的模板方法后，接着需要将 PDF 文件与该文字水印文件融为一体，并为每一页的 PDF 添加文字水印，实现如下：

def add_watermark_file(input_file, watermark_file, output_file):
    mark = PdfReader(watermark_file)
    writer = PdfWriter()
    reader = PdfReader(input_file)
    for i in range(reader.getNumPages()):
        page = reader.getPage(i)
        # 合并水印文件
        page.mergePage(mark.getPage(0))
        writer.addPage(page)
    with open(output_file, 'wb') as out_file:
        writer.write(out_file)

然后，就可以愉快的测试效果了，测试文件如下：

测试代码如下：

if __name__ == '__main__':
    routePath = "D:\\XXX\\test-pdf\\wheat-watermark\\"
    ttfPath = ''
    context = "welcome to China"
    src_dir = Path(routePath)
    desc_dir = Path(routePath + "watermark\\")
    if not desc_dir.exists():
        desc_dir.mkdir(parents=True)
    for pdf in list(src_dir.glob("*.pdf")):
        watermark = create_watermark_file(ttfPath, context)
        add_watermark_file(pdf, watermark, desc_dir / pdf.name)

效果如下：

打开其中一个文件，效果截图如下：

值得注意的是，如果需要字体更加多样的水印效果，在 create_watermark_file() 方法中进行相应的设置即可。因网上下载字体文件需要会员等限制，这里我实现的水印效果并不是太理想啊！

2、添加图片水印

Python 实现为 PDF 文件添加图片水印的思路与添加文字水印类似，与添加文字水印相比会更加简单。思路是，在页面中增加一个透明背景的图片，通过调用页面的 mergePage 方法即可。

准备一张透明的图片，放到水印 PDF 文件上，如下：

之前的 add_watermark_file() 方法保持不变，测试的代码的话，只需要把带图片水印的 PDF 文件的地址加上就行，如下：

if __name__ == '__main__':
    routePath = "D:\\XXX\\test-pdf\\wheat-watermark\\"
    src_dir = Path(routePath)
    desc_dir = Path(routePath + "watermark_picture\\")
    if not desc_dir.exists():
        desc_dir.mkdir(parents=True)
    # 准备一张具有透明度的图片放置在PDF文件中
    watermark = "D:\\XXX\\test-pdf\\watermark_picture.pdf"
    for pdf in list(src_dir.glob("*.pdf")):
        add_watermark_file(pdf, watermark, desc_dir / pdf.name)

看下效果：

效果不是太好，原因在于图片本身的透明度问题，可这种实现的思路没错，可考虑借助修图工具处理图片的透明度值，以消除这种问题。

3、去除水印

在想能给 PDF 文件批量添加水印操作，肯定也能去除水印，实际上添加水印和去除水印像一种攻防关系，添加水印是为了保护文档的原创性。

这里，不再去研究如何去除水印，为了尊重知识，尊重原创的内容，请不要随意去除水印，保护知识人人有责啊！

五、提取PDF文件的内容

从上面应该能看到，PyPDF2 模块的主要能力在页面级操作，比如 PDF 文件的合并和拆分、加密和解密、添加水印和去除水印、获取PDF文件基本信息等。而实际工作中，可能更常用的操作是提取 PDF 文件的指定内容，比如文字、图片、表格等元素。

这里需要借助另一个模块了，它就是 pdfplumber 模块，前往 Pypi 官网搜索，可以看到它的简介和学习相关 API 的使用。

1、提取文字

比如，提取 PDF 文件的文字，并保存到 txt 文件，也就是 PDF 转 TXT 。实现很简单，通过 extract_text() 核心方法实现即可，如下：

import pdfplumber, os, codecs
from pathlib import Path

def pdf2txt(src_dir):
    for pdf_file in list(src_dir.glob("*.pdf")):
        pdf_file_name = os.path.split(pdf_file)[1]
        with pdfplumber.open(pdf_file) as pdf:
            for page in pdf.pages:
                txt_file = codecs.open(src_dir / f"{pdf_file_name}.txt", 'a', encoding="utf-8")
                txt_file.write(page.extract_text())
                # print(page.extract_text())
                txt_file.close()

提取文字效果，如下：

2、提取图片

从 PDF 文件提取图片，发现 pdfplumber 模块有个 to_image() 方法，看样子是 pdf 转图片的操作，写个方法测试下作用，代码如下：

def pdf_extract_picture():
    src_dir = Path("D:\\XXX\\test-pdf\\pdf2picture\\")
    for pdf_file in list(src_dir.glob("*.pdf")):
        count = 0
        with pdfplumber.open(pdf_file) as pdf:
            for page in pdf.pages:
                count += 1
                image = page.to_image()
                # image.show()
                picture_name = src_dir / f'{pdf_file.name.split(".")[0]}_img{count}.png'
                image.save(picture_name, format="PNG")

执行后报错了，位置在 to_image() 附近，大致意思是缺少 ImageMagick 插件。翻看该模块的文档说明，提示需要下载可视化调试插件：

下载 ImageMagick 插件：

当下载完成后，直接傻瓜式安装即可：

安装完 ImageMagick 插件，而不去安装 Ghostscript 插件的话，会报错："wand.exceptions.DelegateError: FailedToExecuteCommand `"gswin64c.exe" -q -dQUIET -dSAFER........"，需要去下载 Ghostscript 插件：

下载安装好之后，再使用 to_image() 方法就不会报错了~

准备一个测试文件，该文件有9页的内容，存在6张配图，如下：

测试的效果，如下：

本以为这就大功告成了，还有点窃喜！但打开其中一张图片后，竟然是 PDF 文档的截图？

该 PDF 文件有9页的内容，6张配图，却输出了9张每页的 PDF 文档图片，这下才明白 to_image() 方法是用来 PDF 转图片的操作，而非从 PDF 文档提取图片。那么，该如何实现提取 PDF 文件里的图片呢？

经过一番摸索，终于找到了实现方法，思路是要通过正则表达式识别图片，这里使用 fitz 模块批量读取 PDF 文件，使用 re 模块进行正则判断，实现方法如下：

def pdf_extract_images(src_dir, desc_dir):
    # 支持批量操作
    for pdf_file in list(src_dir.glob("*.pdf")):
        img_count = 0
        # 打开pdf文档
        pdf = fitz.open(pdf_file)

        print(f"文件名:{pdf_file}, 页数: {len(pdf)}, 对象数: {pdf.xref_length() - 1}")

        for i in range(1, pdf.xref_length()):
            # 使用正则表达式判断是否为对象或图片
            text = pdf.xref_object(i)
            isXObject = re.search(r"/Type(?= */XObject)", text)
            isImage = re.search(r"/Subtype(?= */Image)", text)
            if not isXObject or not isImage:
                continue
            img_count += 1
            picture_name = pdf_file.name.split(".")[0] + f"_img{img_count}.png"
            # 根据索引生成图像,如果pix.n<5,可直接存为PNG格式,否则先转换CMYK
            pix = fitz.Pixmap(pdf, i)
            if pix.n < 5:
                pix.writePNG(desc_dir / picture_name)
            else:
                pix0 = fitz.Pixmap(fitz.csRGB, pix)
                pix0.writePNG(desc_dir / picture_name)
                pix0 = None
            pix = None
            print(f"已提取第{img_count}张图片......")

仍然使用同一个 PDF 文件作为测试，测试代码如下：

if __name__ == '__main__':
    src_path = "D:\\XXX\\test-pdf\\pdf2picture\\"
    src_dir = Path(src_path)
    desc_dir = Path(src_path + "pictures\\")
    if not desc_dir.exists():
        desc_dir.mkdir(parents=True)
    pdf_extract_images(src_dir, desc_dir)

效果如下：

这才是真正的从 PDF 文件中提取图片操作了，效果相当不错，达到目的！

3、提取表格

从 PDF 文件提取表格数据，实际上可以看成 PDF 文件转 Excel 文件，虽然 WPS 和一些在线工具都能完成这种操作，但会收费啊！哎，不想被薅羊毛的话，可以通过强大的 Python 实现。

首先，准备一个测试文件：

保证该 PDF 文件表格数据形式，如下：

这里通过 openpyxl 模块，将表格数据转储成 Excel 文件，代码实现如下：

def pdf_extract_excel():
    src_dir = Path("D:\\XXX\\test-pdf\\pdf2excel\\")
    # 支持批量操作
    for pdf_file in list(src_dir.glob("*.pdf")):
        wb = Workbook()
        sheet = wb.active
        excel_name = src_dir / f'{pdf_file.name.split(".")[0]}.xlsx'
        with pdfplumber.open(pdf_file) as pdf:
            for page in pdf.pages:
                table = page.extract_table()
                # print(table)
                for row in table:
                    sheet.append(row)
        wb.save(excel_name)

测试效果，如下：

至此，以上就是批量操作 PDF 文件的全部内容了，经过一番研究和学习，再次感受到了 Python 的强大，希望在今后的办公中遇到此类问题可轻松解决，不用再求助于各种收费工具了。

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
第四天旅游线路预览——从换乘中心到喀纳斯湖陟彼高冈yu 基于Google earth studio 的旅游规划和预览旅游
第四天：从贾登峪到喀纳斯风景区入口，晚上住宿贾登峪；换乘中心有4路车，喀纳斯①号车，去喀纳斯湖，路程时长约5分钟；将上面的的行程安排进行动态展示，具体步骤见”Googleearthstudio进行动态轨迹显示制作过程“、“Googleearthstudio入门教程”和“Googleearthstudio进阶教程“相关内容，得到行程如下所示：Day4-2-480p
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
下载github patch到本地小米人er 我的博客 git patch
以下是几种从GitHub上下载以.patch结尾的补丁文件的方法：通过浏览器直接下载打开包含该.patch文件的GitHub仓库。在仓库的文件列表中找到对应的.patch文件。点击该文件，浏览器会显示文件的内容，在页面的右上角通常会有一个“Raw”按钮，点击它可以获取原始文件内容。然后在浏览器中使用快捷键（如Ctrl+S或者Command+S）将原始文件保存到本地，选择保存的文件名并确保后缀为.p
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
少了生活气息我爱大草莓
最近啊，总觉得自己日更的内容缺了点什么。我仔细地想，大概是少了些生活气息。这两三个月减少了许多与别人相处的时间，独自生活，偶尔只是出去买菜，总觉得生活好像变空了许多。买菜的时候会跟档口的阿姨聊一两句话，让自己感觉在真实地生活着。幸好我也不是一宅到底，偶尔周末也会约着跟好朋友见面，面对面交流跟隔着屏幕交流，效果还是不一样的，至少有更为真实的生活感。写作不仅需要有阅读量，有文笔，生活阅历也是非常重要的
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
ARM中断处理过程落汤老狗嵌入式linux
一、前言本文主要以ARM体系结构下的中断处理为例，讲述整个中断处理过程中的硬件行为和软件动作。具体整个处理过程分成三个步骤来描述：1、第二章描述了中断处理的准备过程2、第三章描述了当发生中的时候，ARM硬件的行为3、第四章描述了ARM的中断进入过程4、第五章描述了ARM的中断退出过程本文涉及的代码来自3.14内核。另外，本文注意描述ARM指令集的内容，有些sourcecode为了简短一些，删除了T
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
如何成为段子手欣雅阅读
我是一个尬聊大师，与朋友聊天经常把话题聊死，留我一个人在群里，望着自己打下的最后一句话无语凝噎。看到风趣幽默的朋友与人聊天，很是艳羡，觉得自己何时才能成为这样的段子手呢？一、段子是什么？“段子”一词在百度百科上的解释：本是相声中的一个艺术术语，指的是相声作品中一节或一段艺术内容。我的理解：段子就是一些搞笑的故事或者笑话。二、为什么要会说段子？不知道大家有没有这样的朋友，本来很无趣的聚会，只要有他参
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息

8、【办公自动化】Python实现PDF文件的批量操作

说明

一、PDF文件的批量合并

二、PDF文件的批量拆分

三、PDF文件的加密和解密

1、加密

2、解密

四、PDF文件添加水印

1、添加文字水印

2、添加图片水印

3、去除水印

五、提取PDF文件的内容

1、提取文字

2、提取图片

3、提取表格

你可能感兴趣的:(Python,Python办公自动化,PDF合并与拆分,PDF加解密,提取PDF内容)