小敢摘葡萄

Python PDF文本提取实战技法

随着数字化时代的到来，PDF文档在办公场景中的应用越来越广泛。本文将介绍如何利用Python自动化办公，提取PDF文档中的文本信息，以提高工作效率。

安装必要的库

首先，确保已经安装了PyPDF2或其他适用于PDF处理的库：

pip install PyPDF2

基本文本提取

在Python中使用PyPDF2库进行PDF文档基本文本提取是一个常见的任务。

以下是一个简单的示例代码，演示了如何使用PyPDF2提取PDF文档中的文本信息：

import PyPDF2

def extract_text_from_pdf(pdf_path):
    # 打开PDF文件
    with open(pdf_path, 'rb') as file:
        # 创建PyPDF2的PdfFileReader对象
        pdf_reader = PyPDF2.PdfFileReader(file)

        # 获取PDF文档的总页数
        num_pages = pdf_reader.numPages

        # 初始化文本变量
        text = ""

        # 循环遍历每一页
        for page_num in range(num_pages):
            # 获取当前页
            page = pdf_reader.getPage(page_num)

            # 提取当前页的文本
            text += page.extractText()

    return text

# 指定PDF文件路径
pdf_path = 'example.pdf'

# 调用函数提取文本
extracted_text = extract_text_from_pdf(pdf_path)

# 打印提取的文本
print(extracted_text)

在这个示例中，extract_text_from_pdf函数接受一个PDF文件的路径作为输入，然后使用PyPDF2库打开文件，逐页提取文本并将其追加到一个字符串中。最后，返回整个文档的文本。

指定页面范围提取文本

当只对PDF文档中的特定页面范围感兴趣时，可以使用PyPDF2库来指定页面范围提取文本。

以下是一个示例代码，演示如何在PyPDF2中指定页面范围来提取文本：

import PyPDF2

def extract_text_from_specific_pages(pdf_path, start_page, end_page):
    # 打开PDF文件
    with open(pdf_path, 'rb') as file:
        # 创建PyPDF2的PdfFileReader对象
        pdf_reader = PyPDF2.PdfFileReader(file)

        # 获取PDF文档的总页数
        num_pages = pdf_reader.numPages

        # 初始化文本变量
        text = ""

        # 确保开始页和结束页在有效范围内
        start_page = max(1, start_page)
        end_page = min(num_pages, end_page)

        # 循环遍历指定范围的页
        for page_num in range(start_page - 1, end_page):
            # 获取当前页
            page = pdf_reader.getPage(page_num)

            # 提取当前页的文本
            text += page.extractText()

    return text

# 指定PDF文件路径
pdf_path = 'example.pdf'

# 指定页面范围（例如从第2页到第4页）
start_page = 2
end_page = 4

# 调用函数提取指定范围内的文本
extracted_text = extract_text_from_specific_pages(pdf_path, start_page, end_page)

# 打印提取的文本
print(extracted_text)

在这个示例中，extract_text_from_specific_pages函数接受一个PDF文件的路径以及开始页和结束页作为输入。它会确保开始页和结束页在有效范围内，然后只提取这个范围内的文本。这样你就可以针对特定的页面范围进行文本提取。

文本搜索与高级提取

在使用PyPDF2进行文本搜索和高级文本提取时，可以通过简单的字符串搜索或者更灵活的正则表达式来定制提取规则。

以下是一个示例代码，演示如何在提取的文本中执行搜索，并进行一些高级的文本提取：

import PyPDF2
import re

def search_text_in_pdf(pdf_path, search_term):
    # 打开PDF文件
    with open(pdf_path, 'rb') as file:
        # 创建PyPDF2的PdfFileReader对象
        pdf_reader = PyPDF2.PdfFileReader(file)

        # 获取PDF文档的总页数
        num_pages = pdf_reader.numPages

        # 循环遍历每一页
        for page_num in range(num_pages):
            # 获取当前页
            page = pdf_reader.getPage(page_num)

            # 提取当前页的文本
            text = page.extractText()

            # 在文本中搜索指定的词语
            if re.search(search_term, text, re.IGNORECASE):
                print(f"Found '{search_term}' on page {page_num + 1}")

# 指定PDF文件路径
pdf_path = 'example.pdf'

# 指定搜索的词语
search_term = 'Python'

# 调用函数进行文本搜索
search_text_in_pdf(pdf_path, search_term)

在这个示例中，search_text_in_pdf函数接受一个PDF文件的路径以及要搜索的词语作为输入。它使用PyPDF2提取每一页的文本，并使用正则表达式进行搜索。如果找到了匹配的文本，就会打印出在哪一页找到了。

PDF转文本文件

将提取的文本保存到一个文本文件中是一个常见的需求，这可以方便后续处理、分析或分享文本内容。

以下是一个示例代码，演示如何将提取的文本保存到一个文本文件中：

import PyPDF2

def extract_text_from_pdf(pdf_path):
    with open(pdf_path, 'rb') as file:
        pdf_reader = PyPDF2.PdfFileReader(file)
        text = ""
        for page_num in range(pdf_reader.numPages):
            page = pdf_reader.getPage(page_num)
            text += page.extractText()
    return text

def save_text_to_file(text, output_file):
    with open(output_file, 'w', encoding='utf-8') as file:
        file.write(text)

# 指定PDF文件路径
pdf_path = 'example.pdf'

# 调用函数提取文本
extracted_text = extract_text_from_pdf(pdf_path)

# 指定保存文本的文件路径
output_file = 'extracted_text.txt'

# 调用函数保存文本到文件
save_text_to_file(extracted_text, output_file)

print(f"Text extracted from PDF has been saved to: {output_file}")

在这个示例中，extract_text_from_pdf函数用于提取PDF文档的文本，而save_text_to_file函数用于将提取的文本保存到指定的文本文件中。确保在保存文本时使用适当的编码，这里使用了UTF-8编码。

文本处理与分析

对提取的文本进行进一步处理和分析是文本挖掘中的一个常见任务，可以帮助了解文本的特征、提取关键信息以及进行更深入的分析。

以下是一个示例代码，演示如何对提取的文本进行简单的词频统计：

from collections import Counter
import string

def analyze_text(text):
    # 去除标点符号和换行符
    text = text.translate(str.maketrans('', '', string.punctuation + '\n'))

    # 转换为小写
    text = text.lower()

    # 将文本拆分为单词
    words = text.split()

    # 使用Counter进行词频统计
    word_count = Counter(words)

    # 打印词频统计结果
    print("Top 10 Words and Their Frequencies:")
    for word, frequency in word_count.most_common(10):
        print(f"{word}: {frequency}")

# 指定文本文件路径
text_file = 'extracted_text.txt'

# 读取文本文件内容
with open(text_file, 'r', encoding='utf-8') as file:
    text_content = file.read()

# 调用函数进行文本处理与分析
analyze_text(text_content)

在这个示例中，analyze_text函数接受提取的文本作为输入，首先去除标点符号和换行符，然后转换为小写，最后使用Counter进行词频统计。最后，打印出前10个词和它们的频率。

图形界面与用户交互

使用Tkinter库创建一个简单的图形界面，使用户能够选择PDF文件并执行文本提取操作是一个有用的功能。

以下是一个示例代码，演示如何结合Tkinter实现这个图形界面：

import tkinter as tk
from tkinter import filedialog
import PyPDF2

def extract_text_from_selected_pdf():
    # 弹出文件选择对话框
    file_path = filedialog.askopenfilename(filetypes=[('PDF Files', '*.pdf')])

    # 如果用户取消选择文件，则直接返回
    if not file_path:
        return

    # 调用PDF文本提取函数
    extracted_text = extract_text_from_pdf(file_path)

    # 在文本框中显示提取的文本
    text_box.delete(1.0, tk.END)
    text_box.insert(tk.END, extracted_text)

def extract_text_from_pdf(pdf_path):
    with open(pdf_path, 'rb') as file:
        pdf_reader = PyPDF2.PdfFileReader(file)
        text = ""
        for page_num in range(pdf_reader.numPages):
            page = pdf_reader.getPage(page_num)
            text += page.extractText()
    return text

# 创建Tkinter窗口
root = tk.Tk()
root.title("PDF Text Extractor")

# 添加按钮和文本框
browse_button = tk.Button(root, text="Choose PDF", command=extract_text_from_selected_pdf)
browse_button.pack(pady=10)

text_box = tk.Text(root, height=10, width=50)
text_box.pack(pady=10)

# 运行Tkinter事件循环
root.mainloop()

在这个示例中，通过filedialog.askopenfilename弹出文件选择对话框，用户可以选择一个PDF文件。然后，通过extract_text_from_pdf函数提取选定PDF文件中的文本，并将文本显示在Tkinter窗口的文本框中。

PDF转其他格式

将PDF文本转换为其他格式，例如转为Word文档，可以使用第三方库如python-docx和PyMuPDF。

以下是一个示例代码，演示了如何使用PyMuPDF库将PDF文本转换为Word文档：

首先，确保已经安装了PyMuPDF库：

pip install pymupdf

然后，使用以下代码进行PDF到Word的转换：

import fitz
from docx import Document

def convert_pdf_to_docx(pdf_path, output_docx):
    doc = fitz.open(pdf_path)
    document = Document()

    for page_num in range(doc.page_count):
        page = doc[page_num]
        text = page.get_text()
        document.add_paragraph(text)

    document.save(output_docx)

# 指定PDF文件路径
pdf_path = 'example.pdf'

# 指定输出的Word文档路径
output_docx = 'converted_document.docx'

# 调用函数进行PDF到Word的转换
convert_pdf_to_docx(pdf_path, output_docx)

print(f"PDF has been converted to Word document: {output_docx}")

在这个示例中，convert_pdf_to_docx函数接受一个PDF文件的路径和输出Word文档的路径作为输入。它使用PyMuPDF打开PDF文件，然后遍历每一页，将每一页的文本添加到python-docx的Document对象中。最后，保存为Word文档。

处理图像内容

处理PDF文档中的图像通常涉及到使用第三方库，其中PyPDF2并不提供直接处理图像的功能。一个常用的库是PyMuPDF，它可以提取PDF中的图像并保存为图片文件。以下是一个示例代码，演示如何使用PyMuPDF提取PDF文档中的图像：

首先，确保已经安装了PyMuPDF库：

pip install pymupdf

然后，使用以下代码进行PDF图像提取：

import fitz
from PIL import Image

def extract_images_from_pdf(pdf_path, output_folder):
    doc = fitz.open(pdf_path)

    for page_num in range(doc.page_count):
        page = doc[page_num]

        # 获取所有图像对象
        img_list = page.get_images(full=True)

        for img_index, img in enumerate(img_list):
            img_index += 1

            # 获取图像的字节流数据
            img_bytes = page.get_image_data(img[0])

            # 将字节流转为Image对象
            img_pil = Image.frombytes("RGB", [img[1], img[2]], img_bytes)

            # 保存图像为文件
            img_path = f"{output_folder}/image_page{page_num + 1}_img{img_index}.png"
            img_pil.save(img_path)

    doc.close()

# 指定PDF文件路径
pdf_path = 'example.pdf'

# 指定输出图像的文件夹路径
output_folder = 'extracted_images'

# 调用函数进行PDF图像提取
extract_images_from_pdf(pdf_path, output_folder)

print(f"Images have been extracted and saved to: {output_folder}")

在这个示例中，extract_images_from_pdf函数接受一个PDF文件的路径以及输出图像文件夹的路径作为输入。它使用PyMuPDF打开PDF文件，遍历每一页，获取页面中的图像对象，然后将每个图像保存为PNG文件。

使用第三方库PyMuPDF

PyMuPDF（MuPDF）是一个强大的PDF处理库，它提供了丰富的功能，包括PDF文本提取、图像提取、PDF渲染等。

以下是一个简单的示例代码，演示如何使用PyMuPDF进行PDF文本提取：

首先，确保已经安装了PyMuPDF库：

pip install pymupdf

然后，使用以下代码进行PDF文本提取：

import fitz

def extract_text_with_pymupdf(pdf_path):
    doc = fitz.open(pdf_path)
    text = ""
    for page_num in range(doc.page_count):
        page = doc[page_num]
        text += page.get_text()
    doc.close()
    return text

# 指定PDF文件路径
pdf_path = 'example.pdf'

# 调用函数进行PDF文本提取
text_with_pymupdf = extract_text_with_pymupdf(pdf_path)

# 打印提取的文本
print(text_with_pymupdf)

在这个示例中，extract_text_with_pymupdf函数接受一个PDF文件的路径作为输入，使用PyMuPDF打开PDF文件，遍历每一页，获取每一页的文本内容，并将其拼接成一个字符串。最后，关闭文档。

总结

在本文中，探讨了Python中利用PyPDF2和PyMuPDF这两个强大的PDF处理库进行文本提取的方法。通过PyPDF2，学习了基本的文本提取、指定页面范围提取以及文本搜索与高级提取的技巧。同时，探讨了如何将提取的文本保存到文本文件中，以及如何进行文本处理与分析，例如词频统计。

进一步地，介绍了利用PyMuPDF进行PDF文本提取的方法，展示了其在PDF处理领域的强大功能。了解了如何使用PyMuPDF提取文本和图像，并扩展了工具箱，将PDF文本转换为其他格式，比如Word文档。最后，通过一个简单的图形界面示例，展示了如何结合Tkinter库，实现用户友好的PDF文本提取应用。

这篇文章不仅提供了详细的示例代码，使大家能够快速上手，还强调了不同库之间的灵活组合，满足各种PDF处理需求。无论是办公自动化、数据分析，还是自然语言处理，这些技术都为处理PDF文档提供了强大的工具和丰富的选择。

感兴趣的小伙伴，赠送全套Python学习资料，包含面试题、简历资料等具体看下方。

一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。

二、Python必备开发工具

工具都帮大家整理好了，安装就可直接上手！

三、最新Python学习笔记

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。

四、Python视频合集

观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

五、实战案例

纸上得来终觉浅，要学会跟着视频一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

六、面试宝典

简历模板

若有侵权，请联系删除

对于编程零基础，第一个语言是 Python 的人有什么建议？ cda2024 python 开发语言
在当今数字化时代，编程已成为一项必备技能。无论你是想成为一名专业的软件开发人员，还是希望在数据分析、人工智能等领域有所建树，掌握一门编程语言都是至关重要的第一步。对于许多初学者来说，Python是一个理想的选择。它不仅语法简洁易懂，而且拥有强大的社区支持和丰富的库资源。那么，对于编程零基础且选择Python作为第一门语言的人，有哪些实用的建议呢？1.建立正确的学习心态1.1持之以恒学习编程并不是一
通达信Python语言接口：如何轻松获取并高效利用？ cda2024 python 开发语言
在量化投资和股票分析领域，Python已经成为不可或缺的工具。然而，如何将Python与国内最流行的股票交易软件之一——通达信相结合，成为许多投资者和开发者关心的问题。本文将详细介绍如何获取通达信的Python语言接口，并提供一些实用的技巧和示例代码，帮助你在量化交易中更上一层楼。什么是通达信Python接口？通达信Python接口是通达信官方提供的一个API，允许用户通过Python脚本调用通达
华为OD机试E卷 - 手机App防沉迷系统（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od java python c语言 c++javascript 华为OD机试E卷
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述智能手机方便了我们生活的同时，也侵占了我们不少的时间。“手机App防沉迷系统”能够让我们每天合理地规划手机App使用时间，在正确的时间做正确的事。它的大概原理是这样的：在一天24小时内，可以注册每个App的允许使用时段一个时间段只能使用一个AppApp有优先级，数值越高，优先级越高。注册使用时段时，如果高优先级的App
PyCharm安装PyQt5及工具详细教程 JustLikeRun pycharm qt ide pyqt
PyCharm安装PyQt5及工具详细教程PyCharm是一款功能强大的Python集成开发环境（IDE），而PyQt5是一个用于创建GUI应用程序的流行Python库。在本教程中，我将指导您如何在PyCharm中安装PyQt5及其相关工具，并提供相应的源代码示例。步骤1：安装PyCharm首先，您需要下载并安装PyCharm。您可以从JetBrains官方网站（https://www.jetbr
Python从0到100（七十三）：Python OpenCV-OpenCV实现手势虚拟拖拽是Dream呀 python opencv 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
华为OD机试E卷 --第k个排列 --24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c语言 python
文章目录题目描述输入描述输出描述用例题目解析JS算法源码java算法源码python算法源码c算法源码c++算法源码题目描述给定参数n，从1到n会有n个整数:1,2,3,…,n,这n个数字共有nl种排列。按大小顺序升序列出所有排列的情况，并——标记，当n=3时,所有排列如下:“123"“132”“213”“231"“312"“321”给定n和k，返回第k个排列。输入描述输入两行，第一行为n，第二行
期末python试卷（1）泰山小张只吃荷园 python 网络开发语言开源汇编程序人生学习方法
目录一、判断题二、选择题三、填空题一、判断题1.Python是一种解释型、面向对象的编程语言。2.Python中的变量名只能由字母、下划线、数字组成，且不能以数字开头。3.Python中多分支可使用IF-ELIF和SWITCH-CASE语句来实现。4.表达式中包含多个运算符时，计算顺序取决于运算符的结合顺序和优先级。5.x=’Tom’，那么执行语句x+=’Tom’之后，x的id不变。6.Pytho
Python调用另一个py文件并传递参数的全面解析 cda2024 python java 服务器
在Python编程的世界里，模块化和代码复用是提高开发效率的重要手段。当你面对复杂的项目时，将功能拆分成多个文件不仅有助于团队协作，还能提升代码的可读性和可维护性。然而，如何在一个py文件中调用另一个py文件，并且能够传递参数呢？这正是本文要探讨的核心问题。通过本文，你将了解到几种常见的方法及其应用场景，帮助你在实际开发中更加游刃有余。1.使用import语句1.1基本用法最直观的方法就是使用im
使用Python开发SolidWorks API SolidWorksAPI SolidWorks 二次开发 Solidworks API python
使用Python开发SolidWorksAPI介绍本文介绍了如何使用Python与SolidWorksAPI进行交互，创建零件草图、特征及插入文本。我们将通过一个简单的示例，展示如何在SolidWorks中进行自动化操作，利用Python脚本创建一个带有矩形特征的零件，并向草图中插入文本。前提条件安装了SolidWorks和Python。配置了pywin32库来与SolidWorks进行交互。可以
银河麒麟V10 sp3 安装Oracle11g 蓝天4202 oracle 笔记 oracle
hostnamectlset-hostnamedb01vim/etc/hosts192.168.1.101db01vim/etc/selinux/configSELINUX=disabled2.5关闭防火墙配置systemctldisablefirewalldsystemctlstopfirewalldsystemctlstopfirewalld.servicesystemctldisablefi
库存python whl文件免费下载（2）科技小游侠 python python
库存pythonwhl文件免费下载（1）库存pythonwhl文件免费下载（2）库存pythonwhl文件免费下载（3）库存pythonwhl文件免费下载（4）库存pythonwhl文件免费下载（5）最近发现收藏的whl下载链接https://www.lfd.uci.edu/~gohlke/pythonlibs/已经走丢了，网上检索了下，还可以下载到历史的whl文件，为了防止下载链接再次失效，索性
Python处理Excel数据王肇朋 excel Excel EXCEL office python Python
Python处理Excel数据2012-08-0210:07:32我来说两句收藏我要投稿前段时间做了个小项目，帮个海洋系的教授做了个数据处理的软件。基本的功能很简单，就是对Excel里面的一些数据进行过滤，统计，对多个表的内容进行合并等。之前没有处理Excel数据的经验，甚至于自己都很少用到Excel。记得《Python核心编程》的最后一章里有讲到用Win32COM操作office，看了一下讲的不
gradle linux配置环境变量配置,Mac OS环境变量配置（Android Studio之Gradle） MatrixMage gradle linux配置环境变量配置
以gradle环境变量配置为例：AndroidStudio自带的gradle路径为：/Applications/Android\Studio.app/Contents/gradle/gradle-2.8/bin1.打开终端2.输入：vim~/.bash_profile3.进入编辑模式4.在文本末尾添加如下信息exportGRADLE_HOME=/Applications/Android\Studi
linux二进制包安装svn,linux 安装svn（subversion二进制tar包）小丑逼 linux二进制包安装svn
#下载subversion安装包，地址：http://subversion.apache.org/download.cgi，我这里是subversion-1.9.7.tar.gz#cd进入你想安装的目录，rz命令上传至服务器tar-xzvfsubversion-1.9.7.tar.gzcdsubversion-1.9.7./configure--prefix=/usr/local/subversi
Stable Diffusion 3(SD 3)模型分享 szboy2003 stable diffusion 图像处理视觉检测 AI作画
整理了StableDiffusion3(SD3)模型，分享如下：sd3_medium.safetensors链接:https://pan.baidu.com/s/1aYq0MTmKj0U9fBNexV-7sw?pwd=5566提取码:5566sd3_medium_incl_clips_t5xxlfp8.safetensors链接:https://pan.baidu.com/s/1cg3zESBk0
python正则表达式re关于数字、字母、特殊字符、汉字的匹配方式乙龙 python 开发语言
在Python中，正则表达式是通过re模块来实现的。正则表达式是一种强大的文本处理工具，用于匹配、搜索、替换或分割字符串。以下是一些基本的正则表达式模式，用于筛选不同类型的字符：数字(\d):匹配任意数字（0-9）。示例：\d可以匹配“123”中的每个‘1’,‘2’,‘3’。字母([a-zA-Z]):匹配任意大小写的英文字母。示例：[a-zA-Z]可以匹配“HelloWorld”中的每个‘H’,‘
一文搞定postgreSQL m0_74823595 postgresql 数据库
一文搞定postgreSQLPostgreSQL全面指南一、什么是PostgreSQL？二、PostgreSQL的核心概念三、安装PostgreSQL1.在Linux上安装（例如Ubuntu）2.在macOS上安装（使用Homebrew）3.在Windows上安装四、基本操作1.启动和停止PostgreSQL服务2.连接到PostgreSQL3.创建数据库和用户4.基本SQL操作五、高级功能1.事
python中的两种循环怎么昵称都被占用啊 python 练习 python
python中的两种循环for循环（计数循环）while循环（条件循环）两种循环的区别range函数跳出循环break示例continue示例循环嵌套循环练习循环，三大语言结构之一，当它满足条件时反复执行某一段代码的过程，在python中有两种循环命令，分别为for循环和while循环for循环（计数循环）python中常用的循环结构之一，可以遍历一个可迭代对象中的元素。因为for循环的循环次数是
《python基于时间序列分析的降雨量预测系统》毕业设计项目陈辰学长 python 课程设计开发语言
大家好，我是陈辰学长，一名在Java圈辛勤劳作的码农。今日要和大家分享的是一款《python基于时间序列分析的降雨量预测系统》毕业设计项目。项目源码以及部署相关事宜，请联系陈辰学长，文末会附上联系信息哦。作者：陈辰学长个人简介：在Java领域已沉浸十余年，对Java、微信小程序、Python、Android等技术颇为精通。若大家在这些领域有任何问题，欢迎一起交流探讨！各类成品Java毕业设计丰富多
dlib库的whl文件下载杭林菲
dlib库的whl文件下载【下载地址】dlib库的whl文件下载dlib库的whl文件下载项目地址:https://gitcode.com/open-source-toolkit/f2aaf资源文件介绍本仓库提供了一个dlib库的whl文件下载，文件名为：dlib-19.7.0-cp36-cp36m-win_amd64.rar。该文件适用于Windows64位系统，Python版本为3.6。文件描
linux 搭建https 服务器（apache） gpstrive linux应用 apache https linux
一、安装准备1.安装Openssl要使Apache支持SSL，需要首先安装Openssl支持。这里使用的是openssl-0.9.8k.tar.gz下载Openssl：http://www.openssl.org/source/tar-zxfopenssl-0.9.8k.tar.gz//解压安装包cdopenssl-0.9.8k//进入已经解压的安装包./config//配置安装。推荐使用默认配置
Linux/Mac 命令行工具 tree 开发项目结构可以不用截图了更方便更清晰更全知楠行易 Software linux macos 运维
tree是一个命令行工具，用于以树形结构显示文件系统目录的内容。它可用于列出指定目录下的所有文件和子目录，以及它们的层次关系。tree命令在许多操作系统中都可用，包括Unix、Linux和macOS。效果如下：一、安装linux#Debian/Ubuntusudoapt-getinstalltree#RedHat/CentOSsudoyuminstalltreeMacbrewinstalltree
Apache2 搭建 WebDAV 服务器 cnlenglan apache
Apache2搭建WebDAV服务器本文本参考了https://blog.csdn.net/fengchao_2009/article/details/7531856https://www.cnblogs.com/anArtist/articles/5462951.html最近使用unRaid安装了Webdav，考虑到本人不熟悉Linux系统以及这个unRaid就准备放弃使用该系统。查询资料发现W
chatgpt赋能python：用Python安装Jupyter：让数据科学变得更加高效！ aijinglingchat ChatGpt python chatgpt jupyter 计算机
用Python安装Jupyter：让数据科学变得更加高效！对于数据科学家而言，jupyter是不可或缺的工具之一。它是一个基于web的交互式计算环境，可以帮助我们在Python中以一种轻松、方便、可交互的方式进行编程和数据分析。今天，我们将向您介绍在Python中如何安装jupyter。安装Python要安装jupyter，首先需要安装Python。如果您已经安装了Python，请跳到下一步。您可
[dlib][python]dlib所有whl文件下载地址汇总 Xiao张不会深度学习 python 开发语言深度学习
dlib库的wheel文件3.7-3.12GitHub-z-mahmud22/Dlib_Windows_Python3.x:Dlibcompiledbinary(.whl)forPython3.7-3.12andWindowsx64这里存储了适用于python3.7-3.12的wheel文件下载wheel文件之后，比如：dlib-19.22.99-cp310-cp310-win_amd64.whl
Python剪辑视频小妙招（moivepy库）对不起，我辜负了你 python
起因最近一直在b站上投稿喜羊羊与灰太狼的视频，但是苦于需要手动裁剪视频的片头和片尾，裁剪的多了就发现喜羊羊与灰太狼的视频片头几乎都是1分25秒结束，也就是持续85秒，片尾也差不多是持续1分02秒差不多也就是62秒，于是开始思考有没有什么方法可以替代人类进行自动化批量裁剪？思路发展迭代与确定一开始是想使用Premier里面的预设来做的，结果发现Premier里面高版本的导出变成了各种网站的标准，相比
深度解析智能问答系统：如何打造精准、高效的AI对话架构？和老莫一起学AI 人工智能架构自然语言处理产品经理语言模型学习 ai
在人工智能的飞速发展中，智能问答系统（QA系统）逐渐成为了企业内部管理、客户服务、搜索引擎等多个领域中的关键技术。今天，我们将深入探讨一个基于大模型、自然语言处理、知识检索的智能问答系统的架构，详细介绍其技术原理、流程以及未来应用前景。一、系统整体概览在这个智能问答系统中，整个流程可以大致划分为两大部分：前端问答生成与后端离线数据处理。前端部分是用户交互的核心，通过用户的输入、关键词提取、检索和问
Python 实战-优化排班表节省成本奔向理想的星辰大海技术研发 python ios objective-c
1.基础概念：理解排班表排班表，顾名思义，就是安排员工工作时间的表格。在餐馆中，它通常需要考虑员工的可用性、工作时间限制、用餐高峰时段等因素。2.使用列表存储员工信息首先，我们需要一个数据结构来存储员工信息。Python中的列表是一个不错的选择。#员工信息列表，包括姓名、可用时间段employees=[{"name":"张三","available":[(9,17),(20,23)]},{"nam
No module named ‘moviepy.editor‘ weixin_66009678 python
python3.7版本后不支持frommoviepy.editor引用方式，由于是moviepy2.0.0版本修改方法：frommoviepy.editorimportVideoFileClip,clips_array改为frommoviepyimport*
安装python3.12.2环境（实验机器银河麒麟高级服务器） Red丶哞桌面运维 Python linux 运维服务器
1.下载官网Python安装包wgethttps://www.python.org/ftp/python/3.12.2/Python-3.12.2.tar.xz1.1解压tar-xfPython-3.12.2.tar.xz解压完后切换到Python-3.12.2文件夹(这里根据自己解压的文件夹路径)cd/usr/packages/Python-3.12.2/1.2升级软件包管理器CentOS系统：
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>

Python PDF文本提取实战技法

安装必要的库

基本文本提取

指定页面范围提取文本

文本搜索与高级提取

PDF转文本文件

文本处理与分析

图形界面与用户交互

PDF转其他格式

处理图像内容

使用第三方库PyMuPDF

总结

你可能感兴趣的:(python,pdf,linux,Python基础,Python编程,PDF提取)