布啦啦李

「Python-PDF 专栏」通过 PyPDF2 打开并获取PDF的信息

通过 PyPDF2 打开并获取PDF的信息

一、PDF 打开文档
- 1. open()函数的功能和用法
- 2. PyPDF2.PdfReader的功能、用法和原理
二、获取 PDF 的各种信息
- 1. 获取 PDF 的总页数
- 2. 获取 PDF 的页面大小
- 3. 获取 PDF 的书签
- 4. 获取 PDF 的作者、主题、创建日期等
- 5. 获取 PDF 的文本

一、PDF 打开文档

导入必要的模块和函数：首先，我们需要导入PyPDF2库，以便能够访问其中的功能。使用以下代码将PyPDF2导入到Python脚本中：

import PyPDF2

2.打开PDF文件：使用open()函数，我们可以打开一个PDF文件，并创建一个PDF文件对象，以便后续操作。该函数接受一个文件名或文件对象作为输入参数。例如，如果我们有一个名为"example.pdf"的PDF文件：

# 使用'rb'模式打开文件，表示以二进制模式读取文件
pdf_file = open('example.pdf', 'rb')

在这里，我们使用了二进制模式打开文件，因为PDF文件是二进制文件。

创建PDF阅读器对象：使用PdfReader()函数，我们可以创建一个PDF阅读器对象，用于读取和解析PDF文件内容。

pdf_reader = PyPDF2.PdfReader(pdf_file)

至此，我们已经完成了使用PyPDF2打开PDF文件的过程。然后我们简要说明一下涉及到的各个函数的使用方法和原理：

open()函数：
用于打开文件，返回一个文件对象。第一个参数是文件名或文件路径，第二个参数是文件打开模式（例如，'r’表示读取模式，'w’表示写入模式，'rb’表示以二进制模式读取等）。
PdfReader()函数
-用于创建一个PDF阅读器对象，接受一个文件对象作为输入。该函数会解析PDF文件的结构，并将内容存储在一个数据结构中，以便后续操作。

1. open()函数的功能和用法

open()函数用于打开文件，并返回一个文件对象，以便进行后续的操作。在PyPDF2库中，我们通常使用open()函数来打开PDF文件。

语法：

open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)

参数说明

file: 要打开的文件名或文件路径。
mode: 打开文件的模式。可以是以下值之一：
- ‘r’: 读取模式 (默认)。
- ‘rb’: 以二进制模式读取。
- ‘w’: 写入模式。
- ‘wb’: 以二进制模式写入。
- ‘a’: 追加模式。
- ‘ab’: 以二进制模式追加。
- ‘x’: 创建一个新文件并写入（如果文件已存在，则抛出FileExistsError异常）。
- ‘xb’: 以二进制模式创建一个新文件并写入。
buffering: 设置缓冲大小。如果为0，则不进行缓冲；如果为1，则进行行缓冲；如果为大于1的整数，则表示缓冲区大小。
encoding: 文件的编码方式。
errors: 编码错误处理方式。
newline: 控制换行符的处理。
closefd: 如果为True（默认），则在文件关闭时关闭文件描述符；如果为False，则不关闭文件描述符。
opener: 用于打开文件的自定义文件打开器（通常不需要使用）。

使用示例

# 打开一个文本文件并读取内容
with open('example.txt', 'r') as file:
    content = file.read()
    print(content)

# 打开一个二进制文件并读取内容
with open('example.pdf', 'rb') as file:
    pdf_content = file.read()
    print(pdf_content)

2. PyPDF2.PdfReader的功能、用法和原理

PyPDF2.PdfReader类用于创建一个PDF阅读器对象，以便读取和解析PDF文件的内容。通过使用PdfReader()函数，我们可以创建该对象，并进而获取PDF文件的页面数量、页面内容等信息。

创建PdfReader对象

pdf_reader = PyPDF2.PdfReader(file)

参数说明
file: 要读取的PDF文件名或文件对象。该参数可以是一个文件名的字符串，也可以是一个已经打开的文件对象。

原理
当我们创建PdfReader对象时，PyPDF2会解析PDF文件的结构，并将文件内容存储在内存中的数据结构中。这个数据结构允许我们获取页面数量以及访问每一页的内容。PdfReader对象不会立即加载整个PDF文件，而是在需要时逐页加载。这种延迟加载的方式可以节省内存，并使得处理大型PDF文件更加高效。

二、获取 PDF 的各种信息

1. 获取 PDF 的总页数

步骤1：导入PyPDF2库

首先，我们需要导入PyPDF2库，这样我们才能使用它来处理PDF文件。

# 导入PyPDF2库
import PyPDF2

步骤2：定义获取PDF总页数的函数

接下来，我们定义一个函数get_pdf_page_count，该函数接受一个名为pdf_path的参数，这是要打开的PDF文件的路径。在函数内部，我们将打开PDF文件，并使用PyPDF2库来获取PDF的总页数。

def get_pdf_page_count(pdf_path):
    # 打开PDF文件，并以二进制模式读取文件内容
    with open(pdf_path, 'rb') as pdf_file:
        # 创建一个PdfReader对象，用于读取PDF文件
        pdf_reader = PyPDF2.PdfReader(pdf_file)

        # 获取PDF的总页数，使用len()函数获取pages列表的长度
        total_pages = len(pdf_reader.pages)

        return total_pages

步骤3：调用函数并获取PDF总页数

在主程序中，我们调用刚刚定义的函数，并将获取到的PDF总页数打印出来。

# 调用函数并获取PDF的总页数
pdf_path = r'E:\UserData\Desktop\测试用的.pdf'  # 替换为你的PDF文件路径
total_pages = get_pdf_page_count(pdf_path)

# 打印总页数
print(f'PDF 的页数为: {total_pages}')

将完整代码放在一起

将上述三个步骤组合在一起，就是完整的获取PDF总页数的Python代码。

# 导入PyPDF2库
import PyPDF2

# 定义一个函数来获取PDF的总页数
def get_pdf_page_count(pdf_path):
    # 打开PDF文件，并以二进制模式读取文件内容
    with open(pdf_path, 'rb') as pdf_file:
        # 创建一个PdfReader对象，用于读取PDF文件
        pdf_reader = PyPDF2.PdfReader(pdf_file)

        # 获取PDF的总页数，使用len()函数获取pages列表的长度
        total_pages = len(pdf_reader.pages)

        return total_pages

# 调用函数并获取PDF的总页数
pdf_path = r'E:\UserData\Desktop\测试用的.pdf'  # 替换为你的PDF文件路径
total_pages = get_pdf_page_count(pdf_path)

# 打印总页数
print(f'PDF 的页数为: {total_pages}')

2. 获取 PDF 的页面大小

步骤 1：导入所需的库
我们需要导入PyPDF2库来处理PDF文件。我们还需要使用Python的内置模块io来处理文件的输入和输出。代码示例如下：

import PyPDF2
import io

步骤 2：打开PDF文件
使用PyPDF2库，我们可以打开一个PDF文件，并读取其内容。首先，我们需要以二进制模式打开PDF文件，然后使用PyPDF2的PdfReader()函数来读取该文件。下面是相关代码：

# 以二进制模式打开PDF文件
with open('your_pdf_file.pdf', 'rb') as file:
    # 创建一个PdfReader对象来读取PDF内容
    pdf_reader = PyPDF2.PdfReader(file)

步骤 3：获取PDF页面大小
使用 PyPDF2的getPage() 函数获取PDF页面，并使用页面对象的mediaBox属性来获取页面的大小。mediaBox是一个元组，其中包含页面的左下角坐标 (x1, y1) 和右上角坐标 (x2, y2)。通过计算这些坐标差，我们可以获得页面的宽度和高度。

以下是获取PDF页面大小的完整代码：

#以二进制模式打开PDF文件
with open('your_pdf_file.pdf', 'rb') as file:
    # 创建一个PdfReader对象来读取PDF内容
    pdf_reader = PyPDF2.PdfReader(file)

    # 获取第一页（在PyPDF2中，页码从0开始）
    page_number = 0
    page = pdf_reader.pages[page_number]

    # 获取页面的尺寸
    mediabox = page.mediabox
    x1, y1, x2, y2 = mediabox

    # 计算页面宽度和高度
    page_width = x2 - x1
    page_height = y2 - y1

    # 输出页面尺寸
    print(f"页面宽度：{page_width} 像素")
    print(f"页面高度：{page_height} 像素")

3. 获取 PDF 的书签

PyPDF2库通过outline属性来提取书签信息，返回的是一个书签树。以下代码演示了如何获取和展示PDF文件的书签信息：

import PyPDF2

def print_bookmarks(bookmark_list, level=0):
    for item in bookmark_list:
        # 获取书签的标题和页面编号
        title = item.title
        page_num = item.page.get('/Page', None)
        if page_num is not None:
            # 由于PyPDF2从0开始计数页面，因此需要加1以与我们的认知相符
            page_num += 1
        else:
            page_num = 'N/A'
        
        # 输出书签信息
        print(f"{'  ' * level}- {title}, Page: {page_num}")

        # 递归地处理子书签
        if item.children:
            print_bookmarks(item.children, level + 1)

# 获取PDF文件的书签
with open('E:\\UserData\\Desktop\\2022—2023学年人教版数学八年级上册三角形的高、中线与角平分线同步练习题含答案.pdf', 'rb') as pdf_file:
    pdf_reader = PyPDF2.PdfReader(pdf_file)
    # 获取PDF文件的书签树
    bookmark_root = pdf_reader.outline
    # 打印书签
    print("PDF书签：")
    print_bookmarks(bookmark_root)

4. 获取 PDF 的作者、主题、创建日期等

除了书签，PDF文件还包含了丰富的元数据信息，如作者、创建日期、主题等，使用metadata属性可以获取PDF文件的元数据信息，例如作者、创建日期、主题等。以下代码演示了如何获取和展示PDF文件的元数据信息：

import PyPDF2

# 获取PDF文件的元数据
with open('E:\\UserData\\Desktop\\2022—2023学年人教版数学八年级上册三角形的高、中线与角平分线同步练习题含答案.pdf', 'rb') as pdf_file:
    pdf_reader = PyPDF2.PdfReader(pdf_file)
    # 获取PDF文件的元数据
    pdf_metadata = pdf_reader.metadata
    
    # 输出PDF元数据信息
    print("PDF元数据：")
    for key, value in pdf_metadata.items():
        print(f"{key}: {value}")

5. 获取 PDF 的文本

要从PDF文件中提取文本内容，我们可以使用PyPDF2库的PdfReader和PageObject。这些类提供了访问PDF文件和页面内容的方法。

首先，我们需要指定要处理的PDF文件路径，然后按照以下步骤提取文本内容：
打开PDF文件：使用Python的open函数打开PDF文件，并以二进制读取模式打开文件。
创建PdfReader对象：使用PyPDF2.PdfReader类创建一个PdfReader对象，将打开的PDF文件传递给它。这个对象允许我们访问PDF文件的内容。
访问页面：通过pdf_reader.pages属性可以访问PDF的所有页面。每个页面都是PageObject类型的对象，我们可以通过索引或迭代器来访问它们。
提取文本：使用PageObject的extract_text()方法可以从页面中提取文本内容。这将返回一个包含页面文本的字符串。

以下是详细的示例代码，演示了如何提取PDF文件的文本内容：

import PyPDF2

# 指定PDF文件路径
pdf_file_path = r'E:\UserData\Desktop\形容词副词专项.pdf'

# 打开PDF文件
with open(pdf_file_path, 'rb') as pdf_file:
    # 创建一个PdfReader对象
    pdf_reader = PyPDF2.PdfReader(pdf_file)

    # 获取PDF的页数
    num_pages = len(pdf_reader.pages)
    print(f'总页数: {num_pages} 页')

    # 逐页提取文本内容
    for page_num, page in enumerate(pdf_reader.pages, start=1):
        # 提取页面文本内容
        text = page.extract_text()

        # 打印提取的文本内容
        print(f'第{page_num}页文本内容:')
        print(text)

【云原生】Helm来管理Kubernetes集群的详细使用方法与综合应用实战景天科技苑云原生K8S 零基础到进阶实战云原生 kubernetes 容器 Helm k8s k8s集群
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，linux，she
Python类中魔术方法(Magic Methods)完全指南：从入门到精通盛夏绽放 python 开发语言
文章目录Python类中魔术方法(MagicMethods)完全指南：从入门到精通一、魔术方法基础1.什么是魔术方法？2.魔术方法的特点二、常用魔术方法分类详解1.对象创建与初始化2.对象表示与字符串转换3.比较运算符重载4.算术运算符重载5.容器类型模拟6.上下文管理器7.可调用对象三、高级魔术方法1.属性访问控制2.描述符协议3.数值类型转换四、魔术方法最佳实践五、综合案例：自定义分数类Pyt
Python面向对象编程(OOP)详解：通俗易懂的全面指南盛夏绽放 python 开发语言有问必答
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。文章目录Python面向对象编程(OOP)详解：通俗易懂的全面指南一、OOP基本概念1.什么是面向对象编程？2.OOP的四大支柱3.核心概念对比表二、类和对象1.类(Class)vs对象(Object)2.类结构详解三、OOP三大特性详解1.封装(Encapsulation)2.继承(Inherita
〖Python 数据库开发实战 - Redis篇②〗- Linux系统下安装 Redis 数据库哈哥撩编程 #⑤ -数据库开发实战篇 Python全栈白宝书 python 数据库数据库开发实战 linux安装redis
订阅Python全栈白宝书-零基础入门篇可报销！白嫖入口-请点击我。推荐他人订阅，可获取扣除平台费用后的35%收益，文末名片加V！说明：该文属于Python全栈白宝书专栏，免费阶段订阅数量4300+，购买任意白宝书体系化专栏可加入TFS-CLUB私域社区。福利：加入社区的小伙伴们，除了可以获取博主所有付费专栏的阅读权限之外，还有机会加入星荐官共赢计划，详情请戳我。作者：不渴望力量的哈士奇(哈哥)，
python分布式爬虫打造搜索引擎--------scrapy实现 weixin_30515513 爬虫 python 开发工具
http://www.cnblogs.com/jinxiao-pu/p/6706319.html最近在网上学习一门关于scrapy爬虫的课程，觉得还不错，以下是目录还在更新中，我觉得有必要好好的做下笔记，研究研究。第1章课程介绍1-1python分布式爬虫打造搜索引擎简介07:23第2章windows下搭建开发环境2-1pycharm的安装和简单使用10:272-2mysql和navicat的安装
上传文件csv并解析list_基于PyQt5表格控件TableWidget的csv文件内容显示
(70后红太阳2020年4月写于成都)一、配置环境开发环境：Win7；开发工具：Python3.8.2IDLE，QtDesigner5.13.2；Python安装目录：D:python；文件保存目录：D:python基于PyQt5表格控件TableWidget的csv文件内容显示；路径配置：在cmd下，运行path=%path%;Dpythonpython38-32scripts;D:python
告别内存焦虑！用Dask打开Python大数据并行计算的“任意门“ 小张在编程 python 大数据开发语言
引言当你在Jupyter里用Pandas读取20GB的CSV文件，看到内存占用率从10%飙升到90%，最后弹出"MemoryError"时；当你想对亿级数据做分组聚合，却发现单线程计算要等上半小时——这些场景是不是像极了用小推车搬运万吨货物？Python生态中，Dask库就像一台"并行计算推土机"，能把大数据拆分成小块并行处理，让你的普通电脑也能拥有分布式计算的能力。本文将从原理到实战，带你掌握这
Django项目运行报错：ModuleNotFoundError: No module named ‘MySQLdb‘
解决方法：在__init__.py文件下，新增下面这段代码importpymysqlpymysql.install_as_MySQLdb()注意：确保你的python有下载pymysql库，没有的话可以使用pipinstallpymysql安装原理：用pymysql来代替mysqlLab__init__.py文件大致位置在：
[Py026]Snakefile灵活传递param 安哥生个信
snakemake是用python编写的，最近串流程用的比较频繁，所以也归纳在python实用技巧里面。现在需要实现的一个功能是——根据每一个input自身的特点，返回一个值（可能是固定，也可能是随机）；然后将这个返回值传递给下面的运行代码。举例：现在有两个fastq文件20192.fastq.gz20193.fastq.gz，需要通过seqkit转换为fasta文件；如果文件名是奇数，则转换出来
Python日志终极指南：深入探索logging日志管理模块 c01dkit python python 开发语言
在任何一个严谨的软件开发项目中，日志（Logging）都是不可或缺的一环。它不仅是调试代码的利器，更是线上问题追踪、性能分析和数据监控的重要依据。相比于随处可见的print()语句，Python内置的logging模块提供了更为强大、灵活且标准化的解决方案。[1][2]这篇博客将带你由浅入深，全面掌握logging模块的使用，从基础配置到高级技巧，再到企业级项目的最佳实践。一、告别print()：
python大数据论文_大数据环境下基于python的网络爬虫技术 weixin_39775976 python大数据论文
软件开发大数据环境下基于python的网络爬虫技术作者/谢克武，重庆工商大学派斯学院软件工程学院摘要：随着互联网的发展壮大，网络数据呈爆炸式增长，传统捜索引擎已经不能满足人们对所需求数据的获取的需求，作为搜索引擎的抓取数据的重要组成部分，网络爬虫的作用十分重要，本文首先介绍了在大数据环境下网络爬虫的重要性，接着介绍了网络爬虫的概念，工作原理，工作流程，网页爬行策略，python在编写爬虫领域的优势
【Python爬虫(26)】Python爬虫进阶：数据清洗与预处理的魔法秘籍奔跑吧邓邓子 Python爬虫 python 爬虫开发语言数据清洗预处理
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、数据清洗的重要性二、数据清洗的常见任务2.1去除噪声数据2.2
117、Python机器学习：数据预处理与特征工程技巧多多的编程笔记 python 机器学习开发语言
Python开发之机器学习准备：数据预处理与特征工程机器学习是当前人工智能领域的热门方向之一。而作为机器学习的核心组成部分，数据预处理与特征工程对于模型的性能有着至关重要的影响。本文将带领大家了解数据预处理与特征工程的基本概念，以及它们在实际应用场景中的重要性。数据预处理数据预处理是机器学习中的第一步，它的主要目的是将原始数据转换成适合进行机器学习模型训练的形式。就像我们在做饭之前需要清洗和准备食
如何通过linux黑窗口实现对远程服务器的操作
①选择合适的云平台进行设备的租用并复制好远程设备的IP地址②使用管理员权限打开黑窗口③输入命令连接远程的设备：ssh用户名@服务器IP地址，此时得到的是一个什么都没有的设备④由于该设备什么都没有，故先：sudoaptupdate，然后安装gcc编译器：sudoaptinstallbulid-essential，再然后安装python：sudoaptinstallpython-3.8，再然后安装mi
Redis——API的理解和使用莫问以
一、全局命令1、查看所有键keys*下面插入了3对字符串类型的键值对：127.0.0.1:6379>sethelloworldOK127.0.0.1:6379>setjavajedisOK127.0.0.1:6379>setpythonredis-pyOKkeys*命令会将所有的键输出：127.0.0.1:6379>keys*1)"python"2)"java"3)"hello"2、键总数dbsi
PYTHON对接第三方验证码短信接口短信接口开发
PYTHON短信接口对接demo#接口类型：互亿无线触发短信接口，支持发送验证码短信、订单通知短信等。#账户注册：请通过该地址开通账户http://user.ihuyi.com/?DKimmu#注意事项：#（1）调试期间，请使用用系统默认的短信内容：您的验证码是：【变量】。请不要把验证码泄露给其他人。#（2）请使用APIID及APIKEY来调用接口，可在会员中心获取；#（3）该代码仅供接入互亿无线
第二十四篇 Requests+BeautifulSoup，秒抓网站信息！你的智能信息收集器！爱分享的飘哥日常效率自动化 beautifulsoup Python爬虫 Requests 数据抓取办公自动化信息收集
python爬虫序言：手动复制粘贴网页数据？效率太低了1.网页数据抓取基础：HTTP请求与网页结构速览1.1HTTP请求：浏览器如何和网页交互？1.2网页结构：HTML，信息的载体2.Requests库：发送网络请求的利器2.1安装与基础用法：你的第一个HTTP请求2.2处理请求头与参数：模拟浏览器访问3.BeautifulSoup：解析网页的利器3.1安装与基础用法：快速解析HTML内容3.2精
Redis 安全加固：从密码保护到高级安全配置 Seal^_^ 数据库专栏 #数据库--Redis redis 安全数据库 Redis 安全加固
Redis安全加固：从密码保护到高级安全配置一、Redis安全概述二、密码认证配置1.设置Redis密码临时设置（重启后失效）永久设置（修改配置文件）2.密码认证流程3.Python连接示例三、网络层安全加固1.绑定内网IP2.修改默认端口3.防火墙配置四、危险命令禁用1.禁用敏感命令2.命令禁用前后对比五、高级安全配置1.TLS加密传输2.客户端证书认证3.ACL细粒度权限控制（Redis6.0
【PDF文档转换工具2.4.5】【电脑软件win7/10】免费PDF转换工具，包含各种常用转换工具，PDF转换不乱码！近乎完美的PDF转WORD方法，不花钱就能搞定！PDF文档转换工具！永久免费使用 qq_32402851 pdf word
使用教程一、软件获取与安装软件安装包及激活码放置在视频下方或首页第一个视频里。下载安装包后，运行安装程序，选择自定义安装，避免安装在C盘，然后点击下一步直至安装完成。首次运行软件时，会弹出界面，选择“我已经有解码密码，并想解开这款工具”，点击解锁按钮。将txt文档中的激活码内容粘贴到相应位置，再粘贴解锁密码，点击确定，若提示解锁成功，则软件可永久免费使用，且无弹窗提醒激活。二、PDF格式转换操作双
【python库对比】路径专题 os.path和pathlib对比尚未想好 python高频库对比 python 开发语言 vscode
专栏收录：python高频库对比本专栏将持续更新在工程领域高频使用的python库之间的对比文章概览：简单介绍路径处理常用的python库及特点对比os.path和pathlib的异同结合代码示例说明两个库的差异.补充：os.path和pathlib高频使用接口见os.path和pathlib高频使用接口及示例1.简介Python中处理路径的库有很多，其中一些常用的包括：os.path模块：os.
如何解决pip安装报错ModuleNotFoundError: No module named ‘flask’问题万粉变现经纪人全栈Bug解决方案专栏 pip flask python pycharm scrapy pandas 后端
【Python系列Bug修复PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘flask’问题摘要在使用PyCharm进行Python开发时，常常需要通过pip安装第三方包以满足项目依赖。但在控制台执行pipinstallflask后，依旧可能出现ModuleNotFoundError:Nomodulenamed
如何解决pip安装报错ModuleNotFoundError: No module named ‘sqlalchemy’问题万粉变现经纪人全栈Bug解决方案专栏 pip pandas python pycharm scipy beautifulsoup numpy
【Python系列Bug修复PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘sqlalchemy’问题摘要在使用PyCharm控制台执行pipinstallsqlalchemy后，仍然在代码中提示ModuleNotFoundError:Nomodulenamed'sqlalchemy'，让许多开发者头疼。本文将
selenium后续！！ paid槮 selenium 测试工具
小项目案例:实现批量下载网页中的资源根据15.3.2小节中的返回网页内容可知,用户只有获取了网页中的图片url才可以将图片下载到*在使用selenium库渲染网页后,可直接通过正则表达式过滤出指定的网页图片，从而实现批量下载接下来以此为思路来实现一个小项目案例。项目任务实现批量下载人民邮电出版社官网中与Python相关的图书封面图片。项目实步骤步骤1，获取人民邮电出版社官网中与Python相关的图
Python爬虫博客：使用Selenium模拟登录并抓取需要身份验证的网站内容 Python爬虫项目 2025年爬虫实战项目 python 爬虫 selenium 信息可视化开发语言百度测试工具
引言在爬虫开发的过程中，我们常常遇到需要身份验证才能访问的网站。例如，很多社交媒体、新闻网站、电商平台等都要求用户登录才能访问一些特定内容。如何模拟登录并抓取这些需要身份验证的网页内容成为了一个非常重要且常见的需求。Selenium，作为一个强大的浏览器自动化工具，不仅可以模拟用户的浏览行为，还能够模拟用户输入用户名和密码、点击登录按钮等操作，突破了普通爬虫工具（如requests）无法处理的Ja
如何解决pip安装报错ModuleNotFoundError: No module named ‘django’问题万粉变现经纪人全栈Bug解决方案专栏 pip django python numpy pycharm 后端 pandas
【Python系列Bug修复PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘django’问题摘要在日常Django项目开发中，最常见的“拦路虎”之一就是ModuleNotFoundError:Nomodulenamed'django'。该异常通常在以下场景出现：在PyCharm2025中新建项目后，直接在Py
基于生成对抗网络增强主动学习的超高温陶瓷硬度优化神经网络15044 深度学习算法仿真模型生成对抗网络学习人工智能
复现论文：基于生成对抗网络增强主动学习的超高温陶瓷硬度优化我将使用Python复现这篇关于使用生成对抗网络(GAN)增强主动学习来优化超高温陶瓷(UHTC)硬度的研究论文。以下是完整的实现代码和解释。1.环境准备和数据加载首先，我们需要准备必要的Python库并加载数据。importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltimpor
基于R、Python的Copula变量相关性分析及AI大模型应用梦想的初衷~ 环境气象人工智能 r语言 python
在工程、水文和金融等各学科的研究中，总是会遇到很多变量，研究这些相互纠缠的变量间的相关关系是各学科的研究的重点。虽然皮尔逊相关、秩相关等相关系数提供了变量间相关关系的粗略结果，但这些系数都存在着无法克服的困难。例如，皮尔逊相关系数只能反映变量间的线性相关，而秩相关则更多的适用于等级变量。大多数情况下变量间的相关性非常复杂，而且随着变量取值的变化而变化，而这些相关系数都是全局性的，因此无法提供变量间
Python 桌面版数独游戏（一版）香蕉可乐荷包蛋 #数独 python 游戏 java
设计思路详解：Python桌面版数独游戏1.功能需求分析构建一个9x9的数独游戏界面。支持玩家手动输入数字。提供两个按钮：“重新开始本局”：恢复当前棋盘到初始状态（保留原始数字）。“生成新棋局”：生成一个新的随机数独题目。使用标准库实现，无需额外安装。2.技术选型使用tkinter：Python标准GUI库，适合小型桌面应用。使用random和copy：用于生成数独题目和深拷贝原始题目。采用回溯算
Copula 回归与结构方程模型：R 语言构建多变量因果关系网络
技术点目录专题一、R及Python语言及相关性研究初步专题二、二元Copula理论与实践（一）专题三、二元Copula理论与实践（二）【R语言为主】专题四、Copula函数的统计检验与选择【R语言为主】专题五、高维数据与VineCopula【R语言】专题六、正则VineCopula（一）【R语言】专题七、正则VineCopula（二）【R语言】专题八、时间序列中的Copula【R语言】专题九、Co
centos7安装python3并配置环境变量 weixin_46119222 centos python3.11
在CentOS7上安装Python3并将其设置为默认版本，可以按照以下步骤进行：1.安装Python3首先，你需要安装Python3。在CentOS7上，你可以通过yum包管理器来安装Python3。执行以下命令：bash复制代码sudoyuminstallpython3这个命令会使用yum来安装Python3。2.安装依赖文件（可选）如果你打算从源代码安装Python3，或者需要某些特定的库和功
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D