Python玩转PDF的各种骚操作

Portable Document Format（可移植文档格式），或者PDF是一种文件格式，可以用于跨操作系统的呈现和文档交换。尽管PDF最初是由Adobe发明的，但它现在是由国际标准化组织（ISO）维护的开放标准。你可以通过使用PyPDF2包在Python中处理已先存在的PDF。

PyPDF2是一个纯Python包，可用于许多不同类型的PDF操作。

本文将带你了解如何执行以下操作：

从Python中提取PDF中的文档信息

旋转页面
合并PDF
拆分PDF
添加水印
加密PDF

一、pyPdf，PyPDF2和PyPDF4的历史

最初的pyPdf软件包于2005年发布。pyPdf的最后一个正式版本是在2010年。大约一年后，一家名为Phasit的公司赞助了一个名为PyPDF2的pyPdf分支。该代码编写为向后与原始代码兼容，并且用了好多年，效果一直很好，其最后一个版本是在2016年。

有一个名为PyPDF3的软件包简短系列版本，然后该项目被重命名为PyPDF4。所有这些项目都完全相同，但pyPdf和PyPDF2 +之间的最大区别在于后者版本增加了Python 3支持。Python 3的原始pyPdf有一个不同的Python 3分支，但是这个分支已经多年没有维护了。

虽然最近放弃了PyPDF2，但新的PyPDF4与PyPDF2没有完全的向后兼容性。本文中的大多数示例都可以与PyPDF4完美配合，但也有一些不能，这就是为什么PyPDF4在本文中没有更多的特色。随意用PyPDF4替换PyPDF2的导入，看看它是如何工作的。

二、pdfrw：一个替代的PDF操作包

Patrick Maupin创建了一个名为pdfrw的软件包，它可以完成许多与PyPDF2相同的工作。除了加密的特殊情况外，本文后面提到PyPDF2的所有操作，pdfrw均可以实现。

pdfrw的最大区别在于它与ReportLab软件包集成，因此你可以使用一些或所有预先存在的PDF构建一个新的PDF。

三、PyPDF2的安装

如果使用Anaconda而不是常规Python，可以使用pip或conda安装PyPDF2。以下是使用pip安装PyPDF2的方法：

$ pip install pypdf2

由于PyPDF2没有任何依赖，因此安装非常快。

四、如何从Python中提取PDF文档信息

我们可以使用PyPDF2从PDF中提取元数据和一些文本，尤其是当在预先存在的PDF文件上执行某些类型的自动化时是非常有用的。

以下是当前可以提取的数据类型：

Author
Creator
Producer
Subject
Title
Number of page

可以在自己的电脑上随便找一个PDF文件进行尝试操作。下面是使用该PDF编写一些代码，并了解如何访问这些属性：

from PyPDF2 import PdfFileReader
def extract_information(pdf_path):
 with open(pdf_path, 'rb') as f:
  pdf = PdfFileReader(f)
  information = pdf.getDocumentInfo()
  number_of_pages = pdf.getNumPages()
 txt = f"""
 Information about {pdf_path}:
 Author: {information.author}
 Creator: {information.creator}
 Producer: {information.producer}
 Subject: {information.subject}
 Title: {information.title}
 Number of pages: {number_of_pages}
 """
 print(txt)
 return information
if __name__ == '__main__':
 path = 'xxxx.pdf'
 extract_information(path)

首先从PyPDF2包导入PdfFileReader。PdfFileReader是一个具有多种与PDF文件交互的方法的类。在此示例中，我们调用了.getDocumentInfo()，它将返回DocumentInformation的实例,包含了我们感兴趣的大部分信息。我们还可以在reader对象上调用.getNumPages()，让它返回文档中的页数。

information这个变量具有多个实例属性，可以使用这些属性从文档中获取所需的其余元数据。我们可以打印出该信息并将其返回以备将来使用。

虽然PyPDF2具有.extractText()，可以在其页面对象上使用提取文本（本例中未显示），但它的效果不是很好。有些PDF会返回文本，有些会返回空字符串。如果要从PDF中提取文本，建议应该看一下PDFMiner项目。PDFMiner更加强大，专门用于从PDF中提取文本。

五、如何旋转页面？

有时候PDF是横向模式而不是纵向模式，甚至是颠倒的。当有人扫描文档为PDF或电子邮件时，很可能会发生这种情况。我们可以打印出文档并阅读纸质版本，也可以使用Python的强大功能来旋转有问题的页面。

下面看一下如何使用PyPDF2旋转文章的一些页面：

from PyPDF2 import PdfFileReader, PdfFileWriter
def rotate_pages(pdf_path):
 pdf_writer = PdfFileWriter()
 pdf_reader = PdfFileReader(path)
 # 顺时针旋转90度
 page_1 = pdf_reader.getPage(0).rotateClockwise(90)
 pdf_writer.addPage(page_1)
 # 逆时针旋转90度
 page_2 = pdf_reader.getPage(1).rotateCounterClockwise(90)
 pdf_writer.addPage(page_2)
 # 在正常方向上添加一页
 pdf_writer.addPage(pdf_reader.getPage(2))
 with open('rotate_pages.pdf', 'wb') as fh:
  pdf_writer.write(fh)
if __name__ == '__main__':
 path = '新路径.pdf'
 rotate_pages(path)

上面除了pdfileReader之外，还导入了pdfileWriter，因为我们需要编写一个新的pdf。rotate_pages()获取要修改的PDF的路径。在这个函数中，需要创建一个可以命名为pdf-writer的writer对象和一个名为pdf-reader的reader对象。

接下来，可以使用.get page()获取所需的页面。上面开始输入了第0页，也就是第一页，调用page对象的.rotateClockwise()顺时针旋转方法并输入90。然后同样地，对于第二页，调用.rotateCounterLockwise()逆时针旋转并输入90。

每次调用Rotation旋转方法后，都会调用.addPage()，这将向writer对象添加页面的旋转版本。最后一页是第3页，没有对其进行任何旋转。最后，使用.write()把所有新页写入新的PDF。

六、如何合并PDF？

在许多情况下，我们希望将两个或多个PDF合并到一个PDF中。例如，现在可能有一个标准的封面，需要转到许多类型的报告中。这时候就可以使用python来帮助完成这类工作。

下面是实现的代码，完成PDF合并的操作：

from PyPDF2 import PdfFileReader, PdfFileWriter

def merge_pdfs(paths, output):
 pdf_writer = PdfFileWriter()
 for path in paths:
  pdf_reader = PdfFileReader(path)
  for page in range(pdf_reader.getNumPages()):
   # 将每页添加到writer对象
   pdf_writer.addPage(pdf_reader.getPage(page))
 # 写入合并的pdf
 with open(output, 'wb') as out:
  pdf_writer.write(out)
if __name__ == '__main__':
 paths = ['document1.pdf', 'document2.pdf']
 merge_pdfs(paths, output='merged.pdf')

假如有一个要合并到一起的pdf列表时，可以直接使用merge_pdf函数完成。此函数采用了输入路径和输出路径作为参数。

首先遍历输入的paths，并为每个输入创建一个PDF阅读对象。然后遍历PDF文件中的所有页面，并使用.addpage()将这些页面写入writer对象。当完成对列表中所有PDF的所有页面的写入后，将在末尾写入新的结果中。

如果不想合并每个PDF的所有页面，可以通过添加一系列要添加的页面来稍微增强这个脚本。挑战一点的话，也可以使用Python的argparse模块为这个函数创建一个命令行接口。

七、如何拆分PDF?

有时可能需要将PDF拆分为多个PDF，对于包含大量扫描内容的PDF来说尤其重要。以下是如何使用PyPDF2将PDF拆分为多个文件：

from PyPDF2 import PdfFileReader, PdfFileWriter
def split(path, name_of_split):
 pdf = PdfFileReader(path)
 for page in range(pdf.getNumPages()):
  pdf_writer = PdfFileWriter()
  pdf_writer.addPage(pdf.getPage(page))
  output = f'{name_of_split}{page}.pdf'
  with open(output, 'wb') as output_pdf:
   pdf_writer.write(output_pdf)
if __name__ == '__main__':
 path = 'xxx.pdf'
 split(path, 'jupyter_page')

这个函数中再次创建了PDF的reaer对象，并对其所读取的页面进行遍历。对于PDF中的每个页面，创建一个新的PDF的writer实例并向其添加单个页面。然后，将该页面写入一个唯一命名的文件。脚本运行完毕后，就可以将原始PDF的每个页面拆分为单独的PDF。

八、如何添加水印？

水印是纸质或者电子文档上的图像或图案，一些水印只能在特殊照明条件下才能看到。水印的重要性在于它可以保护你的知识产权，例如图像或PDF。

我们可以使用Python和PyPDF2为文档添加水印，而且是拥有仅包含水印图像或文本的PDF。下面是向PDF添加水印方法：

from PyPDF2 import PdfFileWriter, PdfFileReader
def create_watermark(input_pdf, output, watermark):
 watermark_obj = PdfFileReader(watermark)
 watermark_page = watermark_obj.getPage(0)
 pdf_reader = PdfFileReader(input_pdf)
 pdf_writer = PdfFileWriter()
 # 给所有页面添加水印
 for page in range(pdf_reader.getNumPages()):
  page = pdf_reader.getPage(page)
  page.mergePage(watermark_page)
  pdf_writer.addPage(page)
 with open(output, 'wb') as out:
  pdf_writer.write(out)
if __name__ == '__main__':
 create_watermark(
  input_pdf='Jupyter_Notebook_An_Introduction.pdf', 
   output='watermarked_notebook.pdf',
  watermark='watermark.pdf')

上面create_watermark有三个参数：

input_pdf：要加水印的PDF文件路径
output：要保存PDF的水印版本的路径
watermark：包含水印图像或文本的PDF

在代码中，打开水印PDF并从文档中抓取第一页，因为这是水印应该驻留的位置。然后使用input_pdf和通用pdf_writer对象创建PDF的writer对象，以写出带水印的PDF。

下一步是遍历input_pdf中的页面，然后调用.mergePage()并以用上面读取的水印对象watermark_page为参数，这样会将watermark_page覆盖在当前页面的顶部，然后再将新合并的页面添加到pdf_writer对象中。遍历完成后，最后将新加水印的PDF写入磁盘。

九、如何加密PDF？

PyPDF2目前仅支持将用户密码和所有者密码添加到预先存在的PDF。在PDF版本中，所有者密码会提供PDF的管理员权限，并允许设置文档的权限，而用户密码只允许打开文档。

实际上，PyPDF2是不允许设置文档的任何权限的，即使它允许设置所有者密码的情况下。但无论如何，这是可以加密的方式，也将固有地加密PDF：

from PyPDF2 import PdfFileWriter, PdfFileReader
def add_encryption(input_pdf, output_pdf, password):
 pdf_writer = PdfFileWriter()
 pdf_reader = PdfFileReader(input_pdf)
 for page in range(pdf_reader.getNumPages()):
  pdf_writer.addPage(pdf_reader.getPage(page))
 pdf_writer.encrypt(user_pwd=password, owner_pwd=None, 
      use_128bit=True)
 with open(output_pdf, 'wb') as fh:
  pdf_writer.write(fh)
if __name__ == '__main__':
 add_encryption(input_pdf='reportlab-sample.pdf',
     output_pdf='reportlab-encrypted.pdf',
     password='twofish')

add_encryption以输入输出PDF路径和要添加到PDF的密码为参数。由于需要加密整个输入PDF，因此需要遍历其所有页面并将其添加到writer编写器。最后一步是调用.encrypt()，以用户密码，所有者密码以及是否应该添加128位加密为参数。默认情况下，要启用128位加密。如果将其设置为False，则将应用40位加密。

结论

PyPDF2包非常有用，可以使用PyPDF2自动执行脚本完成PDF文档的批量操作。本文介绍了如何从PDF中提取元数据，旋转页面，合并和拆分PDF，添加水印，以及添加加密的操作。

同时，还要关注较新的PyPDF4包，因为它很快就会取代PyPDF2。也可以看看pdfrw包，它也可以执行许多与PyPDF2相同的操作。

以上所述是小编给大家介绍的Python玩转PDF的各种骚操作,希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对脚本之家网站的支持！
如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！

禅宗史113: 梅子熟也周脖通
第四十二节梅子熟也大梅法常禅师，马祖门下的优秀毕业生，公元752年出生于湖北襄阳市一户郑姓人家。法常禅师在幼年的时候，就来到了湖北当阳市玉泉寺出家为僧。法常禅师虽然年幼，可是却有过目不忘的特殊本领，不管是什么经书，只要他用心的看过一遍后，就能合上经书进行背诵，不但可以做到一字不差，更为神奇的是，他看过的经文终身都不会遗忘。所以寺庙里的僧众一个个对法常禅师都是刮目相看啊。自然，小小的法常禅师在玉泉寺
NSMutableAttributedString/NSAttributedString 富文本设置 linshaoquan 开发技巧 ios开发 label string nsstring objective-c
参考：http://stackoverflow.com/questions/11031623/how-can-i-use-attributedtext-in-uilabel一、设置UILabel的属性attributedText(NSMutableAttributedString)NSString*testStr=@"测试";UILabel*testLab=...(实例对象)NSMutablePa
Objective-C属性字符串NSAttributedString FEverStar iOS开发 iOS开发入门到精通 objective-c NSAttribut 属性字符串
NSAttributedString是Objective-C中的属性字符串类，GitHub上也有很多第三方，用得较多的是TTTAttributedLabel，这里给大家介绍一下系统NSAttributedString类来实现富文本，并可实现点击事件，同时点击事件可携带参数。因为要做点击事件，所以我们用UITextView，首先声明一个UITextView属性：@property(nonatomic
maven部署SpringMVC常见问题张家浚xxlxck java maven spring
java.lang.NoClassDefFoundError:org/springframework/context/ApplicationContext显而易见，很明显就是找不到对应的类定义找不到这里其实有几种解决办法1、有可能是某个对应的包没导入，比如Spring的Context包没导入，也有可能是spring-jdbc的包没导入，具体的话得看你自身的业务代码用了什么东西2、有可能你的spri
Errors Of Reaction 1 邓洁儿
错误自动拒绝如何辨识和解决。自动拒绝是不愿意公正的倾听你的思想或行为的批评。为了避免这种错误，需要把你的思想视为可以保留或者抛弃的所有物，而不是你的自我延伸。这将使你对它们少一点的维护。转移话题转移话题就是突然并且欺骗性的从一个正在讨论的议题转移到另一个讨论。为了避免这种错误，面对不同问题应该迎面而上而不是试图避免它。转移举证责任这个错误在于要求其他人反驳我们的命题。为了避免这种错误，需要明白支持
你若不离我便不弃倾城微语
多少人，说要一辈子的，走着走着，在人海中就散了；多少人，说好了不分离，走着走着，在红尘中就不见了；多少人，信誓旦旦，随口开河就给别人来个承诺，转身就忘了，那些本来很熟悉的名字，慢慢的也被时光冲淡了，最后就没有再联系了。最浪漫的事，是慢慢随时光和你变老。而总有一人，会在那个露出晨光的早晨，或者，在那个阳光明媚的午后，或者，在月光如镜的午夜，突然转身，不再回头，选择离开。虽然没说放弃，内心深处仍然有着
智慧综合执法办案平台源码，城管执法app源码，快速执法办案项目源码库智慧执法智慧城管城管执法APP 源码 java
智慧综合执法管理平台源码，智慧城管系统源码综合执法办案平台是智慧城市框架下，依托物联网、云计算、多网融合等现代化技术，运用数字基础资源、多维信息感知、协同工作处置、智能化辅助决策分析等手段，形成具备高度感知、互联互通、智能的综合执法管理新模式。综合执法办案平台系统将数字执法、智能管控纳入平台建设，是在“智慧综合执法”管理方向上的大胆探索，在目前国内综合执法应用平台建设上是超前的。系统开发环境技术架
如果创业失败了平头小马哥
在我看来世界上有两样东西很无情，一个是时间，过去了就再也回不来了，一个是机会，给你了你没抓住就再也不属于你了，创业，恰恰是两者完美的结合。现实中，创业公司3年内的成活率不足5%，这就意味着95%的创业者在踏上创业这条路后的3年中都会“死掉”，这比考上研究生要难得多，可为什么还有那么多人主动的去送死，还没等被拍在沙滩上就被海水在卷走了，连痕迹都没有留下，原因太多了，被成功的创业者鼓舞热血沸腾的，对现
第4章 .NET 8.0 ASP.NET Core图书管理系统：项目布局代数狂人 ASP.NET Core 框架之旅 .net asp.net 后端 ASP.NET Core
第1章框架学习的基石与实战策略第2章大话ASP.NETCore入门第3章创建最小（MinimalAPIs）API应用程序第4章.NET8.0ASP.NETCore图书管理系统：项目布局</
什么是响应式? 小汤猿人类 vue uni-app javascript 前端 vue.js
表达式:用于表达式进行插值,渲染到页面之中语法:{{表达式}}案例{{arr[2]}}{{9+5}}{{"神奇"}}import{ref}from'vue';vararr=ref([1,2,4,5])响应式：数据的变化可以触发到界面响应式语法：可以将任何类型的值转换为响应式数据import{ref}from'vue';//用于引入组件，相对于java中的导包constreactiveVar=ref
咖啡冥想2月7日第162天——成全他人锦上添花_1155
目标:要在2月好好的研究一下业务，认真的对待我的工作，为业务部门提供有效的经营数据分析及业务建议，培养财务人员业务水平提升。早晨起来给日行一善-佛土净音群、日行一善-德弘文化群各捐款1元，我每天起床都会想着做这件事情。每天早晨给爸爸、妈妈每人发10元红包，感恩父母的养育之恩；给先生、儿子、弟弟、妹妹每人发2元红包，感恩家人的陪伴；给喜悦老师、李培、同修每人发2元红包，感恩老师的引领，感恩同修的陪伴
如何本地搭建 Whisper 语音识别模型？一文解决玩AI的小胡子 whisper AIGC 人工智能语音识别
Whisper是OpenAI开发的强大语音识别模型，适用于多种语言的语音转文字任务。要在本地搭建Whisper模型，需要完成以下几个步骤，确保模型在你的设备上顺利运行。1.准备环境首先，确保你的系统上安装了Python（版本3.8到3.11之间）。此外，还需要安装PyTorch，这是Whisper依赖的深度学习框架。2.安装Whisper在命令行中运行以下命令来安装Whisper和其依赖项：pip
《以家人之名》经典台词一诺观影
《以家人之名》经典台词三个没有血缘关系、在原生家庭遭遇过不同伤痛的孩子，机缘巧合下凑在一起成为了兄妹。大哥凌霄、二哥贺子秋、妹妹李尖尖在两个爸爸李海潮和凌和平的抚养下相互扶持、共同成长。高中毕业后，两个哥哥回到了自己的原生家庭，一边是彼此认定相互珍惜的新家人，一边是无法选择但关系淡漠的亲生父母，他们在两个家庭中迷茫徘徊。九年后，哥哥们回到了新家人身边，三人终于团聚，但由于原生家庭造成的心理问题仍如
苹果M4芯片Mac全面曝光或10月发布一一一一一一__1 macos
彭博社的马克・古尔曼（MarkGurman）发布博文，曝料称苹果内部正在测试4款采用M4芯片的Mac设备，有望今年秋季（可能是10月）发布。古尔曼表示苹果计划今年升级MacBookPro、Macmini和iMac产品线，根据开发者日志，这4款机器都采用了基础级M4芯片。其中三台Mac配备了10核CPU和10核GPU；第四台机器配备了8核CPU和8核GPU（首次亮相），所有四台M4Mac都有16GB
2022-05-05 蔋颜
今天上午起来以后排队做核酸，快到我的时候发现出现弹窗了，然后又去世纪坛医院重新排队做的，排了好长时间的队，超级热。下午睡起来又过了一遍话术，扣了一下，如果顾客从微信上问价格问题，应该怎么回答，菲菲店长一个字一个字扣的，大家都很认真。
微信红包封面序列号大全免费2024最新(科目三) 全网优惠分享
微信红包封面序列号大全免费2024最新(科目三)年关将近，诸多值得纪念的日子接踵而至，很多要好的关系如家人、朋友以及情侣需要通过发红包来表达祝福，有很多小伙伴想知道有没有好看的红包封面，下面小编给大家详细介绍一下。微.信搜索:「封面院」关注公众号直接领。如下图：（以后你发红包就是这种效果）微信红包封面序列号大全一、最新红包封面序列号1、pdiqgLsY1lR2、vC8tY0VRf3D3、j0kzz
为什么找会计工作很难？林涛总编辑
找会计工作很难的原因有很多，以下是一些可能的因素：供大于求：在某些地区或行业，会计人员的数量可能过多，导致市场竞争激烈，找工作变得更加困难。学历要求高：许多企业要求会计人员具备本科及以上学历，这限制了很多人的就业机会。行业饱和：在某些行业中，如制造业和服务业等，会计人员的数量已经饱和，新进入该行业的人员可能面临就业困难。薪资待遇低：尽管有些会计人员的薪资相对较高，但与其他行业相比，其薪资水平可能仍
2018.6.9 鬼車
或许是我的错觉，今天天气也和大多数人一样，不冷不热太阳藏在乌云的后面被风稍稍的吹动便会有阳光洒下来，过了一会又藏回去，我想我的心就如同天空一般，一个风吹草动就开心的要死，而大多数时都是一张面无表情的脸，不冷不热。我时刻注意着那些毕业生的表情，似乎想把他们的情绪夺走般，过了些许时间，我失败了。我现在十分确定我与他们没有任何的共鸣，他们的天空群星璀璨，而我自夜阴来袭后就什么也没有了。整个天地间只有手机
2018-11-19 69ed2cd69506
2018-11-19鑫山力机械郝利敬爱的老师，智慧的教授，亲爱的家人们大家好，我是来自机械部门的郝利今天是我日精进的第五十四天给大家分享我今天的进步，我们互相勉励，携手前行，每天进步一点点，距离成功便不远。比学习：人生如戏，没有彩排，每一场都是现场直播，我们能够把握好每次演出便是最好的珍惜。比改变：每天都冒出很多念头，那些不死的才叫做梦想。比付出：有时候原谅一个人是因为太在乎，所以一让再让；有时候
打破僵局：Foxit Reader无法打开的终极解决方案 2402_85758936 福昕阅读器
打破僵局：FoxitReader无法打开的终极解决方案在数字化阅读时代，FoxitReader作为一款广受欢迎的PDF阅读器，其打不开的问题无疑会给用户带来诸多不便。本文将为您提供全面的解决方案，从基础检查到高级技巧，确保您能够快速恢复阅读和工作。基础检查：确保环境无误更新软件和系统：确保FoxitReader和操作系统都更新到最新版本。#打开FoxitReader官网下载最新版本https://
反向传播算法：深度神经网络学习的核心机制 2402_85758936 算法 dnn 学习
引言深度神经网络（DNNs）之所以在众多领域取得革命性的成功，很大程度上归功于其强大的学习能力，而这一能力的核心是反向传播算法（Backpropagation）。这是一种高效的监督学习算法，用于训练多层前馈神经网络。本文将深入探讨反向传播算法的工作原理及其在DNN中的应用。反向传播算法的基本概念反向传播算法结合了梯度下降优化和链式法则，通过计算损失函数关于网络参数的梯度来更新网络权重。1.损失函数
晚上看电影了一朵朵芸
今天睡了个懒觉，娃先醒的，喊我时候已经七点半了，要是娃没喊我，其实我还能睡，这几天都没怎么睡好觉，常常早上四五点就醒了，今天很难得，孩子爸上班去了我都不知道。平时很容易被吵醒，果然是累了，睡得沉。今天白天阴天，很闷热，看着还没下雨，把出门带的衣服啥的都洗洗，也搞了一上午，也没劲拖地了。下午睡了一觉，老姐说晚上要去看电影，是王宝强的《八角笼中》，正好我一直也想带娃看，就一起去了，晚上还下着雨，腿脚还
20220305和你一起成长日记140 天牛成长记
一，第一次翻身今天上午小天牛睡醒，陪他一起在床上玩手抓球，练习翻身。四个多月了，我用手助推一下就可以翻身，从仰卧到俯卧。后面我在淘厨房用品，然后他自己玩着玩着，竟然自己翻过身来了。这也太棒了好，很是激动。练翻身二，剃胎头昨天二月二，龙抬头的日子，上班没空。今天去游泳，顺便剃头发。天气热了，老是抓痒，头发总也长不长，不管奶奶说怕冷了，今天就要剃头发。第一次剃头发，还算配合，姨姨手法娴熟，五分钟不用就
uni-app checkbox全选功能(1) 2401_84092666 程序员 uni-app
复选选操作(checkbox){{item.label}}全选
中国文化，世界历史67 执笔简而言之
中国文化，世界历史67人类社会历史篇章作者：胡永红历史载千秋，文学记百流。功业永不朽，理想共追求。周威烈王二十三年即戊寅公元前四零三年，初分封晋国大夫魏斯赵籍韩虔为诸侯国君。臣司马光曰我知道天子的职责是维护礼教，礼教是为区分地位区分地位是为匡正名分。啥是礼教就是法纪区分地位就是君臣有别，什么是名分就是朝廷的公侯卿大夫等官爵。天下四海之广亿民之众都受制于天子一人，仁人义士尽管是些才能超群智慧绝伦的人
大规模语言模型从理论到实践：智能代理的组成 AGI通用人工智能之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践：智能代理的组成关键词：大规模语言模型、智能代理、自然语言处理、深度学习、知识表示、推理机制、应用场景文章目录大规模语言模型从理论到实践：智能代理的组成1.背景介绍2.核心概念与联系3.核心算法原理&具体操作步骤3.1算法原理概述3.2算法步骤详解3.3算法优缺点3.4算法应用领域4.数学模型和公式&详细讲解&举例说明4.1数学模型构建4.2公式推导过程4.3案例分析与讲
你什么时侯结婚？葵小白
昨天晚上11点接到许久没联系的小企电话，可能是过节吧，大家都在家里，这是我们年后的第一次联系，她跟我说你什么时候结婚？我顿时哑言……接着她跟我说，我要结婚了。我哈哈一笑，你跟谁结呀！就在五个月前，我这姐妹还在想着跟她相恋了四年的男朋友探讨过年回家见双方父母穿什么衣服，带什么礼物，以及准备结婚。可现在呢，最后一次的争吵，断送了四年的感情，她跟我说，我没想过有今天，但却也不感觉难受，反而特别轻松，这一
怎么检测电脑的RAM？丨什么是RAM? 木头分享电脑 RAM
RAM是RandomAccessMemory的缩写，它是一个允许计算机短期存储数据以更快访问的组件。众所周知，操作系统、应用程序和各种个人文件都存储在硬盘驱动器中。当CPU需要调用硬盘上的数据进行计算和运行时，CPU会将数据传输到RAM中进行计算。然后，计算完成后，CPU会将结果传回硬盘进行保存。为什么CPU不直接在硬盘上计算？可能会问这个问题。原因是硬盘驱动器的速度无法达到CPU的速度，而RAM
最重要的事只有一件小茨
想想最近一周的状态，每天都很忙，除了工作就是吃饭睡觉。然而我感觉决定工作有很大一进步的就是一件事做好就能发生翻天覆地的变化，而不是每天做很多事情，很多事情但是没有做到点上就起不到关键的作用。阿基米德说过：“给我一个支点，我将撬动整个地球”，支点就相当于生活工作中的关键点，只有找到关键点我们才能撬动生活工作中的绊脚石。有时候总感觉自己的能力很强，能同时做很多事情，每件事都要做到完美。而这却忽略了很重
ASP.NET Core 入门教程三结合 EFCore 和 SQLite 充值内卷 asp.net sqlite 后端
ASP.NETCore是一个开源的Web框架，它允许开发者轻松地构建现代、高性能的Web应用程序。EntityFrameworkCore(EFCore)是一个轻量级、可扩展的ORM（对象关系映射）框架，它支持多种数据库。SQLite是一个轻量级的嵌入式数据库，适用于小型应用程序。在本篇文章中，我们将学习如何在ASP.NETCore项目中结合EFCore和SQLite。1.创建一个新的ASP.NET
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

Python玩转PDF的各种骚操作

你可能感兴趣的:(Python玩转PDF的各种骚操作)