伤情最是晚凉秋

python 系列 04 - 解析及创建PDF

文章目录

1. python常用pdf库
2.读取测试
- 2.1 PyPDF2 示例及结果
- 2.2 PyPDF4 示例及结果
- 2.3 pikepdf
- 2.4 pdfplumber 示例和结果
- 2.5 PyMuPDF 示例及结果
- 2.6 borb示例及结果
3. 读取PDF
- 3.1 读取PDF元数据信息
- 3.2 获取PDF页信息
- 3.3 提取文本
- 3.4 提取图像
- 3.5 提取表格
- - 3.5.1 表格策略的应用
4 创建PDF
- 4.1 创建文本内容
- 4.2 创建表格
- 4.3 表单
- - 4.3.1 复选框
  - 4.3.2 其它表单元素：
- 4.4 图片
5 一个比较完整的例子

1. python常用pdf库

名称	特点
PyPDF2	已不再维护，继任者PyPDF4 ,但很长时间没有更新了,能读不能写
pdfrw	能读不能写，但可以兼容ReportLab写
ReportLab	商业版的开源版本，能写不能读
pikepdf	能读不能写
pdfplumber	能读不能写
PyMuPDF	读写均可,基于GPL协议
borb	纯Python库，支持读、写,基于GPL协议

其中前几种偏重于读或者写，PyMuPDF和borb读写兼具，但这两个库都基于GPL开源协议，对于商业开发不太友好。

介绍之前，我们通过读取一个已有的PDF中的文字来测试下时提取内容的准确度，pdfrw暂时跳过，因为没有找到其提取文本的api。ReportLab不能读，跳过。

2.读取测试

准备的测试的PDF，截图展示的是第5页内容：

2.1 PyPDF2 示例及结果

#!/usr/bin/python
from PyPDF2 import PdfReader
pdf = PdfReader("yz.pdf")
page = pdf.pages[4]
print(page.extract_text())

内容被正确读取，但是格式变为每行一个字。

2.2 PyPDF4 示例及结果

from PyPDF4 import PdfFileReader

pdf = open('yz.pdf','rb')
reader = PdfFileReader(pdf)
page = reader.getPage(4)
print(page.extractText().strip())

PyPDF4 输出的是内容流,暂无法解析为文本.

2.3 pikepdf

pikepdf 的官方文档上有这么一段话：

If you guessed that the content streams were the place to look for text inside a PDF – you’d be correct. 
Unfortunately, extracting the text is fairly difficult because content stream actually specifies as a font 
and glyph numbers to use. Sometimes, there is a 1:1 transparent mapping between Unicode numbers and 
glyph numbers, and dump of the content stream will show the text. In general, you cannot rely on there 
being a transparent mapping; in fact, it is perfectly legal for a font to specify no Unicode mapping 
at all, or to use an unconventional mapping (when a PDF contains a subsetted font for example).

We strongly recommend against trying to scrape text from the content stream.

pikepdf does not currently implement text extraction. We recommend pdfminer.six, a read-only 
text extraction tool. If you wish to write PDFs containing text, consider reportlab.

如果您猜测内容流是在PDF中查找文本的地方，那么您是正确的。不幸的是，提取文本相当困难，因为内容流实际上指定了要使用的字体和字形
数字。有时，Unicode数字和字形数字之间有1:1的透明映射，内容流的转储将显示文本。一般来说，你不能依赖于一个透明的映射;事实上，
字体完全可以不指定Unicode映射，或者使用非常规的映射(例如，当PDF包含一个子集字体时)。

我们强烈建议不要尝试从内容流中抓取文本。

Pikepdf目前不实现文本提取。我们推荐pdfminer。一个只读文本提取工具。如果您希望编写包含文本的pdf，请考虑reportlab。

2.4 pdfplumber 示例和结果

import pdfplumber

with pdfplumber.open("yz.pdf") as pdf:
    page = pdf.pages[4]
    chars = page.chars
    content = ''
    for char in chars:
        content += char['text']
    print(content)

pdfplumber是按字符读取，上面的示例代码中是对字符进行了拼接。结果如下：

2.5 PyMuPDF 示例及结果

import fitz
doc = fitz.open("yz.pdf")
page = doc.load_page(4)
text = page.get_text("text")
print(text)

这是目前提取文本结果最完美的一个:

$ python e6.py
1897年，在这里，什么都没有发生。
——科罗拉多州伍迪克里克小旅馆墙壁上的牌匾

2.6 borb示例及结果

以下示例代码为官方示例代码:

import typing
from borb.pdf import Document
from borb.pdf import PDF
from borb.toolkit import SimpleTextExtraction

def main():
    # read the Document
    doc: typing.Optional[Document] = None
    l: SimpleTextExtraction = SimpleTextExtraction()
    with open("yz.pdf", "rb") as in_file_handle:
        doc = PDF.loads(in_file_handle, [l])

    # check whether we have read a Document
    assert doc is not None

    # print the text on the first Page
    print(l.get_text()[4])
if __name__ == "__main__":
    main()

  # 处理字体时报错
  File "/home/eva/.local/lib/python3.11/site-packages/borb/pdf/canvas/font/composite_font/font_type_0.py",
   line 86, in character_identifier_to_unicode
    assert encoding_name in ["Identity", "Identity-H"]
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
AssertionError

鉴于以上测试结果,接下来的演示中将使用pdfplumber + Reportlab 来进行.

3. 读取PDF

3.1 读取PDF元数据信息

示例代码很简单，不再解释，直接看代码：

import pdfplumber

with pdfplumber.open("yz.pdf") as pdf:
    print(pdf.metadata)

#返回结果是一个字典，看key就知道是什么属性了。不再解释。
{'ModDate': "D:20220602170530+08'00'", 'Producer': 'calibre 3.23.0 [https://calibre-ebook.com]', 'Title': '无中生有的宇宙', 
'Author': '［加］劳伦斯·克劳斯;王岚译', 'Creator': 'calibre 3.23.0 [https://calibre-ebook.com]', 
'CreationDate': "D:20220505133234+00'00'"}

3.2 获取PDF页信息

示例代码如下：

import pdfplumber

with pdfplumber.open("yz.pdf") as pdf:
    #返回所有页实例
    #这里就不再输出所有的页实例，因为这篇文档有155页，输出结果比较长。
    pages = pdf.pages

    #这里还以第五页为例
    page = pages[4]

    print("页码："+str(page.page_number))
    print("页宽："+str(page.width))
    print("页高："+str(page.height))
    #print("页面包含对象：")
    #print(page.objects)
    #print("页面包含字符：")
    #print(page.chars)
    print("页面包含线条：")
    print(page.lines)
    print("页面包含矩形：")
    print(page.rects)
    print("页面包含曲线：")
    print(page.curves)

    page1 = pages[34]
    print("页面包含图像：")
    print(page1.images)

    page.flush_cache()
    page1.flush_cache()

示例运行结果

页码：5
页宽：612
页高：792
页面包含对象：
{'char': [{'matrix': (0.75, 0.0, 0.0, 0.75, 102.0, 691.5), 'fontname': 'AAAAAB+LiberationSerif', 'adv': 10.0, 
'upright': True, 'x0': 102.0, 'y0': 688.26, 'x1':.... #省略部分
页面包含字符：
[{'matrix': (0.75, 0.0, 0.0, 0.75, 102.0, 691.5), 'fontname': 'AAAAAB+LiberationSerif', 'adv': 10.0, 'upright': True, '
x0': 102.0, 'y0': 688.26, 'x1': 109..... #省略
页面包含线条：
[]
页面包含矩形：
[]
页面包含曲线：
[]
页面包含图像：
[{'x0': 72.0, 'y0': 81.75, 'x1': 540.0, 'y1': 720.0, 'width': 468.0, 'height': 638.25, 'name': 'Image0', 
'stream': <PDFStream(96): raw=289354, {'ColorSpace': /'DeviceRGB', 'Width': 2044, 'BitsPerComponent': 8, 'Length': 289354, 
'Height': 2789, 'DL': 289354, 'Filter': [/'DCTDecode'], 'Type': /'XObject', 'Subtype': /'Image'}>, 'srcsize': (2044, 2789),
 'imagemask': None, 'bits': 8, 'colorspace': [/'DeviceRGB'], 'object_type': 'image', 'page_number': 35, 'top': 72.0, 
 'bottom': 710.25, 'doctop': 27000.0}]

其中char对象的属性如下：

属性	说明
page_number	找到此字符的页码。
text	文本内容例: “z”, 或 “Z” 或 " ".
fontname	字体
size	字号
adv	等于文本宽度字体大小比例因子。
upright	是否垂直
height	文本高度
width	文本高度
x0	其左侧与页面左侧的距离。
x1	其右侧与页面左侧的距离。
y0	其下侧与页面底部的距离。
y1	其上侧与页面底部的距离。
top	其上侧与页面顶部的距离。
bottom	其下侧与页面顶部的距离。
doctop	其顶部与文档顶部的距离。
matrix	其“变换矩阵”。（详见下文）
stroking_color	笔划的颜色，表示为元组或整数，具体取决于使用的“颜色空间”。
non_stroking_color	字体填充颜色
object_type	对象类型:“char”

line对象属性

属性	说明
page_number	其所在的页码
height	高度
width	宽度
x0	其左侧与页面左侧的距离。
x1	其右侧与页面左侧的距离。
y0	其下侧与页面底部的距离。
y1	其上侧与页面底部的距离。
top	其上侧与页面顶部的距离。
bottom	其下侧与页面顶部的距离。
doctop	其顶部与文档顶部的距离。
linewidth	线粗
stroking_color	线条颜色,表示为元组或整数，具体取决于使用的“颜色空间”
non_stroking_color	线条填充颜色。
object_type	对象类型:“line”

rect属性

属性	说明
page_number	其所在的页码
height	高度
width	宽度
x0	其左侧与页面左侧的距离。
x1	其右侧与页面左侧的距离。
y0	其下侧与页面底部的距离。
y1	其上侧与页面底部的距离。
top	其上侧与页面顶部的距离。
bottom	其下侧与页面顶部的距离。
doctop	其顶部与文档顶部的距离。
linewidth	线粗
stroking_color	线条颜色,表示为元组或整数，具体取决于使用的“颜色空间”
non_stroking_color	线条填充颜色。
object_type	对象类型:“rect”

curve属性

属性	说明
page_number	其所在的页码
points	Points — 描述曲线的点列表包含 (x, top) 元组
height	曲线边界框的高度。
width	曲线边界框的宽度。
x0	曲线最左侧点与页面左侧的距离。
x1	曲线最右侧点与页面左侧的距离。
y0	曲线最低点到页面底部的距离。
y1	曲线最高点到页面底部的距离。
top	曲线最高点到页面顶部的距离。
bottom	曲线最低点到页面底部的距离。
doctop	曲线最高点到文档顶部的距离。
linewidth	线粗
fill	是否填充曲线路径定义的形状.
stroking_color	曲线轮廓的颜色，表示为元组或整数，具体取决于使用的“颜色空间”。
non_stroking_color	曲线填充颜色
object_type	对象类型:“curve”

3.3 提取文本

提取文本上面示例演示过了，主要操作就是获取pages,让后循环获取page上的char对象，char对象的text属性里既是文本内容，在循环里拼接text即可。

3.4 提取图像

这里将本文档35页的图片保存为文件：

import pdfplumber

with pdfplumber.open("yz.pdf") as pdf:
    pages = pdf.pages
    page = pages[34]
    img = page.to_image()
    #清除图像
    #img.reset()
    #拷贝图像
    #img.copy()
    #调用本机默认图片查看工具预览图像
    #img.show()
    #保存图像
    img.save("/home/eva/下载/test.png",format="PNG")
    page.flush_cache()

保存的图像：

如果pdf文档是从被的地方抓取，或者批量处理，不知道页面内容的情况下，则可以先判断页面是否包含图像，下面一个示例展示提取PDF文档内的所有图像：

import pdfplumber


with pdfplumber.open("yz.pdf") as pdf:
    #所有页面
    pages = pdf.pages
    for index,page in enumerate(pages):
        #判断页面是否包含图像
        if len(page.images) > 0:
            img = page.to_image()
            img.save("/home/eva/下载/test"+str(index)+".png",format="PNG")
        page.flush_cache()

提取结果，部分截图：

这种方式的不足之处在于，只要页面包含图像，哪怕页面同时包含文字和图像，page.to_image()就会将整个页面转换成图像。而不是只保存图像部分。pdfplumber并没有提供可以精确保存图片的方法，如果对图像边界有精确的要求的话，可以对保存下来的图片进行裁剪，比如,pdfplumber返回的图片对象是有定位的，如下所示：x0是图片距离左边的距离。top是图片距离页面顶部，x0,top即组成图片左上角的座标，x1和bottom组成图片左下角的座标。至于y0,y1计算的是距离页面底部的数据，这里用不到。

[{'x0': 212.25, 'y0': 471.0, 'x1': 399.75, 'y1': 720.0, 'width': 187.5, 'height': 249.0, 
'name': 'Image0', 'stream': <PDFStream(207): raw=204521, {'ColorSpace': /'DeviceRGB', 
'Width': 963, 'BitsPerComponent': 8, 'Length': 204521, 'Height': 1282, 'DL': 204521, 
'Filter': [/'DCTDecode'], 'Type': /'XObject', 'Subtype': /'Image'}>, 'srcsize': (963, 1282), 
'imagemask': None, 'bits': 8, 'colorspace': [/'DeviceRGB'], 'object_type': 'image', 
'page_number': 78, 'top': 72.0, 'bottom': 321.0, 'doctop': 61056.0}]

以下示例代码是截取图片：

import pdfplumber
from PIL import Image

import time


with pdfplumber.open("yz.pdf") as pdf:
    #所有页面
    pages = pdf.pages
    page = pages[77]
    img = page.to_image()
    img.save("/home/eva/下载/test.png",format="PNG")

    #取图像的左上和右下座标
    image = page.images[0]
    x0 = image['x0']
    top = image['top']
    x1 = image['x1']
    bottom = image['bottom']

    page.flush_cache()

    #图片裁剪,此处用到的图片库是pillow
    #pip install pillow 或 pip3 install pillow安装即可
    png = Image.open('/home/eva/下载/test.png')
    region = png.crop((x0,top,x1,bottom))
    region.save('/home/eva/下载/test1.png')

pdfplumber提取出的图片如下：

裁剪后的图片如下：

3.5 提取表格

之前的示例pdf并不包含表格，也没有找到带表格的pdf.所有创建了一个单页PDF，内容如下：

提取表格的示例：

import pdfplumber

with pdfplumber.open("bg.pdf") as pdf:
    #所有页面
    pages = pdf.pages
    for page in pages:
        #获取表格
        tables = page.find_tables()
        if len(tables) > 0:
            #提取表格内容(提取页面所有表格）
            content = page.extract_tables()
            print(content)
            #提取页面最大表格
            #content = page.extract_table()

提取结果：

#返回结果是多维数组，结构为 表 -> 行 -> 单元格
[['Test1', 'Test2', 'Test3', 'Test4', 'Test5'], ['aa', 'bb', 'cc', 'dd', 'ee'], ['ff', 'gg', 'Hh', 'Ii', 'gg']]

其中extract_tables()和extract_table()两个方法可以包含参数，用以配置提取属性，可配置的属性如下：

{
    "vertical_strategy": "lines",
    "horizontal_strategy": "lines",
    "explicit_vertical_lines": [],
    "explicit_horizontal_lines": [],
    "snap_tolerance": 3,
    "snap_x_tolerance": 3,
    "snap_y_tolerance": 3,
    "join_tolerance": 3,
    "join_x_tolerance": 3,
    "join_y_tolerance": 3,
    "edge_min_length": 3,
    "min_words_vertical": 3,
    "min_words_horizontal": 1,
    "keep_blank_chars": False,
    "text_tolerance": 3,
    "text_x_tolerance": 3,
    "text_y_tolerance": 3,
    "intersection_tolerance": 3,
    "intersection_x_tolerance": 3,
    "intersection_y_tolerance": 3,
}

关于以上属性的说明：

配置项	说明
“vertical_strategy”	垂直策略,可选值 “lines”, “lines_strict”, “text”, “explicit”,见后续说明
“horizontal_strategy”	水平策略,可选值 “lines”, “lines_strict”, “text”, “explicit”. 见后续说明
“explicit_vertical_lines”	明确划分表中单元格的垂直线列表。可与上述任何策略结合使用。列表中的项目应该是数字（表示一条直线的x坐标，即页面的全高）或 line/rect/curve对象。
“explicit_horizontal_lines”	明确划分表中单元格的水平线列表。可与上述任何策略结合使用。列表中的项目应该是数字（表示一条直线的y坐标即页面的全高）或 line/rect/curve对象。
“snap_tolerance”, “snap_x_tolerance”, “snap_y_tolerance”	snap_tolerance像素内的平行线将“捕捉”到相同的水平或垂直位置。
“join_tolerance”, “join_x_tolerance”, “join_y_tolerance”	同一条无限线上的线段，其端点在彼此的join_tolerance范围内，将“连接”为一条线段
“edge_min_length”	在尝试重建表之前，将丢弃小于edge_min_length的边
“min_words_vertical”	使用 “horizontal_strategy”: "text"时，至少 min_words_horizontal单词必须共享相同的对齐方式。
“min_words_horizontal”	使用 “horizontal_strategy”: "text"时,至少min_words_horizontal单词必须共享相同的对齐方式。
“keep_blank_chars”	使用 text 策略时, 空格符" "将视为单词的一部分而不是单词分隔符
“text_tolerance”, “text_x_tolerance”, “text_y_tolerance”	当 text 策略搜索单词时，期望每个单词中的单个字母之间的距离不超过text_tolerance像素。
“intersection_tolerance”, “intersection_x_tolerance”, “intersection_y_tolerance”	将边组合到单元格中时，正交边必须在intersection_tolerance 像素范围内才能视为相交。

表格提取策略

vertical_strategy(垂直策略) 及 horizontal_strategy(水平策略)均包含以下选项:

策略	说明
“lines”	使用页面的图形线（包括矩形对象的边）作为潜在表格单元格的边框。
“lines_strict”	使用页面的图形线（而不是矩形对象的边）作为潜在表格单元格的边框。
“text”	对于vertical_strategy（垂直策略）：推导连接页面上单词的左、右或中心的（假想的）行，并将这些行用作潜在表格单元格的边框。对于horizontal_strategy，相同操作，但使用单词的顶部。
“explicit”	仅使用explicit_vertical_lines / explicit_horizontal_lines中明确定义的线。

3.5.1 表格策略的应用

准备pdf的表格内容如下，注意最左边和最右边是没有边框的。

代码示例，使用垂直策略，并将策略模式分别修改为lines,lines_strict,text.

代码示例：

import pdfplumber

with pdfplumber.open("bg1.pdf") as pdf:
    #所有页面
    pages = pdf.pages
    for page in pages:
        #获取表格
        tables = page.find_tables()
        print(tables)
        if len(tables) > 0:
            #提取表格内容(提取页面所有表格）
            content = page.extract_tables()
            print("无策略：")
            print(content)

            
            content1 = page.extract_tables({
                "vertical_strategy":"lines"
            })
            print("垂直策略使用lines：")
            print(content1)

            content2 = page.extract_tables({
                "vertical_strategy":"lines_strict"
            })
            print("垂直策略使用lines_strit：")
            print(content2)

            content3 = page.extract_tables({
                "vertical_strategy":"text"
            })
            print("垂直策略使用text：")
            print(content3)

提取结果：

[<pdfplumber.table.Table object at 0x7fcd17df0410>]
无策略：
[[['公司名称', '经营范围', '注册资本'], ['a', 'b', 'c'], ['f', 'g', 'h']]]
垂直策略使用lines：
[[['公司名称', '经营范围', '注册资本'], ['a', 'b', 'c'], ['f', 'g', 'h']]]
垂直策略使用lines_strit：
[[['经营范围'], ['b'], ['g']]]
垂直策略使用text：
[[['公司名称', '经营范围', '注册资本'], ['a', 'b', 'c'], ['f', 'g', 'h']]]

可以发现，当垂直策略使用lines_strict时，第一列和最后一列的内容没有提取出来。是因为lines_strict只使用明确的图形线来定义列。而lines无图形线时使用潜在的矩形边框。当有图形线时，text模式并不影响结果，text模式主要用于没有图形线时通过文本格式进行推导。

下面准备一个没有图形线的表格：

提取结果：

[<pdfplumber.table.Table object at 0x7fbbf4832d10>]
无策略：
[[['公司名称', '经营范围', '注册资本'], ['a', 'b', 'c'], ['f', 'g', 'h']]]
垂直策略使用lines：
[[['公司名称', '经营范围', '注册资本'], ['a', 'b', 'c'], ['f', 'g', 'h']]]
垂直策略使用lines_strit：
[]
垂直策略使用text：
[[['公司名称', '经营范围', '注册资本'], ['a', 'b', 'c'], ['f', 'g', 'h']]]

可以发现，当lines_strict无法提取内容时，text依旧可以提取内容。lines模式同样可以提取是因为使用了潜在的矩形边框，因为pdf的内容是由excel拷贝并生成的。下面准备无格式的内容，:

代码示例：

import pdfplumber

with pdfplumber.open("bg1.pdf") as pdf:
    #所有页面
    pages = pdf.pages
    for page in pages:
        #获取表格
        tables = page.find_tables()
        print("页面表格：")
        print(tables)

        #提取表格内容(提取页面所有表格）
        content1 = page.extract_tables({
            "vertical_strategy":"lines"
        })
        print("垂直策略使用lines：")
        print(content1)
        
        content2 = page.extract_tables({
            "vertical_strategy":"lines_strict"
        })
        print("垂直策略使用lines_strit：")
        print(content2)
        
        content3 = page.extract_tables({
            "vertical_strategy":"text"
        })
        print("垂直策略使用text：")
        print(content3)

提取结果如下：

页面表格：
[]
垂直策略使用lines：
[]
垂直策略使用lines_strit：
[]
垂直策略使用text：
[]

相当于纯文本，无识别出表格，下面添加一些边框，让数据有一些格式：

提取结果：

页面表格：
[]
垂直策略使用lines：
[]
垂直策略使用lines_strit：
[]
垂直策略使用text：
[[['公司名称', '经营范围']]]

总的来说，当页面有规范的表格时，不利用策略模式，即无参方法提取即可。当页面无表格时，但有规范格式的数据时，可使用text策略模式提取。

水平策略同样如此，只是水平策略的lines_strict结果取决于表格内容的横向边框（图形线）。在此就不多做介绍了。

4 创建PDF

创建pdf采用reportlab.首先pip3 install reportlab 安装库。

4.1 创建文本内容

使用reportlab创建中文时，需要进行字体注册，所以生成文档前请事先准备好中文字体。一个简单的示例：

# coding:utf-8

from reportlab.pdfbase import pdfmetrics
from reportlab.pdfbase.ttfonts import TTFont
from reportlab.lib.styles import ParagraphStyle
from reportlab.platypus import SimpleDocTemplate,Paragraph
from reportlab.lib.pagesizes import letter, A4



#字体注册，第一个参数可以自定义，第二个参数你准备好的字体文件。
pdfmetrics.registerFont(TTFont('yymt', 'yymt.ttf'))

#段落样式
style = ParagraphStyle(name='Normal', #标准样式
                       fontName='yymt', #注册的字体名称
                       fontSize=14, #字体大小
                       leading = 22, #行距
                       )

#准备文本内容
text = '我是被你囚禁的鸟，已经忘了天有多高，如果离开你给我的小小城堡，不知还有谁能依靠，我是被你囚禁的鸟，得到的爱越来越少，看着你的笑在别人眼中燃烧，我却要不到一个拥抱。'

#段落，第一个参数为内容，第二个参数是上面定义的段落样式
pg = Paragraph(text,style)

#创建文档,参数时文档保存位置，和页面大小
doc = SimpleDocTemplate("test.pdf",pagesize=A4)

#文档内容拼接，这里简单重复了5次上面的段落
content = []
for i in range(1,6):
    content.append(pg)

#生成文档，参数为一个列表，如果只有一个段落，也要定义成list
doc.build(content)

生成的文档内容如下：

4.2 创建表格

Reportlab中表格对象的属性：

Table(
	data, # 单元格值
	colWidths=None, # 列宽
	rowHeights=None, # 行高
	style=None,	 # 样式
	splitByRow=1, #按行拆分表格，当前空间显示不下时是否按行拆分表格
	repeatRows=0, #表格拆分时重复的前导行
	repeatCols=0, #此参数会被忽略，因为目前无法按列拆分表格。
	rowSplitRange=None, #用于控制将表拆分为其行子集
	spaceBefore=None, #表前放置额外空间
	spaceAfter=None, #表后放置额外空间
)

一个简单的示例：

from reportlab.platypus.tables import Table, TableStyle
from reportlab.lib import colors
from reportlab.lib.units import inch
from reportlab.platypus import SimpleDocTemplate, Paragraph, Table, TableStyle
from reportlab.pdfbase import pdfmetrics
from reportlab.pdfbase.ttfonts import TTFont

#字体注册，第一个参数可以自定义，第二个参数你准备好的字体文件。
pdfmetrics.registerFont(TTFont('yymt', 'yymt.ttf'))

#内容列表
content = []
#表格数据
data = [
    ['测试表格', '', '', '', '', ''],
    ['标题1', '标题2', '标题3', '标题4', '标题5', '标题6'],
    ['11', '12', '13', '14', '15', '16'],
    ['21', '22', '23', '24', '25', '26'],
    ['31', '32', '33', '34', '35', '36']
]

#表格(不设置单元格宽高时，单元格宽高由内容自动撑开）
#table = Table(data)
#表格（单元格宽高设置）
table = Table(data,6*[inch],5*[0.3*inch])
#表格样式（参数是一个元组列表）
#每个元组的第一个元素是代表要设置的样式，后面两个元组是单元格范围，格式为(列，行)
style = TableStyle([
    #比如设置前两行文字颜色为橘色（从第一列第一个单元格，到最后一列第二个单元格）
    ('TEXTCOLOR',(0,0),(-1,1),colors.orange),
    #从第三行行文字颜色为灰色
    ('TEXTCOLOR',(0,2),(-1,-1),colors.grey),
    #最后一个单元格颜色为红色
    ('TEXTCOLOR',(-1,-1),(-1,-1),colors.red),
    #设置内边距
    ('INNERGRID', (0,0), (-1,-1), 0.25, colors.grey),
    #设置外边距
    ('BOX', (0,0), (-1,-1), 1, colors.pink),
    #前三行设置中文字体
    ("FONTNAME",(0,0), (-1,2), 'yymt'),
    #所有单元格内容居中
    ('ALIGN', (0,0), (-1,-1), 'CENTER'),
    #首行合并
    ('SPAN',(0,0),(-1,0))
    ])
#为表格添加定义好的表格样式
table.setStyle(style)

#将表格追加到内容列表中
content.append(table)
#生成文档
doc = SimpleDocTemplate('test1.pdf')
doc.build(content)

生成的表格如下：

其中tableStyle 可设置的样式，来自官方文档的自动翻译，你们应该看得懂：

FONT -采用字体名称，可选字体大小和可选前导。
FONTNAME(或FACE) -采用字体名称。
FONTSIZE(或SIZE) -以点为 单位的字体大小
LEADING -以点为单位的字符间距
TEXTCOLOR -接受颜色名称或(R,G,B)元组。
ALIGNMENT (or ALIGN)-取左，右和中心(或中心)或十进制之一。
LEFTPADDING -接受一个整数，默认为6。
RIGHTPADDING -接受一个整数，默认为6。
BOTTOMPADDING -接受一个整数，默认为3。
TOPPADDING -接受一个整数，默认为3。
BACKGROUND -接受由对象、字符串名或数字元组/列表定义的颜色，或接受一个列表/元组，
描述所需的渐变填充包含三个表单元素[DIRECTION, startColor, endColor] 其中方向为垂直或水平。
rowbackground -获取一个要循环使用的颜色列表。
colbackground -获取一个要循环使用的颜色列表。
VALIGN -接受TOP, MIDDLE或默认BOTTOM中的一个

4.3 表单

4.3.1 复选框

from reportlab.pdfgen import canvas
from reportlab.pdfbase import pdfform
from reportlab.lib.colors import magenta, pink, blue, green
from reportlab.pdfbase import pdfmetrics
from reportlab.pdfbase.ttfonts import TTFont

#字体注册
pdfmetrics.registerFont(TTFont('yymt', 'yymt.ttf'))

#Canvas是reportlab绘制操作的接口
#需要注意的时canvas绘制时页面会被当作一张画布
#其原点座标(0,0)是在页面左下角.
c = canvas.Canvas('test2.pdf')

#定义标题
c.setFont("yymt", 20)
#绘制居中文本，前两个参数为座标
#表示在距离左边300，距离下部700，单位是点
#1毫米大概是2.8个点。
c.drawCentredString(300, 700, '爱好')

#表单：
form = c.acroForm

#复选框项
c.drawString(10, 650, '篮球')
#复选框1
form.checkbox(name='lq', tooltip='篮球',
              x=110, y=645, buttonStyle='check',
              borderColor=magenta, fillColor=pink, 
              textColor=blue, forceBorder=False)
#复选框2
c.drawString(10, 600, '足球')
form.checkbox(name='zq', tooltip='足球',
              x=110, y=595, buttonStyle='cross',
              borderColor=magenta, fillColor=green, 
              textColor=blue, forceBorder=True)
#复选框3
c.drawString(10, 550, '电影')
form.checkbox(name='zq', tooltip='电影',
              x=110, y=545, buttonStyle='circle',
              borderColor=magenta, 
              textColor=blue, forceBorder=True)
c.save()

生成的内容如下所示，复选框选中时的样子：

以下是checkbox可设置选项：

参数	说明	默认值
name	名称	None
x	x坐标	0
y	y坐标	0
size	轮廓尺寸大小（x大小）	20
checked	是否选中	False
buttonStyle	按钮样式	'check'
shape	阴影	'square'
fillColor	填充色	None
textColor	文字颜色	None
borderWidth	边框宽度	1
borderColor	边框颜色	None
borderStyle	边框样式	'solid'
tooltip	鼠标悬停提示	None
annotationFlags	注释标志的空白分隔字符串	'print'
fieldFlags	空格分隔字段标志	'required'
forceBorder	是否强制边界	False
relative	是否相对定位	False
dashLen	如果borderStyle=='dashed'，则使用dashline	3

4.3.2 其它表单元素：

# coding: gbk

from reportlab.pdfgen import canvas
from reportlab.pdfbase import pdfform
from reportlab.lib.colors import magenta, pink, blue, green
from reportlab.pdfbase import pdfmetrics
from reportlab.pdfbase.ttfonts import TTFont

def form_example():
    c = canvas.Canvas('d:/example.pdf')

    pdfmetrics.registerFont(TTFont('st', 'hpsimplifiedhans-regular.ttf'))
    
    c.setFont("st", 14)
    form = c.acroForm

    #--------------------   单选按钮  -----------------------
    c.drawString(10, 650, '篮球:')
    form.radio(name='radio1', tooltip='Field radio1',
               value='value1', selected=False,
               x=60, y=645, buttonStyle='check',
               borderStyle='solid', shape='square',
               textColor=blue, forceBorder=True)
    form.radio(name='radio1', tooltip='Field radio1',
               value='value2', selected=True,
               x=60, y=645, buttonStyle='check',
               borderStyle='solid', shape='square',
               borderColor=magenta, fillColor=pink, 
               textColor=blue, forceBorder=True)
    
    c.drawString(110, 650, '电影:')
    form.radio(name='radio2', tooltip='Field radio2',
               value='value1', selected=True,
               x=150, y=645, buttonStyle='cross',
               borderStyle='solid', shape='circle',
               borderColor=green, fillColor=blue, 
               borderWidth=2,
               textColor=pink, forceBorder=True)
    form.radio(name='radio2', tooltip='Field radio2',
               value='value2', selected=False,
               x=150, y=645, buttonStyle='cross',
               borderStyle='solid', shape='circle',
               borderColor=green, fillColor=blue, 
               borderWidth=2,
               textColor=pink, forceBorder=True)

    #-------------------- 下拉列表 -------------------
    c.setFont("st", 14)
    c.drawString(10, 600, '爱好1:')
    options = [('A','A'),'B',('C','C'),('D','D'),'E',('F',),('G','G')]
    form.choice(name='choice',
                tooltip='爱好',
                value='A',
                x=60,y=595, width=72, height=20,
                borderColor=magenta, fillColor=pink, 
                textColor=blue, forceBorder=True, options=options)

    #-------------------- 列表框 -------------------
    c.drawString(10, 560, '爱好2:')
    options1 = [('A','A'),'B',('C','C'),('D','D'),'E',('F',),('G','G')]
    form.listbox(name='listbox1', value='A',
                x=60, y=500, width=72, height=72,
                borderColor=magenta, fillColor=pink, 
                textColor=blue, forceBorder=True, options=options1,
                fieldFlags='multiSelect')

    #--------------------- 输入框 -------------------------
    c.drawString(10, 460, '用户名:')
    form.textfield(name='uname', tooltip='User Name',
                   x=60, y=455, borderStyle='inset',
                   borderColor=magenta, 
                   width=300,height=28,
                   textColor=blue, forceBorder=True)
    
    c.drawString(10, 420, '密码:')
    form.textfield(name='upass', tooltip='Password',
                   x=60, y=415, borderStyle='inset',
                   borderColor=green, fillColor=magenta, 
                   width=300,
                   textColor=blue, forceBorder=True)


    c.save()
    
if __name__ == '__main__':
    form_example()

结果如下：

4.4 图片

# coding: utf-8

from reportlab.platypus import SimpleDocTemplate,Image
def image_example():
    
    doc = SimpleDocTemplate("example.pdf")

    content = []
    
    img = Image("test.bmp",200,40)
    content.append(img)


    doc.build(content)
if __name__ == '__main__':
    image_example()

生成结果：

5 一个比较完整的例子

源代码及素材：
源码及素材https://gitcode.net/momo1938/python-pdf
下面是源码：

# coding:utf-8
from reportlab.lib.styles import getSampleStyleSheet #样式库
from reportlab.platypus import BaseDocTemplate, Frame, PageTemplate, Paragraph,Image
from reportlab.pdfbase import pdfmetrics #字体注册
from reportlab.pdfbase.ttfonts import TTFont #字体
from reportlab.lib.units import cm #尺寸
from reportlab.lib import colors # 颜色
from reportlab.lib.pagesizes import A4 #页面尺寸
from reportlab.pdfgen import canvas
from reportlab.platypus.tables import Table, TableStyle


#字体注册，注册两种字体为了方便不同形式的内容展示
#注意字体文件(ttf文件）一定要存在
pdfmetrics.registerFont(TTFont('yymt', 'yymt.ttf'))
pdfmetrics.registerFont(TTFont('fs', 'fs.ttf'))


#页眉页脚样式
def headerFooterStyle():
    styles = getSampleStyleSheet() 
    styleN = styles['Normal']
    styleN.fontName = "fs" #
    styleN.fontSize = 10
    styleN.textColor = colors.gray
    styleN.alignment = 1 #居中

    return styleN

#标题样式
def titleStyle():
    styles = getSampleStyleSheet() 
    styleN = styles['Normal']
    styleN.fontName = "yymt" # 字体
    styleN.fontSize = 15 # 字体大小
    styleN.alignment = 1 #居中，居左为0
    styleN.spaceBefore = 10 # 段前间距
    styleN.spaceAfter = 20 # 段后间距
    
    return styleN

#正文样式
def textStyle():
    styles = getSampleStyleSheet() 
    styleN = styles['Normal']
    styleN.fontName = "yymt"
    styleN.fontSize = 12
    styleN.leading = 24 # 行距
    styleN.firstLineIndent = 24 #首行缩进2个字(fontSize的2倍)
    return styleN

#图例文字样式
def examStyle():
    styles = getSampleStyleSheet() 
    styleN = styles['Normal']
    styleN.fontName = "fs"
    styleN.fontSize = 12
    styleN.leading = 24 # 行距
    styleN.alignment = 1
    styleN.spaceBefore = 10 
    styleN.spaceAfter = 20
    
    return styleN

#表格样式
def tableStyle():
    style = TableStyle([
    ('TEXTCOLOR',(0,0),(-1,0),colors.white), #第一行文字颜色
    ('BACKGROUND', (0,0), (-1,0), colors.lightblue), #第一行背景色
    ('TEXTCOLOR',(0,2),(-1,-1),colors.grey),
    ('INNERGRID', (0,0), (-1,-1), 0.25, colors.grey), #内边框粗细和颜色
    ('BOX', (0,0), (-1,-1), 2, colors.gray), #外边框粗细和颜色
    ("FONTNAME",(0,0), (-1,-1), 'yymt'), #所有单元格设置中文字体
    ('ALIGN', (0,0), (-1,-1), 'CENTER'), #水平居中所有单元格
    ('VALIGN', (0,0), (-1,-1), 'MIDDLE'), #垂直居中所有单元格
    ('SPAN',(0,0),(-1,0)),#第一行合并单元格
    ('FONTSIZE',(0,0),(-1,0),16)#第一行文字大小
    ])

    return style

# 页脚（这里页脚只有页码）
def footer(canvas, doc):
    canvas.saveState()
    pageNumber = ("%s" %canvas.getPageNumber())
    p = Paragraph(pageNumber, headerFooterStyle())
    w, h = p.wrap(doc.width, doc.bottomMargin)

    #-1cm的目的是为了让页码在2cm的下边距里上下居中
    p.drawOn(canvas,doc.leftMargin,doc.bottomMargin-1*cm)
    canvas.restoreState()

#页眉
def header(canvas, doc):
    canvas.saveState()
    p = Paragraph("测试公司张三2021年度工作报告", headerFooterStyle())
    w,h = p.wrap(doc.width, doc.topMargin)
    p.drawOn(canvas, doc.leftMargin, doc.bottomMargin+ doc.height + 1*cm)
    canvas.setStrokeColor(colors.gray)
    #画线（页眉底部的横线）
    canvas.line(doc.leftMargin, doc.bottomMargin+doc.height + 0.5*cm, doc.leftMargin+doc.width, doc.bottomMargin+doc.height + 0.5*cm)
    canvas.restoreState()

if __name__ == '__main__':
    #文档属性，保存路径，页面大小和页边距
    doc = BaseDocTemplate("e11.pdf", pagesize = A4,topMargin = 2*cm, bottomMargin = 2*cm)
    #内容区域
    frame= Frame(doc.leftMargin, doc.bottomMargin, doc.width, doc.height, id='normal')
    #页面模板
    template = PageTemplate(id='e11', frames=frame, onPage=header, onPageEnd=footer)
    doc.addPageTemplates([template])

    #页首图片
    img = Image("top.jpg")
    img.drawWidth = doc.width
    img.drawHeight = 200

    #标题
    title = Paragraph("2021年度工作报告", titleStyle())

    content = []
    content.append(img)
    content.append(title)

    #正文（从文本文件中读取一段文字）
    file1 = open('text1.txt','r')
    file_text = file1.read()
    ps = file_text.split("\n")
    for p in ps:
        text = Paragraph(p, textStyle())
        content.append(text)
    file1.close()

    #表格
    table_data = [
        ['销售业绩表', '', '', '', '', ''],
        ['员工编号', '员工姓名', '1月销售额', '2月销售额', '3月销售额', '季度总额'],
        ['2101', '李聪', '31500', '27470', '43510', '102480'],
        ['2102', '刘表', '57210', '45473', '36980', '140763'],
        ['2103', '刘香山', '455100', '33150', '37420', '116080'],
        ['2104', '王宗艺', '58870', '39760', '56890', '1555200'],
        ['2105', '张军', '36910', '26150', '43850', '106910'],
        ['2106', '李娜', '66240', '47950', '67610', '181800'],
        
    ]
    table = Table(table_data,6*[2.5*cm],8*[1*cm])
    table.setStyle(tableStyle())
    content.append(table)

    #添加一个表格的说明：
    exam1 = Paragraph("表一：第一季度销售表", examStyle())
    content.append(exam1)

    #再次读入一段文字
    file2 = open('text2.txt','r')
    file_text2 = file2.read()
    ps2 = file_text2.split("\n")
    for p in ps2:
        text = Paragraph(p, textStyle())
        content.append(text)
    file2.close()
    
    doc.build(content)

生成的文档预览：

你可能感兴趣的:(python,系列,python,pdf,开发语言)

Java后端开发技术详解小二爱编程· java 开发语言
Java作为一门成熟的编程语言，已广泛应用于后端开发领域。其强大的生态系统和广泛的支持库使得Java成为许多企业和开发者的首选后端开发语言。随着云计算、微服务架构和大数据技术的兴起，Java后端开发的技术栈也不断演进。本文将详细介绍Java后端开发的核心技术，包括Java基础、常见框架、数据库操作、缓存技术、异步编程等。1.Java基础：理解面向对象的编程Java是一种面向对象的编程语言，面向对象
力扣 160 - Intersection of Two Linked Lists. (相交链表) Python双指针小杨快没头发了 Leetcode 刷题
力扣160-IntersectionofTwoLinkedLists.(相交链表)Python双指针原题地址：https://leetcode.com/problems/intersection-of-two-linked-lists/Giventheheadsoftwosinglylinked-listsheadAandheadB,returnthenodeatwhichthetwolistsi
Opencv之计算机视觉一闭月之泪舞计算机视觉计算机视觉 opencv python
一、环境准备使用opencv库来实现简单的计算机视觉。需要安装两个库：opencv-python和opencv-contrib-python，版本可以自行选择，注意不同版本的opencv中的某些函数名和用法可能不同pipinstallopencv-python==3.4.18.65-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallopencv-
Flowable 6.6.0应用指南 - Flowable UI应用安装月满闲庭 #应用指南中英文对照版
培训视频推荐CSDN上提供了Flowable6.6.0的系列培训视频课程，欢迎有兴趣的朋友前往学习。《Flowable流程入门课程》《Flowable流程高级课程》《Flowable从入门到精通》Flowable6.6.0用户指南相关文档下载BPMN用户指南第一部分-中文PDF精编版BPMN用户指南第二部分-中文PDF精编版BPMN用户指南第三部分-中文PDF精编版应用程序指南-中文PDF精编版应
vscode如何找letax模板_VScode如何实时预览LaTeX？ weixin_39789327
好像感觉我要火了,这个必须专业回答下啊,看完别忘了点赞啊!!用户友好型实时预览的定义即不用手动编译,不用手动刷新文档(PDF)的LaTeX写作方式.实现方式与工具目前主要用的是Latexmk这个perl脚本或者支持实时预览的Markdown编辑器.关于TeX集成系统的一个建议个人建议用TeXLive而非MikTeX甚至CTeX套装,相比而言我用TeXLive时碰到的问题最少.后两种你可能发现好好的
VSCode python 遇到的问题：vscode can't open file '': [Errno 2] No such file or dire... weixin_33984032 python 开发工具 json
代码很简单，就两行：importpandasaspdimportnetCDF4asncdataset=nc.Dataset('20150101.nc')环境：在VSCode中左下角把原环境的Python3.6.532-bit切换为Anaconda中的Python3.6.564-bit('base':conda)过程中有两种错误：（忘记截图了，都是历史记录中的google网页搜索栏找到的搜索记录）1
【测试工程师必备！】VS Code好用插件FastPytestRunner 花小田 pytest vscode
你是否还在为PythonTestExplorerforVisualStudioCode以下痛点焦头烂额？•测试扫描慢到怀疑人生，每次启动都要等待5分钟•调试时总是找不到断点入口，配置项复杂到崩溃•传统测试工具无法满足大规模测试需求•每次切换项目都要重新配置测试环境FastPytestRunner——专为测试工程师量身打造的极速测试利器来了！️实战进阶技巧：✅配置黄金法则：{"pytestRunne
【零基础入门】一篇弄懂nn.Sequential以及ModuleList的使用（呕心沥血版）十二月的猫 PyTorch深度学习 pytorch 零基础入门
个人主页：十二月的猫-CSDN博客系列专栏：《PyTorch科研加速指南：即插即用式模块开发》CSDN博客十二月的寒冬阻挡不了春天的脚步，十二点的黑夜遮蔽不住黎明的曙光目录1.前言2.Sequential类的使用2.1序列容器简单注入2.2序列容器字典注入2.3序列容器函数注入2.4序列容器修改2.5序列容器删除3.nn.ModuleList()的使用3.1定义模型3.2使用模型4.总结1.前言《
如何用 Python 实现树结构不辉放弃 python 开发语言
一、树结构基础认知1.1树的四大特征层级关系：父子节点的从属关系唯一根节点：访问起点无循环：从根到叶的路径不形成环N叉分支：每个节点可有多个子节点1.2核心组件解析classTreeNode:def__init__(self,data):self.data=data#节点存储的数据self.children=[]#子节点容器（多叉树特性）defadd_child(self,node):self.c
Python 用户账户(让用户拥有自己的数据) 钢铁男儿 Python 从入门到精通 python 数据库 sqlite
Web应用程序的核心是让任何用户都能够注册账户并能够使用它，不管用户身处何方。在本章中，你将创建一些表单，让用户能够添加主题和条目，以及编辑既有的条目。你还将学习Django如何防范对基于表单的网页发起的常见攻击，这让你无需花太多时间考虑确保应用程序安全的问题。然后，我们将实现一个用户身份验证系统。你将创建一个注册页面，供用户创建账户，并让有些页面只能供已登录的用户访问。接下来，我们将修改一些视图
Python 用户账户(让用户能够输入数据) 钢铁男儿 Python 从入门到精通 python 数据库 sqlite
Web应用程序的核心是让任何用户都能够注册账户并能够使用它，不管用户身处何方。在本章中，你将创建一些表单，让用户能够添加主题和条目，以及编辑既有的条目。你还将学习Django如何防范对基于表单的网页发起的常见攻击，这让你无需花太多时间考虑确保应用程序安全的问题。然后，我们将实现一个用户身份验证系统。你将创建一个注册页面，供用户创建账户，并让有些页面只能供已登录的用户访问。接下来，我们将修改一些视图
安卓编译安装python_一文了解如何在安卓系统上安装Pydroid 3并进行编码 weixin_39916681 安卓编译安装python
由于Pydroid3集成开发环境(IDE)，因此可以用Python进行可移植的编码。Pydroid是Python3的极简解释器，可让您执行较小的项目并在Android设备上进行最少的编码。如果您还想在没有PC的任何地方学习Python编程，同时在Android上为Python复制PC平台，那么Pydroid3是一个不错的应用程序。无论您是Python编程的新手还是专家，让我们看看使用Pydroid
python为什么需要文本编辑器-推荐几款高效的Python文本编辑器| 高效的文本编辑器的特点是什么... weixin_39991305
我们都知道程序员花费大量的时间在编写、阅读和编辑代码上，因此一定要使用高效的文本编辑器才能够提高并很好的完成工作的效率和保证工作的质量。什么是高效的文本编辑器呢？除了自己用的得心应手外，小编认为还应该包含以下几个特点：·突出代码的结构，让你在编写代码时就能够发现常见的bug；·包含自动缩进功能；·显示代码长度的标志；·用于执行常见操作的快捷键；如果你是编程新手小白，小u非常建议你使用具备上述功能而
【MySQL】实战篇—数据库设计与实现：根据需求设计数据库架构 AI人H哥会Java MySQL sql mysql 数据库
在设计数据库架构时，开发者需要遵循一系列步骤，以确保数据库能够高效、可靠地满足系统需求。以下是设计数据库架构的理论知识和步骤说明。1.需求分析需求分析是数据库设计的第一步，旨在理解系统的功能需求和数据需求。通过与利益相关者（如用户、开发人员和业务分析师）进行沟通，明确系统需要存储和管理的数据类型。步骤说明识别业务需求：确定系统的主要功能，例如用户管理、订单处理、库存管理等。收集数据需求：明确每个功
一文读懂Python列表（5）跟着杰哥学Python python
列表让你能够在一个地方存储成组的信息，其中可以只包含几个元素，也可以包含数百万个元素，列表是新手可直接使用的最强大的Python功能之一。一、列表是什么1.列表由按顺序排列的元素组成，用[]表示列表，用逗号分隔元素2.举例：bicycles=['trek','cannondale','redline','specialized']二、列表的索引1.第一个列表元素的索引为0，而不是12.举例：三、访
一文读懂Python异常（16）跟着杰哥学Python python
Python程序执行期间发生的错误叫做异常，如果你编写了处理异常的代码，程序将继续执行；如果未编写处理异常的代码，程序将停止，并返回一条traceback，其中包含异常的报告。通常使用try-except代码块来处理异常。一、try-except代码块1、如果try代码块的代码运行起来没问题，则跳过except代码块；如果try代码块的代码导致了错误，则运行except代码块。2、举例二、try-
一文读懂Python之random模块（31）跟着杰哥学Python python
random模块是Python的内置标准库，用于生成各类随机数，可以用作生成网站初始登录密码和随机验证码。一、random模块简介random模块可以生成随机数，包括随机整数、浮点数、随机元素等。二、random模块相关概念随机数：是指在一定范围内随机产生的数，每个数被选中的概率相等。随机数最重要的特性是其后产生的数与前面的数毫无关系，即随机性、不可预测性和不可重现性。三、random模块常用方法
五个冷门的Adobe系列软件小技巧 reddingtons adobe
在当今的数字时代，Adobe系列软件在设计、视频编辑和创意制作领域占据着重要地位。许多学校和教育机构为学生提供教育邮箱，允许他们免费使用Adobe全系列软件的教育订阅。这意味着无论是Photoshop、Illustrator还是PremierePro等热门软件，学生都能轻松获取。然而，本文将分享一些冷门的Adobe软件小技巧，这些技巧主要适用于付费用户，可能不适用于某些免费用户。小技巧一：使用Ad
echarts map3D区域颜色单独设置浪漫不敌风月 echarts echarts 前端 3d
效果图：实现：用的是map3D，之前试了下geo3d因为版本问题不好控制（地图上字体颜色都没法设置）只需要在series的data中加上你要标色的区域名称和颜色即可。此效果实现的是无图例着色。series:[{type:"map3D",//系列类型name:"map3D",//系列名称map:"yuhang",//地图类型。data:[{name:"鸬鸟镇",itemStyle:{color:"#
应用-构建并优化 Python 的 Rust 扩展李星星BruceL 自动化测试 python rust 开发语言
目录构建并优化Python的Rust扩展如果你的Python代码运行速度不够快，你可以选择使用编译语言来编写更快的扩展。本文将重点介绍Rust，它具有以下优势：现代工具链，包括名为crates.io的包仓库和内置的构建工具（cargo）。出色的Python集成和工具支持。Rust的Python支持包是PyO3。对于打包，你可以使用setuptools-rust来与现有的setuptools项目集成
超详细Python教程——初识Python 月流霜 python 数据库服务器
初识Python温馨提示：2018年创建这个仓库的时候，关于Python语言基础这个部分的内容写得相对是比较粗糙，对粗学者可能不是那么友好。如果你正好是一名初学者，建议你移步到我的另一个仓库Python-for-Freshmen-2023，这个仓库对初学者更加友好，对应的内容，大家也可以在我的知乎专栏“从零开始学Python”中找到，点击进入传送门。Python简介Python的历史1989年圣诞
Python自制文本编辑器 Xiaoqing461 python 开发语言
Python自制文本编辑器。随便写的半成品fromtkinterimport*fromtkinterimportfiledialog,messageboxclassFindWindow:def__init__(self,parent):self.parent=parentself.find_window=Toplevel(parent)self.find_window.title("Find")s
【地图 Map3d】——2 花花 Show Python pyecharts—从0到精通信息可视化数据分析 python
解锁数据可视化的魔法钥匙——pyecharts实战指南在这个数据为王的时代，每一次点击、每一次交易、每一份报告背后都隐藏着无尽的故事与洞察。但你是否曾苦恼于如何将这些冰冷的数据转化为直观、吸引人的视觉盛宴？欢迎来到《pyecharts图形绘制大师班》在这里，你将不再受限于单调的表格和图表，而是学会如何运用pyecharts这一强大的Python数据可视化库，将复杂的数据转化为令人惊叹的交互式图形。
端到端的NLP框架（Haystack） deepdata_cn NLP 自然语言处理人工智能
Haystack是一个端到端的NLP框架，专门用于构建基于文档的问答系统，是实现RAG的理想选择。它提供了数据预处理、文档存储、检索和生成等一系列组件，支持多种语言模型和检索器。提供可视化界面，方便用户进行配置和调试；支持多模态数据，可处理文本、图像等多种类型的数据；具有可扩展性，可根据需求添加自定义组件。2020年在自然语言处理技术快速发展，对高效、易用且灵活的端到端NLP框架需求日益增长的背景
python垃圾分类游戏_垃圾分类就要来了？教你使用Python轻松完成垃圾分类 weixin_39627390 python垃圾分类游戏
从7月1日起，上海市正式实施《上海市生活垃圾管理条例》。条例规定，个人混合投放垃圾今后可最高罚200元，单位混装混运，最高可罚至5万元，而且违规还将会列入征信，堪称“史上最严垃圾分类措施”。相信最近一段时间大家已经被上海的小伙伴们因为垃圾分类的困扰而刷屏了，就在大家还在一片“与我无瓜”中暗自庆幸时，现实给了我们一击：该来的总要来，谁都逃不过去。其实，在我国垃圾分类的举措要从2000年开始，但效果并
C++学习：六个月从基础到就业——C++基础语法回顾：数据类型、变量与常量 superior tigre C++学习：六个月从基础到就业 c++学习
C++学习：六个月从基础到就业——C++基础语法回顾：数据类型、变量与常量本文是"C++学习：六个月从基础到就业"系列的第一篇技术文章，主要回顾C++的基本数据类型、变量定义和常量使用，为后续深入学习打下基础。查看完整系列目录了解更多内容。引言编程的本质是对数据的处理，而数据类型、变量与常量是任何编程语言的基础构建块。在C++中，对这些基础概念的深入理解不仅能让我们编写出正确的代码，还能帮助我们编
灰狼优化算法（Grey Wolf Optimization, GWO）及其 Python 代码追蜻蜓追累了算法 python github pycharm jupyter matlab numpy
灰狼优化算法（GreyWolfOptimization,GWO）是一种基于灰狼社会行为觅食过程而设计的优化算法。其基本原理是模拟灰狼群体中个体的协作和竞争行为，以迭代更新的方式寻找最优解。灰狼优化算法涉及三种灰狼的角色：alpha（α）、beta（β）和delta（δ），它们分别代表群体中的优势个体。算法包括初始化灰狼位置、计算适应度值、更新灰狼位置等步骤。以下是一个简单的Python示例代码，实
【江协STM32】11-2/3 W25Q64简介、软件SPI读写W25Q64 冰糖雪莲IO stm32 嵌入式硬件单片机
1.W25Q64简介W25Qxx系列是一种低成本、小型化、使用简单的非易失性存储器，常应用于数据存储、字库存储、固件程序存储等场景存储介质：NorFlash（闪存）时钟频率：80MHz/160MHz(DualSPI)/320MHz(QuadSPI)存储容量（24位地址）：W25Q40：4Mbit/512KByteW25Q80：8Mbit/1MByteW25Q16：16Mbit/2MByteW25Q
编译QT5.15.2 qtwebengine模块以支持mp4 m0_74822999 qt 开发语言
由于版权限制，Qt官方无法在其二进制包中提供某些解码器，这导致QtWebEngine无法支持一些常见的视频格式（如MP4）。为了解决这一问题，我们可以通过重新编译QtWebEngine来集成所需的解码器一、编译准备1.获取源码qtwebengine-everywhere-src-5.15.2.zip2.编译环境Python2.7.5:Python2.7.5Perl:StrawberryPerlfo
25. 策略模式智想天开设计模式详解策略模式 bash 开发语言
原文地址:策略模式更多内容请关注：智想天开1.策略模式简介策略模式（StrategyPattern）是一种行为型设计模式，它定义了一系列算法，将每一个算法封装起来，并使它们可以相互替换。策略模式让算法的变化独立于使用算法的客户。通过引入策略模式，可以在不修改客户端代码的情况下，动态地更改对象的行为。关键点：算法封装：将不同的算法封装到独立的策略类中。互换性：策略类可以相互替换，客户端可以根据需要选
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR