冰__蓝

Python处理PDF——PyMuPDF中图像的使用（2）

文章目录

1、从文档页面生成图像
- page.get_pixmap()参数
2、提升图像分辨率
3、创建部分像素贴图（`Clips`）
4、PDF文档提取图像
- 如何获取`xref`的值呢？
5、处理模板蒙版
6、将图像制作为PDF文件
- 方法1：将图像作为页面插入
- 方法2：嵌入文件
- 方法3：附加文件
7、创建矢量图
8、转换图像
9、与Numpy接口
10、将图像添加到PDF页面

本文记录PyMuPDF库中有关Image的使用方法

关于PyMuPDF库的安装、介绍及基本使用可参考博客：
Python处理PDF——PyMuPDF的安装与使用(1)_ling620的专栏-CSDN博客

1、从文档页面生成图像

这个脚本将获取一个文档文件名，并将每个页面生成一个PNG文件保存在脚本目录中。
文档可以是任何受支持的类型，如PDF、XPS等。
该脚本作为命令行工具使用，它希望文件名作为参数提供。生成的图像文件（每页1个）存储在脚本的目录中：

import sys, fitz # import the binding

fname = sys.argv[1] # 从命令行获取文件名
doc = fitz.open(fname) # 打开文件
for page in doc: # iterate through the pages
    pix = page.get_pixmap() # render page to an image
    pix.save("page-%i.png" % page.number) # store image as a PNG

脚本目录现在将包含名为page-0.PNG、page-1.PNG等的PNG图像文件。

当前page.gete_pixmap()使用的是默认参数，得到的信息如下：

图片的页面尺寸将宽度和高度四舍五入为整数，例如，对于A4大小的页面，为595 x 842像素
在x和y维度的分辨率为96 dpi
没有透明度

page.get_pixmap()参数

def get_pixmap(
        self,
        matrix: AnyType = None,
        colorspace: "Colorspace" = None,
        alpha: False,
        clip: rect_like = None,
        annots: (bool)
    ) -> "Pixmap":

参数：

matrix：矩阵，可以控制缩放、旋转、镜像等结果
colorsapce：颜色空间，cmyk, rgb, gray 忽略大小写，默认是csRGB
alpha：是否包含alpha通道，默认不包含
clip：只渲染此矩形区域
annots：是否同时渲染注释，为False表示不渲染注释

2、提升图像分辨率

文档页面的图像由一个Pixmap表示，创建Pixmap的最简单方法是通过方法page.get_Pixmap()。
此方法有许多影响结果的选项。其中最重要的是矩阵，它允许您缩放、旋转、扭曲或镜像结果。

默认情况下，Page.get_pixmap()将使用不起任何作用的标识矩阵。
在下面的例子中，我们对每个维度应用2的缩放因子，这将生成一幅分辨率提高四倍（也是大小的四倍）的图像：

zoom_x = 2.0 # horizontal zoom
zomm_y = 2.0 # vertical zoom
mat = fitz.Matrix(zoom_x, zomm_y) # zoom factor 2 in each dimension
pix = page.get_pixmap(matrix=mat) # use 'mat' instead of the identity matrix

由上面的例子可以看出，通过参数matrix可以实现结果矩阵的缩放。

3、创建部分像素贴图（`Clips`）

该部分应用于当只需要部分页面区域的图像，而不是整个页面的完整图像时。

使用示例：假设我们需要整个页面的右下角1/4处，且将其扩大4倍。
为了实现这一点，我们定义了一个矩形，该矩形等于我们希望在GUI中显示的区域，并将其称为“clip”。在PyMuPDF中构造矩形的一种方法是提供两个对角。

mat = fitz.Matrix(2, 2) # zoom factor 2 in each direction
rect = page.rect # the page rectangle
mp = (rect.tl + rect.br) / 2 # its middle point, becomes top-left of clip
clip = fitz.Rect(mp, rect.br) # 想要的区域
pix = page.get_pixmap(matrix=mat, clip=clip)

上面例子中，rect表示页面的矩形区域，rect.tl表示矩形区域的左上角，rect.br表示矩形区域的右下角。
参数clip使用fitz.Rect()类型表示。

4、PDF文档提取图像

与PDF中的任何其他“object”一样，图像由交叉参考号（xref，整数）标识。如果您知道此号码，则有两种方法可以访问图像数据：

使用pix = fitz.Pixmap(doc, xref)创建一个Pixmap图像
- 这种方法非常快。pixmap的属性（宽度、高度等）将反应图像的内容。在这种情况下，无法判断嵌入的原始图像具有哪种图像格式。
使用img = doc.extract_image(xref)提取图像
- 这是一个包含二进制图像数据img["image"]的字典。还提供了大量元数据，大部分与图片的pixmap中找到的相同
- 主要区别在于img["ext"]字符串，他指定了图像格式：除了"png"以外，还可以指定"jpeg", "bmp", "tiff"等字符串，将以指定格式存储在应按中
- 这个方法的执行速度与pix=fitz.Pixmap(doc, xref)和pix.tobytes()的组合速度相比。如果嵌入的图像是PNG格式，则Document.extract_image()的速度大致相同（其二进制图像数据相同），否则，这种方法的速度要快上千倍，且图像数据要小的多。

如何获取`xref`的值呢？

检查页面对象：遍历Page.get_images()的items，得到一个列表的列表，其项类似于[xref, smask, ...]，包含图像的xref。这个xref可以与上述方法一起使用。

如果PDF没有损坏，则使用这个方法。

请注意：同一图像可能会被多次引用（由不同页面引用）
“无需知道”：循环浏览文档的所有xref并为每一个执行Document.extract_image()。如果返回的字典是空的（表示这个xref没有图像），继续。

如果PDF已损坏，则使用这个方法。

>>>page = doc[0]
>>>page.get_images()
[(10, 0, 414, 83, 8, 'DeviceRGB', '', 'Im5', 'DCTDecode'),
 (14, 0, 39, 41, 8, 'DeviceRGB', '', 'Im10', 'DCTDecode'),
 (15, 0, 34, 34, 8, 'DeviceRGB', '', 'Im11', 'DCTDecode'),
 (13, 0, 30, 30, 8, 'DeviceRGB', '', 'Im9', 'DCTDecode')]


>>>doc.get_page_images(0)
[(10, 0, 414, 83, 8, 'DeviceRGB', '', 'Im5', 'DCTDecode'),
 (14, 0, 39, 41, 8, 'DeviceRGB', '', 'Im10', 'DCTDecode'),
 (15, 0, 34, 34, 8, 'DeviceRGB', '', 'Im11', 'DCTDecode'),
 (13, 0, 30, 30, 8, 'DeviceRGB', '', 'Im9', 'DCTDecode')]

如上所示，使用page.get_images()或者doc.get_page_images(pno)就可以得到图像的列表值。列表中，每个元素为元组，元组的第一位就是xref值。

5、处理模板蒙版

PDF中的某些图像带有模板遮罩。在最简单的形式中，模具蒙版表示作为单独图像存储的alpha（透明度）字节。为了重建具有模具蒙版的图像的原始图像，必须使用从其模具蒙版中提取的透明度字节“丰富”图像。

在PyMuPDF中，可以通过以下两种方式之一识别图像是否具有这样的模板掩码：

Document.get_page_images()的结果具有常规格式[xref，smask，…]，其中，xref是图像的外部参照，smask（如果为正）是模具遮罩的外部参照。
Document.extract_image()的（字典）结果有一个键“smask”，如果为正，该键还包含任何模具掩码的外部参照。

如果smask==0，则可以按原样处理通过xref遇到的图像。
要使用PyMuPDF恢复原始图像，必须执行以下步骤：

>>> pix1 = fitz.Pixmap(doc, xref) # (1) pixmap of image w/o alpha
>>> pix2 = fitz.Pixmap(doc, smask) # (2) stencil pixmap
>>> pix = fitz.Pixmap(pix1) # (3) copy of pix1, empty alpha channel added
>>> pix.set_alpha(pix2.samples) # (4) fill alpha channel

步骤（1）创建“netto”图像的pixmap。步骤（2）对模板掩码执行相同的操作。请注意，pix2的Pixmap.samples属性包含必须存储在最终Pixmap中的alpha字节。这就是步骤（3）和（4）中发生的情况。

6、将图像制作为PDF文件

我们在这里展示了三个脚本，它们获取（图像和其他）文件的列表，并将它们全部放在一个PDF中。

方法1：将图像作为页面插入

第一个方法将每个图像转换为具有相同尺寸的PDF页面。结果将是一个PDF，每个图像一页。它仅适用于支持的图像文件格式：

import os, fitz
import PySimpleGUI as psg # for showing a progress bar

doc = fitz.open() # PDF with the pictures
imgdir = "D:/2012_10_05" # where the pics are
imglist = os.listdir(imgdir) # list of them
imgcount = len(imglist) # pic count
for i, f in enumerate(imglist):
    img = fitz.open(os.path.join(imgdir, f)) # 以document形式打开图片
    rect = img[0].rect # pic dimension
    pdfbytes = img.convert_to_pdf() # make a PDF stream
    img.close() # no longer needed
    imgPDF = fitz.open("pdf", pdfbytes) # open stream as PDF
    page = doc.new_page(width = rect.width, height = rect.height) # new page with pic dimension
    page.show_pdf_page(rect, imgPDF, 0) # image fills the page图像填充页面
    psg.EasyProgressMeter("Import Images", i+1, imgcount) # show our progress
doc.save("all-my-pics.pdf")

这将生成一个仅略大于合并图片大小的PDF。

注意：我们可能使用了Page.insert_image()而不是Page.show_pdf_Page()，结果会是一个类似的文件。但是，根据图像类型，它可能存储未压缩的图像。
因此，必须使用save选项deflate=True来实现合理的文件大小，这将极大地增加大量图像的运行时间。因此，这里不能推荐这种替代方案。

方法2：嵌入文件

第二个脚本嵌入任意文件，而不仅仅是图像。由于技术原因，生成的PDF只有一个（空）页面。要在以后再次访问嵌入文件，您需要一个合适的PDF查看器，可以显示和/或提取嵌入文件：

import os, fitz
import PySimpleGUI as psg # for showing progress bar

doc = fitz.open() # PDF with the pictures
imgdir = "D:/2012_10_05" # where my files are
imglist = os.listdir(imgdir) # list of pictures
imgcount = len(imglist) # pic count
imglist.sort() # nicely sort them
for i, f in enumerate(imglist):
    img = open(os.path.join(imgdir,f), "rb").read() # make pic stream
    doc.embfile_add(img, f, filename=f, ufilename=f, desc=f) # and embed it
    psg.EasyProgressMeter("Embedding Files", i+1, imgcount)  # show our progress
page = doc.new_page() # at least 1 page is needed
doc.save("all-my-pics-embedded.pdf")

这是迄今为止最快的方法，而且它还产生尽可能小的输出文件大小。

方法3：附加文件

实现此任务的第三种方法是通过页面注释附加文件。
这与上一个脚本具有相似的性能，并且它还生成相似的文件大小。它将生成PDF页面，显示每个附加文件的“文件附件”图标。

import os, fitz
import PySimpleGUI as psg # for showing progress bar

doc = fitz.open()  # open empty PDF
page = doc.new_page(width=width, height=height)  # make new page
imglist = os.listdir(imgdir)  # directory listing
imgcount = len(imglist)  # number of files
for i, f in enumerate(imglist):
    path = os.path.join(imgdir, f)
    img = open(path, "rb").read()  # file content
    page.add_file_annot(point, img, filename=f)  # add as attachment
doc.save("all-my-pics-attached.pdf")

嵌入和附加方法都可以用于任意文件，而不仅仅是图像。

Note: 我们强烈建议使用PySimpleGUI包为可能运行较长时间的任务显示进度表。它是纯Python，使用Tkinter（没有额外的GUI包），并且只需要多出一行代码！

7、创建矢量图

从文档页面创建图像的常用方法是page.get_pixmap()。pixmap表示光栅图像，因此您必须在创建时决定其质量（即分辨率）,以后不能更改。

PyMuPDF还提供了一种以SVG格式创建页面矢量图像的方法（可缩放矢量图形，用XML语法定义）。SVG图像在缩放级别上保持精确（当然，嵌入其中的任何光栅图形元素除外）。

指令svg=page.get_svg_image(matrix=fitz.Identity) 提供了一个UTF-8字符串svg，可以用扩展名“.svg”存储。

8、转换图像

与其他功能一样，PyMuPDF的图像转换也很容易。在许多情况下，它可能避免使用其他图形软件包，如PIL/Pillow。

总体方案如下两行：

pix = fitz.Pixmap("input.xxx") # any supported input format
pix.save("output.yyy") # any supported output format

备注

fitz.Pixmap(arg)的输入参数可以是包含图像的文件或bytes/io.BytesIO对象。
您也可以通过pix.tobytes(“yyy”)创建一个bytes对象，而不是输出文件，并传递该对象。
当然，输入和输出格式必须在颜色空间和透明度方面兼容。

将JPEG转换为Photoshop：

pix = fitz.Pixmap("myfamily.jpg")
pix.save("myfamily.psd")

使用PIL/Pillow保存为JPEG:

from PIL import Image

pix = fitz.Pixmap(...)
img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
img.save("output.jpg", "JPEG")

9、与Numpy接口

这显示了如何从numpy数组创建PNG文件（比大多数其他方法快几倍）：

import numpy as np
import fitz
#==============================================================================
# create a fun-colored width * height PNG with fitz and numpy
#==============================================================================
height = 150
width = 100
bild = np.ndarray((height, width, 3), dtype=np.uint8)
for i in range(height):
    for j in range(width):
        # one pixel (some fun coloring)
        bild[i, j] = [(i+j)%256, i%256, j%256]
samples = bytearray(bild.tostring()) # get plain pixel data from numpy array
pix = fitz.Pixmap(fitz.csRGB, width, height, samples, alpha=False)
pix.save("test.png")

10、将图像添加到PDF页面

有两种方法可以将图像添加到PDF页面：page.insert_image()和page.show_PDF_page()。
这两种方法有共同之处，但也存在差异。

Criterion	`Page.insert_image()`	`Page.show_pdf_page()`
displayable content	image file, image in memory, pixmap	PDF page
display resolution	image resolution	vectorized (except raster page content)
rotation	`0, 90, 180 or 270 degrees`	`any angle`
clipping	`no (full image only)`	`yes`
keep aspect ratio	`yes (default option)`	`yes (default option)`
transparency (water marking)	depends on the image	depends on the page
location / placement	scaled to fit target rectangle	scaled to fit target rectangle
performance	automatic prevention of duplicates;	automatic prevention of duplicates;
multi-page image support	`no`	`yes`
ease of use	simple, intuitive;	simple, intuitive; usable for all document types (including images!) after conversion to PDF via Document.convert_to

待续。。。

你可能感兴趣的:(Python库,Python,python,PyMuPDF,PDF)

python中datetime模块 a1111111111ss python python
参考大佬cmzsteven双手奉上大佬的网址https://blog.csdn.net/cmzsteven/article/details/64906245datetime模块中包含如下类：2、通过year,month,day三个数据描述符可以进行访问：date对象由year年份、month月份及day日期三部分构成：date（year，month，day)>>>a=datetime.date.t
如何合法抓取TikTok视频信息和评论：完整Python爬虫教程 Python爬虫项目 2025年爬虫实战项目音视频 python 爬虫开发语言
一、引言TikTok是全球最受欢迎的短视频平台之一，每天吸引着数百万的用户上传和分享视频内容。作为内容创作者和数据分析师，抓取TikTok上的视频和评论可以帮助你分析社交趋势、受欢迎的内容类型和用户互动。然而，TikTok明确表示其平台的数据抓取行为受到限制，这也意味着我们不能直接通过常规的网络爬虫技术去抓取其数据。本文将介绍如何在合法的前提下进行TikTok数据抓取。我们将探索TikTok的AP
谈高考真题的使用（数学） weixin_34116110 python 测试
2019独角兽企业重金招聘Python工程师标准>>>在高三数学复习中，大家常说“以本为本，以纲为纲，高考真题当主粮”，就是以教材内容为根本，以“考试大纲”为准绳，以高考真题的训练为主线；抓住了本，把握了纲，训练有的放矢，我们的复习就会事半功倍。高考数学试题难度相对稳定，考查形式的变化却是异彩纷呈，而变化中又有着一定的规律：全国试题与各省市试题的考试要求基本一致；题型除上海和江苏外，全国和其他各省
Python之pip的安装和使用详细教程叫我技术帝 Python python
我们都知道python有海量的第三方库或者说模块，这些库针对不同的应用，发挥不同的作用。我们在实际的项目中，或多或少的都要使用到第三方库，那么如何将他人的库加入到自己的项目中内呢？打个电话？大哥你好，想用下你那个库，麻烦给邮箱发个源码呗！显然这是个笑话。Python官方的PyPi仓库为我们提供了一个统一的代码托管仓库，所有的第三方库，甚至你自己写的开源模块，都可以发布到这里，让全世界的人分享下载。
python使用pip安装本地包-Python之pip使用详解|附第三方库安装总结 weixin_37988176
首先简单介绍下pip是什么？pip是python的第三方库管理器，可以根据所开发项目的需要，使用pip相关命令安装不同库。Pyhon3.4以后，pip都默认跟Python一块安装，pip在python安装目录中的位置如下：执行方法：运行【win+R】+cmd，执行pip，查看是否安装成功。（找不到命令，则需要手动添加到环境变量）python官方提供了一个pypi库（https://pypi.org
PDF转图片 JAVA JAVA派派 java PDF
前言以下是一个使用ApachePDFBox将PDF文件转换为图片的封装方法。这个方法将会把PDF的每一页转换为一张图片，并保存到指定的目录中。1.添加依赖首先，你需要在项目中添加PDFBox的依赖。如果你使用的是Maven，可以在pom.xml中添加以下依赖：org.apache.pdfboxpdfbox2.0.292.转换方法importorg.apache.pdfbox.pdmodel.PDD
2024年09月中国电子学会青少年软件编程（Python）等级考试试卷（二级）答案 + 解析伶俐角少儿编程 python 少儿编程青少年编程等级考试中国电子学会青少年编程
青少年软件编程（Python）等级考试试卷（二级）分数：100题数：37点击前往在线模拟练习一、单选题(共25题，共50分)1.a=['甲','乙','丙','丁','子','丑']print(a[4])以上代码的输出是ÿ
Python pip download下载安装包到指定路径飘～～～～ python
一、Python第三方安装包下载pipdownload-dsave_pathpackages-d:后面接下载包路径(save_path)packages:安装包名称二、Python第三方安装包安装2.1whl包python-mpipinstallxxx.whl2.2tar.gz包tar-zxvfxxx.tar.gzcdxxxpythonsetup.pybuildpythonsetup.pyinst
【免费】中国电子学会2024年03月份青少年软件编程Python等级考试试卷二级真题(含答案) Lemon Liu 电子学会Python真题前端 javascript microsoft python 青少年编程
2024-03Python二级真题分数：100题数：37测试时长：60min一、单选题(共25题，共50分)1.期末考试结束了，全班的语文成绩都储存在列表score中，班主任老师请小明找到全班最高分，小明准备用Python来完成，以下哪个选项，可以获取最高分呢？（B）（2分）A.min(score)B.max(score)C.score.max()D.score.min()答案解析：max()函数
中国电子学会202309青少年软件编程（Python）等级考试试卷（二级）真题晴朗向上 python 考级编程开发语言 microsoft
青少年软件编程（Python）等级考试试卷（二级）分数：100题数：37一、单选题（共25题，每题2分，共50分）1、yyh = [2023, '杭州亚运会', ['拱宸桥', '玉琮''莲叶']]jxw = yyh[2][0]print(jxw[1] * 2)以上代码运行结果是？（）A.宸宸B.杭杭C.玉玉D.州州2、阿宝在学习Python语言编程，他写了一个程序可以实现输入月份数字就可以输出2
2024年9月中国电子学会青少年软件编程（Python）等级考试试卷（三级）答案 + 解析 Sinsa_SI python windows 开发语言电子学会等级考试
更多真题在线练习系统：历年真题在线练习系统一、单选题1、以下表达式的值为True的是？（）A.all('','1','2','3')B.any([])C.bool('abc')D.divmod(6,0)正确答案：C答案解析：A和B选项，False；D选项，报错；C选项，True。2、下列代码的运行结果是？（）l=list(map(float,(1,2,3,4)))print(l)A.[1,2,3,
2024年9月电子学会青少年软件编程Python等级考试（三级）真题试卷 No0d1es 青少年软件编程（Python）等级考试试卷 python 开发语言青少年编程电子学会三级
2024年9月青少年软件编程Python等级考试（三级）真题试卷选择题第1题单选题以下python表达式的值为True的是？（）A.all('','1','2','3')B.any([])C.bool('abc')D.divmod(6,0)第2题单选题下列python代码的运行结果是？（）l=list(map(float,(1,2,3,4)))print(l)A.[1,2,3,4]B.['1','
【mysql】mysql之主从部署以及介绍向往风的男子 DBA mysql 数据库
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
MySQL5.6主从复制最佳实践 weixin_34252090 数据库操作系统 python
2019独角兽企业重金招聘Python工程师标准>>>MySQL5.6主从复制最佳实践MySQL5.6主从复制的配置环境操作系统：CentOS-6.6-x86_64MySQL版本：mysql-5.6.26.tar.gz主节点IP：192.168.31.57主机名：edu-mysql-01从节点IP：192.168.31.59主机名：edu-mysql-02MySQL主从复制官方文档http://d
vs code配置python_如何在vscode里的python配置好matplotlib？,vscode配置python环境教程 weixin_39564151 vs code配置python
如何在vscode里的python配置好matplotlib？,vscode配置python环境教程vscode配置python环境教程2020-09-2015:14:33人已围观VScode配置Python环境“配置任务运行程序”遇到问题我建议尝试再把bug写出来，不能因为不一样就不继续首先需要VScodePython插件。打开Python任意脚可以直接拖入。点击左下角的扩展按钮，在弹出界面选择
TikTokenizer 开源项目教程邱纳巧Gillian
TikTokenizer开源项目教程tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors/ti/tiktokenizer项目介绍TikTokenizer是一个基于Python的开源项目，旨在提供一个高效、灵活的文本分词工具。该项目利用先进的算法和数据结构，能够快速准确地对文本进行分词处
python类方法和类的实例化 Cachel wood 程序设计杂事 python 开发语言 mysql hive sql 机器学习数据库
文章目录类方法实例方法类方法静态方法特殊方法私有方法Python类的实例化1.调用`__new__`方法2.调用`__init__`方法3.返回实例对象总结类方法在Python里，类的自定义方法是类中用户自行定义的函数，这些方法能够实现特定的功能，并且可以访问和操作类的属性。下面详细介绍Python类中常见的自定义方法。实例方法定义：实例方法是类中最常见的方法，它的第一个参数通常是self，代表类
python 输入一行字符串删除其中所有大写字母后输出_Python练习题3.17删除字符 weixin_39624873 python 输入一行字符串删除其中所有大写字母后输出
输入一个字符串str，再输入要删除字符c，大小写不区分，将字符串str中出现的所有字符c删除。输入格式:在第一行中输入一行字符在第二行输入待删除的字符输出格式:在一行中输出删除后的字符串输入样例:在这里给出一组输入。例如：beee输出样例:在这里给出相应的输出。例如：result:b代码如下：#!/usr/bin/python#-*-coding:utf-8-*-s=input().strip()
Telegram bot教程：通过BotFather设置Telegram bot的命令菜单鲲志说 Web3相关业界资讯 telegram bot 经验分享笔记 twitter Telegram Bot
最近在研究Telegrambot嘛，总有些小细节可以记录了，今天就记录一个通过BotFather设置Telegrambot的命令菜单功能➡️【好看的灵魂千篇一律，有趣的鲲志一百六七！】-欢迎认识我～～作者：鲲志说（公众号、B站同名，视频号：鲲志说996）科技博主：极星会星辉大使后端研发：java、go、python、TS，前电商、现web3主理人：COC杭州开发者社区主理人、周周黑客松杭州主理人、
Python,C++开发餐饮后厨环境远程管理APP Geeker-2025 python c++
开发一款用于**餐饮后厨环境远程管理**的App，结合Python和C++的优势，可以实现高效的后端数据处理、实时的环境监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：
清晰易懂的Python安装与配置教程 Tee xm python 开发语言
初学者也能看懂的Python安装与配置教程本教程将手把手教你安装Python，并配置国内镜像源和自定义依赖包缓存位置，即使你是零基础小白，也能轻松完成！一、准备工作操作系统：Windows10/11、macOS或Linux。下载工具：浏览器（推荐Chrome或Edge）。存储空间：至少预留500MB可用空间。二、安装Python1.下载Python访问Python官网下载页面：https://ww
双均线量化策略实战指南：基于 iTick 外汇API、股票API报价源的 Python 实现算法pythonai开发
在量化交易领域，iTick报价API凭借其强大的多市场覆盖能力，已成为专业交易员的首选数据解决方案。其外汇API支持全球主要货币对（如EURUSD、GBPUSD）的毫秒级行情推送，包含Bid/Ask深度报价和实时波动率数据；股票API则覆盖A股、港股及美股市场，提供Level-2逐笔成交和十档盘口信息。通过统一的RESTful接口，开发者可轻松获取标准化的OHLCV数据，实现外汇、股票等多资产策略
1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库 pythonQA python paddlepaddle
PaddleTS是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验。PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发
蓝桥杯pythonB组备赛暴力执码蓝桥杯职场和发展
P1003[NOIP2011提高组]铺地毯题目描述为了准备一个独特的颁奖典礼，组织者在会场的一片矩形区域（可看做是平面直角坐标系的第一象限）铺上一些矩形地毯。一共有n张地毯，编号从1到n。现在将这些地毯按照编号从小到大的顺序平行于坐标轴先后铺设，后铺的地毯覆盖在前面已经铺好的地毯之上。地毯铺设完成后，组织者想知道覆盖地面某个点的最上面的那张地毯的编号。注意：在矩形地毯边界和四个顶点上的点也算被地毯
解决 Python 中 `cv2` 模块部分初始化导致的 `AttributeError` Leuanghing python 开发语言
解决Python中cv2模块部分初始化导致的AttributeError在Python开发中，尤其是使用OpenCV库进行图像处理时，可能会遇到一些令人困惑的错误。今天，我们就来探讨一个常见的错误：AttributeError:partiallyinitializedmodule'cv2'hasnoattribute'gapi_wip_gst_GStreamerPipeline'，并提供一个有效的
python 正则表达式的语法及使用主打Python 正则表达式 python 基础语法正则表达式 python
python正则表达式的语法及使用概念：按照程序员的指示，字符串里提取你要的数据。应用：爬虫清洗数据，匹配电话，匹配邮箱，匹配账号……最重要的就是（.*?）正则语法（元字符）1、？：前面的内容出现0-1次2、+：前面的内容出现1-多次3、*：前面的内容出现0-多次‘’’正则(Regular)：记住的点：1、(.？)2、re.findall()结果是一个列表3、用(.?)的是后，一定要复制，而不是手
python pandas 读取excel单元门公式值_Python pandas对excel的操作实现示例 weixin_39585761 python pandas 读取excel单元门公式值
最近经常看到各平台里都有Python的广告，都是对excel的操作，这里明哥收集整理了一下pandas对excel的操作方法和使用过程。本篇介绍pandas的DataFrame对列(Column)的处理方法。示例数据请通过明哥的gitee进行下载。增加计算列pandas的DataFrame，每一行或每一列都是一个序列(Series)。比如：importpandasaspddf1=pd.read_e
pandas整表写入excel指定位置_pandas操作Excel的常用场景及问题那个吴小明
很多场景下使用pandas就能够胜任手上的excel处理任务，之前写的用python操作具体到excel单元格的方法参考：贺霆：python操作Excel实现自动化报表zhuanlan.zhihu.com现在主要介绍使用pandas读取excel的几种常用场景：一、常规读取importpandasaspdfrompandasimportDataFrame,Seriesimportosos.chdi
如何用Python批量将CSV文件编码转换为UTF-8并转为Excel格式？字节王德发 python python excel 开发语言
在处理数据时，CSV文件格式常常用作数据的交换格式。不过，很多情况下我们会遇到编码问题，特别是当文件不是UTF-8编码时。为了更好地处理这些文件，可能需要将它们转换为UTF-8编码，并且将其转换为Excel格式，这样可以方便后续的数据分析和使用。今天就来聊聊如何用Python实现这一过程。准备工作：安装必要的库我们需要确保安装了所需的Python库。主要用到的库有pandas和openpyxl。p
Python 的 ORM（Object-Relational Mapping）工具浅讲 Code_Geo python 开发语言
SQLAlchemy相关讲解1.SQLAlchemy是什么？定义：一个Python的ORM（Object-RelationalMapping）工具，允许开发者通过Python类与对象操作数据库，而非直接编写SQL。核心组件：Core：底层SQL表达式语言，提供数据库无关的SQL操作接口。ORM：基于Core的高层抽象，将数据库表映射为Python类（模型），记录映射为对象。适用场景：需要灵活操作数
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方