工作中有对PDF文件进行数据抽取,现在总结归纳一下相应的方法,本文包括一下内容:
PDF文件分割、拼接;
PDF文件抽取图片,简单的图片识别;
PDF文件抽取表格;
PDF文件抽取文本;
PDF文件转docx文件;
docx文件数据抽取;
目的:尽可能的将pdf中的数据,抽取出来,尤其是文本和表格数据尽可能的精准。
Python版本:Python3.8
一、PDF文件分割、拼接
使用场景:什么时候会用到这个功能呢?比如你爬取了一堆的PDF文件,但是这些PDF文件中存在一些干扰页,比如广告页。这种情况下,你就需要对PDF文件进行分割、拼接,在本文中,将会为大家演示这个方式的另外一个用途。
import os
from PyPDF2 import PdfFileWriter, PdfFileReader
def clear_dir(dir_path):
"""清空目录下的文件"""
names = os.listdir(dir_path)
for name in names:
file_path = os.path.join(dir_path, name)
cmd = 'del %s' % file_path #这个是windows命令
#cmd = 'rm -rf %s' % file_path #这个是Linux的命令
cmd = cmd.replace('/', '\\') #为啥要这个?因为windows命令不支持/所以需要替换,Linux命令没有遇见这个问题;
os.system(cmd) #可以通过返回值来判断是否执行成功:0成功,其他失败
def split_pdf(pdf, output_dir):
"""pdf按每页拆分"""
clear_dir(output_path)
# 获取 PdfFileReader 对象
reader = PdfFileReader(pdf_file)
pages_num = reader.getNumPages()
# writer = PdfFileWriter() 生成一个文件
for index in range(pages_num):
#可以通过对index判断分割想要的
writer = PdfFileWriter() #按照每页来分割pdf
pageObj = reader.getPage(index)
writer.addPage(pageObj)
# 添加完每页,再一起保存至文件中;如果要输出一个文件,后面这些放置到循环外即可
file_name = os.path.join(output_path, str(index) + '.pdf')
with open(file_name, 'wb') as fw:
writer.write(fw)
二、PDF文件抽取图片,简单的图片识别
我对机器学习了解不多,补充这个也是由于在开发中有这么一个需求。使用场景,需要批量的PDF文件重命名,命名中需要包含发布的机构,这个机构的名称可以在首页获取,但是是一个logo。观察发现,logo中包含了机构名称,所以只需要对logo识别中文即可:
抽取图片:网络上找的代码(太多出处了,懒的写来源了),由于使用的版本不一致,部分代码有微调,这个也是我比较吐槽的地方,测试了半天。
文字识别
import fitz
import re
import os
def save_pdf_img(path, save_path):
'''
path: pdf的路径
save_path : 图片存储的路径
'''
# 使用正则表达式来查找图片
checkXO = r"/Type(?= */XObject)"
checkIM = r"/Subtype(?= */Image)"
# 打开pdf
doc = fitz.open(path)
# 图片计数
imgcount = 0
# 获取对象数量长度
lenXREF = doc.xref_length()
# 遍历每一个图片对象
for i in range(1, lenXREF):
# 定义对象字符串
text = doc.xref_object(i)
# print(i,text)
isXObject = re.search(checkXO, text)
# 使用正则表达式查看是否是图片
isImage = re.search(checkIM, text)
# 如果不是对象也不是图片,则continue
if not isXObject or not isImage:
continue
imgcount += 1
# 根据索引生成图像
pix = fitz.Pixmap(doc, i)
# 根据pdf的路径生成图片的名称
new_name = "img{}.png".format(imgcount)
new_name = os.path.join(save_path, new_name)
pix.save(new_name)
# 释放资源
pix = None
第三方包:paddleocr,安装教程网上都有,自己搜索即可
from paddleocr import PaddleOCR
import logging
#将一些日志信息过滤掉
logging.disable(logging.DEBUG)
logging.disable(logging.WARNING)
ocr = PaddleOCR(use_angle_cls=True, lang='ch')
result = ocr.ocr(img_path, cls=True)
if len(result) != 1:
print('result num=', len(result))
exit()
result = result[0]
lines = []
#可以直接答应result看看都是些什么结构
for line in result:
lines.append(line[1][0])
#这就是识别出来的文本
print(lines)
效果:对于正规的的字体识别还是很好的,包括繁体,可能是logo图中的文本比较简单的原因,没有深究,文本识别技术还未深入学习,不发表言论。
三、PDF文件抽取表格、文本
PDF文件的数据组成:主要是文本、图片、表格,这三部分组成,但是也会穿插流程图、各种柱状图等。
Python可以抽取的PDF表格、文本数据的第三方包:pdfplumber,tabula,camelot
(一)、pdfplumber
1、pdfplumber:可以说是目前所有包中做的最好的一个包。
优点:
①每页单独对象,支持文本、表格数据的抽取(亮点);
②文本抽取:保留了文本的格式,比如换行位置有空格,可以通过这个特点将一段的文本整合;
③表格数据抽取:不会被换行数据所干扰;
缺点:
①文本抽取:如果这页有表格数据,抽取到的文本数据中会包含表格数据(也可能是一个优点???)。
②表格数据抽取:对于有合并单元格的表格,无法还原表格结构。
③表格数据抽取:表格数据不能100%保证和原数据一致,可能少那么接个字,可能识别出错等。
④表格数据抽取(缺陷):最主要的还是对无边界的表格,效果很差,会丢失边缘的数据!!!
⑤表格数据抽取:会被流程图、柱状图干扰;
简单使用:
import pdfplumber
pdf = r'../data/text.pdf'
wookroot = pdfplumber.open(pdf)
pages = wookroot.pages
for page in pages:
text = page.extract_text()
tables = page.extract_tables()
print(text)
print(tables)
break
wookroot.close()
这个包也有一下高级的用法,主要是对表格数据抽取进行参数调节,但是效果嘛,不是很理想。
(二)、tablua
tablua:专门用于抽取PDF文件中表格数据的包
优点:
①抽取出来表格数据可以反向推导出表格的结构(亮点);
②不会换行数据干扰;
③可以指定页读取
缺点:
①无法保证表格数据100%准确;
②对于无边界表格支持不好,丢失数据;
import tablua
def get_tabula_tables(pdf_path):
dfs = tabula.read_pdf(pdf_path, pages='all', encoding='gbk')
tables = []
for df in dfs:
df = df.fillna('')
headers = df.keys().values.tolist()
lt = []
for header in headers:
if header.count('Unnamed'):
lt.append('')
continue
if header[-1].isdigit() and header.count('.'):
words = header.split('.')
line = '.'.join(words[:-1])
if headers.count(line):
lt.append(line)
continue
lt.append(header)
headers = lt
values = df.values.tolist()
lt = []
for words in values:
rows = []
for word in words:
if not isinstance(word, str):
word = str(word)
if word[-2:] == '.0':
word = word[:-2]
rows.append(word)
continue
rows.append(word)
lt.append(rows)
values = lt
values.insert(0, headers)
tables.append(values)
return tables
pdf_file = 'xxxx.pdf'
tables = get_tabula_tables(pdf_path)
读取表格中的整数,后面会带有“.0“。
(三)、Camelot
安装包以后,默认的模式无法使用,只能够使用stream来读取。
import camelot
tables = camelot.read_pdf(pdf_file, flavor="stream")
for table in tables:
print(table.df)
print('>>'*50)
流式读取会将整页当做一个表格。
总结-解析PDF文件
文本:最好的包就是pdfplumber,可以获取到完整的文本数据,但是表格文本、流程图文本、图表文本所也会被读取。这个缺点自然是难以拆分,基本没有通用的逻辑可以排除。这个也是优点,如果我们想将表格数据插入到文本中,那么是不是就可以通过这种方式来实现呢?总的来说,还是很复杂,对于同一段落的文本,还需要我们自己去合并,涉及到换页、表格数据干扰、流程图数据干扰以及包本身可能会读取出错,这个工作量是非常的大,想要实现真的是很难(这么过滤表格数据就足以搞崩心态)。
表格:对于有线表格,推荐的pdfplumber;边框线缺失的,基本都会丢失数据。如果你需要重构数据,可以用tablua。值得注意的事,不管那个包,都有可能存在表数据和pdf中表数据不一致的问题(或多、或少、或读错)。
四、PDF文件转docx
相信大家也看到了,想直接从pdf中解析出文本、表格数据是真的心累。那么我们能够换个思路,从它的前身入手,读取docx文档。docx文件与pdf文件不同之处在于,docx中的数据是标签化的,只要是标签化,我们提取数据基本上就不会出错。
我这里一共有两种方式pdf转docx:pdf2docx+aspose
(一)、pdf2docx
这个包是相信大家都是比较熟悉的,百度中90%都是这个用法。
from pdf2docx import Converter
import logging
logging.disable(logging.INFO)
logging.disable(logging.DEBUG)
logging.disable(logging.WARNING)
pdf_file = 'xxx.pdf'
cv = Converter(pdf_file)
docx_file = 'xxx.docx'
cv.convert(docx_file)
cv.close()
优点:1、转换速度快,0.2秒一页;2、无线+有线表格都支持;
缺点:1、纸张方向是横向的表格不支持;2、并不是所有表结构都可以转换(表格边框线的多样性会影响转化的效果)。
(二)aspose
官网:File Format APIs for .NET Core, Java, Python, C++, Android | products.aspose.com
今天主要用里面的aspose.words。aspose.pdf这个也可读取数据,但是效果还没有pdflumber好。
import aspose.words as aw
pdf_file = 'xxx.pdf'
docx_file = 'xxx.docx'
pdf = aw.Document(pdf_file)
pdf.save(docx_file)
优点:1.无线+有线表格都支持;2、支持横向表格;3、表格数据更加准确。
缺点:
有两个版本,免费版和付费版:免费版单个文件只能转5页。
有水印+页眉,转换的words中会有该公司的水印和页眉,这个应该能够解决(没试过)。
和pdf2docx一样,对于特殊结构的表格,转换会很糟糕。
某些情况下文本会出现错乱(我也不知为啥,但是用pdf2docx没有问题)。
没有哪个是绝对精准、通用的,但是至少有两种方案来互补。我测试过网上的在线pdf转docx,要么表格数据有缺失,要么就是用ocr来识别、重构的word,这个种word提取出来的表格数据无法使用。
五、docx文件数据抽取
直接上代码
from docx import Document
def get_doc_tables(doc):
"""
获取docx文件中表格,转化成list
:param doc:
:return:
"""
result = []
tables = doc.tables
for table in tables:
ret = []
for row_index in range(len(table.rows)):
lt = []
for col_index in range(len(table.row_cells(row_index))):
text = table.cell(row_index, col_index).text
lt.append(text)
ret.append(lt)
result.append(ret)
return result
def get_doc_lines(paragraphs):
lines = []
for paragraph in paragraphs:
line = paragraph.text.strip()
if not line:
continue
lines.append(line)
# aspose用的体验板,带有页眉
lines = lines[1:]
return lines
docx_file = 'xxx.docx'
doc = Document(docx_file)
tables = get_doc_tables(dox)
paragraphs = doc.paragraphs
lines = get_doc_lines(paragraphs)
优点:
同一段落的会整合到一块(也会有部分行不会)。
读取的表格数据可以反向推导出表格结构(上下左右合并相同值,我是将list数据转成了
包含的字符串)。
缺点:
a.每次读取的数据都是整个文件的数据,不支持单页。
b.无法定位表格数据在原文中的位置。
总结
直接解析PDF文件,获取表格数据还行,但是获取文本数据就很难,建议转成docx文件后再处理。
转docx文件,不是所有的pdf都支持,选取多种方式相互补充更为靠谱,没有那个库适合所有的pdf文件!
从docx中读取数据,数据都好提取,数据的准确度和转成docx文件的准确的有关,转的不好,数据就有问题。
表格数据定位问题,我是使用的pdfplumber来完成的,虽然很low,但是也没有找到其他办法。
流程:
pdf文件---切割--->单页pdf文件---转换--->docx文件---数据提取--->表格数据+文本数据---表格数据定位--->完整的整页数据--->前端展示
找到一个介绍PDF文件数据结构的文件:PDF Explained (译作《PDF 解析》) | PDF-Explained (zxyle.github.io)
以上就是所有的内容,希望对你有帮助~
你可能感兴趣的:(pdf,python)
Python控制批量插入Catia文件并修改文件定义及PN
一盘红烧肉
python
改了两天,总算初步摸清楚了Catia中的文件结构,实现了使用Python控制批量修改文件名及定义使用Pycatia在Product中插入Part并改名及定义
H5基于Canvas实现电子签名并生成PDF文档
2401_85156853
程序员 pdf 前端 java
3.注册监听事件letbeginX:number,beginY:number;constcanvas:HTMLCanvasElement=canvasDom.current;constctx=canvas.getContext(‘2d’);ctx.fillStyle=‘#fff’;ctx.fillRect(0,0,canvas.width,canvas.height);canvas.addEven
PySide2是 Qt 库的 Python 绑定之一
WwwwwH_PLUS
# Qt qt python 开发语言
PySide2是Qt库的Python绑定之一,它为Python程序员提供了创建跨平台桌面应用程序的工具和功能。PySide2是Qt5.x系列的Python绑定,而Qt本身是一个跨平台的图形用户界面(GUI)框架,广泛用于开发各种类型的桌面应用程序,包括多种平台(Windows、Linux、macOS)的应用。主要特点跨平台支持:PySide2可以在Windows、Linux和macOS上运行,允许
Python学习第十一天
Leo来编程
Python学习 python
疑惑:有很多人不知道是不是也分不清什么是单核?什么是多核?什么是时间片?进程?线程?那么在讲进程和线程前我先举个例子更好理解这些概念。单核例子:比如你是一个厨师(计算机)在一个厨房(CPU)里需要同时做3个菜(进程)、每个菜需要准备不同的调料以及协作(线程),那么这个厨师需要不断地切换时间(时间片)来达到同时在一个时间将三个菜做完。多核的话其实对应的例子就是多个厨师,这样的例子太多了因为万物皆对象
python学习第三天
Leo来编程
Python学习 python 开发语言
条件判断条件判断使用if、elif和else关键字。它们用于根据条件执行不同的代码块。#条件判断age=18ifage0:#也可以写if(s>0)但是没必要因为python给个提示建议去掉保证代码的按照缩进来进行更加规范print("这个数字是大于0的数字!")#这行代码属于if语句的代码块elifs==0:print("这个数字是等于0的数字!")#这行代码属于elif语句的代码块else:pr
三种优化算法
旅者时光
算法 算法 python 开发语言
本文将总结遗传算法、粒子群算法、模拟退火三种优化算法的核心思路,并使用python完整实现。实际上,越来越多的优秀算法已经被封装为一个易用的接口。很多时候,一行代码就能实现我们的需求。但了解这些算法的基本逻辑,能够使用最基本的代码实现它。无论对于提升我们的编程能力还是解决问题的能力,都会大有裨益。甚至,改变我们思考问题的方式。1、遗传算法遗传算法,顾名思义,就是借鉴了生物通过遗传变异来逐渐适应环境
PDF处理控件Aspose.PDF,如何实现企业级PDF处理
CodeCraft Studio
文档管理 控件 pdf python java
PDF处理为何成为开发者的“隐形雷区”?“手动调整200页PDF目录耗时3天,扫描件文字识别错误导致数据混乱,跨平台渲染格式崩坏引发客户投诉……”作为开发者,你是否也在为PDF处理的复杂细节消耗大量精力?Aspose.PDF凭借AI增强解析、全栈API控制与企业级自动化能力,正在重新定义PDF处理效率的天花板。Aspose.pdf最新下载一、Aspose.PDF六大技术亮点1.高精度PDF解析与生
微信小程序将markdown内容转为pdf并下载
蓝天星空
编程 2025人工智能AI 微信小程序 pdf
要在微信小程序中将Markdown内容转换为PDF并下载,您可以使用以下方法:方法一:使用第三方API服务选择第三方API服务:可以选择像Pandoc、Markdown-PDF或PDFShift这样的服务,将Markdown转换为PDF。例如,PDFShift提供了一个API接口,可以将Markdown内容转换为PDF格式。调用API:在微信小程序中,您可以使用wx.request方法来调用第三方
使用 Python 合并微信与支付宝账单,生成财务报告
python后端
最近用思源笔记记东西上瘾,突然想每个月存一份收支记录进去。但手动整理账单太麻烦了,支付宝导出一份CSV,微信又导出一份,格式还不一样,每次复制粘贴头都大。干脆写了个Python脚本一键处理,核心就干两件事:把俩平台的CSV账单合并到一起自动生成带分类表格的Markdown(直接拖进思源就能渲染)代码主要折腾了这些:支付宝账单前24行都是废话,直接skiprows=24跳过去,GBK编码差点让我栽跟
Python Flask 在网页应用程序中处理错误和异常
dowhileprogramming
python flask 开发语言
PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常在我们所有的代码示例中,我们没有注意如何处理用户在浏览器中输入错误的URL或向我们的应用程序发送错误的参数集的情况。这不是设计意图,但目的是首先关注网页应用程序的关键组件。网页框架的美妙之处在于,它们通常默认支持错误处理。如果发生任何错误,将自
QT5.9.2项目复制到新电脑上后“error: LNK2019: 无法解析的外部符号”错误
csdndenglu
qt
QT5.9.2项目更换到另一台电脑后报:pdfctrl.obj:-1:error:LNK2019:无法解析的外部符号"public:void__cdeclExportPdf::on_pushButton_import_preview_clicked(classQList)"(?on_pushButton_import_preview_clicked@ExportPdf@@QEAAXV?$QList
农业生产模拟和农业政策分析:WOFOST模型与PCSE模型安装、运行、数据准备;农田农作物生长模拟和产量预测等
WangYan2022
作物模型 农业 WOFOST模型 PCSE模型 农田生态系统 作物模型 农业生产模拟
WOFOST(WorldFoodStudies)和PCSE(PythonCropSimulationEnvironment)是两个用于农业生产模拟的模型:WOFOST是一个经过多年开发和验证的模型,被广泛用于全球的农业生产模拟和农业政策分析;采用了模块化的结构,可以对不同的农作物和环境条件进行参数化和适应;WOFOST可用于长期模拟,能够模拟整个作物生长周期,包括播种、生长、收获等各个阶段;WOF
清华大学出品《DeepSeek从入门到精通》超详细使用手册pdf
2501_90570130
pdf 人工智能
链接:https://pan.quark.cn/s/70da09749050清华大学新闻与传播学院团队发布了长达104页的DeepSeek详细使用手册,该手册成为国产AI工具DeepSeek深度使用的标杆指南。手册内容涵盖基础入门、核心能力与模型对比、进阶提示语策略、场景化应用以及人机协作与能力进阶等方面。它不仅适合新手快速掌握DeepSeek的基础操作,还为进阶用户提供了系统性方法论。
基于Python+Vue开发的电影订票管理系统源码+运行步骤
冷琴1996
Python系统设计 python vue.js 开发语言
项目简介该项目是基于Python+Vue开发的电影订票管理系统(前后端分离),这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能,同时锻炼他们的项目设计与开发能力。通过学习基于Python的电影订票管理系统项目,大学生可以在实践中学习和提升自己的能力,为以后的职业发展打下坚实基础。技术学习之路主要功能影片管理:管理系统可以录入、修改和查询影片的基本信息,如
Python通过YOLO格式TXT标签文件在图像中画框
CHERISH_KDX
python YOLO 人工智能
使用场景检测数据集标注是否有误:在目标检测算法中需要标注自己的数据集,为了更加方便的检查数据集标注是否有误,可以使用该工具将标注结果绘制在图像中并查看。美化识别结果中的检测框:在一些目标检测场景中,YOLO检测算法原始的检测框绘制会导致重叠、颜色冲突、字体过大等问题。可以使用该工具进行修改。代码importosimportcv2classcheck_label:def__init__(self,c
基于llama_cpp 调用本地模型(llama)实现基本推理
月光技术杂谈
大模型初探 llama llama.cpp python LLM 集成显卡 本地模型 AI
零基础实践本地推理模型基本应用:基于llama_cpp的本地模型调用。本文先安装llama_cpppython库,再编写程序,利用其调用llama-2-7b-chat.Q4_K_M.ggu模型。背景llama_cpp是一个基于C++的高性能库(llama.cpp)的Python绑定,支持在CPU或GPU上高效运行LLaMA及其衍生模型(如LLaMA2),并通过量化技术(如GGUF格式)优化内存使用
python实现查找满足条件的数字
qq_恰同学少年
python
问题:一个四位数,知道其前两位和后两位分别相等,并且这个数还是一个平方数,求出这个数。一个四位数,范围只能是1000~9999,前两位和后两位分别相等,也就是说,它的结构应该是aabb。最后,这个数是一个平方数。有的小伙伴可能不知道啥叫平方数,暂且解释下,所谓的平方数就是指该数等于一个整数的平方。比如3的平方是9,那么我们就说9是个平方数。第一步,这是个四位数,前两位和后两位分别相等,我们将满足条
python中常用的内置模块举例(入门级整理)
qq_恰同学少年
python
python对于初学者可以说是十分友好的一门编程语言,不仅语法简单,而且它自身还包含了十分丰富的第三方模块,我仅就将我自己常用的一些内置模块(自带的,无需安装)做一下简单的总结和介绍:1.turtleturtle,是python中比较好玩一个模块,它有一个专有名称“海龟作图”,光看名字就应该能够猜到它是用来干嘛的,没错,就是来画图的,它可以通过某些语句来控制一个点在白板上的运动轨迹,它在白板上走过
QPython双核攻略:从零基础到AI开发,你的手机就是全栈训练营
程之编
python 开发语言 青少年编程 人工智能
主题一:《编程小白必看!在手机上种下你的第一行代码》✨北京优趣天下信息技术有限公司重磅出品我们比谁都清楚:✔️86%的初学者因环境配置放弃编程✔️72%的上班族只有碎片化学习时间✔️95%的自学者需要即时答疑支持为什么QPython成为2025现象级学习工具?▸全栈开发环境:解释器+编辑器+控制台三合一▸AI导师常驻:集成DeepSeek代码助手(支持中英双语提问)▸极速学习路径:Q派课程7天完成
Python学习指南:系统化路径 + 避坑建议
程之编
Python全栈通关秘籍 青少年编程 python 开发语言 人工智能 机器学习
新手小白学习编程就像搭积木——需要从基础开始,逐步构建知识体系。以下是为你量身定制的Python学习路径,帮你告别杂乱,高效入门!一、学习前的关键认知明确目标:想用Python做什么?数据分析(如Excel自动化、可视化)Web开发(如搭建网站)人工智能(如机器学习)自动化办公(如处理文件、邮件)目标不同,后续学习侧重点不同(但基础通用)。避免误区:❌只看教程不写代码✅边学边动手,哪怕抄代码也要运
【Python代码练习(简单应用)】
9...
python 汇编 前端 开发语言 dreamweaver
一、Python列表添加与删除元素:append()。在列表末尾添加新的格式元素添加格式:list.append(元素)删除格式:list.remove(元素)例如:#给出代码listA=['水煮千丝','平板豆腐','白烧饭','香菇青菜','西红柿鸡蛋汤']listA._________("红烧肉")listA._________("水煮千丝")print(listA)将“红烧肉”放入列表中,
统信uos20:利用docker部署python+jupyterlab开发环境
阆遤
docker python jupyter github actions workflow 统信uos20
很多统信uos20计算机没有联网安装python开发环境的条件,但是工作中需要对数据进行分析处理,因而产生了离线部署python开发环境的想法。我首先下载了python3.11的源代码包,在uos中编译居然正常通过。但后续的麻烦来了:需要安装的库没法安装。尝试了一天,最终放弃。改用Docker方式部署,理由就不多解释了。一、在uos中安装docker。我的系统是uos20linux4.19.0-a
第五周作业——第十章动手试一试
hongsqi
10-1Python学习笔记学习笔记:在文本编辑器中新建一个文件,写几句话来总结一下你至此学到的Python知识,其中每一行都以“InPythonyoucan”打头。将这个文件命名为learning_python.txt,并将其存储到为完成本章练习而编写的程序所在的目录中。编写一个程序,它读取这个文件,并将你所写的内容打印三次:第一次打印时读取整个文件;第二次打印时遍历文件对象;第三次打印时将各行
统信UOS下达梦数据库启动图形界面应用工具monitor报JAVA相关错:An error has occurred. See the log file
LaoYuanPython
老猿Python 国产信创之光 java 达梦数据库 统信UOS操作系统 JDK 图形应用报错
☞░前往老猿Python博客░https://blog.csdn.net/LaoYuanPython一、前言在博文《基于飞腾2000CPU+浪潮电脑+统信UOS安装达梦数据库详解https://blog.csdn.net/LaoYuanPython/article/details/143258863》中介绍了基于飞腾2000CPU+浪潮电脑+统信UOS安装达梦数据库的详细过程,并且安装完毕之后通过
整理一下arcGis desktop版本软件, 从入门到精通需要学习的知识点
AnalogElectronic
arcgis 学习
整理一下arcGisdesktop版本软件,从入门到精通需要学习的知识点以下是一份关于ArcGISDesktop从入门到精通的学习知识点整理:一、软件初认识与基础操作软件初认识:了解ArcGISDesktop的界面布局,包括内容列表、ArcToolbox工具箱、结果窗口、地图窗口、目录窗口、搜索窗口、python编程窗口以及其他常用工具条等。数据添加与管理:掌握通过不同方式添加数据,如图层列表右键
动态规划双剑合璧:C++与Python征服洛谷三大经典DP问题
三流搬砖艺术家
动态规划 c++ python
动态规划核心思想状态定义→转移方程→边界处理→时空优化本文精选洛谷动态规划题单中三大经典问题,通过C++与Python双语言对比实现,彻底掌握DP精髓!题目一:P1048采药(01背包模板)题目描述在限定时间T内采集草药,每株草药有采集时间time[i]和价值value[i],求最大总价值。解题思路状态定义:dp[j]表示时间j能获得的最大价值转移方程:dp[j]=max(dp[j],dp[j-t
Python机器学习实战:构建序列到序列(Seq2Seq)模型处理翻译任务
AGI大模型与大数据研究院
程序员提升自我 硅基计算 碳基计算 认知计算 生物计算 深度学习 神经网络 大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战:构建序列到序列(Seq2Seq)模型处理翻译任务1.背景介绍1.1问题的由来翻译是跨语言沟通的重要桥梁,随着全球化进程的加速,翻译需求日益增长。传统的机器翻译方法主要依赖于规则和统计方法,如基于短语的翻译、基于统计的机器翻译等。然而,这些方法难以处理复杂的语言现象,翻译质量参差不齐。近年来,随着深度学习技术的快速发展,基于神经网络序列到序列(Sequence-to-Seq
20个简单的python代码练习
qq_恰同学少年
python 开发语言
下面整理了20个简单的python代码练习,供大家学习交流使用,轻易上手,复制下来就能用!!!废话不多说,直奔主题1.输入一个不超过5位的正整数,输出其逆数。例如输入12345,输出应为54321。a=input('请输入一个不超过5位的正整数:')print('其逆数为:',a[::-1])注:该代码使用了列表的切片和反转操作,首先将这个数的每个位上的数字存储到一个列表中,然后通过列表的反转来得
Python第十六课:深度学习入门 | 神经网络解密
程之编
Python全栈通关秘籍 python 神经网络 青少年编程
本节目标理解生物神经元与人工神经网络的映射关系掌握激活函数与损失函数的核心作用使用Keras构建手写数字识别模型可视化神经网络的训练过程掌握防止过拟合的基础策略一、神经网络基础(大脑的数字化仿生)1.神经元对比生物神经元人工神经元树突接收信号输入层接收特征数据细胞体整合信号加权求和(∑(权重×输入)+偏置)轴突传递电信号激活函数处理输出2.核心组件解析激活函数:神经元的"开关"(如ReLU:max
Apache POI详解
波波有料
apache maven java 开发语言
目录前言ApachePOI是一个强大的Java库,广泛用于处理MicrosoftOffice文档,包括Word、Excel和PowerPoint等。本文将详细介绍如何使用ApachePOI库操作Word模板(包括替换占位符、操作表格)、将Word文档转换为PDF,以及如何处理PowerPoint文档。我们将通过代码示例逐步演示这些操作。1.ApachePOI简介依赖配置2.操作Word模板中的占位
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite
iwindyforest
vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统,
安装过程中发现网上可供参考的文章都是VMware Workstation 10以下, MacOS X 10.9以下的文章,
只能提供大概的思路, 但是实际安装起来由于版本问题, 走了不少弯路, 所以我尝试写以下总结, 希望能给有兴趣安装OSX的人提供一点帮助。
写在前面的话:
其实安装好后发现, 由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑?
deathwknight
JavaScript java 框架
本人从学习Java开发到现在已有10年整,从一个要自学 java买成javascript的小菜鸟,成长为只会java和javascript语言的老菜鸟(个人邮箱:
[email protected] )
一路走来,跌跌撞撞。用自己的三年多业余时间,瞎搞一个小东西(基于模型驱动的B/S在线开发平台,非MVC框架、非代码生成)。希望与大家一起分享,同时有许些疑虑,希望有人可以交流下
平台
如何把maven项目转成web项目
Kai_Ge
maven MyEclipse
创建Web工程,使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管???
Array_06
工作
转载:http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html
很久以前跟同事参加的培训,同事整理得很详细,必须得转!
前段时间,公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来,虽然内容较多,因对老师三天来的课程内容深有感触,故借着整理学习心得的机会,将三天来的培训课程做了一个
python内置函数大全
2002wmj
python
最近一直在看python的document,打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面,其实在看的时候发现整个《The Python Standard Library》章节都是很不错的,其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行
357029540
JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况,如图所示
如果对于会的同学可能很简单,但是对没有思路的同学来说还是比较麻烦的,提供一下用JQUERY实现的参考代码
function mergeCell(){
var trs = $("#table tr");
&nb
Java基础
冰天百华
java基础
学习函数式编程
package base;
import java.text.DecimalFormat;
public class Main {
public static void main(String[] args) {
// Integer a = 4;
// Double aa = (double)a / 100000;
// Decimal
unix时间戳相互转换
adminjun
转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)? Java time JavaScript Math.round(new Date().getTime()/1000)
getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事
aijuans
程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况 最好的方式是写工作日志,把自己今天完成了什么事情,遇见了什么问题都记录下来,日后翻看好处多多
2、考虑自己明天应该做的主要工作 把明天要做的事情列出来,并按照优先级排列,第二天应该把自己效率最高的时间分配给最重要的工作
3、考虑自己一天工作中失误的地方,并想出避免下一次再犯的方法 出错不要紧,最重
由html5视频播放引发的总结
ayaoxinchao
html5 视频 video
前言
项目中存在视频播放的功能,前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备,必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解,不了解不知道,水真是很深。本文所记录的知识一些浅尝辄止的知识,说起来很惭愧。
视频结构
本该直接介绍html5的<video>的,但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat
bewithme
httpclient
如果你构建了一个https协议的站点,而此站点的安全证书并不是合法的第三方证书颁发机构所签发,那么你用httpclient去访问此站点会报如下错误
javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用
bijian1013
redis redis数据库 jedis
Jedis连接池操作步骤如下:
a.获取Jedis实例需要从JedisPool中获取;
b.用完Jedis实例需要返还给JedisPool;
c.如果Jedis在使用过程中出错,则也需要还给JedisPool;
packag
变与不变
bingyingao
不变 变 亲情永恒
变与不变
周末骑车转到了五年前租住的小区,曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在,
各种店铺都换了好几茬,这些是变的。
三年前还很流行的一款手机在今天看起来已经落后的不像样子。
三年前还运行的好好的一家公司,今天也已经不复存在。
一座座高楼拔地而起,
【Scala十】Scala核心四:集合框架之List
bit1129
scala
Spark的RDD作为一个分布式不可变的数据集合,它提供的转换操作,很多是借鉴于Scala的集合框架提供的一些函数,因此,有必要对Scala的集合进行详细的了解
1. 泛型集合都是协变的,对于List而言,如果B是A的子类,那么List[B]也是List[A]的子类,即可以把List[B]的实例赋值给List[A]变量
2. 给变量赋值(注意val关键字,a,b
Nested Functions in C
bookjovi
c closure
Nested Functions 又称closure,属于functional language中的概念,一直以为C中是不支持closure的,现在看来我错了,不过C标准中是不支持的,而GCC支持。
既然GCC支持了closure,那么 lexical scoping自然也支持了,同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap
BrokenDreams
Collections
总结这个类之前,首先看一下Java引用的相关知识。Java的引用分为四种:强引用、软引用、弱引用和虚引用。
强引用:就是常见的代码中的引用,如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret
bylijinnan
java 设计模式
声明: 本文只为方便我个人查阅和理解,详细的分析以及源代码请移步 原作者的博客http://chjavach.iteye.com/
package design.pattern;
/*
* 解释器(Interpreter)模式的意图是可以按照自己定义的组合规则集合来组合可执行对象
*
* 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值
* 多
After Effects操作&快捷键
cherishLC
After Effects
1、快捷键官方文档
中文版:https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html
英文版:https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html
2、常用快捷键
Maven 常用命令
crabdave
maven
Maven 常用命令
mvn archetype:generate
mvn install
mvn clean
mvn clean complie
mvn clean test
mvn clean install
mvn clean package
mvn test
mvn package
mvn site
mvn dependency:res
shell bad substitution
daizj
shell 脚本
#!/bin/sh
/data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲(原生数据类型 Primitive Data Type)
dcj3sjt126com
java
Java SE 第二讲:
1. Windows: notepad, editplus, ultraedit, gvim
Linux: vi, vim, gedit
2. Java 中的数据类型分为两大类:
1)原生数据类型 (Primitive Data Type)
2)引用类型(对象类型) (R
CGridView中实现批量删除
dcj3sjt126com
PHP yii
1,CGridView中的columns添加
array(
'selectableRows' => 2,
'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用
dyy_gusi
java 泛型
Java中的泛型的使用:1.普通的泛型使用
在使用类的时候后面的<>中的类型就是我们确定的类型。
public class MyClass1<T> {//此处定义的泛型是T
private T var;
public T getVar() {
return var;
}
public void setVa
Web开发技术十年发展历程
gcq511120594
Web 浏览器 数据挖掘
回顾web开发技术这十年发展历程:
Ajax
03年的时候我上六年级,那时候网吧刚在小县城的角落萌生。传奇,大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩,然后接下来的一个小时我一直在,注,册,账,号。
彼时网吧用的512k的带宽,注册的时候,填了一堆信息,提交,页面跳转,嘣,”您填写的信息有误,请重填”。然后跳转回注册页面,以此循环。我现在时常想,如果当时a
openSession()与getCurrentSession()区别:
hetongfei
java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134
1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。
2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。
这里getCurrentSession本地事务(本地
第一章 安装Nginx+Lua开发环境
jinnianshilongnian
nginx lua openresty
首先我们选择使用OpenResty,其是由Nginx核心加很多第三方模块组成,其最大的亮点是默认集成了Lua开发环境,使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO,可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等,使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库
liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库,当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。
先睹为快!
下面是一个In-Process方式访问内存数据库的代码示例:
下面代码需要引入hsqldb.jar包 (hsqldb-2.2.8)
import java.s
Java线程的5个使用技巧
pda158
java 数据结构
Java线程有哪些不太为人所知的技巧与用法? 萝卜白菜各有所爱。像我就喜欢Java。学无止境,这也是我喜欢它的一个原因。日常
工作中你所用到的工具,通常都有些你从来没有了解过的东西,比方说某个方法或者是一些有趣的用法。比如说线程。没错,就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候,通常会面临各种各样的并发编程的问题,不过我们现在所要讲的可能会略有不同。
开发资源大整合:编程语言篇——JavaScript(1)
shoothao
JavaScript
概述:本系列的资源整合来自于github中各个领域的大牛,来收藏你感兴趣的东西吧。
程序包管理器
管理javascript库并提供对这些库的快速使用与打包的服务。
Bower - 用于web的程序包管理。
component - 用于客户端的程序包管理,构建更好的web应用程序。
spm - 全新的静态的文件包管
避免使用终结函数
vahoa.ma
java jvm C++
终结函数(finalizer)通常是不可预测的,常常也是很危险的,一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能,以及带来移植性问题。不要把终结函数当做C++中的析构函数(destructors)的对应物。
我自己总结了一下这一条的综合性结论是这样的:
1)在涉及使用资源,使用完毕后要释放资源的情形下,首先要用一个显示的方