顺其自然~

PDFPlumber使用入门

背景

最近需要一个工具来解析PDF文件，获取其文本内容、标题、表格等，在GitHub上发现了这个神仙工具，发现用起来还挺方便的。在这里做一个简单的介绍，帮助一些想入门的~~英文不好的~~ 同学。

环境

macOS 10.14
PDFPlubmer v0.5.21
python>=3.5

教程开始

首先附上GitHub链接：GitHub - jsvine/pdfplumber: Plumb a PDF for detailed information about each char, rectangle, line, et cetera — and easily extract text and tables.

应用场景

获取PDF中的每个文本字符、矩形和行的详细信息，以及可以进行表格提取和可视化调试。主要应用于机器生成的PDF上，而非扫描的pdf文档。

安装

可以直接使用pip进行python包的安装，执行指令：

pip install pdfplumber

之后运行python，若能成功导入该包即安装成功。

$ python3
Python 3.6.5 (default, Jun 17 2018, 12:13:06)
[GCC 4.2.1 Compatible Apple LLVM 9.1.0 (clang-902.0.39.2)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import pdfplumber
>>> # 安装成功

命令行使用

这里提供一个官方的简单的使用样例

$ curl "https://cdn.rawgit.com/jsvine/pdfplumber/master/examples/pdfs/background-checks.pdf" > background-checks.pdf
$ pdfplumber < background-checks.pdf > background-checks.csv

执行完成后即可将一个pdf中的各种详细信息，包含每一个字符、线、表格等，导出到一个csv文件中。

可选参数

参数	描述
`--format [format]`	`csv` or `json`。`json`格式返回更多信息；它包含PDF级别的元数据(metadata)和每个页面的高度/宽度信息。
`--pages [list of pages]`	一个以空格分隔，以`1`索引开头的页面或带连字符的页面范围的列表。例如`1,11-15`，它将返回第1、11、12、13、14和15页的数据。
`--types [list of object types to extract]`	选择为`char`、`anno`、`line`、`curve`、`rect`、`rect_edge`。默认为`char`，`anno`，`line`，`curve`，`rect`。

Python包

简单样例

import pdfplumber

with pdfplumber.open("path/to/file.pdf") as pdf:
    first_page = pdf.pages[0]
    print(first_page.chars[0])

读取PDF

pdfplumber提供了两种读取pdf的方式：

pdfplumber.open("path/to/file.pdf")
pdfplumber.load(file_like_object)

这两种方法都返回pdfplumber.PDF类的实例(instance)。
加载带密码的pdf需要传入参数password，例如：pdfplumber.open("file.pdf", password = "test")

pdfplumber.PDF类

处于最上层的pdfplumber.PDF类表示单个PDF，并且具有两个主要属性：

属性	描述
`.metadata`	从PDF的`Info`中获取元数据键 /值对字典。通常包括“ CreationDate”，“ ModDate”，“ Producer”等。
`.pages`	一个包含`pdfplumber.Page`实例的列表，每一个实例代表PDF每一页的信息。

pdfplumber.Page类

pdfplumber.Page类是pdfplumber整个的核心，大多数操作都围绕这个类进行操作，它具有以下几个属性：

属性	描述
`.page_number`	页码顺序，从第一页的`1`开始，第二页为`2`，依此类推。
`.width`	页面宽度
`.height`	页面高度
`.objects`/`.chars`/`.lines`/`.rects`/ `.curves`/`.figures`/`.images`	这些属性中的每一个都是一个列表，并且每个列表针对嵌入面上的每个此类对象包含一个字典。有关更多详细信息，请参见下面的"对象(Object)"。

以及这些主要的方法(method)：

方法	描述
`.crop(bounding_box)`	返回裁剪后的页面，该bouding_box（边界框）应表示为具有值`(x0, top, x1, bottom)`的4元组。裁剪后的页面保留了至少部分位于边界框内的对象。如果对象仅部分落在该框内，则也会被涵盖。
`.within_bbox(bounding_box)`	和`.crop`相似，但是只会包含完全在bounding_box内的部分。
`.filter(test_function)`	返回仅包含`.objects`的页面版本，该对象的`test_function(obj)`返回`True`。
`.extract_text(x_tolerance=0, y_tolerance=0)`	将页面的所有字符对象整理到一个字符串中。若其中一个字符的`x1`与下一个字符的`x0`之差大于`x_tolerance`，则添加空格。若其中一个字符的`doctop`与下一个字符的`doctop`之差大于`y_tolerance`，则添加换行符。
`.extract_words(x_tolerance=0, y_tolerance=0, horizontal_ltr=True, vertical_ttb=True)`	返回所有单词外观及其边界框的列表。字词被认为是字符序列，其中（对于“直立”字符）一个字符的`x1`和下一个字符的`x0`之差小于或等于`x_tolerance`，并且一个字符的`doctop`和下一个字符的`doctop`小于或等于`y_tolerance`。对于非垂直字符也采用类似的方法，但是要测量它们之间的垂直距离，而不是水平距离。参数`horizontal_ltr`和`vertical_ttb`指示是否应从左到右（对于水平单词）/从上到下（对于垂直单词）读取字词。
`.extract_tables(table_settings)`	从页面中提取表格数据。有关更多详细信息，请参见下面的“表格抽取”。
`.to_image(**conversion_kwargs)`	返回`PageImage`类的实例。有关更多详细信息，请参见下面的“可视化调试”。有关`conversion_kwargs`，请参见此处。

对象(Object)

对于每一个pdfplumber.PDF和pdfplumber.Page的实例都提供了对4种对象操作的方法。以下属性均返回所对应对象的Python列表：

.chars 代表每一个独立的字符；
.annos 代表注释里的每一个独立的字符；
.lines 代表一个独立的一维的线；
.rects 代表一个独立的二维的矩形；
.curves（弯曲，曲线） 代表一系列连接的点；
.images 代表一个图像；

每一个对象用一个Python词典dict进行表示，具有以下属性：

chars / annos 属性

属性	描述
`page_number`	找到此字符的页码。
`text`	字符文本，如"z"、“Z"或者"你”。
`fontname`	字符的字体。
`size`	字号。
`adv`	等于文本宽度字体大小缩放因子。
`upright`	字符是否是直立的。
`height`	字符高度。
`width`	字符宽度。
`x0`	字符左侧到页面左侧的距离。
`y0`	字符底部到页面底部的距离。
`x1`	字符右侧到页面左侧的距离。
`y1`	字符顶部到页面底部的距离。
`top`	字符顶部到页面顶部的距离。
`bottom`	字符底部到页面顶部的距离。
`doctop`	字符顶部到文档顶部的距离。
`obj_type`	`"char"`或`"anno"`

line 属性

属性	描述
`page_number`	找到此线的页码。
`height`	线的高度。
`width`	线的宽度。
`x0`	线的最左侧到页面左侧的距离。
`y0`	线的底部到页面底部的距离。
`x1`	线的最右侧到页面左侧的距离。
`y1`	线的顶部到页面底部的距离。
`top`	线的顶部到页面顶部的距离。
`bottom`	线的底部到页面顶部的距离。
`doctop`	线的顶部到文档顶部的距离。
`linewidth`	线的粗度。
`obj_type`	`"line"`

rect 属性

属性	描述
`page_number`	找到此矩形的页码。
`height`	矩形的高度。
`width`	矩形的宽度。
`x0`	矩形的最左侧到页面左侧的距离。
`y0`	矩形的底部到页面底部的距离。
`x1`	矩形的最右侧到页面左侧的距离。
`y1`	矩形的顶部到页面底部的距离。
`top`	矩形的顶部到页面顶部的距离。
`bottom`	矩形的底部到页面顶部的距离。
`doctop`	矩形的顶部到文档顶部的距离。
`linewidth`	矩形边框的粗度。
`obj_type`	`"rect"`

curve 属性

属性	描述
`page_number`	找到此曲线的页码。
`points`	点，作为`(x,top)`元组的列表，用以描述曲线。
`height`	曲线bounding_box的高度。
`width`	曲线bounding_box的宽度。
`x0`	曲线的最左侧点到页面左侧的距离。
`y0`	曲线最底部点到页面底部的距离。
`x1`	曲线的最右侧点到页面左侧的距离。
`y1`	曲线最顶部点到页面底部的距离。
`top`	曲线最顶部的点到页面顶部的距离。
`bottom`	曲线最底部点到页面顶部的距离。
`doctop`	曲线最顶部点到文档顶部的距离。
`linewidth`	连线的粗度。
`obj_type`	`"curve"`

此外，pdfplumber.PDF和pdfplumber.Page都提供对两个派生对象列表的访问：.rect_edges（将每个矩形分解成四行）和.edges（将.rect_edges与.lines组合）。

可视化调试

注：使用pdfplumber的可视化调试工具需要额外用到两个工具

ImageMagick，安装指南
ghostscript，安装指南。或直接使用apt install ghostscript (Ubuntu) / brew install ghostscript (Mac)

使用`.to_image()`创建`PageImage`

要将任何页面（包括裁剪的页面）转换为PageImage对象，请调用my_page.to_image()。您可以选择传递resolution = {integer}关键字参数，默认为72。例如：

im = my_pdf.pages[0].to_image(resolution=150)

PageImage对象可以在IPython / Jupyter notbook上很好地展示，它们自动呈现为单元格输出。例如：

基础`PageImage`方法

方法	描述
`im.reset()`	清除到目前为止已绘制的所有内容。
`im.copy()`	将图像复制到新的`PageImage对象`。
`im.save(path_or_fileobject, format="PNG")`	保存带注释的图像。

绘图方法

你可以将显式坐标或任何pdfplumber.PDF对象（例如，char，line，rect）传递给这些方法。

单一操作	批量操作	描述
`im.draw_line(line, stroke={color}, stroke_width=1)`	`im.draw_lines(list_of_lines, **kwargs)`	用`line`，`curve`或两个2元组绘制一条线（例如`((x，y), (x, y))`）。
`im.draw_vline(location, stroke={color}, stroke_width=1)`	`im.draw_vlines(list_of_locations, **kwargs)`	在`location`的x坐标处绘制一条垂直线。
`im.draw_hline(location, stroke={color}, stroke_width=1)`	`im.draw_hlines(list_of_locations, **kwargs)`	在`location`的y坐标处绘制一条水平线。
`im.draw_rect(bbox_or_obj, fill={color}, stroke={color}, stroke_width=1)`	`im.draw_rects(list_of_rects, **kwargs)`	从`rect`，`char`等或4元组边界框绘制一个矩形。
`im.draw_circle(center_or_obj, radius=5, fill={color}, stroke={color})`	`im.draw_circles(list_of_circles, **kwargs)`	在`(x, y)`坐标或`char`，`rect`等的中心处绘制一个圆。

注意：上面的方法是基于Pillow的ImageDraw方法构建的，但是已经对参数进行了调整，以与SVG的fill/stroke/stroke_width命名法保持一致。

表格抽取

pdfplumber的表检测方法大量借鉴了Anssi Nurminen的硕士学位论文(可能需要阅读)，并受到Tabula的启发。它是这样的：

对于任何给定的PDF页面，请找到（a）明确定义的行 且/或（b）页面上的单词对齐所隐含的行。
合并重叠或几乎重叠的线。
找到所有这些线的交点。
查找使用这些相交作为其顶点的最细粒度的矩形集（即单元格）。
将连续的单元格分组到表中。

表格抽取方法

pdfplumber.Page对象可以调用以下表格方法：

方法	描述
`.find_tables(table_settings={})`	返回`Table`对象的列表。`Table`对象提供对`.cells`，`.rows`和`.bbox`属性以及`.extract(x_tolerance = 3, y_tolerance = 3)`方法的访问。
`.extract_tables(table_settings={})`	返回从页面上找到的所有表中提取的文本，并以结构`table -> row -> cell`的形式表示为列表列表的列表。
`.extract_table(table_settings={})`	返回从页面上最大的表中提取的文本，以列表列表的形式显示，结构为`row -> cell`。（如果多个表具有相同的大小——以单元格的数量来衡量——此方法将返回最接近页面顶部的表。）
`.debug_tablefinder(table_settings={})`	返回`TableFinder`类的实例，可以访问`.edges`，`.intersections`，`.cells`和`.tables`属性。

例如：

pdf = pdfplumber.open("path/to/my.pdf")
page = pdf.pages[0]
page.extract_table()

一个更详细的例子，可以参考此处。

表格抽取设置

默认情况下，extract_tables使用页面的垂直和水平线（或矩形边缘）作为单元格分隔符。但是该方法可以通过table_settings参数进行高度自定义。可能的设置及其默认值：

{
    "vertical_strategy": "lines", 
    "horizontal_strategy": "lines",
    "explicit_vertical_lines": [],
    "explicit_horizontal_lines": [],
    "snap_tolerance": 3,
    "join_tolerance": 3,
    "edge_min_length": 3,
    "min_words_vertical": 3,
    "min_words_horizontal": 1,
    "keep_blank_chars": False,
    "text_tolerance": 3,
    "text_x_tolerance": None,
    "text_y_tolerance": None,
    "intersection_tolerance": 3,
    "intersection_x_tolerance": None,
    "intersection_y_tolerance": None,
}

设置	描述
`"vertical_strategy"`	`"lines"`, `"lines_strict"`, `"text"`, 或 `"explicit"`，具体含义见下文。
`"horizontal_strategy"`	`"lines"`, `"lines_strict"`, `"text"`, 或 `"explicit"`，具体含义见下文。
`"explicit_vertical_lines"`	明确划分表中单元格的垂直线列表，用于明确划分表格中的单元格。可以与以上任何策略结合使用。列表中的项目应为数字（表示页面的整个高度的线条的`x`坐标）或`line`/`rect`/`curve`对象。
`"explicit_horizontal_lines"`	明确划分表中单元格的水平线列表。可以与以上任何策略结合使用。列表中的项目应为数字（表示页面的整个高度的线条的`y`坐标）或`line`/`rect`/`curve`对象。
`"snap_tolerance"`	`snap_tolerance`像素内的平行线将被“捕捉”到相同的水平或垂直位置。
`"join_tolerance"`	同一条直线上的线段（其末端在彼此的`join_tolerance`之内）将被“拼接”为单个线段。
`"edge_min_length"`	短于`edge_min_length`的边将在尝试重建表之前被丢弃。
`"min_words_vertical"`	使用`"vertical_strategy": " text"`时，至少`min_words_vertical`个单词必须共享相同的对齐方式。
`"min_words_horizontal"`	使用`"horizontal_strategy": " text"`时，至少`min_words_horizontal`个单词必须共享相同的对齐方式。
`"keep_blank_chars"`	使用`text`策略时，将`" "`字符作为单词的一部分而不是单词分隔符。
`"text_tolerance"`, `"text_x_tolerance"`, `"text_y_tolerance"`	当`text`策略搜索单词时，它将期望每个单词中的各个字母相差不超过`text_tolerance`像素。（tolerance：容忍）
`"intersection_tolerance"`, `"intersection_x_tolerance"`, `"intersection_y_tolerance"`	将边缘合并为单元格时，正交边缘必须在`intersection_tolerance`像素内才能被视为相交。

表格抽取策略

vertical_strategy和horizontal_strategy都接受以下选项：

策略	描述
`"lines"`	使用页面的图形线（包括矩形对象的边）作为潜在表格单元格的边界。
`"lines_strict"`	使用页面的图形线（而不是矩形对象的边）作为潜在表格单元格的边界。
`"text"`	对于`vertical_strategy`：推导连接页面上单词的左，右或中心的（虚构）线，并将这些线用作潜在的表格单元格的边界。对于`horizontal_strategy`：相同，但使用顶部的单词。
`"explicit"`	仅使用在`explicit_vertical_lines` / `explicit_horizontal_lines`中显式定义的行。

注意

在尝试提取表之前，裁剪页面通常很有帮助Page.crop(bounding_box)。
pdfplumber的表提取已针对v0.5.0进行了彻底的重新设计，并引入了很多显著更新。

引用

https://github.com/jsvine/pdfplumber

你可能感兴趣的:(pdf表格,pdfplumber)

UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
基于Python给出的PDF文档转Markdown文档的方法程序媛了了 python pdf 开发语言
注：网上有很多将Markdown文档转为PDF文档的方法，但是却很少有将PDF文档转为Markdown文档的方法。就算有，比如某些网站声称可以将PDF文档转为Markdown文档，尝试过，不太符合自己的要求，而且无法保证文档没有泄露风险。于是本人为了解决这个问题，借助GPT（能使用GPT镜像或者有条件直接使用GPT的，反正能调用GPT接口就行）生成Python代码来完成这个功能。笔记、代码难免存在
vue3中el-table中点击图片放大时，被表格覆盖叫我小鹏呀 vue.js javascript 前端
问题：vue3中el-table中点击图片放大时，被表格覆盖。解决方法：el-image添加preview-teleported
vue项目element-ui的table表格单元格合并酋长哈哈 vue.js elementui javascript 前端
一、合并效果二全部代码exportdefault{name:'CellMerge',data(){return{tableData:[{id:'1',name:'王小虎',amount1:'165',amount2:'3.2',amount3:10},{id:'1',name:'王小虎',amount1:'162',amount2:'4.43',amount3:12},{id:'1',name:'
ARMv8 Debug __pop_ ARMv8 ARM64 架构 linux 运维
内容来自DEN0024A_v8_architecture_PG.pdf本质ARMv8Debug是什么历史在ARMv4开始被引入,并已发展成一系列广泛的调试(debug1)和跟踪(trace)功能ARMv6和ARMv7-a新增了自托管调试(debug2)和性能评测(trace-enhance)ARMv8处理器提供硬件功能侵入式:调试工具能够对核心活动提供显著级别的控制非侵入式:以非侵入性方式收集有关
vue+el-table 可输入表格使用上下键进行input框切换以对_ vue学习记录 vue.js javascript 前端
使用上下键进行完工数量这一列的切换-->//键盘触发事件show(ev,index){letnewIndex;letinputAll=document.querySelectorAll('.table_inputinput');//向上=38if(ev.keyCode==38){if(index==0){//如果是第一行,回到最后一个newIndex=inputAll.length-1}elsei
Dockerfile FROM 两个 redDelta
Docker相关视频讲解：什么是容器Docker介绍实现"DockerfileFROM两个"的步骤步骤表格步骤操作1创建一个Dockerfile文件2写入FROM指令3构建第一个镜像4创建第二个Dockerfile文件5写入FROM指令6构建第二个镜像7合并两个镜像操作步骤说明步骤1：创建一个Dockerfile文件使用任意文本编辑器创建一个名为Dockerfile的文件。登录后复制#Docker
【Golang】实现 Excel 文件下载功能 RumIV Golang golang excel 开发语言
在当今的网络应用开发中，提供数据导出功能是一项常见的需求。Excel作为一种广泛使用的电子表格格式，通常是数据导出的首选格式之一。在本教程中，我们将学习如何使用Go语言和GinWeb框架来创建一个Excel文件，并允许用户通过HTTP请求下载该文件。准备工作在开始之前，请确保您的开发环境中已经安装了Go语言和相关的开发工具。此外，您还需要安装GinWeb框架和excelize包，这两个包都将用于我
探索ASPICE V3.1：汽车行业软件开发的中文指南阮懿同
探索ASPICEV3.1：汽车行业软件开发的中文指南ASPICE_V3.1中文版.pdf.zip项目地址:https://gitcode.com/open-source-toolkit/422a2在汽车软件工程领域，高质量的标准对于确保行车安全和提升用户体验至关重要。今天，我们为您介绍一个珍贵的开源宝藏——ASPICEV3.1中文版资源。这是一篇专为国内汽车行业开发者、质量管理者准备的深度解读，旨
【Golang】使用 Golang 语言和 excelize 库将数据写入Excel 不爱洗脚的小滕 golang excel 开发语言
文章目录前言一、Excelize简介二、代码实现1.获取依赖2.示例代码三、总结前言在数据处理和分析中，Excel作为一种常见的电子表格格式，被广泛应用于各种场景。然而，如何在Go语言中有效地处理Excel文件呢？在这篇博客中，我将介绍如何使用Go语言和excelize库将数据写入Excel文件。一、Excelize简介Excelize是一个用于读取和写入MicrosoftExcel™(XLSX)
坚持抄书打卡第七天，掌握新技能的一天爱读书的无业游民
我是爱读书的无业游民hjk，为什么是这个名字呢？因为我想做个无业游民，不上班还能够维持自己的生活开销！今天学会了如何解密pdf，对添加密码的pdf如何进行编辑操作，果然，遇到问题会激发自己学习的欲望，要不就一直没有学习的动力。抄书增长自己的学识，丰富自己的见闻，充实自己，让自己更优秀，同时善于分享，把一些我认为比较好的，有意义的语句分享给大家，如果帮到了大家，欢迎留言讨论！最近看得这本书是中村恒子
2020.5.20【第三十八天打卡】 CY的好运很哇塞呦
2020.5.20【第三十八天打卡】：一、今日进度：1.会计直播课程：《经济法基础》两个小时，主要内容：经济法基础相关理论知识～纯理论的课程，加上心里的烦躁，完整地听完一节课，真的是太难为自己了，需要明天重新看一遍回放。2.读其他书7章。二、今日待进步：1.练字0%2.表格学习0%3.TED0%三、明日安排：（一）每日常规三件事：1.读书半小时2.练字半小时3.学习半小时（二）每日新增一事（兴趣工
word转html制作操作手册,Word文档转换为HTML帮助文档操作手册范本.pdf 想吃草莓干 word转html制作操作手册
Word文档转换为HTML帮助文档操作手册一、使用到的软件DOC2CHMDreamweaverCS3Helpandmanual4二、操作步骤1.先建立一个工作目录。如hhwork。2.将需要转换的文件复制到此工作目录下。如果是中文文件名，最好将其改为英文文件名。例：现在要将《小神探点检定修信息管理系统使用手册0.3.6.doc》转换为Html格式的帮助文档，首先将此文档复制到hhwork目录下并将
WORD批量转换器MultiDoc Converter uolian 工作 word
WORD批量转换器MultiDocConverterhttps://www.52pojie.cn/thread-1318745-1-1.html可批量将doc、docx等文件格式转成doc、docx、pdf、rtf、txt、html、epub等格式。安装包下载地址：https://wws.lanzouj.com/irvVbiz0pkd最终下载文件打包地址（未作成单文件，不确定是否可以直接使用）：h
对待工作的态度杨奶茶
今天下午听了教授的一番话，听了很认真，人要学着傻，我就是以为自己很聪明，其实聪明反被聪明误，以前总是眼高手低，总觉得不给好处不做，什么都想谈条件，往往这样我得不到成长而且做事态度也很差，我现在才明白，什么事情先去做，而且认真做好，有一句话是但行好事，莫问前程。首先把事情做好，晚上美美让我做表格，其实我是最头疼表格的，眼睛都看花了，但是我内心里面我是很开心的，我喜欢承担责任，表格不会我可以学，做的慢
【Axure高保真原型】冻结固定中继器表格首列模板梓贤Vigo Axure 原型交互产品经理中继器
今天和大家分享冻结固定中继器表格首列的原型模板，当中继器表格列数较多时，通过拖动滚动条左右查看内容时，可以把首列冻结固定，方便我们查看。这个原型模板是用中继器制作的，所以使用也非常方便，在中继器表格里维护数据信息，预览时既可以生成高保真的交互效果。这套模板里面也提供固定左侧二列，或者你也可以用同样的方法，固定左侧多列。具体效果可以观看下方视频或者点击预览地址体验：【原型效果】【Axure高保真原型
前端HTML+CSS+JS的入门学习俊昭喜喜里前端 html css
一.HTMLHTML（HyperTextMarkupLanguage）即超文本标记语言，是用于创建网页和网页应用程序的标准标记语言。它不是一种编程语言，而是一种标记语言，通过一系列的元素（elements）来告诉浏览器如何显示网页上的内容，如文本、图片、链接、表格、列表等。HTML文档由一系列的标签（tags）组成，这些标签告诉浏览器如何显示内容。标签通常成对出现，例如和，其中是开始标签，表示一个
ResNet的半监督和半弱监督模型 Valar_Morghulis
Billion-scalesemi-supervisedlearningforimageclassificationhttps://arxiv.org/pdf/1905.00546.pdfhttps://github.com/facebookresearch/semi-supervised-ImageNet1K-models/权重在timm中也有：https://hub.fastgit.org/r
Linux删除监听端口进程,linux只端口监听及杀死进程探旅 Linux删除监听端口进程
itextpdf生成pdf文件一.简介itextpdf是一个开源的允许你去创建和操作PDF文档的库.它使的开发者可以提高web和其他应用来动态地生成或操作PDF文档.通过iText中的Document和PdfWriter类,...QtSizePolicy属性控件的sizePolicy说明控件在布局管理中的缩放方式.Qt提供的控件都有一个合理的缺省sizePolicy,但是这个缺省值有时不能适合所有
excel打开html非常慢,解决EXCEL表格打开缓慢，文件异常臃肿庞大史文林 excel打开html非常慢
相信很多每天在操作EXCEL的朋友，会觉得自己的表格一天比一天大，一天比一天打开慢，但表格里面实际也没多少内容。这其中的主要原因之一，就是你喜欢在多个表格之间互相复制来复制去，粘贴的时候也不是使用选择性粘贴。把原来表格里面的所有样式设置内容和不必要的数据都复制过来了，导致整个工作薄变得异常臃肿庞大。接下来我们就来分析下具体发生了什么情况和如何解决这个问题吧！1.看这个“源文件”，文件大小居然达到了
html打开本地excel文件夹,html使用excel表格数据库-html读取本地excel文件并展示睿理
html表格如何导入到excel中在vs里面用添加数据源就可以啊,再使用数据控件,就可以操作.添加数据源可以用odbc数据源,两种方式1,是在控制面板的管理工具里在ODBC里先设置好.2,是使用连接字符串.用vs的添加数据源向导做.html中有没有类似excel表格，可以填数的表格控件？首先html不能读取本地excel文件其次就算是javascript也是不允许的这是为了安全考虑如果前端脚本可以
overleaf如何下载论文的pdf 风也温柔☆ overleaf pdf overleaf
用overleaf写完英文论文后，要将论文保存为PDF格式点击图片中的下载按钮然后选择一个路径保存论文的PDF格式即可。
Zotero使用（一）PDF文件导入不会自动识别海绵波波107 论文（八股文）美化 pdf
上面两种，一种中文，一种英文，会发现，中文的导入进去之后不会自动识别，部分英文也是。不能自动识别就会缺少导出参考文献的功能，怎么办？发现之前导入喜欢使用PDF格式可以结合.ris格式，分开导入，这样都有了
PDF怎么测量尺寸时间的回忆88
PDF文件在使用的时候里面也会有图片与图形，我们需要测量其中尺寸的时候应该怎么做呢？估计各位小伙伴们也都很好奇吧，今天就一起来看看吧！1.首先要选择合适的PDF编辑软件，百度里搜索PDF编辑器http://bianji.xjpdf.com/，然后把这款软件安装在电脑中。编辑器安装完成之后打开运行迅捷PDF编辑器，在编辑器中打开需要测量的PDF图纸文件。2.尺寸的测量需要测量工具，找到编辑器中的工具
动态生成的html元素绑定click事件 .NET跨平台 Jquery及其组件 html jquery
第一篇博客，开启技术博客的生涯，欢迎大家批评指教（坚信妹子也可以做好程序猿）今天想说帮公司做项目的时候遇到的一个小问题，动态添加html元素以后再去事件监听出问题。在实际开发中会遇到要给动态生成的html元素绑定触发事件的情况。就是上面的一张表格要动态实现添加行，然后序列号还要随着增加，当删除的时候序列号依旧是按顺序排列。刚开始使用jQuery的on方法来解决，但是发现一个问题会出现事件绑定很多次
通过C# 裁剪PDF页面 Eiceblue C#.NET PDF c#pdf 开发语言 visual studio
在处理PDF文档时，有时需要精确地裁剪页面以适应特定需求，比如去除广告、背景信息或者仅仅是为了简化文档内容。本文将指导如何使用免费.NET控件通过C#实现裁剪PDF页面。免费库FreeSpire.PDFfor.NET支持在.NET(C#,VB.NET,ASP.NET,.NETCore)程序中实现创建、操作、转换和打印PDF文档等操作。可以从以下链接下载产品包后手动添加引用，或者直接通过NuGet安
利用apache-pdfbox库修改pdf文件模板，进行信息替换区块链攻城狮 pdf 合同模板 pdf生成合同生成
publicStringcreateSignFile(Longid)throwsIOException{//1.验证企业信息CompanyDOcompany=validateCompanyExists(id);//2.验证签约状态if(company.getSignStatus()!=0){throwexception(COMPANY_SIGN_STATUS_NOT_ZERO);}//3.获取合同
【爸爸带娃日更174】吃维生素的计算机思考蓝色眼镜007
中午，家里人为了有没有给冬冬喂过维生素，而反复确认。问冬冬，她就算吃了，也就是很被动的张口，而且每天都吃，她也不清楚。再问当事人，因为也是每天都喂，也不太确定。好像吃了，好像又没吃。有时，A顺手已喂冬冬吃了，B却并不知道。确认混乱。其实，无非就是没有「中心化数据库」嘛。以后，在墙上贴张表格，不管谁喂完后，就马上在上面打个勾。或者，每天的量都用纸包起来，纸外面写上日期，吃完就扔，这是「分布的思维」。
vue 表格左右拖拽调整列宽_vue中实现拖动调整左右两侧div的宽度的示例代码 weixin_40008969 vue 表格左右拖拽调整列宽
写在最前最近在使用vue的时候，遇到一个需求，实现左右div可通过中间部分拖拽调整宽度，类似于这样这是我最终的实现效果还是老话，因为我不是专业的前端工程师，只是兼职写一些简单的前端，所以这个功能的实现得益于以下博客，《vue拖动调整左右两侧div的宽度》、《vuejs中拖动改变元素宽度实现宽度自适应大小》，而我只是针对于他们提供的代码，加了亿点点自己所需要的细节。实现原理如上图所示，我们需要将要实
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多