张xtpgyaps

用xpdf和pdfbox来处理中文PDF文档及其比较（转载）

我在以前的项目中使用的是pdfbox，在读取中文文档时可以读出大部分的文字，但是在数字、分页等地方还是不可避免的出现乱码。于是我在网上搜索，看有没有什么解决方法，看到有说法：

“PDFBox看起来非常的方便，它的API功能强大。甚至能和Lucene进行无缝的结合。但是它有一个致命的弱点，就是它不支持中文。要提取中文的文本，可以采用另一个非常出色的工具xpdf。”

于是我决定自己比较一下这两种方法处理中文pdf文档时在时间性能、读取效果等各个方面的效果。

一、关于XPDF和PDFBOX

1.xpdf

xpdf只是一个软件，通过java采用命令行调用，并获取输出结果，如此来说使用简单，但是相当受限，如：无法跨平台，无法处理特定格式（表格等），无法处理图片和其他附件。这种调用必定限制了它的灵活性。

2.pdfbox

pdfbox（一个BSD许可下的源码开放项目）是一个为开发人员读取和创建PDF文档而准备的纯Java类库。

二、XPDF的配置

1.工具包下载

点这里下载

我下载的是： xpdf-3.02pl4-win32.zip

另外还需要一个语言包： xpdf-chinese-simplified.tar.gz

2.工作路径设置

参考资料点这里

在本文中以 c:\xpdftest\xpdf 作为xpdf的工作路径。

将 xpdf-3.02p14-win32.zip 解压到 c:\xpdftest\xpdf 下。

将 xpdf-chinese-simplified.tar.gz 解压到 c:\xpdftest\xpdf\xpdf-chinese-simplified 下。

解压后的目录结构如图1所示：

3.修改配置文件

为了启用中文简体语言包，必须将 xpdf-chinese-simplified 目录下的 sample-xpdfrc 文件进行如下配置，并将其另存为 xpdfrc 文件。

注意：此文件为配置文件，而且名称必须是 xpdfrc 。如果是别的名字，即使调用 pdftotext.exe 时，传入 ” -cfg xpdfrc2 ” 来告诉 xpdf 配置文件的名字，好像 pdftotext.exe 也并没有使用这个配置文件。所以为了减少误解，请您将配置文件直接命名为 xpdfrc 。

修改 sample-xpdfrc 文件之一

在文件后面加上一段话：

Txt代码

#----- begin Chinese Simplified support package (2004-jul-27)
cidToUnicode Adobe-GB1 C:/xpdftest/xpdf/xpdf-chinese-simplified/Adobe-GB1.cidToUnicode
unicodeMap ISO-2022-CN C:/xpdftest/xpdf/xpdf-chinese-simplified/ISO-2022-CN.unicodeMap
unicodeMap EUC-CN C:/xpdftest/xpdf/xpdf-chinese-simplified/EUC-CN.unicodeMap
unicodeMap GBK C:/xpdftest/xpdf/xpdf-chinese-simplified/GBK.unicodeMap
cMapDir Adobe-GB1 C:/xpdftest/xpdf/xpdf-chinese-simplified/CMap
toUnicodeDir C:/xpdf/chinese-simplified/CMap
#displayCIDFontTT Adobe-GB1 /usr/..../gkai00mp.ttf
#----- end Chinese Simplified support package

#----- begin Chinese Simplified support package (2004-jul-27)

cidToUnicode     Adobe-GB1  C:/xpdftest/xpdf/xpdf-chinese-simplified/Adobe-GB1.cidToUnicode

unicodeMap ISO-2022-CN     C:/xpdftest/xpdf/xpdf-chinese-simplified/ISO-2022-CN.unicodeMap

unicodeMap EUC-CN       C:/xpdftest/xpdf/xpdf-chinese-simplified/EUC-CN.unicodeMap

unicodeMap GBK      C:/xpdftest/xpdf/xpdf-chinese-simplified/GBK.unicodeMap

cMapDir      Adobe-GB1  C:/xpdftest/xpdf/xpdf-chinese-simplified/CMap

toUnicodeDir                 C:/xpdf/chinese-simplified/CMap

#displayCIDFontTT   Adobe-GB1  /usr/..../gkai00mp.ttf

#----- end Chinese Simplified support package

注意：路径要跟自己配置的一样。

修改 sample-xpdfrc 文件之二

另外，配置文件中原先没有加上一个“ textPageBreaks ”控制。为了避免这个分页符号，我们需要在 sample-xpdfrc 文件 “ text output control ”下面加上一段话：

Txt代码

# If set to "yes", text extraction will insert page
# breaks (form feed characters) between pages. This
# defaults to "yes".
textPageBreaks no

# If set to "yes", text extraction will  insert  page
# breaks  (form feed characters) between pages.  This
# defaults to "yes".
textPageBreaks      no

设置 textPageBreaks 为 no 的意思是：在 PDF 文档的两页之间不加入分页符号。之所以这样，是因为这个符号有时候会引起 SAX 解析 XML 上的困难。

修改 sample-xpdfrc 文件之三

配置文件中原先把 textEncoding 注释了。这样默认的字符集是 Latin1 。我们必须打开它，并且就是指定 textEncoding 为 UTF-8 ，而不是 GB2312 。即修改这句话：

Txt代码

textEncoding UTF-8

textEncoding		UTF-8

三、PDFBOX的配置

请点这里查看PDFBOX的配置。

四、工程调用示范

在自己的常用工作环境下新建一个工程PdfTest，并在此工程下新建一个包pdfToText。

此包包括三个类：

TestPdfToText.java 包括Main函数，调用并测试xpdf和pdfbox对PDF文档的处理效果。

PdfboxToText.java 用pdfbox来处理PDF文档。

XpdfToText.java 用xpdf来处理PDF文档。

目录结构如图2所示：

在C盘根目录下有061231.pdf，在工程中相应设置路径进行测试，以下是源代码：

TestPdfToText.java

Java代码

package pdfToText;
/**
* 功能描述：测试用XPDF和PDFBOX来读取中文PDF文件生成TXT文件的效果
* @author Emily
* @Create 2010-03-07
*/
public class TestPdfToText {
/**
* @param args
*/
public static void main(String[] args) {
String rootPath = "c:\\061231";
//pdf文件路径
String pdffile = rootPath + ".pdf";
//用xpdf生成的txt文件路径
String xpdfToTxtfile = rootPath + "_xpdf.txt";
//用pdfbox生成的txt文件路径
String pdfboxToTxtfile = rootPath + "_pdfbox.txt";
//XPDF
try{
long begin = System.currentTimeMillis();
XpdfToText xpToTxt = new XpdfToText(pdffile);
xpToTxt.toTextFile(xpdfToTxtfile);
long end = System.currentTimeMillis();
System.out.println("xpdf\t cost:\t" + (end - begin) + " ms");
}catch(Exception e){
e.printStackTrace();
}
//PDFBOX
try{
long begin = System.currentTimeMillis();
PdfboxToText pbToTxt = new PdfboxToText(pdffile);
pbToTxt.toTextFile(pdfboxToTxtfile);
long end = System.currentTimeMillis();
System.out.println("pdfbox\t cost:\t" + (end - begin) + " ms");
}catch(Exception e){
e.printStackTrace();
}
}
}

package pdfToText;
/**
 * 功能描述：测试用XPDF和PDFBOX来读取中文PDF文件生成TXT文件的效果
 * @author Emily
 * @Create 2010-03-07
 */
public class TestPdfToText {

	/**
	 * @param args
	 */
	public static void main(String[] args) {
		String rootPath = "c:\\061231";
		//pdf文件路径
		String pdffile = rootPath + ".pdf";
		//用xpdf生成的txt文件路径
		String xpdfToTxtfile = rootPath + "_xpdf.txt";
		//用pdfbox生成的txt文件路径
		String pdfboxToTxtfile = rootPath + "_pdfbox.txt";
		//XPDF
		try{
			long begin = System.currentTimeMillis(); 
			XpdfToText xpToTxt = new XpdfToText(pdffile);
            xpToTxt.toTextFile(xpdfToTxtfile);
            long end = System.currentTimeMillis(); 
            System.out.println("xpdf\t cost:\t" + (end - begin) + " ms");
		}catch(Exception e){
			e.printStackTrace();
		}
	    //PDFBOX
	    try{
	    	long begin = System.currentTimeMillis();
	    	PdfboxToText pbToTxt = new PdfboxToText(pdffile);
	    	pbToTxt.toTextFile(pdfboxToTxtfile);
	    	long end = System.currentTimeMillis(); 
            System.out.println("pdfbox\t cost:\t" + (end - begin) + " ms");
	    }catch(Exception e){
	    	e.printStackTrace();
	    }
	  
	}
}

PdfboxToText.java

Java代码

package pdfToText;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileWriter;
import java.io.IOException;
import org.pdfbox.pdfparser.PDFParser;
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.util.PDFTextStripper;
public class PdfboxToText {
private String filePath;
public PdfboxToText(String filePath){
this.filePath = filePath;
}
public String getTextFromPdf(){
String result = null;
FileInputStream is = null;
PDDocument document = null;
try {
is = new FileInputStream(filePath);
PDFParser parser = new PDFParser(is);
parser.parse();
document = parser.getPDDocument();
PDFTextStripper stripper = new PDFTextStripper();
result = stripper.getText(document);
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} finally {
if (is != null) {
try {is.close();}catch(IOException e){e.printStackTrace();}
}
if (document != null) {
try{document.close();}catch (IOException e){e.printStackTrace();}
}
}
return result;
}
public void toTextFile(String filePath){
String pdfContent = getTextFromPdf();
try{
File f = new File(filePath);
if(!f.exists()){
System.out.println("not exist");
f.createNewFile();
}
BufferedWriter output = new BufferedWriter(new FileWriter(f));
output.write(pdfContent);
output.close();
}catch (Exception e) {
e.printStackTrace();
}
}
}

package pdfToText;

import java.io.BufferedWriter;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileWriter;
import java.io.IOException;
import org.pdfbox.pdfparser.PDFParser;
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.util.PDFTextStripper;

public class PdfboxToText {
	private String filePath;
	public PdfboxToText(String filePath){
		this.filePath = filePath;
	}
	public String getTextFromPdf(){
		String result = null;
		FileInputStream is = null;
        PDDocument document = null;
        try {
            is = new FileInputStream(filePath);
            PDFParser parser = new PDFParser(is);
            parser.parse();
            document = parser.getPDDocument();
            PDFTextStripper stripper = new PDFTextStripper();
            result = stripper.getText(document);
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            if (is != null) {
                try {is.close();}catch(IOException e){e.printStackTrace();}
            }
            if (document != null) {
            	try{document.close();}catch (IOException e){e.printStackTrace();}
            }
        }
        return result;
	}

	public void toTextFile(String filePath){
		String pdfContent = getTextFromPdf();
		try{
			File f = new File(filePath);
			if(!f.exists()){
				System.out.println("not exist");
				f.createNewFile();
			}
			BufferedWriter output = new BufferedWriter(new FileWriter(f));
			output.write(pdfContent);
			output.close();
		}catch (Exception e) {
		e.printStackTrace();
		}
	}	
}

XpdfToText.java

Java代码

package pdfToText;
import java.io.File;
import java.io.IOException;
public class XpdfToText {
// PDF文件名
private File pdffile;
// 转换器的存放位置，默认在c:\xpdftest\xpdf下面
private String CONVERTOR_STORED_PATH = "c:\\xpdftest\\xpdf\\";
// 转换器的名称，默认为pdftotext
private String CONVERTOR_NAME = "pdftotext";
// 构造函数，参数为pdf文件的路径
public XpdfToText(String pdffile) throws IOException {
this.pdffile = new File(pdffile);
}
// 将pdf转为文本文档，参数为目标文件的路径
public void toTextFile(String targetfile) throws IOException {
toTextFile(targetfile, true);
}
// 将pdf转为文本文档，参数1为目标文件的路径，
// 参数2为true则表示使用PDF文件中的布局
public void toTextFile(String targetfile, boolean isLayout)
throws IOException {
String[] cmd = getCmd(new File(targetfile), isLayout);
Runtime.getRuntime().exec(cmd);
}
// 获取PDF转换器的路径
public String getCONVERTOR_STORED_PATH() {
return CONVERTOR_STORED_PATH;
}
// 设置PDF转换器的路径
public void setCONVERTOR_STORED_PATH(String path) {
if (!path.trim().endsWith("\\"))
path = path.trim() + "\\";
this.CONVERTOR_STORED_PATH = path;
}
// 解析命令行参数
private String[] getCmd(File targetfile, boolean isLayout) {
// 命令字符
String command = CONVERTOR_STORED_PATH + CONVERTOR_NAME;
// PDF文件的绝对路径
String source_absolutePath = pdffile.getAbsolutePath();
// 输出文本文件的绝对路径
String target_absolutePath = targetfile.getAbsolutePath();
// 保持原来的layout
String layout = "-layout";
// 设置编码方式
String encoding = "-enc";
String character = "GBK";
// 设置不打印任何消息和错误
String mistake = "-q";
// 页面之间不加入分页
String nopagebrk = "-nopgbrk";
// 如果isLayout为false，则设置不保持原来的layout
if (!isLayout)
layout = "";
return new String[] { command, layout, encoding, character, mistake,
nopagebrk, source_absolutePath, target_absolutePath };
}
}

package pdfToText;

import java.io.File;
import java.io.IOException;

public class XpdfToText {
    // PDF文件名
    private File pdffile;
    // 转换器的存放位置，默认在c:\xpdftest\xpdf下面
    private String CONVERTOR_STORED_PATH = "c:\\xpdftest\\xpdf\\";
    // 转换器的名称，默认为pdftotext
    private String CONVERTOR_NAME = "pdftotext";

    // 构造函数，参数为pdf文件的路径
    public XpdfToText(String pdffile) throws IOException {
    	this.pdffile = new File(pdffile);
    }

    // 将pdf转为文本文档，参数为目标文件的路径
    public void toTextFile(String targetfile) throws IOException {
    	toTextFile(targetfile, true);
    }

    // 将pdf转为文本文档，参数1为目标文件的路径，
    // 参数2为true则表示使用PDF文件中的布局
    public void toTextFile(String targetfile, boolean isLayout)
            throws IOException {
        String[] cmd = getCmd(new File(targetfile), isLayout);
        Runtime.getRuntime().exec(cmd);
    }

    // 获取PDF转换器的路径
    public String getCONVERTOR_STORED_PATH() {
        return CONVERTOR_STORED_PATH;
    }

    // 设置PDF转换器的路径
    public void setCONVERTOR_STORED_PATH(String path) {
        if (!path.trim().endsWith("\\"))
            path = path.trim() + "\\";
        this.CONVERTOR_STORED_PATH = path;
    }

    // 解析命令行参数
    private String[] getCmd(File targetfile, boolean isLayout) {

        // 命令字符
        String command = CONVERTOR_STORED_PATH + CONVERTOR_NAME;
        // PDF文件的绝对路径
        String source_absolutePath = pdffile.getAbsolutePath();
        // 输出文本文件的绝对路径
        String target_absolutePath = targetfile.getAbsolutePath();
        // 保持原来的layout
        String layout = "-layout";
        // 设置编码方式
        String encoding = "-enc";
        String character = "GBK";
        // 设置不打印任何消息和错误
        String mistake = "-q";
        // 页面之间不加入分页
        String nopagebrk = "-nopgbrk";
        // 如果isLayout为false，则设置不保持原来的layout
        if (!isLayout)
            layout = "";
        return new String[] { command, layout, encoding, character, mistake,
                nopagebrk, source_absolutePath, target_absolutePath };
    }
}

五、测试结果和总结

1.txt文件大小

一个大小为74KB的PDF文档经处理为txt文档后，大小明显减小。

经xpdf处理后生成了10KB的txt文件。

经pdfbox处理后生成了12KB的txt文件。

2.时间性能

从运行结果来看，xpdf处理的速度明显大大快于pdfbox的处理速度，几乎是1/10。

如图3所示。

3.读取效果

在设置了保持原PDF文档的布局的情况下，xpdf读取的效果如图4所示

若不保持原PDF文的的布局，xpdf读取的效果如图5所示

经pdfbox读取的效果如图6和图7所示。

4.分析总结

从以上调用结果可以发现，在时间性能和空间性能上，xpdf都明显优于pdfbox 。在最关键的读取效果上，pdfbox会自动在某些读取文字中加入一些格式，比如回车、空格等，造成了更不好的效果。至于在某些PDF文档的格式会读出乱码的情况上，两种方法读出的乱码都是比较一致的，这应该是由于这两个方法的缺陷造成的。

综上所示，如果不要求很高的移植性的话，采用xpdf应该是比较好的方法。

树莓派超全系列教程文档--(29)config.txt介绍想躺在地上晒成地瓜干树莓派树莓派 linux 树莓派教程 RaspberryPi config.txt
config.txt介绍什么是`config.txt`？文件格式高级功能`include`条件过滤文章来源：http://raspberry.dns8844.cn/documentation原文网址什么是config.txt？RaspberryPi设备使用名为config.txt的配置文件，而不是传统PC上的BIOS。在ArmCPU和Linux初始化之前，GPU会读取config.txt。Rasp
Python 深度学习实战第10章使用深度学习处理时间序列&RNN预测实例 odoo中国人工智能深度学习 python rnn 时间序列
Python深度学习实战第10章使用深度学习处理时间序列数据&RNN实例内容概要第10章深入探讨了时间序列数据的深度学习应用，涵盖了从预测到分类、事件检测和异常检测等多种任务。本章通过温度预测示例，详细介绍了如何使用循环神经网络（RNN）及其变体（如LSTM和GRU）来处理时间序列数据。通过本章，读者将掌握如何使用深度学习解决时间序列问题，并理解RNN的工作原理。主要内容时间序列任务的类型预测：预
C语言中算法的时间复杂度和空间复杂度小刘不要秃头算法数据结构
一、算法时间复杂度的定义在进行算法分析时u，语句的执行次数T(n)是关于问题规模n的函数，进而分析T(n)随n的变化情况并确定的T(n)的数量级。算法的时间复杂度也称算法的时间量度。记作T(n)=O(f(n))。这样用大写O来体现的时间复杂度记法叫做大O记法。一般情况下，随着n的增大,T(n)增长最慢的算法称为最优算法。二、推导大O阶的方法1.用常数1取代运行时间中的所有加法常数2.在修改后的运行
高速数据处理核心板学习资料：175-基于TI DSP TMS320C6455、Xilinx V5 FPGA XC5VSX95T的高速数据处理核心板 hexiaoyan827 2020 高速数据处理核心板 TMS320C6455处理板软件无线电图像数据采集广播电视
一、板卡概述该DSP+FPGA高速信号采集处理板由我公司自主研发，包含一片TIDSPTMS320C6455和一片XilinxV5FPGAXC5VSX95T-1FF1136i。包含1个千兆网口，1个FMCHPC接口。可搭配使用ADFMC子卡、图像FMC子卡等，用于软件无线电系统，基带信号处理，无线仿真平台，高速图像采集、处理等。二、技术指标以xilinx公司V5系列FPGAXC5VSX95T和TI公
《空间复杂度（C语言）》码中游侠沐墨数据结构 c语言算法空间复杂度数据结构
文章目录前言一、什么是空间复杂度？通俗理解：二、空间复杂度的数学定义三、常见空间复杂度举例（含C语言代码）O(1)：常数空间O(n)：线性空间O(n^2)：平方空间四、输入数据占用的空间算吗？五、递归中的空间复杂度六、时间复杂度vs空间复杂度七、优化空间复杂度的常见方法总结前言当你写出一段能“跑得起来”的C语言程序时，也许你会觉得：“OK，搞定了！”但你有没有想过：这段程序在处理大数据量时，会不会
Python 数据分析库NumPy 十里桃花ღ Python知识汇总 python
NumPy是Python中用于科学计算（数据分析）的第三方库，主要来处理数值型的多维度数组与矩阵运算，也针对数组运算提供大量的数学函数库。1、数组的创建importrandomimportnumpyasnp#使用numpy生成数组，得到ndarray的类型t1=np.array([1,2,3])print(t1)#[123]print(type(t1))#print('-'*20)t2=np.ar
关于win11如何打开Hyper-V详解码中游侠沐墨实用技巧笔记
文章目录概要一、安装Hyper-V二、启用Hyper-V概要我是想要在win11家庭版用docker部署一个，gpt大模型，一开始走了很多弯路，因为要打开Hyper-V，所以我搜集到了一个方法，因为一般win11家庭版的Hyper-v是默认隐藏的，只能通过命令开启一、安装Hyper-V首先在桌面上新建一个文本文件2.然后将新建的文本文件进行重命名3.然后右击以文本的的方式打开，将下面代码复制进去p
开关电源的峰值电流控制模式＆AtTiTuDe；嵌入式硬件笔记学习
一、峰值电流控制模式的定义峰值电流控制模式通过控制电感电流的峰值来间接控制PWM（脉冲宽度调制）信号的占空比，从而实现对输出电压的调节。在这种模式下，误差电压信号（通常来自电压反馈环）被用作电感电流峰值的参考信号，当电感电流的峰值达到该参考信号的值时，PWM信号关断，从而控制开关管的导通时间。二、工作原理1、基本工作过程时钟信号触发开关管导通，电感电流线性上升。当电感电流的峰值达到误差放大器输出的
解决Windows安全中心显示空白页面 XdecadeXXX windows
1、电脑重装系统后，发现原本一些软件打不开了，电脑莫名认为有病毒，自动删除插件。附图。2、第一反应是电脑防火墙的原因，默认威胁防护识别到了病毒软件，自动删除。在开始屏幕搜Windows安全中心，打开之后发现空白页，附图。3、找到解决方法，首先点击开始，输入cmd，用管理员身份打开命令提示符，打开之后，在对话框输入以下代码：REGADD“HKEY_LOCAL_MACHINE\SYSTEM\Curre
数据可视化 —— 条形图应用（大全）小白—人工智能信息可视化数据可视化 python
一、条形图的应用场景1.数据比较适用场景：对比不同类别、组别或时间点的数值差异。示例：不同产品的销售额对比；各城市人口数量排名；部门间的年度预算分配。2.分类数据分布适用场景：展示分类数据的频数或比例。示例：不同年龄段用户的占比；客户满意度调查中各评分等级（满意、一般、不满意）的分布。3.时间趋势（少量时间点）适用场景：当时间点较少时，用条形图展示随时间变化的趋势。对比：时间点较多时更适合折线图。
大语言模型智能体：安全挑战与应对之道漠月瑾 AI安全探秘语言模型安全网络大模型智能体
在当今科技飞速发展的时代，大语言模型驱动的智能体正逐渐融入我们生活和工作的方方面面，给我们带来了诸多便利。但与此同时，它们的安全问题也引起了广泛的关注。今天，咱们就一起来深入了解一下可信大语言模型智能体所面临的安全挑战以及相应的应对机制。一、智能体是什么？想象一下，智能体就像是一个超级智能的“小助手”，它有自己的“思考”和“行动”能力。它可以接收我们给它的指令，像人一样感知周围的环境，然后分析这些
Redis 面试题 yousuotu 面试题 redis 数据库缓存
1、什么是Redis？Redis本质上是一个Key-Value类型的内存数据库，很像memcached，整个数据库统统加载在内存当中进行操作，定期通过异步操作把数据库数据flush到硬盘上进行保存。因为是纯内存操作，Redis的性能非常出色，每秒可以处理超过10万次读写操作，是已知性能最快的Key-ValueDB。Redis的出色之处不仅仅是性能，Redis最大的魅力是支持保存多种数据结构，此外单
＜C#＞.NET WebAPI 的 FromBody ，FromForm ，FromServices等详细解释搬砖工程师Cola C#c#.net 开发语言
在.NET8WebAPI中，[FromBody]、[FromForm]、[FromHeader]、[FromKeyedServices]、[FromQuery]、[FromRoute]和[FromServices]这些都是用于绑定控制器动作方法参数的特性，下面为你详细解释这些特性。1.[FromBody]作用：从HTTP请求的消息体中绑定参数。一般用于处理JSON或XML格式的数据，常用于POST
PDB之批量并行下载PDB文件 qqqqqrc 蛋白质结构 linux pdb
在RCSBPDB官网提供了批量下载PDB文件的脚本。（该脚本需要安装curl工具，可以参考教程进行安装）但是由于在下载时，只能一个一个PDB文件进行下载，而无法并行下载，因此对该脚本进行了一些修改，使其可以并行处理，下载速度更快。#!/bin/bash#ScripttodownloadfilesfromRCSBhttpfiledownloadserviceswithparallelsupport.
Cursor：AI编程时代的革命性IDE，让开发效率飙升10倍的秘密！曦紫沐 AI编程助手 AI编程 ide Cursor
一、核心功能：AI深度融入开发全流程Cursor是一款基于VSCode二次开发的AI原生编程工具，通过深度集成GPT-4、Claude3.5等先进大模型，重新定义了编程体验。以下是其核心功能亮点：智能代码生成与重构自然语言编程：通过Ctrl+K输入需求（如“用Python写贪吃蛇游戏”），AI可直接生成完整代码框架，支持从零开发到复杂项目构建。代码优化建议：实时分析代码复杂度，提供重构建议（如拆分
Redis 管道、事务、Lua 脚本对比黄晓宇 redis
概述Redis提供三种将客户端多条命令打包发送给服务端执行的方式：Pipelining(管道)、Transactions(事务)和LuaScripts(Lua脚本)。本文不会过细的讨论三种方式的基础知识，将从这三种方式的优势、局限性和原子性方面展开讨论Pipelining（管道）Redis管道是三者之中最简单的，当客户端需要执行多条redis命令时，可以通过管道一次性将要执行的多条命令发送给服务端
[Redis]1-高效的数据结构P2-Set 啾啾大学习 #Redis Redis Redis数据结构跳表 intset
按照惯例，先丢一个官网文档链接。上篇我们已经了解了高效的数据结构P1-String与Hash。这篇，我们继续来了解Redis的Set与Sortedset。目录有序集合Sortedset底层实现集合Set总结资料引用有序集合SortedsetRedis有序集合是一组唯一的字符串（成员）集合，这些字符串根据一个关联的分数进行排序。这种有序、元素唯一且根据关联的分数进行排序的高效操作的数据结构，简称ZS
[特殊字符]颠覆MCP！Open WebUI新技术mcpo横空出世！支持ollama！轻松支持各种MCP Server！Cline+Claude3.7轻松开发论文检索MCP Server！ AI超元域 javascript 开发语言 ecmascript 人工智能 chatgpt 自动化 ai
本篇笔记所对应的视频：颠覆MCP！OpenWebUI新技术mcpo横空出世！支持ollama！轻松支持各种MCPServer！Cline+Claude3.7轻松开发MCP服务_哔哩哔哩_bilibiliOpenWebUI的MCPo项目：将MCP工具无缝集成到OpenAPI的创新解决方案随着人工智能工具和模型的快速发展，如何高效、安全地将这些工具集成到标准化的API接口中成为了开发者面临的重要挑战。
Docker容器内存限制面朝大海，春不暖，花不开容器化 docker 容器运维
容器的一个重要功能之一，除了封装应用程序进程之外，还可以限制单个容器最多可以消耗的资源。这包括CPU和内存的消耗。让我们来看看如何限制内存（RAM）的使用量：dockercontainerrun--rm-it\--namestress-test\--memory512M\ubuntu:22.04/bin/bashdocker的基础命令，不再讲解，不熟悉的可以看我的docker实战课，地址：Dock
jetson orin nano super AI模型部署之路（七）yolov10 tensorrt usb cam模型部署 bug404_ 人工智能 YOLO
先看一下基本效果：可实现usb摄像头实时的进行检测，对于中等的yolov10s模型，FPS在8左右。跑的是tensorrtfp16模型。可视化界面如图：一、环境配置和usb摄像头配置参考之前发布的“jetsonorinnanosuperAI模型部署之路（二）保姆级最好用AI环境配置”和“jetsonorinnanosuperAI模型部署之路（六）docker内使用usb摄像头”两篇完成开发环境的配
利用redis实现订单倒计结束后更改订单状态为已失效追梦者123 redis bootstrap mybatis
利用redis实现订单倒计结束后更改订单状态为已失效利用Redis实现订单倒计时并自动失效订单的功能，可以通过Redis的过期键通知（KeyExpirationNotification）和定时任务补偿机制实现实现步骤配置Redis启用过期事件修改Redis配置文件redis.conf，开启键过期事件通知：启用过期事件通知notify-keyspace-eventsEx并且启用Redis的持久化sa
Rust学习笔记（下） Fishermen_sail Rust rust
前言笔记的内容主要参考与《Rust程序设计语言》，一些也参考了《通过例子学Rust》和《Rust语言圣经》。Rust学习笔记分为上中下，其它两个地址在Rust学习笔记（上）和Rust学习笔记（中）。并发线程在大部分现代操作系统中，已执行程序的代码在一个进程（process）中运行，操作系统则负责管理多个进程。在程序内部，也可以拥有多个同时运行的独立部分。运行这些独立部分的功能被称为线程（threa
如何删除 Launchpad 中 Chrome 的图标 Fishermen_sail 其他 chrome
有一天突然在Launchpad中出现下面的图标，在Finder的Applications中也没有，不知道如何删除。最终在《Howtoremovechromeappiconsfromlaunchpad?》中找到了答案。中文互联网上并没有搜到相关帖子，遂作记录。解决办法很简单，照着下面的目录找到ChromeApps，删掉即可。
数据结构【顺序表】姜行运 C语言数据结构数据结构 c语言 android
顺序表和轮转数组练习1.线性表2.顺序表2.1定义与结构2.2分类2.2.1静态顺序表2.2.2动态顺序表2.3动态顺序表的实现附：轮转数组1.线性表线性表是n个具有相同特性数据元素的有限序列，线性表是一种在实际中广泛使用的数据结构，常见的线性表有：顺序表，链表，栈，队列，字符串……线性表在逻辑结构上是线性的，但在物理结构上不一定是连续的，线性表在物理结构上存储时，通常以数组和链式结构的形式存储。
Python爬虫实战：爬取城市文化活动数据——获取活动日期、地点和价格信息 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言信息可视化 github
在当今信息化的社会，文化活动的种类日益丰富，涵盖了音乐会、艺术展览、话剧演出、舞蹈表演等各类活动。为了方便人们了解自己所在城市的文化活动信息，编写一个爬虫来抓取相关数据是非常有价值的。这些数据可以帮助人们了解哪些文化活动正在举办，活动的时间、地点和票价等，进一步丰富用户的文化生活。在本文中，我们将带您实现一个基于Python的爬虫，抓取城市文化活动的相关数据，包括活动的日期、地点和价格信息。我们将
携程机票数据爬取实战：使用 Python 获取携程网机票信息 Python爬虫项目 2025年爬虫实战项目 python 开发语言数据挖掘数据分析爬虫
引言携程网作为国内领先的旅游平台之一，提供了包括机票、酒店、火车票、旅游度假等多种服务，其中机票信息的查询和预定尤为重要。对于数据分析师、研究人员或商业分析者而言，机票数据是非常宝贵的资源。通过对携程网的机票信息进行爬取，我们可以获取各种航班的实时数据，如价格、航程、机票余量、航班时刻等，从而为航班预测、票价分析、市场趋势分析等任务提供支持。在本篇博客中，我们将详细介绍如何通过Python爬取携程
.NET MCP 文档许泽宇的技术分享 .net 人工智能
MCP概述MCP（ModelContextProtocol）是由Anthropic推出的一种开放协议，类似AI的USB-C扩展坞，用于在大模型和数据源之间建立安全的通信（授权），让AI应用能够安全地访问和操作本地或远程数据，例如操作本地文件、浏览器和Web服务。为了更好地理解MCP，我们可以用一个简单的类比：如果把AI比作电脑主机，那么MCP就相当于USB协议，而MCPServer则类似于各种US
Python 代码质量：最佳实践与工具(3) CS创新实验室 Python python 开发语言
之前已经就本文话题写了两篇：Python代码质量：最佳实践与工具(1)Python代码质量：最佳实践与工具(2)本篇内容是接着《Python代码质量：最佳实践与工具(2)》的【在Python中应用高质量代码的最佳实践】继续列举最佳实践项目。代码检查工具（Linters）Python社区开发了一些工具，称为代码检查工具（linters），你可以设置并使用它们来检查代码的不同方面。代码检查工具会分析代
从零开始：YOLOv4 目标检测实战指南 (环境配置、训练到优化全流程) LIUDAN'S WORLD YOLO系列教程 YOLO 目标检测人工智能
本篇博客将带你一步步从零开始，完成YOLOv4的环境配置、数据集准备与训练，并涵盖常见的优化和问题解决。本文将以Darknet框架下的YOLOv4实现为主，因为它是由YOLOv4原作者团队维护和优化的官方版本，能够提供最原汁原味的体验和性能。我们将涵盖以下内容：环境配置详解：Python、CUDA、cuDNN、GCC、Make等前置依赖，以及Darknet的编译。数据集准备与预处理：目标检测数据集
极验4 语序验证码分析极验4 w 2766958292 小程序极验语序验证码极验4 w 验证码 jiyan
声明本文章中所有内容仅供学习交流使用，不用于其他任何目的，抓包内容、敏感网址、数据接口等均已做脱敏处理，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！逆向过程defurl_to_base64(url):#将URL编码为base64字符串base64_encoded_data=base64.b64encode(url.encode('utf-8'))base64_message=b
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓

用xpdf和pdfbox来处理中文PDF文档及其比较（转载）

你可能感兴趣的:(用xpdf和pdfbox来处理中文PDF文档及其比较（转载）)