wlyang666

6.java程序员必知必会类库之pdf处理库

前言

Pdf作为我们办公文件中的一种常用文件格式，很多业务中会涉及到一个功能，是将系统中的某些数据，按照要求的格式生成Pdf文件。比如常见的征信报告，合同文件等等，为此通过java代码，处理PDF格式的文件，是java程序员需要掌握的技能。

1 itextpdf操作pdf

1.1 简介

适合写文件，相对支持的格式比较多，图片，表格等等

1.2 pom坐标引入


<dependency>
	<groupId>com.itextpdfgroupId>
	<artifactId>itextpdfartifactId>
	<version>5.5.13version>
dependency>

<dependency>
	<groupId>com.itextpdfgroupId>
	<artifactId>itext-asianartifactId>
	<version>5.2.0version>
dependency>

1.3 api使用

关于PDF的读写，合并，拆分，比较常用的是生成PDF。

1.3.1 读

1.3.1.1 样例demo

新建一个word文档，内容如下，里面包含文字和图片，导出为pdf文件

1.3.1.2 测试代码

@Test
public void testRead() {
    String fileName = "C:\\Users\\newhope\\Desktop\\测试pdf\\测试01.pdf";
    String result = "";
    FileInputStream in = null;
    try {
        in = new FileInputStream(fileName);
        // 新建一个PDF解析器对象
        PdfReader reader = new PdfReader(fileName);
        reader.setAppendable(true);
        // 对PDF文件进行解析，获取PDF文档页码
        int size = reader.getNumberOfPages();
        for (int i = 1; i < size + 1; ) {
            //一页页读取PDF文本
            String pageStr = PdfTextExtractor.getTextFromPage(reader, i);
            result = result + pageStr + "\n" + "PDF解析第" + (i) + "页\n";
            i = i + 1;
        }
        reader.close();
    } catch (Exception e) {
        System.out.println("读取PDF文件" + fileName + "生失败！" + e);
        e.printStackTrace();
    } finally {
        if (in != null) {
            try {
                in.close();
            } catch (IOException e1) {
                e1.printStackTrace();
            }
        }
    }
    System.out.println(result);
}

代码运行结果如下，可以看到文本数据可以正常解析拿到，但是图片没有正常解析：

我是一段测试的数据
下面是测试图片
PDF解析第1页

1.3.2 写(常用)


// 页眉事件
private static class Header extends PdfPageEventHelper {
    public static PdfPTable header;

    public Header() {
    }

    public Header(PdfPTable header) {
        Header.header = header;
    }

    @Override
    public void onEndPage(PdfWriter writer, Document doc) {
        // 把页眉表格定位
        header.writeSelectedRows(0, -1, 30, 840, writer.getDirectContent());
    }

    /**
     * 设置页眉
     *
     * @param writer
     * @throws Exception
     */
    public void setTableHeader(PdfWriter writer, String subject) throws Exception {

        URL url = getClass().getClassLoader().getResource("picture/logo.jpg");// 获取文件的URL
        PdfPTable table = new PdfPTable(2);
        table.setTotalWidth(530);
        PdfPCell cell = new PdfPCell();
        cell.setBorder(0);
        Image image01;
        //image01 = Image.getInstance(PropertyUtil.getProperty("logoPath")); // 图片自己传
        image01 = Image.getInstance(url); // 图片自己传
        image01.scaleAbsolute(30f, 30f);
        cell.addElement(image01);
        cell.setBorderWidthBottom(1);
        cell.setRight(100f);
        table.addCell(cell);


        BaseFont bf;
        Font font = null;
        try {
            bf = BaseFont.createFont( "STSong-Light", "UniGB-UCS2-H",
                    BaseFont.NOT_EMBEDDED);//创建字体
            font = new Font(bf,12);//使用字体
        } catch (DocumentException | IOException e) {
            log.error("页面创建字体异常",e);
        }
        Paragraph p = new Paragraph(subject, font);
        p.setAlignment(1);
        PdfPCell cell0 = new PdfPCell();
        cell0.setBorder(0);
        cell0.setBorderWidthBottom(1);

        table.addCell(cell0);
        Header event = new Header(table);
        writer.setPageEvent(event);
    }
}

@Test
  public void testWrite() throws Exception {
      String filename = "C:\\Users\\newhope\\Desktop\\测试pdf\\测试02.pdf";
      // 创建文件
      Document document = new Document(PageSize.A4);
      // 创建pdf
      PdfWriter writer = PdfWriter.getInstance(document, new FileOutputStream(filename));
      Header header = new Header();
      header.setTableHeader(writer, "");
      document.open();
      BaseFont baseFont = null;
      Font commonFont = null;
      try {
          baseFont = BaseFont.createFont("STSong-Light", "UniGB-UCS2-H",
                  BaseFont.NOT_EMBEDDED);//创建字体
          commonFont = new Font(baseFont, 10.5f);//使用字体
      } catch (DocumentException | IOException e) {
          log.error("pdf字体创建异常", e);
      }
      /*
       * 标题
       */
      Paragraph paragraph = new Paragraph("标题", new Font(baseFont, 16));
      paragraph.setAlignment(1);
      paragraph.setLeading(2);
      PdfPCell pdfPCellTitle = new PdfPCell(paragraph);
      pdfPCellTitle.setHorizontalAlignment(1);
      pdfPCellTitle.disableBorderSide(15);

      PdfPTable pdfPTableTitle = new PdfPTable(1);
      pdfPTableTitle.addCell(pdfPCellTitle);
      document.add(pdfPTableTitle);
      //注意，这里要设置字体，否则中文会不显示
      document.add(new Paragraph("这是正文，测试pdf写入", commonFont));

      //写一个表格进去
      // 换行
      document.add(new Paragraph(" "));
      // 添加表格，3列 
      PdfPTable table = new PdfPTable(3);
      // 设置表格宽度比例为%100
      table.setWidthPercentage(100);
      // 设置表格上面空白宽度
      table.setSpacingBefore(10f);
      // 设置表格下面空白宽度
      table.setSpacingAfter(10f);
      // 设置表格默认为无边框
      table.getDefaultCell().setBorder(0);
      PdfPCell cell0 = new PdfPCell(new Paragraph("姓名",commonFont));
      // 设置跨两行
      cell0.setRowspan(2);
      // 设置距左边的距离
      cell0.setPaddingLeft(10);
      // 设置高度
      cell0.setFixedHeight(20);
      // 设置内容水平居中显示
      cell0.setHorizontalAlignment(Element.ALIGN_CENTER);
      // 设置垂直居中
      cell0.setVerticalAlignment(Element.ALIGN_MIDDLE);
      table.addCell(cell0);

      PdfPCell cellsex = new PdfPCell(new Paragraph("性别",commonFont));
      // 设置跨两行
      cellsex.setRowspan(2);
      // 设置距左边的距离
      cellsex.setPaddingLeft(10);
      // 设置高度
      cellsex.setFixedHeight(20);
      // 设置内容水平居中显示
      cellsex.setHorizontalAlignment(Element.ALIGN_CENTER);
      // 设置垂直居中
      cellsex.setVerticalAlignment(Element.ALIGN_MIDDLE);
      table.addCell(cellsex);

      PdfPCell cellage = new PdfPCell(new Paragraph("年龄",commonFont));
      // 设置跨两行
      cellage.setRowspan(2);
      // 设置距左边的距离
      cellage.setPaddingLeft(10);
      // 设置高度
      cellage.setFixedHeight(20);
      // 设置内容水平居中显示
      cellage.setHorizontalAlignment(Element.ALIGN_CENTER);
      // 设置垂直居中
      cellage.setVerticalAlignment(Element.ALIGN_MIDDLE);
      table.addCell(cellage);


      document.add(table);
      //注意：通常资源关闭要 try catch 异常后，放到finally里面，否则可能会导致资源没有释放，这里是测试代码，直接关闭
      document.close();

  }

测试代码生成pdf样式如下：

注意：

通常资源关闭要放到try catch finally模块，否则前面出现异常，可能会导致资源没有释放，后面不再赘述
上面例子只是演示了几种常见的数据，图片，表哥，文字，怎么写到pdf里面，具体用的时候，要根据业务需求自己扩展
pom坐标要引入itext-asian ，以及，写pdf的时候指定自己创建的字体，否则汉字可能会显示不出来
细心观察可以看到，上面测试方法，我们是把一块块数据拼上去的，其实有些内容是可以封装通用的方法的，这样后续拼接数据会方便很多
上面拼接excel代码，如果设置的列数是3列，但是后面代码没有拼到三个单元格，则生成的pdf里面不会生成对应的表格，也没有报错提示
在生成pdf的过程中，还有个比较繁琐的可能是调整样式，行距多少合适，宽度多少。。。这个有点像是写前端页面的感觉

1.3.3 拆分

这里用一个比较大的pdf做演示，按照页码拆分，代码如下：

@Test
public void testSplit() throws Exception{
    String fileName = "C:\\Users\\newhope\\Desktop\\测试pdf\\测试03.pdf";
    PdfReader reader = new PdfReader(fileName);
    int n = reader.getNumberOfPages();
    System.out.println ("Number of pages :" + n);
    int i = 0;
    while ( i < n ) {
        String outFile = fileName.substring(0, fileName.indexOf(".pdf"))
                +"-" + String.format("%03d", i + 1) +".pdf";
        System.out.println ("Writing" + outFile);
        Document document = new Document(reader.getPageSizeWithRotation(i+1));
        PdfCopy writer = new PdfCopy(document, new FileOutputStream(outFile));
        document.open();
        PdfImportedPage page = writer.getImportedPage(reader, ++i);
        writer.addPage(page);
        document.close();
        writer.close();
    }
}

1.3.4 合并

@Test
 public void testMerge() throws Exception{
     List<String> sourceFilePaths = Arrays.asList("C:\\Users\\newhope\\Desktop\\测试pdf\\测试01.pdf","C:\\Users\\newhope\\Desktop\\测试pdf\\测试03.pdf");
     String destFilePath="C:\\Users\\newhope\\Desktop\\测试pdf输出";

     Document document = null;
     PdfCopy copy = null;
     OutputStream os = null;
     try {
         // 创建合并后的新文件的目录
         Path dirPath = Paths.get(destFilePath.substring(0, destFilePath.lastIndexOf(File.separator)));
         Files.createDirectories(dirPath);

         os = new BufferedOutputStream(new FileOutputStream(new File(destFilePath)));
         document = new Document(new PdfReader(sourceFilePaths.get(0)).getPageSize(1));
         copy = new PdfCopy(document, os);
         document.open();
         for (String sourceFilePath : sourceFilePaths) {
             // 如果PDF文件不存在，则跳过
             if (!new File(sourceFilePath).exists()) {
                 continue;
             }

             // 读取需要合并的PDF文件
             PdfReader reader = new PdfReader(sourceFilePath);
             // 获取PDF文件总页数
             int n = reader.getNumberOfPages();
             for (int j = 1; j <= n; j++) {
                 document.newPage();
                 PdfImportedPage page = copy.getImportedPage(reader, j);
                 copy.addPage(page);
             }
         }
     } catch (Exception e) {
         e.printStackTrace();
     } finally {
         if (copy != null) {
             try {
                 copy.close();
             } catch (Exception ex) {
                 /* ignore */
             }
         }
         if (document != null) {
             try {
                 document.close();
             } catch (Exception ex) {
                 /* ignore */
             }
         }
         if (os != null) {
             try {
                 os.close();
             } catch (Exception ex) {
                 /* ignore */
             }
         }
     }
 }

代码运行效果感兴趣可以自己本地测试

2 pdfbox操作pdf

2.1 简介

适合文件的拆分合并，保存为图片等
不适合复杂格式的pdf代码拼接处理，但是这种可以通过word转pdf实现，即定制一个word模板，代码根据占位符替换里面数据，比如姓名，金额等，最后将word转为pdf

2.2 pom坐标引入

<dependency>
    <groupId>org.apache.pdfboxgroupId>
    <artifactId>pdfboxartifactId>
    <version>2.0.21version>
dependency>

2.3 api使用

2.3.1 读

@Test
public void testRead() throws Exception {
    String pdfPath = "C:\\Users\\newhope\\Desktop\\测试pdf\\测试01.pdf";
    String result = readPDF(pdfPath);
    System.out.println(result);
}

public String readPDF(String file) throws IOException {
    String picturePath = "C:\\Users\\newhope\\Desktop\\测试pdf\\";

    StringBuilder result = new StringBuilder();
    FileInputStream is = null;
    is = new FileInputStream(file);
    PDFParser parser = new PDFParser(new RandomAccessBuffer(is));
    parser.parse();
    PDDocument doc = parser.getPDDocument();
    PDFTextStripper textStripper = new PDFTextStripper();
    for (int i = 1; i <= doc.getNumberOfPages(); i++) {
        textStripper.setStartPage(i);
        textStripper.setEndPage(i);
        textStripper.setSortByPosition(true);//按顺序行读
        String s = textStripper.getText(doc);
        result.append(s);
    }
    //读取图片，保存到指定目录，真实业务场景可以上传到文件服务器，方便后续使用
    for (int i = 1; i <= doc.getNumberOfPages(); i++) {
        PDPage page = doc.getPage(i - 1);
        PDResources resources = page.getResources();
        Iterable<COSName> xobjects = resources.getXObjectNames();
        if (xobjects != null) {
            Iterator<COSName> imageIter = xobjects.iterator();
            while (imageIter.hasNext()) {
                COSName cosName = imageIter.next();
                boolean isImageXObject = resources.isImageXObject(cosName);
                if (isImageXObject) {
                    //获取每页资源的图片
                    PDImageXObject ixt = (PDImageXObject) resources.getXObject(cosName);
                    File outputfile = new File(picturePath + cosName.getName() + ".jpg");
                    ImageIO.write(ixt.getImage(), "jpg", outputfile);//可保存图片到本地
                }
            }
        }
    }
    doc.close();
    return result.toString();
}

代码运行结果，文字正常读取打印：

我是一段测试的数据
下面是测试图片

图片正常保存：

2.3.2 写

@Test
public void testWrite() throws Exception {
    String pdfPath = "C:\\Users\\newhope\\Desktop\\测试pdf\\测试POI写.pdf";
    String data="asfas中文测试dfas";
    PDDocument doc = new PDDocument();
    try {
        PDPage page = new PDPage();
        doc.addPage(page);
        //PDFont font = PDType1Font.HELVETICA_OBLIQUE;
        //这里注意，如果包含中文的话，要导入字体文件，否则要不写报错，要么中文写不出来
        PDFont font =  PDType0Font.load(doc, new File("E:\\weixinData\\WeChat Files\\wxid_gv8xbkloz0wc22\\FileStorage\\File\\2023-03\\test\\src\\main\\resources\\font\\test.ttf"));
        PDPageContentStream contents = new PDPageContentStream(doc, page);
        contents.beginText();
        contents.setFont(font, 30);
        contents.newLineAtOffset(50, 700);
        contents.showText(data);
        contents.endText();
        contents.close();
        doc.save(pdfPath);
    }
    finally {
        doc.close();
    }
}

代码运行结果如下：

注意：

如果文本包含中文用默认字体行不通，需要自己导入字体文件，字体文件可以从网上找，文末有网站链接
出现java.lang.NoSuchMethodError 问题，考虑看是不是pdfbox版本不对导致的问题

2.3.3 拆分

@Test
public void testSplit() throws Exception{

    String fileName = "C:\\Users\\newhope\\Desktop\\测试pdf\\测试03.pdf";
    PDDocument pdf = PDDocument.load(new File(fileName));
    //1、将第一个pdf按页码全部拆开
    Splitter splitter = new Splitter();
    List<PDDocument> pdDocuments = splitter.split(pdf);
    for (int i = 0; i < pdDocuments.size(); i++) {
        PDDocument pdDocument = pdDocuments.get(i);
        pdDocument.save("C:\\Users\\newhope\\Desktop\\测试pdf\\测试POI"+i +".pdf");
    }
}

代码运行结果，文件正常拆分：

2.3.4 合并

@Test
public void testMerge() throws Exception{

    List<String> sourceFilePaths = Arrays.asList("C:\\Users\\newhope\\Desktop\\测试pdf\\测试01.pdf","C:\\Users\\newhope\\Desktop\\测试pdf\\测试03.pdf");
    String destFilePath="C:\\Users\\newhope\\Desktop\\测试pdf\\测试POI合并.pdf";
    PDFMergerUtility pdfMerger = new PDFMergerUtility();
    pdfMerger.setDestinationFileName(destFilePath);
    for (String sourceFilePath : sourceFilePaths) {
        pdfMerger.addSource(sourceFilePath);
    }
    //合并文档,这里会推荐,让你指定合并文件的方式，是在内存中，还是在临时文件中
    //pdfMerger.mergeDocuments(MemoryUsageSetting.setupMainMemoryOnly());
    pdfMerger.mergeDocuments();
}

代码运行结果可以看到，pdf正常合并：

参考文献：

pdfbox更详细介绍
字体网站

以上，本人菜鸟一枚，如有问题，请不吝指正

c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
基于Python给出的PDF文档转Markdown文档的方法程序媛了了 python pdf 开发语言
注：网上有很多将Markdown文档转为PDF文档的方法，但是却很少有将PDF文档转为Markdown文档的方法。就算有，比如某些网站声称可以将PDF文档转为Markdown文档，尝试过，不太符合自己的要求，而且无法保证文档没有泄露风险。于是本人为了解决这个问题，借助GPT（能使用GPT镜像或者有条件直接使用GPT的，反正能调用GPT接口就行）生成Python代码来完成这个功能。笔记、代码难免存在
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
ARMv8 Debug __pop_ ARMv8 ARM64 架构 linux 运维
内容来自DEN0024A_v8_architecture_PG.pdf本质ARMv8Debug是什么历史在ARMv4开始被引入,并已发展成一系列广泛的调试(debug1)和跟踪(trace)功能ARMv6和ARMv7-a新增了自托管调试(debug2)和性能评测(trace-enhance)ARMv8处理器提供硬件功能侵入式:调试工具能够对核心活动提供显著级别的控制非侵入式:以非侵入性方式收集有关
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">