利用Chrome Headless模式网页转PDF

本文转载于:https://blog.csdn.net/aWDac/article/details/80865754
      https://blog.csdn.net/xcl168/article/details/75675781
后台网页截图参考:https://blog.csdn.net/xsviglh_/article/details/105321649

一、概述

  试过使用wkhtmltopdf来将网页打印成PDF文件,但有些网页转出来是空白的。然后发现Chrome Headless模式可以实现我想要的,而且用Chrome来实现,可以排除掉很多Bug。
  Chrome Headless模式相当于一个没有界面的浏览器,能实现很多功能,能实现pdf打印,截图等,扩展下,可以 做web测试,爬虫抓取等等。

二、安装

sudo apt-get install libxss1 libappindicator1 libindicator7
wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
sudo dpkg -i google-chrome-stable_current_amd64.deb
sudo apt-get install -f

三、命令使用

google-chrome --headless --disable-gpu --print-to-pdf='test.pdf' https://www.aliyun.com/

参数说明:

  • –headless:无头模式,就是无界面模式运行
  • –print-to-pdf:指定转pdf的路径和名称
  • –no-sandbox:让Chrome在root权限下跑
  • –window-size:专门应对无头浏览器中不能最大化屏幕的方案,如–window-size=1920,1080

四、Java中使用

  • 请参考https://github.com/fanyong920/jvppeteer
  • 要使用 maven,请将此依赖添加到pom.xml文件中:

  io.github.fanyong920
  jvppeteer
  1.1.1

  • 生成页面的 PDF
	//自动下载,第一次下载后不会再下载
    BrowserFetcher.downloadIfNotExist(null);
    ArrayList arrayList = new ArrayList<>();
    //生成pdf必须在无厘头模式下才能生效
    LaunchOptions options = new LaunchOptionsBuilder().withArgs(arrayList).withHeadless(true).build();
    arrayList.add("--no-sandbox");
    arrayList.add("--disable-setuid-sandbox");
    Browser browser = Puppeteer.launch(options);
    Page page = browser.newPage();
    page.goTo("https://www.baidu.com/?tn=98012088_10_dg&ch=3");
    PDFOptions pdfOptions = new PDFOptions();
    pdfOptions.setPath("test.pdf");
    page.pdf(pdfOptions);
    page.close();
    browser.close();

四、 官方文档

https://developers.google.cn/web/updates/2017/04/headless-chrome#create_a_pdf

你可能感兴趣的:(html,pdf,html,to,pdf)