NoahX

使用 docx4j 将 Web 页面转换为 DOCX 与 PDF 格式

一、背景

项目中需要将某数据显示的内容，提供一个下载 DOCX 与 PDF 功能。在分析阶段发现 docx4j（http://www.docx4java.org/trac/docx4j）提供了转换功能。在调试开发时遇到了 HTML 格式兼容，样式丢失，PDF 中文字体等问题。

二、分析

docx4j-ImportXHTML（https://github.com/plutext/docx4j-ImportXHTML），从名称上一看就知道这个只支持 XHTML。如果是非 XHTML 格式，解析就有问题。

所以在样例中使用了 jsoup（http://jsoup.org/）将 HTML 统一转换为 XHTML，并去掉不需要的一些内容（如：script）。这时再调用 docx4j-ImportXHTML 就可以正常解析。

注：这种转换不适用于常规 HTML 页面，转换过程中会丢失样式造成混乱。在这里想要做的是一种以特定 HTML 格式编写页面模板转出 DOCX 与 PDF 的方式。

三、样例程序

样例程序中有很多注释，这理就不再深入描述。该程序支持 Linux 环境。

1、主流程

a、jsoup 抓取指定 URL 的内容
b、使用 jsoup 清理内容，转为 XHTML
c、调用 docx4j-ImportXHTML，生成 WordprocessingMLPackage 对象（docx4j）
d、另存为 DOCX 与 PDF

2、POM 文件

这里使用了 Jetty，主要作用是测试时充当假 HTTP 服务器。

直接运行 mvn clean test 就可以看到转换效果。

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>org.noahx</groupId>
    <artifactId>html2docx</artifactId>
    <version>1.0.0-SNAPSHOT</version>

    <dependencies>
        <dependency>
            <groupId>org.docx4j</groupId>
            <artifactId>docx4j-ImportXHTML</artifactId>
            <version>3.2.2</version>
            <exclusions>
                <exclusion>
                    <artifactId>slf4j-log4j12</artifactId>
                    <groupId>org.slf4j</groupId>
                </exclusion>
                <exclusion>
                    <artifactId>log4j</artifactId>
                    <groupId>log4j</groupId>
                </exclusion>
            </exclusions>
        </dependency>

        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.8.1</version>
        </dependency>

        <dependency>
            <groupId>org.slf4j</groupId>
            <artifactId>slf4j-simple</artifactId>
            <version>1.7.10</version>
            <scope>test</scope>
        </dependency>

        <dependency>
            <groupId>org.eclipse.jetty</groupId>
            <artifactId>jetty-server</artifactId>
            <version>9.2.9.v20150224</version>
            <scope>test</scope>
        </dependency>
    </dependencies>
</project>

3、TestHtmlConverter 单元测试类

该类创建模拟 HTTP 服务器，调用转换类将 HTML 内容转换为 DOCX 与 PDF，并调用操作系统打开文件操作。

出于调试目的，日志输出级别为 DEBUG，会产生大量日志。实际运行时可以提高日志级别。

package org.noahx.html2docx;

import org.junit.AfterClass;
import org.junit.BeforeClass;
import org.junit.Test;
import org.slf4j.impl.SimpleLogger;

import java.awt.*;
import java.io.File;

/**
 * Created by noah on 3/12/15.
 */
public class TestHtmlConverter {

    private static HtmlServer htmlServer = new HtmlServer();

    @BeforeClass
    public static void before() {
        System.setProperty(SimpleLogger.DEFAULT_LOG_LEVEL_KEY, "DEBUG");
        htmlServer.start();
    }

    @AfterClass
    public static void after() {
        htmlServer.stop();
    }

    @Test
    public void test() throws Exception {

        HtmlConverter converter = new HtmlConverter();
        String url = "http://127.0.0.1:" + htmlServer.getPort() + "/report.html"; //输入要转换的网址

        File fileDocx = converter.saveUrlToDocx(url);
        File filePdf = converter.saveUrlToPdf(url);

        Desktop.getDesktop().open(fileDocx); //由操作系统打开
        Desktop.getDesktop().open(filePdf);
    }
}

4、HTML 样本文件（report.html）

样式问题请查看注释。

<!DOCTYPE html>
<html>
<head>
    <meta charset="UTF-8">
    <title>测试标题</title>
    <style type="text/css">

        body {
            font-family: SimSun;
        }

        .tb {
            border-collapse: collapse;
            empty-cells: show;
            width: 100%; /*竖版时100%宽度不正确*/
        }

        .tb th {
            text-align: center;
            border: 1px solid #000000; /* pdf 输出时边颜色受 color 影响，所以指定 #000000 */
        }

        .tb td {
            border: 1px solid #000000; /* pdf 输出时边颜色受 color 影响，所以指定 #000000 */
        }

        p {
            /*不支持 text-indent 样式，用中文全角空格（&#12288;） */
            /*text-indent: 2em;*/
        }
    </style>
</head>
<body>

<div style="text-align: center">
    <h1>标题1:大家好</h1>
</div>

<h2>标题2:大家好</h2>

<h3>标题3:大家好</h3>

<p>&#12288;&#12288;这是一个中文段落。这是一个中文段落。这是一个中文段落。这是一个中文段落。这是一个中文段落。这是一个中文段落。这是一个中文段落。这是一个中文段落。这是一个中文段落。这是一个中文段落。</p>

<p/>

<table class="tb"> <!-- 100%宽 -->
    <tr>
        <td>a</td>
    </tr>
</table>
<p/>

<table class="tb" style="width: 400px"> <!-- 定宽 -->
    <tr>
        <th>第一列</th>
        <th>第二列</th>
        <th>第三列</th>
        <th>第四列</th>
    </tr>
    <tr>
        <td>abc</td>
        <td>efg</td>
        <td>efg</td>
        <td>efg</td>
    </tr>
    <tr>
        <td>abc</td>
        <td style="color: #dc1619;font-weight: bold">efg</td>
        <!--color属性不可以使用英文（red） -->
        <td>efg</td>
        <td>efg</td>
    </tr>
</table>
<p/>

<div style="text-align: center">
    <h1>表1</h1>
</div>
<table class="tb" style="width: 400px;margin: auto"> <!-- 定宽居中 -->
    <tr>
        <th>第一列</th>
        <th>第二列</th>
        <th>第三列</th>
        <th>第四列</th>
    </tr>
    <tr>
        <td>abc</td>
        <td>efg</td>
        <td>efg</td>
        <td>efg</td>
    </tr>
    <tr>
        <td>abc</td>
        <td style="color: #dc1619;font-weight: bold">efg</td>
        <!--color属性不可以使用英文（red） -->
        <td>efg</td>
        <td>efg</td>
    </tr>
</table>
<p/>

<!-- docx 输出图时左边会有上点间距 -->

<h1>图1</h1> <!-- 缩小图片 -->
<img src="chart.jpg" width="50" height="30">

<p/>

<h1>图2</h1>
<img src="chart.jpg">

<p/>

<div style="text-align: center"> <!-- 图片居中 -->
    <h1>图3</h1>
    <img src="chart.jpg">
</div>

</body>
</html>

5、主转换程序（HtmlConverter）

package org.noahx.html2docx;

import org.docx4j.Docx4J;
import org.docx4j.convert.in.xhtml.XHTMLImporterImpl;
import org.docx4j.fonts.IdentityPlusMapper;
import org.docx4j.fonts.Mapper;
import org.docx4j.fonts.PhysicalFont;
import org.docx4j.fonts.PhysicalFonts;
import org.docx4j.jaxb.Context;
import org.docx4j.model.structure.PageSizePaper;
import org.docx4j.openpackaging.packages.WordprocessingMLPackage;
import org.docx4j.wml.RFonts;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.nodes.Entities;
import org.jsoup.select.Elements;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.io.File;
import java.io.OutputStream;
import java.net.URL;

/**
 * Created by noah on 3/10/15.
 */
public class HtmlConverter {

    /**
     * 输出文件名
     */
    public final String OUT_FILENAME = "OUT_ConvertInXHTMLURL";

    private final Logger logger = LoggerFactory.getLogger(this.getClass());

    /**
     * 将页面保存为 docx
     *
     * @param url
     * @return
     * @throws Exception
     */
    public File saveUrlToDocx(String url) throws Exception {
        return saveDocx(url2word(url));
    }

    /**
     * 将页面保存为 pdf
     *
     * @param url
     * @return
     * @throws Exception
     */
    public File saveUrlToPdf(String url) throws Exception {
        return savePdf(url2word(url));
    }

    /**
     * 将页面转为 {@link org.docx4j.openpackaging.packages.WordprocessingMLPackage}
     *
     * @param url
     * @return
     * @throws Exception
     */
    public WordprocessingMLPackage url2word(String url) throws Exception {
        return xhtml2word(url2xhtml(url));
    }

    /**
     * 将 {@link org.docx4j.openpackaging.packages.WordprocessingMLPackage} 存为 docx
     *
     * @param wordMLPackage
     * @return
     * @throws Exception
     */
    public File saveDocx(WordprocessingMLPackage wordMLPackage) throws Exception {

        File file = new File(genFilePath() + ".docx");
        wordMLPackage.save(file); //保存到 docx 文件

        if (logger.isDebugEnabled()) {
            logger.debug("Save to [.docx]: {}", file.getAbsolutePath());
        }
        return file;
    }

    /**
     * 将 {@link org.docx4j.openpackaging.packages.WordprocessingMLPackage} 存为 pdf
     *
     * @param wordMLPackage
     * @return
     * @throws Exception
     */
    public File savePdf(WordprocessingMLPackage wordMLPackage) throws Exception {

        File file = new File(genFilePath() + ".pdf");

        OutputStream os = new java.io.FileOutputStream(file);

        Docx4J.toPDF(wordMLPackage, os);

        os.flush();
        os.close();

        if (logger.isDebugEnabled()) {
            logger.debug("Save to [.pdf]: {}", file.getAbsolutePath());
        }
        return file;
    }

    /**
     * 将 {@link org.jsoup.nodes.Document} 对象转为 {@link org.docx4j.openpackaging.packages.WordprocessingMLPackage}
     * xhtml to word
     *
     * @param doc
     * @return
     * @throws Exception
     */
    protected WordprocessingMLPackage xhtml2word(Document doc) throws Exception {

        WordprocessingMLPackage wordMLPackage = WordprocessingMLPackage.createPackage(PageSizePaper.valueOf("A4"), true); //A4纸，//横版:true

        configSimSunFont(wordMLPackage); //配置中文字体

        XHTMLImporterImpl xhtmlImporter = new XHTMLImporterImpl(wordMLPackage);

        wordMLPackage.getMainDocumentPart().getContent().addAll( //导入 xhtml
                xhtmlImporter.convert(doc.html(), doc.baseUri()));


        return wordMLPackage;
    }

    /**
     * 将页面转为{@link org.jsoup.nodes.Document}对象，xhtml 格式
     *
     * @param url
     * @return
     * @throws Exception
     */
    protected Document url2xhtml(String url) throws Exception {
        Document doc = Jsoup.connect(url).get(); //获得

        if (logger.isDebugEnabled()) {
            logger.debug("baseUri: {}", doc.baseUri());
        }

        for (Element script : doc.getElementsByTag("script")) { //除去所有 script
            script.remove();
        }

        for (Element a : doc.getElementsByTag("a")) { //除去 a 的 onclick，href 属性
            a.removeAttr("onclick");
            a.removeAttr("href");
        }

        Elements links = doc.getElementsByTag("link"); //将link中的地址替换为绝对地址
        for (Element element : links) {
            String href = element.absUrl("href");

            if (logger.isDebugEnabled()) {
                logger.debug("href: {} -> {}", element.attr("href"), href);
            }

            element.attr("href", href);
        }

        doc.outputSettings()
                .syntax(Document.OutputSettings.Syntax.xml)
                .escapeMode(Entities.EscapeMode.xhtml);  //转为 xhtml 格式

        if (logger.isDebugEnabled()) {
            String[] split = doc.html().split("\n");
            for (int c = 0; c < split.length; c++) {
                logger.debug("line {}:\t{}", c + 1, split[c]);
            }
        }
        return doc;
    }

    /**
     * 为 {@link org.docx4j.openpackaging.packages.WordprocessingMLPackage} 配置中文字体
     *
     * @param wordMLPackage
     * @throws Exception
     */
    protected void configSimSunFont(WordprocessingMLPackage wordMLPackage) throws Exception {
        Mapper fontMapper = new IdentityPlusMapper();
        wordMLPackage.setFontMapper(fontMapper);

        String fontFamily = "SimSun";

        URL simsunUrl = this.getClass().getResource("/org/noahx/html2docx/simsun.ttc"); //加载字体文件（解决linux环境下无中文字体问题）
        PhysicalFonts.addPhysicalFont(fontFamily, simsunUrl);
        PhysicalFont simsunFont = PhysicalFonts.get(fontFamily);
        fontMapper.put(fontFamily, simsunFont);

        RFonts rfonts = Context.getWmlObjectFactory().createRFonts(); //设置文件默认字体
        rfonts.setAsciiTheme(null);
        rfonts.setAscii(fontFamily);
        wordMLPackage.getMainDocumentPart().getPropertyResolver()
                .getDocumentDefaultRPr().setRFonts(rfonts);
    }

    /**
     * 生成文件位置
     *
     * @return
     */
    protected String genFilePath() {
        return System.getProperty("user.dir") + "/" + OUT_FILENAME;
    }
}

四、转换效果

1、DOCX 转换效果

使用 docx4j 将 Web 页面转换为 DOCX 与 PDF 格式_第1张图片

2、PDF 转换效果

五、源码下载

源码：https://onedrive.live.com/redir?resid=55dc3c0254f15cff%21159

操作系统知识点30 落——枫网络
1.处理器处于管态时可以执行全部指令2.当进程处于阻塞态时，表示进程因某种原因而暂时不能运行的状态3.最近最不常用LFU：淘汰访问次数最少最近未使用NRU：访问位和修改位均为0最近最少使用LRU：访问位为0，访问次数最多4.采用给进程一次性分配其所需资源的方法是破坏了请求和保持条件5.要实现一个可变分区存储管理方案，需要的基本条件：硬件地址转换机制作支持；基址寄存器；限长寄存器；地址加法器；地址比
postgis与高德地图转化 Vic2334 数据库 postgresql 学习
SQL转化将PostGIS中的地理数据与高德地图所需的格式进行匹配可以涉及以下几个步骤：1.数据格式：首先，需要了解高德地图所需的地理数据格式。通常，高德地图可能接受常见的地理数据格式，如WGS84坐标系的经纬度坐标。2.坐标系转换：如果PostGIS中的地理数据使用的是不同的坐标系，可能需要进行坐标系转换。这可以通过使用专门的坐标转换库或工具来完成。3.数据提取：从PostGIS中提取所需的地理
canvas绘制和数字签名前端
关键是要把存放绘制的信息放到一个二维数组中：绘制时最好不要用定时器进行定时绘制，因为会卡顿，最好使用requestAnimationFrame这个原生js的api方法，因为是以帧的间隔绘制，所以会看起来流畅Documenthtml,body{height:100%;margin:0;padding:0;}.container{width:100%;padding:20px0;display:fle
【Java】Devops、CI/CD、jenkins 开心星人 JavaWeb java java devops ci/cd
https://heuqqdmbyk.feishu.cn/docx/ITjadnZfAoxauXxqgiccu9b6nGghttps://www.bilibili.com/video/BV1j8411N7Bm?spm_id_from=333.788.videopod.episodes&vd_source=6bec1f5b9fe3a91a9829e3a951692cc5&p=169CI/CD是近年来
python flask 分页_Python的Flask框架中实现分页功能的教程 weixin_39959126 python flask 分页
BlogPosts的提交让我们从简单的开始。首页上必须有一张用户提交新的post的表单。首先我们定义一个单域表单对象(fileapp/forms.py)：classPostForm(Form):post=TextField('post',validators=[Required()])下面，我们把这个表单添加到template中(fileapp/templates/index.html)：{%ex
分享vue好用的pdf 工具实测何包蛋H vue.js pdf javascript
vue3-pdf-app：带大纲，带分页，带缩放，带全屏，带打印，带下载，带旋转下载依赖：yarnaddvue3-pdf-appornpminstallvue3-pdf-app配置类：创建文件pdfConfig.ts//工具栏配置项exportconstconfig={//右侧其他区工具sidebar:{viewThumbnail:true,//启用缩略图视图viewOutline:true,//
Python 实现海康机器人工业相机 MV-CS050-10GC 的实时显示视频流及拍照功能(实时显示视频流同时可以进行拍照) 恋上钢琴的虫数码相机
参考链接：https://www.cnblogs.com/HanYork/p/17388506.htmlhttps://www.cnblogs.com/miracle-luna/p/16960556.html#5138211Flask搭建流媒体服务器：使用Flask搭建一个流媒体服务器_multipart/x-mixed-replace;boundary=frame-CSDN博客
Hive SQL 精进系列： JSON_TUPLE 快速提取多键值进一步有进一步的欢喜 Hive SQL 精进系列 hive sql hadoop
目录一、引言二、json_tuple函数基础2.1基本语法参数解释返回值简单示例三、应用场景3.1数据提取与分析3.2数据集成与转换3.3复杂JSON数据处理四、json_tuple、get_json_object和from_json的对比4.1功能特点4.2语法和使用复杂度4.3性能表现4.4示例对比使用json_tuple使用get_json_object使用from_json五、使用注意事项
使用 Dify 创建自然语言生成 Word 文档的应用（详细指南） engchina LINUX python 人工智能 Agent Dify
使用Dify创建自然语言生成Word文档的应用（详细指南）一、开发核心API1.1API功能规划1.2环境准备安装依赖库项目目录结构1.3核心代码解析（`app.py`）1.3.1初始化配置1.3.2关键功能模块1.4API接口说明1.4.1转换接口`/convert`1.4.2下载接口`/download/`1.5启动服务1.6测试二、创建Dify工具2.1工作流设计步骤步骤1：创建新工作流步骤
RAW图与BAYER图异同越甲八千【opencv学习】【海康相机视觉案例】计算机视觉人工智能
RAW图是一种未经处理、未压缩的图像文件格式，它记录了图像传感器捕捉到的原始数据，包含了拍摄时的大量图像信息。下面从多个方面详细介绍RAW图：参考：B站大清光学定义与基本概念定义：RAW文件是图像传感器将捕捉到的光源信号转化为数字信号的原始数据。相机在拍摄时，光线通过镜头到达图像传感器，传感器将光线的强度、颜色等信息转化为电信号，再经过模数转换变成数字数据，RAW格式直接保存这些原始数据，而不经过
elasticsearch analyzer 学习笔记 weixin_40455124 elasticsearch 代码分析及扩展 elasticsearch analyzer token
基本定义analyzer执行将输入字符流分解为token的过程使用场景在indexing的时候，也即在建立索引的时候在searching的时候，也即在搜索时，分析需要搜索的词语analysisCharacterfiltering(字符过滤器):使用字符过滤器转换字符Breakingtextintotokens(把文字转化为标记):将文本分成一组一个或多个标记Tokenfiltering：使用标记过
php openssl tls1.2,openssl建立tls1连接过程(s->state的变化过程) 开源故事 php openssl tls1.2
以下是调用openssl建立tls1连接过程中,openssl内部对握手阶段的处理过程,可以对照抓包观察以下服务端和客户端是并行进行的,只是需要接收对端消息时才会进入等待状态.为方面理解,所以将客户端和服务端的处理按顺序排好.具体的状态转换代码请见:server端/ssl/s3_srvr.c的ssl3_accept方法client端/ssl/s3_clnt.c的ssl3_connect方法clie
数据处理和分析之数据降维：t-SNE：使用t-SNE进行数据可视化实践 kkchenkx 数据挖掘信息可视化算法聚类均值算法数据挖掘机器学习
数据处理和分析之数据降维：t-SNE：使用t-SNE进行数据可视化实践数据降维简介降维技术的重要性在数据科学和机器学习领域，数据降维是一种关键的技术，用于减少数据集的维度，同时保留数据的结构和重要信息。降维不仅可以帮助我们更有效地存储和处理数据，还能在高维数据中发现潜在的模式和结构，这对于数据可视化和模型训练尤为重要。高维数据往往难以直观理解，通过降维，我们可以将其转换为二维或三维空间，便于可视化
爬取电影标题、评论、评分（21-11-4）穆桥 Python爬虫 XPath解析 MySQL数据库电影信息疾病数据
功能描述：1、爬取网页1中的电影名称、评分、简介到mysql数据库中。2、爬取网页2中的标题、时间、正文、采集时间到mysql数据库中。使用的技术:requests请求、xpath解析、mysqlxpath解析语法//子孙节点/直接子节点.选取当前节点…选取当前节点的父节点@选取属性通过Python的lxml库，利用XPath进行HTML的解析。scrapy封装了lxml也可以导入scrapy任务
Flutter 自定义年月日倒计时 xudailong_blog Flutter开发 flutter 倒计时年月日 android
因项目中的订单页需要一个定时器，比如下单后需要进行倒计时，等倒计时完后，订单状态自动关闭。如图：这里显示等17分25秒就是我们所需要做的功能。项目里还有其他倒计时类型，比如年月日，天之类的，先上一个工具类：//时间格式化，根据总秒数转换为对应的hh:mm:ss格式staticStringconstructTime(intseconds){intday=seconds~/3600~/24;intho
useblackbox黑箱AI编码助理百态老人 python 开发语言
黑箱AI是一个人工智能的编码助理可以让代码快10倍。它使您能够把任何问题变成代码和功能,如从任何视频提取代码和代码自动完成。它有以下几个特点：可以从视频、图片、PDF等格式中复制代码。可以将任何问题转换成代码。可以快速找到任何代码片段，并开始编码。支持20多种编程语言的代码自动补全。有Chrome扩展和VSCode扩展。这个网站有不同的收费方案，根据你需要的功能和使用量而定。它有以下几种选择：好开
给接口自动化测试框架增色，实现企业微信测试报告编程简单学软件测试 python python 单元测试压力测试 postman 功能测试
作者在新项目中搭建了python+requests+unittest+HTMLTestRunner接口自动化测试框架，通过修改配置文件实现环境隔离，一份脚本即可在不同的环境执行接口测试用例。但是没有实现任何形式的消息通知，也没有集成到jenkins，原因很简单，因为还没做到很大，而且用户活跃不够，问题也相对较少，只在上线前后执行一次uat和prod环境。那这几天想完善一下消息通知功能，让它具备发送
【C++】继承月亮有痕迹诶 C++c++开发语言
目录前言一、继承的概念及定义1.1继承的概念1.2继承的定义1.2.1定义格式1.2.2继承关系和访问限定符1.2.3继承基类成员访问方式的变化二、基类和派生类对象复制转换三、继承中的作用域四、派生类的默认成员函数五、继承与友元六、继承与静态成员七、复杂的菱形继承及菱形虚拟继承八、继承的总结和反思总结前言随着面向对象编程（OOP）在现代软件开发中的广泛应用，继承作为其核心机制之一，成为了代码复用和
Java 将 byte[] 转换为 File 对象我真的不想做程序员 java java 开发语言后端数据结构算法
目录一、将byte[]转换为File对象二、完整示例三、总结在Java开发中，将字节数组（byte[]）转换为文件对象（File）是一个常见的需求。这种需求常见于处理文件上传、下载以及与其他系统集成的场景。本文将详细介绍如何实现这一功能，并提供具体代码示例。一、将byte[]转换为File对象在Java中，可以使用java.io包中的File类和FileOutputStream类来将字节数组转换为
python中将字符串转换成数字，并且保留两位小数上趣工作室 python python 后端
在Python中，你可以使用float()函数将字符串转换为数字，并使用字符串格式化来保留小数点后两位。下面是一个示例代码：defconvert_to_float(string):try:number=float(string)formatted_number="{:.2f}".format(number)returnformatted_numberexceptValueError:return"
rapidocr-onnxruntime库及在open-webui上传PDF 图像处理 (使用 OCR)应用原野AI 大模型部署 pdf ocr 深度学习 open-webui
背景rapidocr-onnxruntime是一个跨平台的OCR库，基于ONNXRuntime推理框架。目前已知运行速度最快、支持最广，完全开源免费并支持离线快速部署的多平台多语言OCR。缘起：百度paddle工程化不是太好，为了方便大家在各种端上进行ocr推理，我们将它转换为onnx格式，使用Python/C++/Java/Swift/C#将它移植到各个平台。名称来源：轻快好省并智能。基于深度学
RapidOCRPDF 项目教程侯深业Dorian
RapidOCRPDF项目教程RapidOCRPDFBasedonRapidOCR,extractthePDFcontent.项目地址:https://gitcode.com/gh_mirrors/ra/RapidOCRPDF1.项目介绍RapidOCRPDF是一个基于RapidOCR的开源项目，旨在快速提取PDF文件中的文字内容。该项目支持多种类型的PDF，包括扫描版PDF、加密版PDF以及可直
《Python实战进阶》小技巧 1：一篇文章讲完网站部署如何优化网站照片加载/访问提速的方法带娃的IT创业者 Python实战进阶 python php 网络
一篇文章讲完网站部署如何优化网站照片加载/访问提速的方法摘要在网络速度较低的情况下，大量照片会导致网站加载缓慢。本文档详细介绍了优化家庭网站中照片加载速度的多种方法和技术。以下是主要的优化策略及其具体实现：1.图片压缩与优化自动压缩上传的图片：通过Python脚本使用PIL库压缩图片，调整大小、转换模式，并保存为优化的JPEG格式。批量优化现有图片：编写脚本对文件夹中的图片进行批量处理，包括创建备
在线 SQL 转 Python ORM工具 A__tao sql oracle 数据库
一款高效的在线SQL转PythonORM，支持自动解析SQL语句并生成PythonORM模型代码，适用于数据库管理、后端开发和ORM结构映射。无需手写ORM模型，一键转换SQL结构，提升开发效率，简化数据库操作。gotool
使用SetupTools 管理你的项目打包工作魔王阿卡纳兹开源项目观察 Python 学习札记 python setuptools 代码分发
Setuptools是一个用于Python的包管理工具，主要用于构建、打包和分发Python软件包。它是distutils的增强版，提供了更多的功能和灵活性，是Python包管理的核心模块之一。功能与特点依赖管理：Setuptools提供了强大的依赖管理功能，可以自动解析和安装软件包所需的依赖项。自动生成入口点：它能够自动发现并生成命令行脚本的入口点，例如将Python脚本转换为可执行文件。模块发
CSS3实现的波浪线条动画效果 KkvlCapture css3 前端 css 动画
在这篇文章中，我们将学习如何使用CSS3创建一个令人惊叹的波浪线条动画效果。通过一些简单的CSS代码，我们可以为网页添加流动的波浪线条，为用户带来视觉上的吸引力。首先，让我们来看一下实现这个效果所需的HTML结构。我们将使用一个元素作为容器，并在其中创建一个带有波浪线条的元素。以下是示例HTML代码：<span
基于热力梯度的线圈设计用来更替新型的储能方式热爱电气数学建模
摘要研究背景：传统电磁储能技术受限于较低的能量密度（约1-5Wh/kg）和充放电速度。热力梯度储能技术通过调控温度场实现多模式能量转换，其潜力能量密度可达100Wh/kg以上。创新点：1.提出三层异质线圈结构（铜基主储层+Bi₂Te₃热电转换层+GdFeO₃磁热调谐层），实现温度梯度与磁场的协同调控。2.开发动态热-电-磁耦合模型，结合有限元分析（COMSOL）与机器学习算法（遗传算法优化参数）。
HTML5 Web SQL froginwe11 开发语言
HTML5WebSQL引言随着互联网技术的飞速发展，HTML5作为新一代的网页技术，已经逐渐成为网页开发的主流。在HTML5中，WebSQL是一种轻量级的数据库存储技术，它允许开发者直接在网页中存储数据。本文将详细介绍HTML5WebSQL的概念、特点、应用场景以及使用方法。一、WebSQL概念WebSQL是一种轻量级的数据库存储技术，它允许开发者使用SQL语句在网页中存储数据。WebSQL数据库
Python中的eval函数 a1274646034 python
一、简介：eval函数就是实现list、dict、tuple与str之间的转化，而str函数实现把list、dict、tuple转换成字符串1、字符串转化为列表1#字符串转化为列表2a="[[1,2],[3,4],[5,6],[7,8],[9,10]]"3print(type(a))4b=eval(a)5print(type(b))6print(b)123[[1,2],[3,4],[5,6],[7
NAT 和 IP 直接通信的区别曹天骄 tcp/ip 服务器网络协议
1.NAT的工作原理NAT（NetworkAddressTranslation，网络地址转换）是一种网络技术，用于将私有网络中的IP地址映射到公共网络中的IP地址，或者在不同的网络之间转换IP地址。NAT的主要目的是解决IPv4地址不足的问题，同时提供一定程度的安全性和灵活性。NAT设备（如路由器或防火墙）会在数据包经过时修改其源IP地址或目标IP地址。常见的NAT类型包括：静态NAT：将私有IP
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam