小游甲鱼

java中实现word（doc、docx）中完美提取文字、表格为结构化数据

java poi word文字表格结构化抽取

目的

好处

概述及依赖
开始

抽取

核心思想：
常量定义
结构化javabean类:

WordTableCell类：
WordTable类：
WordContent类（包括word抽取出的文字和表格结构）

docx核心方法解析：

目的

对于word中的数据，我们可能存在将其抽取为结构化数据的需求。

好处

将数据存储于数据库中，将数据从word繁杂的以手工编辑的格式媒介中抽离出来，便于做大数据分析、ai数据集准备等后续操作。
提供在网页等其它媒介中方便地展示、编辑、再储存等，可自由定制数据展示方式，而不需依赖word客户端组件。

概述及依赖

Word包括docx和doc，其中doc源文件为二进制流文件，可读性较差。docx为xml文件，可读性较强。
想要使用全套的poi解析word，引用的maven包如下：


    org.apache.poi
    poi
    3.17


    org.apache.poi
    poi-ooxml
    3.17


    org.apache.poi
    ooxml-schemas
    1.3


    org.apache.poi
    poi-scratchpad
    3.17


    org.apache.xmlbeans
    xmlbeans
    2.6.0

相信我，使用这套引用没有问题，特别全！甚至你版本号也不需要改！如果你需要改动版本号，还需要注意不同包之间的版本关系。具体查看网址如下：
Maven Repository: org.apache.poi » poi
进入这个网址后点击对应版本号往下拉可以看到对应依赖版本配置，以保证没有依赖错误。

开始

在poi中，doc与docx使用的是完全不同的类，方法内部逻辑也不相同，需要各自开发。
docx主要使用的类：XWPFDocument（WordExtractor类是其子集，不需要它），相关规范
doc主要使用的类：HWPFDocument

抽取

核心思想：

对整个word文档从上至下扫描，并对其中的文字和表格进行区分处理，优点：

可以记录文字和表格的顺序，而其它网站上的抽取方法很可能会丢失页面文字和表格的顺序。
其它网站的方法很可能在抽文字时会把表格中的文字一并抽出，而我这里可以自由选择是否抽取出表格中的文字。

常量定义

/**
 * word表格默认高度
 */
private static final int DEFAULT_HEIGHT = 500;

/**
 * word表格默认宽度
 */
private static final int DEFAULT_WIDTH = 1000;

/**
 * word表格转换参数 默认为/1 可以根据需求调整
 */
private static final int DEFAULT_DIV = 1;

/**
 * 目前没有提取word的字体大小 默认为12
 */
private static final Float DEFAULT_FONT_SIZE = 12.0F;

/**
 * word的全角空格 以及\t 制表符
 */
private static final String WORD_BLANK = "[\u00a0|\u3000|\u0020|\b|\t]";

/**
 * word的它自己造换行符 要换成string的换行符
 */
private static final String WORD_LINE_BREAK = "[\u000B|\r]";

/**
 * word table中的换行符和空格
 */
private static final String WORD_TABLE_FILTER = "[\\t|\\n|\\r|\\s+| +]";

/**
 * 计算表格行列信息时设置的偏移值
 */
private static final Float TABLE_EXCURSION = 5F;

/**
 * 抽取文字时去掉不必须字符正则
 */
private static final String splitter = "[\\t|\\n|\\r|\\s+|\u00a0+]";

private static final String regexClearBeginBlank = "^" + splitter + "*|" + splitter + "*$";

结构化javabean类:

WordTableCell类：

@Data
public class WordTableCell {

    private Float x;

    private Float y;

    private Float width;

    private Float height;

    private String text;

    /**
     * 默认为12
     */
    private Float fontSize;

    /**
     * 行号 0开始
     */
    private Integer row;

    /**
     * 列号 0开始
     */
    private Integer col;

    /**
     * 行跨度 从1开始
     */
    private Integer rowspan;

    /**
     * 列跨度 从1开始
     */
    private Integer colspan;
}

WordTable类：

@Data
public class WordTable {
    
    private List wordTableCellList;
    
    private Float width;
    
    private Float height;
}

WordContent类（包括word抽取出的文字和表格结构）

@Data
public class WordContent {

    /**
     * text包括段落文字(不包括表格文字,改成包括表格文字也很简单)
     */
    private String text;

    /**
     * 抽取的表格对象
     */
    private List wordTableList;
}

docx核心方法解析：

概述：
每个docx中都对应着一个xml文件，样式示例如下：

大体对标签字段解释如下：

：表格开始
：表格属性定义
：表格单元格定义，里面定义着从左至右每个最小单元格的宽度，如果某个单元格span为2，则会在cell中定义
：表格每一行的属性定义
：表格中某个单元格的属性定义
：表示这个单元格跨行，并且是跨行的第一个cell
：表示这个单元格跨行，但不是跨行的第一个cell
：word中的一个段落
：段落中的一个格式一致的文本块
我们使用poi包中的方法对xml文件中的字段进行解析，抽取出文件中的结构，并根据位置信息填充必要的结构信息。

抽取文字元素

// 读取docx文字部分
StringBuilder docxText = new StringBuilder();
Iterator iter = docx.getBodyElementsIterator();
int count = 0;
while (iter.hasNext()) {
    IBodyElement element = iter.next();
    if (element instanceof XWPFParagraph) {
        // 获取段落元素
        XWPFParagraph paragraph = (XWPFParagraph) element;
        String text = paragraph.getText();
        if (StringUtils.isBlank(text)) {
            continue;
        }
        // 将word中的特有字符转化为普通的换行符、空格符等
        String textWithSameBlankAndBreak = text.replaceAll(WORD_BLANK, " ").replaceAll(WORD_LINE_BREAK, "\n")
                .replaceAll("\n+", "\n");
        // 去除word特有的不可见字符
        String textClearBeginBlank = textWithSameBlankAndBreak.replaceAll(regexClearBeginBlank, "");
        // 为抽取的每一个段落加上\n作为换行符标识
        docxText.append(textClearBeginBlank).append("\n");
    } else if (element instanceof XWPFTable) {
        try {
            // 获取表格中的原始文字 默认文字中不加入表格文字 取消注释可加入
            /*String text = originTableTextList.get(count);
            docxText.append(text);*/
            count++;
        } catch (Exception e) {
            log.error("docx抽表数据与对应的表格位置不一致");
        }
    }
}

抽取表格元素
docx抽取表格的长宽主要使用两种方法，优先采用表格边框法：

表格边框法：根据[相关规范]中的
单元格法：根据[相关规范]中的
span：表示跨单元格，有rowspan和colspan两种

List allWordTableCellList = new ArrayList<>();
Iterator it = docx.getTablesIterator();
// 抽取表中的文字集合
List originTableTextList = new ArrayList<>();
while (it.hasNext()) {
    try {
        XWPFTable table = it.next();
        WordTable wordTable = new WordTable();
        List wordTableCellList = new ArrayList<>();
        // 默认每个表格左上角的位置为(0,0)
        float x = 0.0f;
        float y = 0.0f;
        // TblGridExist是记录表格的边框 如果存在的话用它来计算单元格宽度很准 但是不一定存在 else 会使用单元格法
        boolean isTblGridExist = true;
        // 一种计算width的方式，表格边框法
        List tableGridColList = null;
        try {
            // 尝试读取表格网格信息
            tableGridColList = table.getCTTbl().getTblGrid().getGridColList();
        } catch (Exception e) {
            log.info("该docx表格无边框");
            isTblGridExist = false;
        }
        // 采用表格边框法
        if (isTblGridExist) {
            for (int i = 0; i < table.getNumberOfRows(); i++) {
                int colNums = table.getRow(i).getTableCells().size();
                int currentRowHeight = getDocxRowHeight(table, i) / DEFAULT_DIV;
                for (int j = 0, minCellNums = 0; j < colNums; j++) {
                    XWPFTableCell cell = table.getRow(i).getCell(j);
                    int spanNumber = 1;
                    // 表示colspan
                    BigInteger girdSpanBigInteger;
                    try {
                        girdSpanBigInteger = cell.getCTTc().getTcPr().getGridSpan().getVal();
                    } catch (Exception e) {
                        girdSpanBigInteger = null;
                    }
                    if (girdSpanBigInteger != null) {
                        spanNumber = girdSpanBigInteger.intValue();
                    }
                    int widthByGrid = 0;
                    for (int k = 0; k < spanNumber; k++) {
                        widthByGrid += tableGridColList.get(minCellNums + k).getW().intValue();
                    }
                    int width = widthByGrid / DEFAULT_DIV;
                    minCellNums += spanNumber;

                    if (!docxIsContinue(cell)) {
                        int height = this.getDocxCellHeight(table, currentRowHeight, i, j);
                        WordTableCell wordTableCell = this
                                .buildWordCellContent((float) height, (float) width, cell.getText(),
                                        DEFAULT_FONT_SIZE, x, y);
                        wordTableCellList.add(wordTableCell);
                    }
                    x += width;
                }
                if (i + 1 == table.getNumberOfRows()) {
                    wordTable.setHeight(y);
                    wordTable.setWidth(x);
                }
                x = 0.0f;
                y += currentRowHeight;
            }
        } else {
            // 另一种查看width方式，单元格法
            for (int i = 0; i < table.getNumberOfRows(); i++) {
                int colNums = table.getRow(i).getTableCells().size();
                int currentRowHeight = getDocxRowHeight(table, i) / DEFAULT_DIV;
                for (int j = 0; j < colNums; j++) {
                    XWPFTableCell cell = table.getRow(i).getCell(j);
                    int width = getDocxCellWidth(table, i, j) / DEFAULT_DIV;
                    if (width <= 0) {
                        // tableGridMethod = true;
                        width = DEFAULT_WIDTH;
                    }
                    if (!docxIsContinue(cell)) {
                        int height = this.getDocxCellHeight(table, currentRowHeight, i, j);
                        WordTableCell wordTableCell = this
                                .buildWordCellContent((float) height, (float) width, cell.getText(),
                                        DEFAULT_FONT_SIZE, x, y);
                        wordTableCellList.add(wordTableCell);
                    }
                    x += width;
                }
                if (i + 1 == table.getNumberOfRows()) {
                    wordTable.setHeight(y);
                    wordTable.setWidth(x);
                }
                x = 0.0f;
                y += currentRowHeight;
            }
        }

        wordTable.setWordTableCellList(wordTableCellList);
        allWordTableCellList.add(wordTable);
        // 以下代码为为抽取的文字中加入表格文字
        /* 
        String originTableText = "\n" + table.getText().replaceAll(WORD_TABLE_FILTER, "") + "\n";
        originTableTextList.add(originTableText);
        */
    } catch (Exception e) {
        log.error("docx表格解析错误", e);
    }
}
// 为表格加入行列信息
allWordTableCellList.forEach(this::fillSpan);
// 开始抽取doc中的文字
StringBuilder docText = new StringBuilder();
for (int i = 0; i < range.numParagraphs(); i++) {
    Paragraph paragraph = range.getParagraph(i);
    // 拿出段落中不包括表格的文字
    if (!paragraph.isInTable()) {
        String text = paragraph.text();
        if (StringUtils.isBlank(text)) {
            continue;
        }
        String textWithSameBlankAndBreak = text.replaceAll(WORD_BLANK, " ").replaceAll(WORD_LINE_BREAK, "\n");
        String clearBeginBlank = textWithSameBlankAndBreak.replaceAll(regexClearBeginBlank, "");
        docText.append(clearBeginBlank).append("\n");
    } else {
        try {
            // 寻找表格的开始位置和结束位置
            int index = i;
            int endIndex = index;
            // 拿出表格中文字
            StringBuilder tableOriginText = new StringBuilder(paragraph.text());
            for (; index < range.numParagraphs(); index++) {
                Paragraph tableParagraph = range.getParagraph(index);
                if (!tableParagraph.isInTable() || tableParagraph.getTableLevel() < 1) {
                    endIndex = index;
                    break;
                } else {
                    tableOriginText.append(tableParagraph.text());
                }
            }
            i = endIndex - 1;
            // 过滤掉表格中所有不可见符号
            String tableOriginTextWithoutBlank = tableOriginText.toString().replaceAll(WORD_TABLE_FILTER, "");
            // 默认不加入表格中字体
            // docText.append("").append(tableOriginTextWithoutBlank).append("").append("\n");
        } catch (Exception e) {
            log.error("doc抽表数据与对应的表格位置不一致");
        }

private int getDocCellToLeftWidth(Table table, int row, int col) {
    int leftWidth = 0;
    for (int i = 0; i < col; i++) {
        leftWidth += getDocCellWidth(table, row, i);
    }
    return leftWidth;
}

private int getDocCellWidth(Table table, int row, int col) {
    int width = table.getRow(row).getCell(col).getWidth() / DEFAULT_DIV;
    if (width < 0) {
        width = Math.abs(width);
        log.info("doc取出的宽度为负数");
    }
    return width == 0 ? DEFAULT_WIDTH : width;
}

private int getDocRowHeight(Table table, int row) {
    int height = table.getRow(row).getRowHeight();
    if (height < 0) {
        log.info("出现height小于0");
        height = Math.abs(height);
    }
    return height == 0 ? DEFAULT_HEIGHT : height;
}

/**
 * 只会传isRestart进来 判断往下是不是continue
 */
private int getDocContinueRowHeight(Table table, int row, int col, int rowHeight) {
    int nextRow = row + 1;
    if (nextRow >= table.numRows()) {
        return rowHeight;
    }
    int nextRowHeight = getDocRowHeight(table, nextRow) / DEFAULT_DIV;
    int nextColNums = table.getRow(nextRow).numCells();
    for (int j = 0; j < nextColNums; j++) {
        TableCell nextRowCell = table.getRow(nextRow).getCell(j);
        if (docIsContinue(nextRowCell) && getDocCellWidth(table, nextRow, j) == getDocCellWidth(table, row, col)
                && getDocCellToLeftWidth(table, nextRow, j) == getDocCellToLeftWidth(table, row, col)) {
            rowHeight += nextRowHeight;
            return getDocContinueRowHeight(table, nextRow, j, rowHeight);
        }
    }
    return rowHeight;
}

/**
 * 是否行合并单元格，但不是第一个
 */
private boolean docIsContinue(TableCell cell) {
    return cell.isVerticallyMerged() && !cell.isFirstVerticallyMerged();
}

/**
 * 行合并单元格且为第一个
 */
private boolean docIsRestart(TableCell cell) {
    return cell.isFirstVerticallyMerged();
}

先写到这里，后面看有没有人有word抽取结构化的需求再决定是否继续写下去。

MongoDB 查询文档 dongba8 mongodb postman 数据库
MongoDB查询文档使用find()、findOne()方法。find()方法以非结构化的方式来显示所有文档。语法MongoDB查询数据的语法格式如下：db.collection.find(query,projection)query：用于查找文档的查询条件。默认为{}，即匹配所有文档。projection（可选）：指定返回结果中包含或排除的字段。查找所有文档：实例db.myCollection
Python pdf转word 树上灵溪 python
最新在翻译英文文档，但都是pdf的，有点不方便，花了点时间做了一个小工具，分享一下，希望对大家有所帮助。这里录了一个视频传到B站了，比较详细可以看一下：传送门。最终结果是生成了一个可执行文件，可以批量转换文件夹中的pdf文件，包含图片和简单的格式转换（复杂的就不用考虑自己搞了QAQ）下面简单描述一下大概思路：1.引用pdf2docx库：frompdf2docximportConverter2.找到
python对word文档与PDF的操作深海里的盐汽水 python
python操作word文档与PDF对word文档的操作在操作前需要安装第三方库pipinstallpython-docxpillow。用python创建一个word文档创建一个对象添加一个大标题添加段落保存文件fromdocximportDocumentfromdocx.sharedimportInchesfromdocx.documentimportDocumentasDoc#创建一个对象do
Redis vs. 其他数据库：深度解析，如何选择最适合的数据库？ moton2017 数据库 redis 缓存
一、如何为项目选择合适的数据库？选择合适的数据库是一个复杂的过程，需要综合考虑多个因素。下面几个维度来详细阐述：1.数据模型关系型数据库（RDBMS）：适用于高度结构化、关联性强的数据，如电商关系系统、金融系统。代表：MySQL、PostgreSQL。NoSQL数据库：文档型数据库（如MongoDB）：适用于灵活的、类似文档的数据，如内容管理系统。键值对数据库（如Redis）：适用于服务器、实时数
微服务网关springcloud gateway整合nacos实现动态路由程序猿20 nacos 微服务 springcloud gateway nacos 微服务
1.添加依赖com.alibaba.cloudspring-cloud-starter-alibaba-nacos-config2.添加配置spring:cloud:nacos:config:#配置中心地址server-addr:127.0.0.1:8848#配置文件格式file-extension:ymlusername:password:3.定义读取配置和监听类packagecom.demo.
【上市公司文本分析】Python正则表达式从非结构化文本数据中提取结构化信息——以从上市公司高管简历中提取毕业院校信息为例 Ryo_Yuki #上市公司文本分析 Python python 正则表达式
从CSMAR中可以获取上市公司高管的简历文本信息，虽然是非结构化的，但是隐约可以从中发现一些规律，例如毕业院校很多出现在毕业于、就读于等词语之后，专业很多出现在大学名之后，但这些又不是绝对的，也会有其他一些规则。下方代码是我基于我的300多条示例数据（如果需要练习，可以评论邮箱），经过反复修改正则表达式规则去编制的，能够做到节约85%左右的人工工作量，但无法保证绝对精确。对于其他非结构化但又有规律
python中全局变量的使用 weixin_33737774 python
python中在module定义的变量可以认为是全局变量，而对于全局变量的赋值有个地方需要注意。test.py--------------------------------------------------importsysusername="muzizongheng"password="xxxx"defLogin(u,p):username=upassword=pprint("usernam
瀑布式开发、快速原型开发、迭代式开发、螺旋式开发、敏捷式开发、DevOps开发的简介与对比晓北斗NorSnow 多媒体考试 devops 运维
以下是项目管理中常见的软件开发模式：瀑布式开发、快速原型开发、迭代式开发、螺旋式开发、敏捷式开发、DevOps开发的简介与对比表格：开发模式简介优点缺点适用场景瀑布式开发最早提出的系统化、结构化的开发方法，将软件开发过程划分为一系列顺序进行的阶段。1.顺序性强，便于管理和控制；2.文档齐全，有利于后期维护和升级；3.结构化可预测，便于计划和资源分配。1.缺乏灵活性，难以应对需求变化；2.早期缺陷检
2022年最新【Java八股文背诵版面试题】面试必备，查漏补缺；多线程+spring+JVM调优+分布式+redis+算法 Java面试_ Java java 面试 jvm
前言春招，秋招，社招，我们Java程序员的面试之路，是挺难的，过了HR，还得被技术面，小刀在去各个厂面试的时候，经常是通宵睡不着觉，头发都脱了一大把，还好最终侥幸能够入职一个独角兽公司，安稳从事喜欢的工作至今...近期也算是抽取出大部分休息的时间，为大家准备了一份通往大厂面试的小捷径，准备了一整套Java复习面试的刷题以及答案，我知道很多同学不知道怎么复习，不知道学习过程中哪些才是重点，其实，你们
Mac Electron 应用公证(notarization)失败, appid or password was entered incorrectly 楠辞琦咎 electron mac 前端
MacElectron应用公证(notarization)失败,appidorpasswordwasenteredincorrectly最近在开发electron桌面应用，最后需要打包后进行签名和公证才能给其他电脑正常打开运行，网上主流的有electron-notarize插件和命令行工具这两种方法，这里说说命令行公证时的一个坑正题来了：具体命令行公证方法可移步-》MacElectron应用的签名
Google Protocol Buffers介绍 fengbingchun Caffe
GoogleProtocolBuffers(简称Protobuf)，是Google的一个开源项目，它是一种结构化数据存储格式，是Google公司内部的混合语言数据标准，是一个用来序列化（将对象的状态信息转换为可以存储或传输的形式的过程）结构化数据（即行数据，存储在数据库里，可以用二维表结构来逻辑表达实现的数据）的技术，支持多种语言诸如C++、Java以及Python。可以使用该技术来持久化数据（将
如何规划一台 Linux 主机，步骤是怎样？思维导图代码示例（java 架构) 用心去追梦 linux java 架构
规划一台Linux主机，尤其是为了部署Java架构的应用程序，涉及多个步骤。下面我将列出一个基本的规划流程，并提供一些代码示例和建议来帮助你理解如何进行这样的规划。由于思维导图难以通过文本形式表达，我会以结构化的方式描述这个过程，你可以根据这个结构创建自己的思维导图。规划Linux主机（Java应用）1.确定需求应用程序需求：确定Java应用的具体需求，包括预计的用户数量、数据处理量等。硬件资源评
WordPress网站选择LNMP环境和LAMP环境哪个好 zoneidccom
WordPress网站选择LNMP环境和LAMP环境哪个好【199cloud-艾娜】WordPress建网站选择LNMP环境还是LAMP环境服务更好呢?现在建站常用的两大环境服务是LNMP和LAMP，因为这两种环境易用，好上手，所以普及率一直很高。比如我们常用的宝塔面板，在初次登陆界面就会提示二选一。要想知道哪个好用，我们先来详细了解这两款环境服务。LNMP和LAMP，意思是指Linux服务器+N
使用mysqlslap进行MySQL压力测试 PmtxPhp mysql 压力测试数据库
MySQL是一个广泛使用的关系型数据库管理系统，常用于存储和处理大量结构化数据。在开发和运维过程中，对MySQL的性能进行评估和压力测试是非常重要的。本文将介绍如何使用mysqlslap工具来进行MySQL压力测试，并提供相应的源代码示例。MySQL提供了一个名为mysqlslap的工具，它是一个基准测试工具，用于模拟多个客户端并发访问MySQL服务器的情况，以评估服务器的性能和吞吐量。mysql
leetcode - 126. Word Ladder II KpLn_HJL OJ题目记录 leetcode word c#
DescriptionAtransformationsequencefromwordbeginWordtowordendWordusingadictionarywordListisasequenceofwordsbeginWord->s1->s2->…->sksuchthat:Everyadjacentpairofwordsdiffersbyasingleletter.Everysifor1"ho
系统架构设计师-系统架构设计基础知识全干攻城狮12138 系统架构设计师系统架构
目录软件架构概念软件架构设计与生命周期1.需求分析阶段2.设计阶段3.实现阶段4.构件组装阶段5.部署阶段6.后开发阶段一.软件架构概念软件架构是系统的结构化表述，它定义了系统构件、它们的外部属性及相互关系。它是软件开发的高层设计蓝图，用于指导软件的详细设计与构建，同时帮助评估和优化系统的功能与非功能需求。软件架构和软件体系结构（下文提到）是同一个意思，只是翻译上的区别而已二.软件架构设计与生命周
ES学习二字段类型
1，text当一个字段的内容需要被全文检索时，可以使用text类型，它支持长内容的存储，如文章内容、商品信息等，该类型的字段在保存时会被分词器分析，并拆分成多个词项，然后根据拆分后的词项生成对应的索引。需要注意的是text类型的字段无法进行精确匹配，也不能直接用于排序、聚合，也被称为ananlyzed字符串。2，keywordkeyword类型的字段内容不会被分词器分析、拆分，而是根据原始文本直接
excel vba 操作word 替换指定内容并复制到指定文件夹改个名字好哦难 Excel vba excel word c#
PrivateSubCommandButton1_Click()'读取目标文本，并替换后生成新的文本DimobjAppAsObject'Word.ApplicationDimobjDocAsObject'Word.DocumentDimstrTemplatesAsString'模板文件路径名DimstrFileNameAsString'将数据导出到此文件'工具-引用'MicrosoftWord16
机器学习&深度学习目录 UQI-LIUWJ 各专栏目录深度学习人工智能 1024程序员节
机器学习模型机器学习笔记：Transformer_刘文巾的博客-CSDN博客attention相关机器学习笔记：attention_UQI-LIUWJ的博客-CSDN博客机器学习笔记：ELMOBERT_UQI-LIUWJ的博客-CSDN博客机器学习笔记：ViT（论文AnImageIsWorth16X16Words:TransformersforImageRecognitionatScale）_UQ
智能工厂的设计软件应用场景的一个例子：为AI聊天工具添加一个知识系统之12 方案再探之3：特定于领域的模板之2 首次尝试和遗留问题解决一水鉴天软件智能智能制造人工语言人工智能
本文提要现在就剩下“体”本身的约定了--这必然是自律自省的，或者称为“戒律”--即“体”的自我训导discipline。完整表述为：严格双相的庄严“相”(侧），完全双性的本质“性”（侧）和双侧side双面face的外观“体”（自身）。通过Class(),Type()和Method()的声明来确保结构化最终能形式化（终结符号），以及形式化最初能结构化（初始断言）。在文档中相关的描述：两种描述文件下面
通过linux收集多台交换机设备日志,配置rsyslog服务器收集Cisco交换机日志信息操作指引... 翻译奥莉姐
cisco交换机通过rsyslog收集日志信息配置操作指引登陆交换机，进入全局配置模式SWITCH>enPassword:SWITCH#SWITCH#configtEnterconfigurationcommands,oneperline.EndwithCNTL/Z.SWITCH(config)#rsyslog配置SWITCH(config)#loggingonSWITCH(config)#log
Java web 富文本内容生成转为word格式并导出下载摘星喵Pro java web 编程技巧 java 前端 servlet
Javaweb富文本内容生成转为word格式并导出下载最近思路，按标签逐一解析，实现复杂一点但是完美解决问题：https://blog.csdn.net/a2272062968/article/details/126227076思路：Word是完全支持html标签的，但是富文本内容并不是完整的html代码，需要先补全html标签，然后转码输出问题：虽然导出worddoc但是事件内容流还是htm，只
Word、PDF转换为图片Java 摘星喵Pro word pdf java poi
Word、PDF转换为图片Java需求要在小程序端展示文档内容，所以将文档每页转换为图片后显示参考和其他等方案：https://blog.csdn.net/strggle_bin/article/details/140599514https://www.modb.pro/db/566986https://blog.csdn.net/spring_is_coming/article/details/
_知识图谱大哥喝阔落知识图谱人工智能
知识图谱（KnowledgeGraph）是一种结构化的知识表示形式，用于描述现实世界中的实体、概念及其之间的关系。它以图结构的形式组织知识，节点表示实体或概念，边表示实体之间的关系。知识图谱的核心目标是让机器能够理解和利用人类知识，从而支持智能问答、语义搜索、推荐系统等应用。1.知识图谱的定义知识图谱是一种语义网络，它通过图结构（节点和边）来表示知识：节点（Node）：表示实体（如人、地点、事物）
【Python】已解决：error: subprocess-exited-with-error 屿小夏 python 开发语言 linux
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
【Python】已解决：（cmd进入Python环境报错）No Python at ‘C:\Users…\Python\Python39\python.exe’ 屿小夏 python linux 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
生成随机验证码字符串密码沉迷... javascript javascript 前端
安装$npmigeneration-random-character引入方式const{generateRandomPassword}=require(‘generation-random-character’)import{generateRandomPassword}from‘generation-random-character’importallRandomlyGeneratedfrom‘
1Panel服务器运维管理面板安星辰综合 web 运维服务器
1Panel是一个现代化、开源的Linux服务器运维管理面板，类似于宝塔1产品优势¶快速建站：深度集成Wordpress和Halo，域名绑定、SSL证书配置等一键搞定；高效管理：通过Web端轻松管理Linux服务器，包括应用管理、主机监控、文件管理、数据库管理、容器管理等；安全可靠：最小漏洞暴露面，提供防火墙和安全审计等功能；一键备份：支持一键备份和恢复，备份数据云端存储，永不丢失。在线安装：1环
centos安装1Panel管理面板 l1677516854 系统搭建 centos linux 运维
简介1Panel是一个现代化、开源的Linux服务器运维管理面板。高效管理：用户可以通过Web图形界面轻松管理Linux服务器，实现主机监控、文件管理、数据库管理、容器管理等功能；快速建站：深度集成开源建站软件WordPress和Halo，域名绑定、SSL证书配置等操作一键搞定；应用商店：精选上架各类高质量的开源工具和应用软件，协助用户轻松安装并升级；安全可靠：基于容器管理并部署应用，实现最小的漏
绘制词云图 Python HackDyno python 开发语言 numpy Python
绘制词云图Python词云图是一种可视化工具，用于展示文本数据中词语的频率信息，并以词语的大小来表示其重要性或出现的频率。在Python中，我们可以使用第三方库WordCloud来生成词云图。本文将介绍如何使用Python绘制词云图，并附上相应的源代码。首先，我们需要安装WordCloud库。可以使用pip命令在终端或命令提示符中执行以下命令来安装：pipinstallwordcloud安装完成后
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st