gjq246

DOCX4J 解析DOCX文档字体格式

一、DOCX文档格式

docx4j只能解析docx格式的word文档，这种文档其实是一个压缩文件，加压后会有如下图所示的多个文件，文档中字体格式主要包含在document.xml和styles.xml文件中，theme文件夹可能也有，本文没有分析里面的格式。

document.xml中的格式定义：

二、maven引入

            org.docx4j
            docx4j
            3.3.5

三、测试类

getMainDocumentPart可以得到文档内容，getStyleDefinitionsPart可以得到styles的内容，经过测试发现有些格式存在styles.xml中，比如大纲、页眉、页脚等，而一般段落的格式在文档内容中document.xml,因此可以结合这两个方法去得到对应的格式。

package thesisadmin;

import org.apache.log4j.Logger;

import org.junit.Test;

import java.util.ArrayList;

import java.util.List;

import javax.xml.bind.JAXBElement;

import org.docx4j.openpackaging.packages.WordprocessingMLPackage;

import org.docx4j.openpackaging.parts.WordprocessingML.MainDocumentPart;

import org.docx4j.openpackaging.parts.WordprocessingML.StyleDefinitionsPart;

import org.docx4j.wml.Body;

import org.docx4j.wml.HpsMeasure;

import org.docx4j.wml.PPr;

import org.docx4j.wml.PPrBase.Ind;

import org.docx4j.wml.PPrBase.Spacing;

import org.docx4j.wml.ParaRPr;

import org.docx4j.wml.R;

import org.docx4j.wml.RFonts;

import org.docx4j.wml.RPr;

import org.docx4j.wml.Style;

import org.docx4j.wml.Styles;

public class MyTest {

private static final Logger logger = Logger.getLogger(MyTest.class);

@Test

public void t2() {

// logger.info(EndecryptUtil.d("QWp6RfwMwQL9M6bbTwqlUQ%3D%3D"));

try {

parserDocx("c:\\b.docx");

} catch (Exception e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

public ArrayList parserDocx(String inputfilepath) throws Exception {

WordprocessingMLPackage wordMLPackage = WordprocessingMLPackage

.load(new java.io.File(inputfilepath));

MainDocumentPart documentPart = wordMLPackage.getMainDocumentPart();

System.out.println(documentPart.getXML());

org.docx4j.wml.Document wmlDocumentEl = (org.docx4j.wml.Document) documentPart

.~~getJaxbElement~~();

Body body = wmlDocumentEl.getBody();

List