java POI导入Word文档

java使用poi读取doc和docx文件(maven自动导入依赖包)


        org.apache.poi
        poi-ooxml
        3.8
    
    
        org.apache.poi
        poi-scratchpad
        3.8
    

硬换行:文件中换行,如果是键盘中使用了"enter"的换行。

软换行:文件中一行的字符数容量有限,当字符数量超过一定值时,会自动切到下行显示

  对程序来说,硬换行才是可以识别的、确定的换行,软换行与字体大小、缩进有关。


注意:POI 在读取不会读取 word 文件中的图片信息; 还有就是对于 2007 版的 word(.docx), 如果 word 文件中有表格,所有表格中的数据都会在读取出来的字符串的最后。

import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;

import org.apache.poi.POIXMLDocument;
import org.apache.poi.POIXMLTextExtractor;
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.openxml4j.opc.OPCPackage;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;

public class Test {
    public static void main(String[] args) {
        try {
            InputStream is = new FileInputStream(new File("2003.doc"));
            WordExtractor ex = new WordExtractor(is);
            String text2003 = ex.getText();
            System.out.println(text2003);

            OPCPackage opcPackage = POIXMLDocument.openPackage("2007.docx");
            POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);
            String text2007 = extractor.getText();
            System.out.println(text2007);
            
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}



你可能感兴趣的:(java POI导入Word文档)