使用Apache POI抽取OFFICE文本(DOC, DOCX, XLS, XLSX, PPT, PPTX)——Desktop Search开发笔记【经验积累】

为了对文件内容进行索引,必须先抽取出文件中文本。我们使用Apache POI提供的API来抽取office文件(DOC, DOCX, XLS, XLSX, PPT, PPTX)中的文本。很多人在使用开源API的时候都很纳闷,Javadocs那么大,我要的API在到底在哪个类里边。即使找到了也不明白这么多构造函数该用哪个创建想要的对象。本文给大家讲一下POI中我们该如何创建抽取(DOC, DOCX, XLS, XLSX, PPT, PPTX)的对象。
  • 下载Apache POI(http://poi.apache.org/download.html#POI-3.10-beta2)
  • 把下面5个jar包和两个lib文件夹中的jar导入项目classpath
poi-3.10-beta1-20130628.jar
poi-excelant-3.10-beta1-20130628.jar
poi-ooxml-3.10-beta1-20130628.jar
poi-ooxml-schemas-3.10-beta1-20130628.jar
poi-scratchpad-3.10-beta1-20130628.jar
/lib
/ooxml-lib


DOC

org.apache.poi.hwpf.extractor.WordExtractor

     这个类只能处理word 2003文档(.doc)
     (1) 使用ExtractorFactory.createExtractor(InputStream) 创建抽取对象,返回的是公共接口对象,因此强制转换
               InputStream fis = new FileInputStream(filePath);
               WorderExtractor extractor = (WordExtractor) ExtractorFactory.createExtractor(fis);
     (2) 使用WordExtractor创建抽取对象
                使用Apache POI抽取OFFICE文本(DOC, DOCX, XLS, XLSX, PPT, PPTX)——Desktop Search开发笔记【经验积累】_第1张图片
                介绍一下最后两种:
                最后第二种接收InputStream来创建对象;
                最后一种接收POIFSFileSystem来创建对象:
                        使用Apache POI抽取OFFICE文本(DOC, DOCX, XLS, XLSX, PPT, PPTX)——Desktop Search开发笔记【经验积累】_第2张图片
                         POIFSFileSystem也接收InputStream来创建对象。
                 
                 回过头来看看最后第三个构造函数,接收HWPFDocument来创建对象;
                         使用Apache POI抽取OFFICE文本(DOC, DOCX, XLS, XLSX, PPT, PPTX)——Desktop Search开发笔记【经验积累】_第3张图片
                         HWPFDDocument通过接收InputStream或者POIFSFileSystem来创建对象。


DOCX 

org.apache.poi.POITextExtractor

        org.apache.poi.POIXMLTextExtractor
                org.apache.poi.xwpf.extractor.XWPFWordExtractor

      这个类能够处理excel2007+(.docx)

     (1)该类对象的父类可以使用ExtratorFactory生成,但需要接收的参数是个virtual 对象OPCPackage,该对象不好确定。因此我们直接使用(2)中的方法创建对象
     (2)新建XWPFWordExtractor对象
               使用Apache POI抽取OFFICE文本(DOC, DOCX, XLS, XLSX, PPT, PPTX)——Desktop Search开发笔记【经验积累】_第4张图片
                我们使用第二个构造函数,通过接收XWPFDocument对象来创建
                     使用Apache POI抽取OFFICE文本(DOC, DOCX, XLS, XLSX, PPT, PPTX)——Desktop Search开发笔记【经验积累】_第5张图片
                      XWPFDocument可以接收inputStream对象。


XLS

org.apache.poi.hssf.extractor.ExcelExtractor

     这个类只能处理excel 2003(.xls)
     (1)同DOC,通过ExtractorFactory创建
     (2)新建ExcelExtractor对象
               使用Apache POI抽取OFFICE文本(DOC, DOCX, XLS, XLSX, PPT, PPTX)——Desktop Search开发笔记【经验积累】_第6张图片
               1)同DOC,通过接收POIFSFileSystem来创建对象
               2)通过接收HSSFWorkbook来创建对象
                    使用Apache POI抽取OFFICE文本(DOC, DOCX, XLS, XLSX, PPT, PPTX)——Desktop Search开发笔记【经验积累】_第7张图片
                    HSSFWorkbook对象可以通过接收POIFSFileSystem或者InputStream对象来创建
               

           样例代码:

InputStream inp = new FileInputStream(this.filePath);
HSSFWorkbook wb = new HSSFWorkbook(new POIFSFileSystem(inp));
extractor = new ExcelExtractor(wb);
//filter formulas from the results
this.extractor.setFormulasNotResults(true);
//filter Sheet name from the results
this.extractor.setIncludeSheetNames(false);
content = this.extractor.getText();

XLSX

org.apache.poi.POITextExtractor

       org.apache.poi.POIXMLTextExtractor
                org.apache.poi.xssf.extractor.XSSFExcelExtractor



         直接新建XSSFExcelExtractor对象:
               使用Apache POI抽取OFFICE文本(DOC, DOCX, XLS, XLSX, PPT, PPTX)——Desktop Search开发笔记【经验积累】_第8张图片
               通过接收XSSFWorkbook对象来创建:
                    使用Apache POI抽取OFFICE文本(DOC, DOCX, XLS, XLSX, PPT, PPTX)——Desktop Search开发笔记【经验积累】_第9张图片
                     发现XSSFWorkbook可以接收inputStream对象


PPT

org.apache.poi.hslf.extractor.PowerPointExtractor

          (1)同DOC,用ExtractorFactory创建对象
          (2)直接使用PowerPointExtractor创建对象
             使用Apache POI抽取OFFICE文本(DOC, DOCX, XLS, XLSX, PPT, PPTX)——Desktop Search开发笔记【经验积累】_第10张图片
               通过接收HSLFSlideShow对象、POIFSFileSystem对象或文件名即可创建。               


PPTX

org.apache.poi.POITextExtractor

         org.apache.poi.POIXMLTextExtractor
                org.apache.poi.xslf.extractor.XSLFPowerPointExtractor



           同XLSX,直接创建XSLFPowerPointExtractor对象
               使用Apache POI抽取OFFICE文本(DOC, DOCX, XLS, XLSX, PPT, PPTX)——Desktop Search开发笔记【经验积累】_第11张图片
               (1)接收XMLSlideShow对象
                         使用Apache POI抽取OFFICE文本(DOC, DOCX, XLS, XLSX, PPT, PPTX)——Desktop Search开发笔记【经验积累】_第12张图片
                             通过接收InputStream来创建XMLSlideShow对象

               (2)接收XSLFSlideShow对象
                           使用Apache POI抽取OFFICE文本(DOC, DOCX, XLS, XLSX, PPT, PPTX)——Desktop Search开发笔记【经验积累】_第13张图片
                              通过接收文件路径即可创建XSLFSlideShow对象










你可能感兴趣的:(桌面搜索,文本挖掘,java,信息检索)