使用Apache POI抽取OFFICE文本(DOC, DOCX, XLS, XLSX, PPT, PPTX)——Desktop Search开发笔记【经验积累】
为了对文件内容进行索引,必须先抽取出文件中文本。我们使用ApachePOI提供的API来抽取office文件(DOC,DOCX,XLS,XLSX,PPT,PPTX)中的文本。很多人在使用开源API的时候都很纳闷,Javadocs那么大,我要的API在到底在哪个类里边。即使找到了也不明白这么多构造函数该用哪个创建想要的对象。本文给大家讲一下POI中我们该如何创建抽取(DOC,DOCX,XLS,XLS