lucene 解析文档

DocumentHandler接口

处理InputStream对象

生成一个lucene的document的对象

SAX或digest从xml中提取文本信息

用PDFBox从PDF中提取文本信息

使用Jtity从html中提取文本信息

使用NekoHTML从html中提取文本信息

使用POI和textmining提取word中的文本信息

使用javax.swing.text.rtf解析RTF文档

 

 

 

 

你可能感兴趣的:(lucene 解析文档)