ElasticSearch对文件全文检索方案探讨

ElasticSearch对文件全文检索方案探讨

基于文件的全文检索将文档(pdf,word,txt等)文本内容提取并写入ElasticSearch中,以便检索非结构文件数据内容.

使用Java传统poi或者文件读取效率低下,个人推荐FsCrawler可以部署监控任务进行文件的读取以及到ES的传输,并根据文件更新ES数据.

目前全文检索方案简介, 该文章主要介绍了 Ingest Attachment Plugin/Apache Tika/FsCrawler/Ambar几种实现方式,可以尝试使用.

FsCrawler

FsCrawler配置简单故可以快速部署,依据demo该爬虫效果良好.

官方start主页

Ambar

docker部署方便快捷, image需要付费支持.

你可能感兴趣的:(大数据)