ES 词频工具调研

最近在做nlp 相关的事情,分词,过滤,词频统计需要做一些工程,这些其实和es 的分析器做类似的事情,调研es 看是否能减少工作量。

es 的 termvector api 可提供查询文档各field 的分词明细 和 在整个库里的统计信息,但是无法提供全量的统计信息,这类接口提供查询特定文档下各词的信息。

如果需要反向查 词对应的 文档信息应该使用search 接口, 可以通过接口返回所有词的词频结果。

分词可以提供自定义的分词器,或者分好词后入库用空格处理。

你可能感兴趣的:(ES 词频工具调研)