分词器比较

          分词器的评测包括分词结果、时间消耗和分词效果,分词效果分为好、较好、中差几个等级。

          JE分词器,也就是MMAnalyzer中文分词器,采用基于词典的正向最大匹配分词算法,比较适合做垂直搜索和信息挖掘。通过数据分析得知,其分词效果好。

          PaodingAnalyzer中文分词器使用字典分词法和二元分词法相结合,首先使用字典分词法,当词在字典中不存在的时候,使用二元分词法进行分词,分词效果比较好。但是同样存在二元切分信息冗余的缺点。

         IKAnalyzer中文分词器采用字典分词法并结合正反向全切分以及正反向最大匹配切分两种分词方法,分词的准确性高。

     

            从表中可以看出CJKAnalyzer分词器分词速度最快,其次是PaodingAnalyzer,然后是MMAnalyzer,最慢的是IKAnalyzer。
           综合比较,CJKAnalyzer虽然分词速度很快,但只是对文本进行简单的二元切分,效果很差,如果追求分词的速度可以使用PaodingAnalyzer;如果最求最好的分词效果,可以使用MMAnalyzer或IKAnalyzer;如果想在速度和分词效果方面取得一个平衡,则使用MMAnalyzer比较合适。

 

你可能感兴趣的:(数据分析,算法)