CDH中如何添加solr自定义词库(万能的方法,修改源码词库文件)

大家在读我的文章之前可以看看这篇文章:http://my.oschina.net/crxy/blog/412202

很感谢这篇文章的作者:http://blog.csdn.net/tjcyjd/article/details/43453007

他给了我启发,这篇文章里面有lucene的源码。

上一篇文章我提到在CDH中如何添加IK分词,根据上面两篇文章。我依然无法添加自定义词库。一般来说不能添加词库有两个原因:solr与IK版本问题、词库编码问题,上面的文章有提到。而且第二篇博客的rar文件中有一个pdf,已经很详细了。

但是通过各种方法,我依然不能添加自定义词库。很苦恼。后来我打开了源码,才发现作者默认的词库是main2012.dic。我把IKAnalyzer2012FF_u1.jar用winrar解压,把IKAnalyzer2012FF_u1\org\wltea\analyzer\dic\main2012.dic取出来,把自己的词库放进去,再把main2012.dic放入jar包中就可以了。由于没有修改class文件,就不需要编译了,直接用main2012.dic覆盖jar中main2012.dic的就可以了。

剩下的就和我上一篇博客一样,添加IK分词器,就可以了。大家可以对分词的fieldtype测试,便发现成功了。

这种修改源码文件是下下策,如果按照前面那两篇文章可以实现,我不建议使用我这种方法。



你可能感兴趣的:(CDH中如何添加solr自定义词库(万能的方法,修改源码词库文件))