搜索引擎搭建第一步--分词

一、背景说明
关于现在流行的分词算法有很多,具体了解请查看:http://www.tuicool.com/articles/uYfy2q2 – 10大Java开源中文分词器的使用方法和分词效果对比
该片文章主要针对庖丁解牛分词算法进行剖析:庖丁解牛分词算法就是将输入的文字按照一定的匹配策略和本地的机器词典库进行匹配。如果在词典中找到当前的字符串,则匹配成功输出识别的词汇。分词模块是将输入的字符串中首先识别的切分出带有明显特征的确定词汇,以这些词汇为间隔点,把原输入字符串分割成较小的串再进行词典分词。为了减少单纯的匹配错误,庖丁解牛分词模块采取了最大匹配方法和最大切分想结合的方式来分词。庖丁解牛分词系统支持不限制个数的自定义词库,纯文本格式,一行一词,使用后台线程检测词库的更新,自动编译更新过的词库到二进制并进行加载。

二、庖丁算法剖析
2.1 庖丁在使用过程中使用的不是原始的字典文件,而是处理过后放到 .compiled文件夹,原始的分散多个的字典文件也会被合成少数几个文件,主要的一个是vocabulary,一个是noise,vocabulary是主要的查找对象,noise则是要排除的。

2.2 庖丁有两种处理机制,一个是最多分词,一个是最长分词。 这个配置在:paoding-analyzer.properties 文件里面,默认为最多分词Constants.java里面有默认配置说明。
paoding.analyzer.mode=most-words 最多分词
paoding.analyzer.mode=max-word-length 最长分词
这两个机制同样用到了字典的处理过程。比如对:泡沫洁面乳进行分词
例如:
如果是用最多分词,原始字典文件中有泡沫 、洁面乳 和 泡沫洁面乳,那么分出来的词为泡沫 、洁面乳 。
如果用最长分词的话:那么分出来的词为:泡沫洁面乳

2.3 庖丁分词主要用的是一个叫CJKKnife的分词规则,其中的dissect方法有,在里面有详细的分词规则,这里就不再阐述。

2.4 庖丁的字典:有一个大的数组,记录所有的字典。一个多叉树,不同字开头的不同分叉,如果得到的集合小于16,直接一个二叉树,多于16的话,继续比较下一个字,又是多个分叉,这样循环下去。 这样的空间占用还是比较小的,而且一个分叉下面没有只分叉,那么说明这个开头的肯定不在字典里了。查找的时候也很快,一个个分叉查下去是很快的,具体运算逻辑可以在:
HashBinaryDictionary.java 进行查看。

2.5 庖丁的分词逻辑是:从第一个字开始,去字典里去找,然后前两个字,然后前3个字,如果查到后面的不可能出现在字典里,那么现在从第二个字开始,然后第2,3字,然后3,4字。。如果查到后面的不可能出现在字典里,那么现在从第二个字开始….

三、自定义分词实现,具体的环境配置自己去搜吧
3.1 词典自动更新,在paoding-dic-home.properties 文件里面 paoding.dic.detector.interval 这个配置可以自定设定字典的自动更新时间:

// 启动字典动态转载/卸载检测器
// 侦测时间间隔(秒)。默认为60秒。如果设置为0或负数则表示不需要进行检测
String intervalStr = getProperty(p ,Constants. DIC_DETECTOR_INTERVAL);
int interval = Integer.parseInt (intervalStr );
if (interval > 0) {
     dictionaries.startDetecting( interval,
     new DifferenceListener() {
           public void on(Difference diff)
                    throws Exception {
               dictionaries.stopDetecting();
               // 此处调用run方法,以当检测到**编译后**的词典变更/删除/增加时,
               // 重新编译源词典、重新创建并启动dictionaries自检测
              run();
          }

3.2 词典自动添加,这里可以针对字典中的词做定制化处理

public class TestStringWriter {

    public void writeToTxt(String text ){
        Set set = new HashSet();
        set.add("旧中梦中") ;
        set.add("荒中城中") ;
        set.add("荒中城中旧中梦中");
        Iterator iterator = set .iterator();
        File file = new File("dic/locale/beijing.dic" );// 这里是词典的目录,可以自定义
        FileWriter fw = null;
        BufferedWriter writer = null;
        try {
            fw = new FileWriter(file );
            writer = new BufferedWriter(fw );
            while(iterator .hasNext()){
                writer.write( iterator.next().toString());
                writer.newLine(); //换行
            }
            writer.flush();
        } catch (FileNotFoundException e ) {
            e.printStackTrace();
        } catch (IOException e ) {
            e.printStackTrace();
        } finally{
            try {
                writer.close();
                fw.close();
            } catch (IOException e ) {
                e.printStackTrace();
            }
        }

       Paoding paoding = PaodingMaker.make();
       paoding( text);
    }

    public void paoding(String text ){
        Analyzer analyzer = new PaodingAnalyzer(); //定义一个解析器
        TokenStream tokenStream = analyzer.tokenStream(text , new StringReader(text)); //得到token序列的输出流
        try {
            Token t;
            while ((t = tokenStream .next()) != null)
            {
                    System. out.println(t ); //输出每个token
            }
        } catch (IOException e ) {
            e.printStackTrace();
        }
 }

 public static void main(String []args){
     //new Paoding().analyzerMore("逍遥");
     new TestStringWriter().writeToTxt( "荒中城中旧中梦中" );//
 }

你可能感兴趣的:(搜索引擎)