Yaha分词库

前言

因为想弄一个小小的电影搜索站,以及想提取某一个QQ技术群聊天的关键字与自动生成关键的聊天记录的摘要,所以研究了不少分词库,以及提取关键字,自动生词,自动摘要等的算法实现。整个研究过程非常有意思,其中的一些小的代码组件可在这里得到:http://www.oschina.net/code/list_by_user?id=1180874

期间在使用Whoosh与一些分词库结合使用的时候,大体不错,但总是出现各种与个人不适应的地方。比如python的结巴分词,感觉这个项目的作者很不错,开发也挺认真,效果也还可以。但在一些share host下加载字典直接超出内存范围,消耗的内存太大;同时测试了HMM模型,感觉只能发现两个两个的词,对新词的发现效果不是很好。从而萌生了想实现一个方便大家去定制的分词库——哑哈分 词

可定制的分词库——Yaha(哑哈)分词

在线测试地址:http://yaha.v-find.com/ 部署于GAE yahademo.appspot.com

Yaha分词主要特点是把分词过程分成了4个阶段,每个阶段都可以让用户加入自己的一些定制,以面向不同的用户需求。这是一个最简单真白的示例:

# -*- coding=utf-8 -*-
import sys, re
from yaha import Cuttor, RegexCutting, SurnameCutting2, SuffixCutting

str = '唐成真是唐成牛的长寿乡是个1998love唐成真诺维斯基'
cuttor = Cuttor()

# Get 3 shortest paths for choise_best
#cuttor.set_topk(3)

# Use stage 1 to cut english and number
cuttor.set_stage1_regex(re.compile('(\d+)|([a-zA-Z]+)', re.I|re.U))

# Or use stage 2 to cut english and number
#cuttor.add_stage(RegexCutting(re.compile('\d+', re.I|re.U)))
#cuttor.add_stage(RegexCutting(re.compile('[a-zA-Z]+', re.I|re.U)))

# Use stage 3 to cut chinese name
#surname = SurnameCutting()
#cuttor.add_stage(surname)

# Or use stage 4 to cut chinese name
surname = SurnameCutting2()
cuttor.add_stage(surname)

# Use stage 4 to cut chinese address or english name
suffix = SuffixCutting()
cuttor.add_stage(suffix)

seglist = cuttor.cut(str)
print ','.join(list(seglist))

#seglist = cuttor.cut_topk(str, 3)
#for seg in seglist:
# print ','.join(seg)

阶段讲解

  1. stage 1是在分句中实现,通过正则可直接将数字或英文单词分成独立的词,生成独立的这些词不再参与下一步的分词。
  2. stage 2在创建有向无环图之前实现,对分句进行预扫描,加入一些可能形成的词,并赋予一定的概率。
  3. stage 3在创建有向无环图期间实现,从字典得到词的概率,或通过一些匹配模式得到可能的词,赋予一定概率。
  4. stage 4在得到有向无环图的最大概率之后(程序实现当中是最短路径),对一些不能成词的单字再继续进行处理;或得到最短的多条路径之后,根据用户的兴趣得到最终的一条路径。若用户有兴趣,可以在这一步实现对词性的分析。

期望

这个Yaha分词,期望它能对搜索,或对文本分析,以及一些博客用户有所帮助。所以计划还会加入关键字提取,文章摘要,新词分现等功能。分词,英文单词,人名发现,地名发现都已经得到实现。其它各种功能会在陆续开发当中,有兴趣的同学可以参与。

你可能感兴趣的:(python,分词,关键字提取,Yaha,文章摘要)