ANSJ 5.0.2
这是一个基于n-Gram+CRF+HMM的中文分词的java实现.
分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上
目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记等功能
可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目.
下载地址 :http://maven.nlpcn.org/org/ansj/
ansj_seg-5.0.2-all-in-one.jar
单个添加词典
import org.ansj.library.UserDefineLibrary
UserDefineLibrary.insertWord("艾泽拉斯","n",10) //参数(自定义词,词性,词频)
import org.ansj.splitWord.analysis.{BaseAnalysis, NlpAnalysis, ToAnalysis}
//基础分词
单个移除词典
UserDefineLibrary.removeWord("艾泽拉斯") val parse3 = ToAnalysis.parse("我在艾泽拉斯") println(parse3) [我/r, 在/p, 艾泽拉/nr, 斯/rg]
加载自定义词库
import org.ansj.library.UserDefineLibrary
词库格式("自动义词"[tab]键"词性"[tab]键"词频")
UserDefineLibrary.loadLibrary(UserDefineLibrary.FOREST,"/home/spark/opt/hadoop-2.7/bin/address2.dic")
第一个参数直接默认为
UserDefineLibrary.FOREST
第二个参数词库路径
println(ToAnalysis.parse("我在艾泽拉斯至高岭雷霆图腾"))[我/r, 在/p, 艾泽拉斯/n, 至高岭/n, 雷霆图腾/n]
import org.ansj.recognition.impl.FilterRecognition 1.根据自定义词去停用词
val filter = new FilterRecognition()
val stopWord = "冠军"
filter.insertStopWord(stopWord)val str = "湖人获得了冠军"
val str = "湖人获得了冠军"val parse5 = ToAnalysis.parse(str).recognition(filter)