ICTCALS中科院分词 用户词典说明

1、用户词典格式

用户词典格式为:

1)词语与词性用‘@@’隔开,例如:  农业@@N

2)词与词之间用半角“;”隔开

3)词性标注可以省略,例如:农业@@N,或者  农业

2、导入用户词典存在的问题:

1)用户词典第一行没有被导入到分词器中,(???未证实)(用户词典中的词并没有被完全导入)

网上流传的说法:程序加载的用户词典的词数少于用户词典中实际有的词数,整了很长时间才发现,在用户词典的定义中,代表词性标注的内容字符数不能多于7个,否则不能正常加载该词条。(写程序实践过,暂时没出现这个问题,待考究。)

2)用户词典词的优先级较高。例如用户词典中加了“万科”这个词,“千万科学家”直接被分成“千/ 万科/ 学/ 家”。

你可能感兴趣的:(java编程,中文分词,用户词典)