关于中科院ICTCLAS4J的一点小改动

关于中科院ICTCLAS4J的一点小改动
ICTCLAS是中科院计算所出品的中文分词程序包,在国内一直有着良好的口碑和很高的使用率。
对于一个测试语句

原字符串:一块勤奋地漂亮的一块钱,/打造经济的航空母舰。ABCD.#$% Hello World!\n又一段文本123辆 !3.0

其中包含了中文,英文,标点符号,乱七八糟符号及阿拉伯数字。


结果:一块/s 勤奋/a 地/u 漂亮/a 的/u 一/m 块/q 钱/n ,/w //nx 打造/v 经济/n 的/u 航空母舰/n 。/w ABCD.#$%/nx Hello/nx World/nx !/w 又/d 一/m 段/q 文本/n 123/m 辆/q


可以发现在ABCD.#$%/nx的分词结果有点不对,并没有很好的把英文单词和其他字符很好的分开.

在此处我加入了一个验证机制,修改过后的分词结果为:

一块/s 勤奋/a 地/u 漂亮/a 的/u 一/m 块/q 钱/n ,/w //nx 打造/v 经济/n 的/u 航空母舰/n 。/w ABCD/nx .#$%/un Hello/nx World/nx !/w 又/d 一/m 段/q 文本/n 123/m 辆/q

其中的/un表示未知字符的意思.


你可能感兴趣的:(关于中科院ICTCLAS4J的一点小改动)