以前都是用C++对中文进行分词,也用过Python的“结巴”分词,最近用了一下Java的Ansj中文分词,感觉还不错。
下面是用Ansj对中文进行分词的一个简单例子,希望能对大家有用。
要用Ansj进行中文分词,必须先下载Ansj的jar包,下载地址可以参考:https://github.com/NLPchina/ansj_seg
用Ansj进行中文分词的简单代码如下所示:
import org.ansj.splitWord.analysis.ToAnalysis; public class SplitWordsByAnsj { public static void main(String[] args) { String words = "中国是世界四大文明古国之一,有着悠久的历史,距今约5000年前,以中原地区为中心开始出现聚落组织进而成国家和朝代,后历经多次演变和朝代更迭,持续时间较长的朝代有夏、商、周、汉、晋、唐、宋、元、明、清等。中原王朝历史上不断与北方游牧民族交往、征战,众多民族融合成为中华民族。20世纪初辛亥革命后,中国的君主政体退出历史舞台,取而代之的是共和政体。1949年中华人民共和国成立后,在中国大陆建立了人民代表大会制度的政体。中国有着多彩的民俗文化,传统艺术形式有诗词、戏曲、书法和国画等,春节、元宵、清明、端午、中秋、重阳等是中国重要的传统节日。"; System.out.println(ToAnalysis.parse(words)); } }
例子中对那一段中文的分词结果如下所示:
[中国, 是, 世界, 四, 大, 文明, 古, 国, 之一, ,, 有着, 悠久, 的, 历史, ,, 距, 今, 约, 5000, 年前, ,, 以, 中原, 地区, 为, 中心, 开始, 出现, 聚落, 组织, 进而, 成, 国家, 和, 朝代, ,, 后, 历经, 多次, 演变, 和, 朝代, 更迭, ,, 持续, 时间, 较, 长, 的, 朝代, 有, 夏, 、, 商, 、, 周, 、, 汉, 、, 晋, 、, 唐, 、, 宋, 、, 元, 、, 明, 、, 清, 等, 。, 中原, 王朝, 历史, 上, 不断, 与, 北方, 游牧, 民族, 交往, 、, 征战, ,, 众多, 民族, 融合, 成为, 中华民族, 。, 20, 世纪, 初, 辛亥革命, 后, ,, 中国, 的, 君主, 政体, 退出, 历史, 舞台, ,, 取而代之, 的, 是, 共和, 政体, 。, 1949年, 中华人民共和国, 成立, 后, ,, 在, 中国, 大陆, 建立, 了, 人民, 代表大会, 制度, 的, 政体, 。, 中国, 有着, 多, 彩, 的, 民俗, 文化, ,, 传统, 艺术, 形式, 有, 诗词, 、, 戏曲, 、, 书法, 和, 国画, 等, ,, 春节, 、, 元宵, 、, 清明, 、, 端午, 、, 中秋, 、, 重阳, 等, 是, 中国, 重要, 的, 传统, 节日, 。]