Yard中文分词系统V0.2.0版发布附全部源代码

经过这几天加班加点的调试Yard中文分词系统V0.2.0版本终于出来了,这次Yard中文中文系统不但能够对中文进行很好的切分而且能够能对数字和英文进行识别切分了,应JavaEyer们的要求这次将源代码一起发布出来供大家一起学习。

下面谈谈中文智能分词技术在自然语言理解中的应用,智能分词技术是实现自然语言理解最初的一个环节,它将组成语句的核心词提炼出来供语义分析模块使用。在分词的过程中,如何能够恰当地提供足够的词来供分析程序处理,并且过滤掉冗余的信息,这是后期语义分析的质量和速度的重要前提。尤里卡的智能分词避免了传统分词技术在拆分时产生的歧义组合。从而为语义理解的处理提供了良好的原始材料。同时,在分词的过程中,知识库当中的同义词会被逐个匹配并同时提交给语义理解模块使用,这样处理过的句子,不仅提供了原始的句型,还同时搭载了语句的概念部分。

实现中文智能分词是Yard中文分词系统的终极目标,当然现在离这个目标还很遥远不过有大家的支持我会坚持不懈的努力,希望大家提出宝贵的意见和建议。

文件已经从QQ文件中转站转到JavaEye上。

 

 

 

你可能感兴趣的:(qq,D语言,idea)