基于python大数据设计的汉语分析分词系统(完整的代码+数据)

摘要

中文分词技术,是由于中文与英文为代表的拉丁语系语言相比,英文以空格作为天然的分隔符,而中文由于继承自古代汉语的传统,词语之间没有分隔。古代汉语中除了连绵词和人名地名等,词通常就是单个汉字,所以当时没有分词书写的必要。而现代汉语中双字或多字词居多,一个字不再等同于一个词。且在中文里,“词”和“词组”边界模糊。

中文分词中存在歧义识别和新词识别两大难题。

一、实验目标


本次实验目的是对汉语自动分词技术有一个全面的了解,包括从词典的建立、分词算法的实现、性能评价和优化等环节。本次实验所要用到的知识如下:

  • 基本编程能力(文件处理、数据统计等)

  • 相关的查找算法及数据结构实现能力

  • 语料库相关

你可能感兴趣的:(机器学习实战100例,python,分词,自然语言处理,数据挖掘)