中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
Word segmentation is the problem of dividing a string of written language into its component words.
分词规范、歧义切分、未登录词识别。
对于词的抽象定义(词是什么)和词的具体界定(什么是词)迄今拿不出一个公认的、具有权威性的词表来。
切分歧义是汉语分词研究中一个大问题,因为歧义字段在汉语文本中大量存在。处理这类问题可能需要进行复杂的上下文语义分析,甚至韵律分析(语气、重音、停顿等)。
未登录词又叫生词,一般有二种解释:第一种指的是已有的词表中没有收录的词;第二种指的是已有的训练语料中未曾出现过的词。在第二张解释下,又称之为集外词(out of vocabulary,OOV)。
用于进行语义分析的文本分词,要求分词结果的颗粒度越大,即单词的字数越多,所能表示的含义越确切,如:“公安局长”可以分为“公安
局长”、“公安局 长”、“公安局长”都算对,但是要用于语义分析,则“公安局长”的分词结果最好(当然前提是所使用的词典中有这个词)
切分结果中非词典词越少越好,单字字典词数越少越好,这里的“非词典词”就是不包含在词典中的单字,而“单字字典词”指的是可以独立运用的单字,如“的”、“了”、“和”、“你”、“我”、“他”。例如:“技术和服务”,可以分为“技术 和服 务”以及“技术
和 服务”,但“务”字无法独立成词(即词典中没有),但“和”字可以单独成词(词典中要包含),因此“技术 和服 务”有1个非词典词,而“技术 和 服务”有0个非词典词,因此选用后者。
总体词数越少越好,在相同字数的情况下,总词数越少,说明语义单元越少,那么相对的单个语义单元的权重会越大,因此准确性会越高。
基于字典,将文档中的字符串与字典中的词条进行逐一匹配。如果字典中找到某个字符串,则匹配成功,可以切分;否则不与切分。
速度快,时间复杂度可以保持在O(n),实现简单、实用性强,但机械分词法的最大缺点就是词典的完备性得不到保证,对歧义和未登录词处理效果不佳。。
(1) 正向最大匹配法(从左到右的方向);
(2)逆向最大匹配法(从右到左的方向);
(3) 双向最大匹配(进行从左到右、从右到左两次扫描)
最大匹配法:最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描(为提升扫描效率,还可以跟据字数多少设计多个字典,然后根据字数分别从不同字典中进行扫描)。例如:词典中最长词为“中华人民共和国”共7个汉字,则最大匹配起始字数为7个汉字。然后逐字递减,在对应的词典中进行查找。 有关 正向最大匹配法、逆向最大匹配法、双向最大匹配的介绍与实现,请等待更新或者见下面两个参考链接:
https://blog.csdn.net/unixtch/article/details/76685429
https://blog.csdn.net/u013061183/article/details/78259727
在分词的同时进行句法、语法分析,利用句法信息和语义信息进行词性标注,以解决分词歧义的现象。但因现有的语法知识和句法规则十分复杂,此种方法的分词效果还不能令人满意。
根据字符串在语料中出现的统计频率来决定其是否构成词。词是字的组合,相邻的字同时出现的次数越多,就越有可能构成一个词。在给定大量已经分词的文本的前提下,利用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分。例如最大概率分词方法和最大熵分词方法等。这种方法逐渐成为主流方法。
主要的统计模型有:N元文法模型(N-gram),隐马尔可夫模型(Hidden Markov Model ,HMM),最大熵模型(ME),条件随机场模型(Conditional Random Fields,CRF)等。
基于统计的分词方法包括:N-最短路径方法、基于词的n元语法模型的分词方法、由字构词的汉语分词方法、基于词感知机算法的汉语分词方法、基于字的生成式模型和区分式模型相结合的汉语分词方法。
(1)N最短路径法
(2)基于词的n元语法模型的分词方法
请等待更新或者详见以下链接:
https://blog.csdn.net/weixin_42398658/article/details/85014343
常用的中文分词工具有: jieba、SnowNLP(MIT)、pynlpir(大数据搜索挖掘实验室(北京市海量语言信息处理与云计算应用工程技术研究中心))、thulac(清华大学自然语言处理与社会人文计算实验室) ,具体用法见以下链接:
https://blog.csdn.net/gdh756462786/article/details/79102642
https://zhuanlan.zhihu.com/p/50716301
https://blog.csdn.net/u013061183/article/details/78259727
https://blog.csdn.net/gdh756462786/article/details/79102642