中文分词之最短路径法和N最短路径

考虑到汉语分词存在切分歧义消除和未登录词识别两个主要问题,因此,有专家将分词分成两个阶段:1.用分词算法进行粗分2.对粗分的最好结果进行歧义消除和未登录词识别。

最短路径法是一种自动分词的算法。它将一句话中的字元视为节点,先找出该句子中存在的所有词语,一个词语的两端:词尾字元和词之前一个字之间视为具有连接。(连接权值可以全为1,或者根据语料库中的词频取对数附加权值。)找出从句子头到尾字元中间的最短路径,便完成了分词。

N最短路径是在头到尾所有可能的路径中找出前N个最短路径。也就是N种分词结果作为粗分结果集。


最短路径的求解算法:

Dijkstra(迪杰斯特拉)算法是典型的单源最短路径算法,用于计算一个节点到其他所有节点的最短路径。主要特点是以起始点为中心向外层层扩展,直到扩展到终点为止。Dijkstra算法是很有代表性的最短路径算法,在很多专业课程中都作为基本内容有详细的介绍,如数据结构,图论,运筹学等等。注意该算法要求图中不存在负权边。

问题描述:在无向图 G=(V,E) 中,假设每条边 E[i] 的长度为 w[i],找到由顶点 V0 到其余各点的最短路径。(单源最短路径)

 

2.算法描述

1)算法思想:设G=(V,E)是一个带权有向图,把图中顶点集合V分成两组,第一组为已求出最短路径的顶点集合(用S表示,初始时S中只有一个源点,以后每求得一条最短路径 , 就将加入到集合S中,直到全部顶点都加入到S中,算法就结束了),第二组为其余未确定最短路径的顶点集合(用U表示),按最短路径长度的递增次序依次把第二组的顶点加入S中。在加入的过程中,总保持从源点v到S中各顶点的最短路径长度不大于从源点v到U中任何顶点的最短路径长度。此外,每个顶点对应一个距离,S中的顶点的距离就是从v到此顶点的最短路径长度,U中的顶点的距离,是从v到此顶点只包括S中的顶点为中间顶点的当前最短路径长度。

2)算法步骤:

a.初始时,S只包含源点,即S={v},v的距离为0。U包含除v外的其他顶点,即:U={其余顶点},若v与U中顶点u有边,则正常有权值,若u不是v的出边邻接点,则权值为∞。

b.从U中选取一个距离v最小的顶点k,把k,加入S中(该选定的距离就是v到k的最短路径长度)。

c.以k为新考虑的中间点,修改U中各顶点的距离;若从源点v到顶点u的距离(经过顶点k)比原来距离(不经过顶点k)短,则修改顶点u的距离值,修改后的距离值的顶点k的距离加上边上的权。

d.重复步骤b和c直到所有顶点都包含在S中。

 

执行动画过程如下图

中文分词之最短路径法和N最短路径_第1张图片


N最短路径是对应Dijkstra算法的简单拓展。改进之处在于:每个节点处记录N个最短路径值,并记录相应路径上的当前节点的前驱。如果同一长度对应多条路径,必须同时记录这些路径上当前节点的前驱,最后通过回溯求出N条最短路径。

你可能感兴趣的:(中文分词之最短路径法和N最短路径)