拼音转汉子算法

在搜索引擎中,一般都有根据拼音提示相应汉子的功能,比如输入“lianyiqun nvzhuang”,提示“连衣裙 女装”。这是一个非常实用的功能,那么这个功能是如何实现的呢?

大部分拼音都对应不止一个汉子,比如“lian”对应“连”、“联”。。。等,问题的目标在于,根据输入的拼音,寻找可能性最大的汉子组合。

假设用户输入的拼音位(w1, w2, w3, w4, w5),那么根据条件概率公式有:

P(w1, w2, w3, w4, w5) = P(w1) * P(w2|w1) * P(w3|w2,w1) * P(w4|w3,w2,w1) * P(w5|w4,w3,w2,w1)。

对于这类问题,可以考虑用动态规划的算法来解决,在w1之前增加一个虚拟的节点w0,同时在w5之后增加一个新的虚拟节点w6;从w0到w6可以很多条条路径,路径中的每一条边都对应一个概率值,可以理解为上面式子中的右边部分。问题就在于找一条从w0到w6概率最大的路径。

假设每个拼音最多对应N个汉子,并且总共有M的拼音,那么可以构造一个 dp[N][M+2](包括两个虚拟节点),递推公式为:

dp[i][j]=dp[k][j-1]*p[k][j],其中p[k][j]为节点k所代表的汉子到节点k所代表的汉子的跳转概率,1<=k<=N,复杂度位 O(MN^2).

你可能感兴趣的:(拼音转汉子算法)