前两天讲解Google拼音的使用技巧时,无意中发现Google这款小软件中居然应用了很多信息论的知识。我把这些发现记录下来,将来可以作为教学材料应用到我的课堂教学中,也许会引发出学生对课程的学习兴趣。 

1. good morning不简单

一点小小的收获(Google拼音背后的科学)_第1张图片

  如上图所示,morning单词我们输到第四个字母n时,morning单词就完全出来了,其实相当于ing在morn的前提下概率为1(必然事件),数学表示(是一个条件概率)为:p(ing/morn) = 1。这个时候表现出来的就是信源的记忆性,也就是说英语的字母和字母之间有关联关系(当然远远不止字母之间)。记忆性就是信息可以被压缩的前提,从输入法的角度来看,我们不用把7个字母完全敲一遍,而是只敲4个字母,这就是压缩。从信息传输的角度,我们完全可以传输morn3来代表morning,其中3表示后面还有三个字母,也比传输morning节省了网络带宽和传输时间。 

2. 用户词典里藏玄机

一点小小的收获(Google拼音背后的科学)_第2张图片

  为什么Google拼音的输入准确率会越来越高呢(见上图)?原来用户字典里面暗藏着玄机,见下图。

一点小小的收获(Google拼音背后的科学)_第3张图片

把用户词典导出后可以看到每个词后面都跟着一个数字,这个数字是用户在键入拼音时输入该词的次数,也就是说用户在键盘上输入了5次bmli(我用的双拼),有3次是“遍历”,2次是“便利”,因此得出用户输入“遍历”的概率是0.6,输入“便利”的概率是0.4,因此当用户再次输入bmli时,Google自动把概率高的“遍历”排在前面。我们当然觉得Google输入的比较准确,就是这样来的。

  因此,最重要的我们要让Google能够长期记忆我们的输入信息,也就是说用户需要对Google拼音进行长期训练,这样Google拼音的准确性就会越用越高了。因此对用户词典的备份就很有必要了,详细情况可以参考我上一次讲座的视频Google拼音的使用技巧。