学习笔记CB008:词义消歧、有监督、无监督、语义角色标注、信息检索、TF-IDF、隐含语义索引模型
词义消歧,句子、篇章语义理解基础,必须解决。语言都有大量多种含义词汇。词义消歧,可通过机器学习方法解决。词义消歧有监督机器学习分类算法,判断词义所属分类。词义消歧无监督机器学习聚类算法,把词义聚成多类,每一类一种含义。有监督词义消歧方法。基于互信息词义消歧方法,两种语言对照,基于大量中英文对照语料库训练模型可词义消歧。来源信息论,一个随机变量中包含另一个随机变量信息量(英文信息中包含中文信息信息量