新词发现

发现新词

  • 目的:解决未登陆此;
  • 定义:不加入任何先验素材,直接从大规模的语料库中,自动发现可能成词的语言片段;
  • 影响因素:凝合度(最小支持度筛选)和自由程度(左右信息熵)

解决方案

不依赖于任何已有的词库,仅仅根据词的共同特征,将一段大规模语料中可能成词的文本片段全部提取出来,去除现有词库含有的词语,剩余的即新词

具体步骤如下

  • 1、词频筛选
  • 2、最小支持度筛选
  • 3、左右信息熵筛选
  • 4、去除已有的词库,即为新词发现

参考链接

  • http://www.matrix67.com/blog/archives/4212
  • http://www.matrix67.com/blog/archives/5044
  • https://kexue.fm/archives/3491

你可能感兴趣的:(新词发现)