边界熵和边界多样性

    
    在 NLP 任务中,特征是一个很重要的概念。在实际应用中,除一些常规的特征外,我们还经常会引入一些有用的额外特征,例如,进行命名实体识别(named entity recognition)任务时,可以提供一个这样的特征:指明一个字是否为常见中国姓氏。另外,也可以引入一些基于统计的量,例如边界熵(boundary entropy),边界多样性(accessor variety)等就常用于非监督型的中文分词模型,下面对这两个特征进行简要介绍。
 
 
  

边界熵和边界多样性_第1张图片


你可能感兴趣的:(语言模型,边界熵,边界多样性,中文分词,香农)