基于深度学习的自然语言处理——NLP特征的案例分析

基于深度学习的自然语言处理——NLP特征的案例分析

  • NLP特征的案例分析
    • 文本分类:语言识别
    • 文本分类:主题分类
    • 文本分类:作者归属
    • 上下文中的单词:词性标注
    • 上下文中的单词:命名实体识别(NER)
    • 上下文中单词的语言特征:介词词义消歧
    • 上下文中单词的关系:弧分解分析
            • 参考文献

NLP特征的案例分析

文本分类:语言识别

  • 任务:给定一个文档或句子,希望将其归类为一组特定的语言
  • 核心特征:每个可能的二阶字母对

文本分类:主题分类

  • 任务:对于给定的文档,将其归类为一组预定义的主题。
  • 单位:词
  • 特征:文档词袋

文本分类:作者归属

  • 任务:对于给定文本,推断作者身份或文本作者的一些特征。
  • 特征:
    • 应侧重于文本属性,专注于词性标记和功能词。
    • 功能词与代词词袋、词性词袋、词性的二元文法、三元文法、四元文法词袋、功能词的密度、删除内容词后的功能词二元文法词袋、连贯功能词之间的距离分布。

上下文中的单词:词性标注

  • 任务:给定一个句子,对其中每个单词分配正确词性
  • 通用树库项目中的词性集合
  • 信息来源
    • 内部线索(单词本身):词的识别、前缀、后缀、正字词的形状、单词在大语料库中的频率
    • 外部线索(上下文):上下文单词的标识、前缀、后缀以及前面单词的词性预测结果
  • 核心特征样例
    • 单词、2字母后缀、3字母后缀、2字母前缀、3字母前缀、单词是否大写、是否包含连字符、是否包含数字、
    • 位于 P = [ − 2 , − 1 , + 1 , + 2 ] P=\left[-2,-1,+1,+2\right] P=[2,1,+1,+2]处的单词(前后缀、是否大写、是否含连字符、是否含数字)
    • 位于 − 1 , − 2 -1,-2 1,2处单词的词性
    • 分布信息

上下文中的单词:命名实体识别(NER)

  • 任务:给定文档,找到命名实体,将其进行归类
  • 核心特征
    • 类似于词性标注中的特征
    • 单词周围的共现单词
    • 分布式特征

上下文中单词的语言特征:介词词义消歧

  • 任务:从有限的语义集合中选择正确的意义分配给上下文中的介词
  • 特征样例:
    • 单词的字面形式、词元、词性、前缀、后缀、词簇以及词的分布式向量
    • 单词是否具有WordNet词项、第一个同义词集合的上位词和同义词、所有同义词集合的上位词和同义词、单词定义的所有词项、单词的超语义

上下文中单词的关系:弧分解分析

  • 任务:给定句子,返回语法依存树
参考文献

《基于深度学习的自然语言处理》

你可能感兴趣的:(自然语言处理)