自然语言处理——学习笔记(5):NLP基础任务——序列标注

序列标注

  1. 序列标注任务概述
    序列标注方法:将输入的语言序列转化为标注序列,通过标注序列标签含义来解决问题
    主要问题:命名实体识别、信息抽取、词性序列标注

  2. 马尔可夫模型HHM(概率模型)
    如果系统在 t 时间的状态 qt 只与其在时间t-1的状态相关则系统构成离散的一阶马尔科夫链(马尔可夫过程)自然语言处理——学习笔记(5):NLP基础任务——序列标注_第1张图片
    自然语言处理——学习笔记(5):NLP基础任务——序列标注_第2张图片

  3. 隐马尔可夫模型HHM(概率模型)自然语言处理——学习笔记(5):NLP基础任务——序列标注_第3张图片

    HMM五元组

    • 隐藏状态s:一个系统的真实状态,可由一个马尔可夫过程进行描述

    • 观察状态o:在这个过程中可视的状态

    • 状态转移概率矩阵A:包含了一个隐藏状态到另一个隐藏状态的概率

    • 观察概率矩阵B:从隐藏状态 S j S_j Sj观察到某一特定符号 V k V_k Vk的概率分布概率

    • 初始状态的概率分布: π \pi π自然语言处理——学习笔记(5):NLP基础任务——序列标注_第4张图片

    • HMM评估问题自然语言处理——学习笔记(5):NLP基础任务——序列标注_第5张图片

    • 定义 P ( O ∣ λ ) P(O|\lambda) P(Oλ)自然语言处理——学习笔记(5):NLP基础任务——序列标注_第6张图片

    • 计算 P ( O ∣ λ ) P(O|\lambda) P(Oλ)

      • 穷举法 时间复杂度 O ( N T ) O(N^T) O(NT)

      • 前向算法/后向算法自然语言处理——学习笔记(5):NLP基础任务——序列标注_第7张图片

        时间复杂度 O ( N 2 T ) O(N^2T) O(N2T)自然语言处理——学习笔记(5):NLP基础任务——序列标注_第8张图片
        自然语言处理——学习笔记(5):NLP基础任务——序列标注_第9张图片

    • HMM解码问题自然语言处理——学习笔记(5):NLP基础任务——序列标注_第10张图片

      • 穷举法:找到每一种可能产生观察序列的状态序列,计算每种可能情况下观察序列的概率,概率最大的状态序列就是要找的状态序列
      • Viterbi搜索算法:利用动态规划使用递归来降低计算复杂度自然语言处理——学习笔记(5):NLP基础任务——序列标注_第11张图片
        自然语言处理——学习笔记(5):NLP基础任务——序列标注_第12张图片
    • HMM参数学习

      • 产生观察序列O的隐藏状态已知,可以采用有监督的学习方法,用最大似然估计计算参数
      • 产生观察序列O的隐藏状态未知,可以采用无监督EM学习方法
    • 应用

      • 分词:
        • HMM评估:当分词出现多种可能时,求观察序列的概率,结果取概率最大的序列;
        • 解码问题:用序列标注直接进行分词
      • 词性标注
      • 短语识别、语音识别
  4. 神经网络序列标注模型自然语言处理——学习笔记(5):NLP基础任务——序列标注_第13张图片

    存在问题:输出之间相互独立,可能出现BB情况
    改进思路:建立输出之间的关系——CRF模型(设置一组参数A学习标签之间的状态转移概率)自然语言处理——学习笔记(5):NLP基础任务——序列标注_第14张图片
    自然语言处理——学习笔记(5):NLP基础任务——序列标注_第15张图片

你可能感兴趣的:(自然语言处理,学习,人工智能)