《哈工大自然语言处理-关毅老师视频》学习笔记 01.自然语言处理概论

01. 自然语言处理概论

          • 自然语言处理技术
          • 自然语言处理词法分析歧义
          • 音字转换实例
          • 自然语言处理学科常用工具
          • 常用教材
          • 两类不同的语言处理模型
          • 评测技术
          • 图灵实验
          • 自然语言处理相关的学科
          • 自然语言处理的相关术语
          • 自然语言处理的知识内容
          • 中文语言处理的发展概况
          • 中文的特点
          • 中文语言处理发展的主要困难
          • 自然语言处理的主要课题
          • 自然语言处理的主要应用

自然语言处理技术
  机器翻译、数据库技术、语音识别
自然语言处理词法分析歧义
分词歧义、词性标注(词性兼类)、语法分析歧义、语义分析歧义、语用分析歧义(不同情景下的理解)

举例:

  • 语法分析歧义
    咬死了猎人的狗。
    那只狼咬死了猎人的狗。
    咬死了猎人的狗失踪了。
  • 语义分析歧义
    对以下英文句子的翻译:
    At lasst, a computer that understands you like your mother. —1985 McDonnell-Douglas ad.
    计算机会想你的母亲那样很好的理解你(的语言)。
    计算机理解你喜欢你的母亲。
    计算机会像很好地理解你的母亲那样理解你。
  • 语用分析歧义
    你真坏”在不同情景下的理解:
    当人们对于干了坏事的成年人说时,是一种严厉的斥责。
    当妈妈对淘气的儿子说时,实际表达的是对儿子的一种疼爱。
    当恋爱中的女孩对男友说这句话时,则是女孩在男友面前撒娇的一种表现。
音字转换实例
ji qi fan yi ji qi ying yong ji qi le ren men ji qi nong hou de xing qu.
机 器  翻  译 及  其  应   用   激 起  了 人  们   极 其  浓   厚  的  兴   趣。
自然语言处理学科常用工具
Mindjet MindManager (思维导图)、Biblioscape (论文管理)
常用教材
《Christopher Manning and Hinrich Schutze: Foundations of Staticstical Language Processing》
《自然语言处理综论》
《计算机自然语言处理》
两类不同的语言处理模型
  • 能力模型

能力模型是基于语言学规则的模型。

能力模型的建模步骤:

  1. 语言学知识形式化
  2. 形式化规则算法化
  3. 算法实现
  • 应用模型

根据不同的语言处理应用而建立的特定语言模型,通常是基于统计的模型,又称“经验主义的”模型。

应用模型的建模步骤:

  1. 通过大规模真实语料库,获得语言各级语言单位上的统计信息。
  2. 依据较低级语言单位上的统计信息,运用相关的统计推理技术计算较高级语言单位上的统计信息。
评测技术

评测技术是自然语言处理的重要研究专题之一。

著名的国际评测:

  • Sighan 分词评测
  • Conll 句法分析评测
  • TREC 文本检索评测
图灵实验
人机对抗
自然语言处理相关的学科
语言学、计算机科学、数学、心理学(认知心理学)、信息论、声学
自然语言处理的相关术语
中文信息处理、中文语言处理、计算语言学(基础)、自然语言理解、智能化人机接口
自然语言处理的知识内容
基础、应用、资源、评测
  • 基础内容
音位学
形态学
词汇学
句法学
语义学
语用学

a. 音位学:描述音位的结合规律,说明音位怎样形成语素。
b. 形态学:研究语素的结合规律,说明语素怎样形成单词。
c. 词汇学:描述词汇系统的规律,说明单词本身固有的语义特性和语法特性。
d. 句法学:描述单词或词组之间的结构规则,说明单词或词组怎样构成句子。
e. 语义学:描述句子中各个成分之间的语义关系,以及怎样从构成句子的各个成分推导出整个句子的语义。

  • 应用内容
    《哈工大自然语言处理-关毅老师视频》学习笔记 01.自然语言处理概论_第1张图片
  • 资源内容
    语料库
    常用的中文资源:北京大学人民日报语料库、《现代汉语语法信息词典》、概念层次网络、知网(计算机用大型中文语义词典)
  • 评测内容
    评测的组成部分:评测方法、评测对象(速度、精度、适用范围)、评测量度(精确度、召回率、F量度等)
中文语言处理的发展概况
从汉字信息处理到汉语信息处理;
从单机信息处理到网络信息处理。

汉语信息处理包括:词处理、语句处理、篇章处理。

词处理研究的内容:分词、词性标注、命名实体识别、词义消歧。
语句处理的应用:音字转换、文本校对、语音合成、机器翻译。
课程介绍的重点是统计与规则相结合的词法分析。

中文的特点
汉语是大字符集的意音文字。
汉语词与词之间没有空格。
汉语的同义、同音词较多。
汉语没有形态变化。
中文语言处理发展的主要困难
汉语的语法研究尚未规范。
汉语的语言学知识的量化与形式化的工作滞后。
中文语言处理研究力量分散。
中文语言处理缺乏规范。
科学的评测机制尚未建立。
自然语言处理的主要课题
  • 基础理论:
    概率与统计理论
    统计机器学习理论(隐马尔科夫模型)
    人工智能基本理论(组合优化算法、逻辑推理)
    认知科学理论
  • 词法分析:
    分词
    词性标注
    命名实体识别
    新词发现
  • 句法分析:
    上下文无关文法(概率)
  • 语义分析:
    语义表示
    概念语义网络
    词义消歧
  • 语用分析:
    自然语言生成
    语段分析、对话
    机器翻译
自然语言处理的主要应用
语音识别、对话机器人、信息检索、机器翻译、文摘、文本校错、问答、生物信息学

以上内容为本人观看视频所做笔记,或许与目前现状有些许出入,仅供学习参考。

你可能感兴趣的:(自然语言处理,人工智能,机器学习)