统计自然语言处理——绪论

绪论

问题的提出:

科学层面的问题:是什么?为什么?
技术层面的问题:做什么?怎么做?
  1. 研究主体:自然语言,区别于机器语言,是人类日常使用的语言(中文、英文、法语……),同时也是思维的载体,是一种工具。
  2. 问题的引入:跨语言交流的障碍;信息爆炸;网络信息安全……
  3. 问题的提出:
    * 如何让计算机自动或人机互助的完成语言处理功能?
    * 如何让计算机对海量信息进行自动处理、知识挖掘,进行有效利用?

一、基本概念

  1. 语言:
    定义:人类特有的,用以表达情感、交流思想的工具,是一种特殊的社会现象。
    基本属性:语音,文字
  2. 语言学:研究语言的学科,包含语言的本质、结构、发展规律。
  3. 语音学:研究发音特点
  4. 计算语言学:计算技术和概念 → \rightarrow 语言学和语音学问题
  5. 自然语言处理 or 自然语言理解
    * 微观:映射,自然语言 → \rightarrow 机器内部
    * 宏观:机器能够执行人类所期望的某些语言功能
    - “理解” → \rightarrow 计算机智能 → \rightarrow 表现、反映、人机交互 ← \leftarrow 图灵测试

二、自然语言处理研究的内容和面临的困难

(一)研究内容

  1. 机器翻译
  2. 自动文摘
  3. 信息检索
  4. 文档分类
  5. 问答系统
  6. 信息过滤
  7. 信息抽取
  8. 文字编辑和自动校对
  9. 光读字符识别OCR
  10. 语音识别
  11. 语音合成
  12. 说话人识别、认证、验证
  13. ……

(二)自然语言处理涉及的几个层次

  1. 形态学:词素(不可分割) → \rightarrow 词的构成规律 → \rightarrow 分词
    独立语(汉语);曲折语(英语);黏着语(日语)
  2. 语法学:语法规律,对句子结构的分析
  3. 语义学(根本问题):词的含义 → \rightarrow 句的含义 → \rightarrow 篇章的含义
  4. 语用学:特定坏境,不同上下文

(三)难点

  1. 歧义(disambiguation):语义歧义、结构歧义
  2. 未知语言

三、自然语言处理的基本方法及其发展

(一)基本方法

理性主义 经验主义
知识来源 与生俱来 大量语言数据
研究对象 语言知识结构,符号、规则 语言数据
理论 Chomsky 的语言原则 Shannon 的信息论
应用 形式语言 统计模型

(二)发展

  1. 萌芽期:1946年,第一台计算机,机器翻译;
  2. 发展期:1966年,ALPAC报告,基于规则分析方法;
  3. 繁荣期:20世纪80年代末,基于语料库 的统计方法。

(三)现状

  • 取得一定研究成果,根本问题尚未解决;
  • 新的研究方向不断涌现,具有极大发展前景

你可能感兴趣的:(NLP)