自然语言处理学习笔记-lecture1-绪论

基本概念

  • 语言是个体之间由于沟通需要而制定的指令。
  • 自然语言:人类之间用于沟通交流的语言。

自然语言的特点

  • 线性:自然语言呈现为一种线性的符号序列。
  • 层次性:自然语言内部存在层次结构。
  • 歧义性:同一个自然语言句子存在多种不同的理解。
  • 演化性:自然语言随着时代不断演化。

典型任务

中文分词

  • 输入:一段不带空格的汉语文本。
  • 输出:以空格隔开词语的汉语文本。
  • 示例程序:示例程序

词性标注

  • 输入:给定一个词语的序列。
  • 输出:输出一个对应的词性的序列。
  • 示例程序:示例程序

文本分类

  • 输入:一段文本
  • 输出:该文本的类别。
  • 示例程序:示例程序

语言模型

  • 输入:给定一个词语序列
  • 输出:预测下一个词
  • 示例程序:示例程序1 示例程序2

语法改错

  • 输入:一段可能包含语法错误的文本。
  • 输出:识别出文本中的语法错误并进行修改。
  • 示例程序:示例程序

句法分析

  • 输入:一个自然语言句子
  • 输出:句子的句法结构(短语结构或依存结构)
  • 示例程序:示例程序1 示例程序2

拼音输入法

  • 输入:拼音符号的序列
  • 输出:汉字序列
  • 示例程序:示例程序

情感分析

  • 输入:一段自然语言文本。
  • 输出:情感的类别(如正面、中性、负面)
  • 示例程序:添加链接描述

语义角色标注

  • 输入:一个自然语言句子。
  • 输出:标出句子的谓语及相关语义角色。
  • 示例程序:示例程序

语义分析

  • 输入:一个自然语言处理句子
  • 输出:该句子的语义表示形式
  • 示例程序:示例程序

指代消解

  • 输入:一段自然语言文本
  • 输出:该文本中代词所指向的名词
  • 示例程序:示例程序

机器翻译

  • 输入:一段源语言文本
  • 输出:一段目标语言文本
  • 示例程序:示例程序

文本摘要

  • 输入:一段自然语言长文本。
  • 输出:一段能概括长文本核心意思的短文本。
  • 示例程序:示例程序

对联生成

  • 输入:对联的上联
  • 输出:对联的下联以及横批
  • 示例程序:示例程序

诗词生成

  • 输入:诗词的关键词
  • 输出:五绝、七绝、律诗或者词
  • 示例程序:示例程序

问答系统

  • 输入:一个自然语言问题。
  • 输出:该问题的答案。
  • 示例程序:示例程序

对话系统

  • 输入:一个自然语言句子
  • 输出:另一个自然语言句子作为回复
  • 示例程序:示例程序

图像标题生成

  • 输入:一张图像
  • 输出:一个自然语言句子,对该图像的内容进行描述。
  • 示例程序:示例程序

发展历史

  • 1943:Warren McCulloch与Walter Pitts提出神经网络。
  • 1949:Warren Weaver提出利用计算机自动翻译人类语言。
  • 1950:Alan Turing提出“图灵测试”检验机器是否具备智能。
  • 1955:Noam Chomsky提出形式语言体系,用数学描述语言。
  • 1957:Frank Rosenblatt提出了感知机,推动了神经网络的发展。
  • 1964:Joseph Weizenbaum研制聊天机器人ELIZA。
  • 1965:Edward Feigenbaum提出专家系统DENDRAL。
  • 1966:Leonard Baum和Lloyd Welch提出隐马尔科夫模型。
  • 1970:CYK算法被提出并广泛用于上下文无关语言的分析。
  • 1974:Paul Werbos为神经网络提出后向传播算法。
  • 1984:Douglas Lenat提出了常识知识库Cyc。
  • 1989:IBM公司提出著名的统计机器翻译IBM模型。
  • 1993:宾夕法尼亚大学推出宾州树库,对句法分析研究起到极大推动作用。
  • 1995:Vladimir Vapnik提出了支持向量机。
  • 1996:Adwait Ratnaparkhi将最大熵模型引入自然语言处理
  • 2001:Tim Berners-Lee提出语义网。
  • 2003:Yoshua Bengio将分布式表示用于语言模型。
  • 2006:Geoffrey Hinton引领了深度学习的兴起。
  • 2011:IBM公司研制的“沃森”系统在知识问答任务中获胜。
  • 2012:Google公司推出了知识图谱并在搜索引擎中使用。
  • 2013:Google公司推出word2vec模型。
  • 2014:Yoshua Bengio将注意力机制引入自然语言处理。
  • 2017:Google公司提出Transformer模型。
  • 2018:Google公司提出BERT预训练语言模型。

小结

  • 理性主义方法和经验主义方法交相辉映,齐头并进
    – 理性主义:形式文法、专家系统、知识图谱
    – 经验主义:隐马可夫模型、最大熵模型、神经网络

  • 当前挑战
    – 模型:过于依赖人工设计。
    – 数据:标注数据严重不足。
    – 训练:训练成本过于高昂。
    – 推断:难以保证可靠可信。

相关资源

学术机构

  • Association for Computational Linguistics
    – 创建时间:1962年
    – 机构网站:https://www.aclweb.org/
    – 自然语言处理领域影响力最大的国际学术机构。
  • 中国中文信息学会
    – 创建时间:1981年
    – 期刊网站:http://www.cipsc.org.cn/
    – 自然语言处理领域影响力最大的国内学术机构。

学术期刊

  • Computational Linguistics
    – 创建时间:1974年
    – 期刊网站:https://www.mitpressjournals.org/loi/coli
    – 自然语言处理领域传统上最好的国际期刊。
  • Transactions of the Association for Computaional Linguistcs
    – 创建时间:2013年
    – 期刊网站:https://transacl.org/index.php/tacl
    – 自然语言处理领域广受好评的顶级国际期刊。

学术会议

  • ACL:影响力最大,截稿时间一般在1月或2月。
  • EMNLP:偏重经验主义方法,截稿时间一般在5月。
  • NAACL:面向北美地区,截稿时间一般在11月。
  • AACL:面向亚太地区,截稿时间一般在6月。
  • COLING:传统的三大会议之一,截稿时间一般在5月。
  • IJCAI:人工智能会议,截稿时间一般在1月。
  • AAAI:人工智能会议,截稿时间一般在9月。
  • ICLR:机器学习会议,截稿时间一般在9月。
  • NeurIPS:机器学习会议,截稿时间一般在6月。

你可能感兴趣的:(自然语言处理,自然语言处理,学习,人工智能)