自然语言处理应用方向和专业英语

 

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理处理的内容涉及到语言的各个层次,包括字、词、句、段落、篇章和语义。

目前自然语言处理的主要研究和应用方向有:

1、  统计语言模型: 统计语言模型是自然语言处理的主流技术之一。我们研究的主要内容包括各种语言模型的构建、改进以及应用,包括N元文法模型、隐马尔科夫模型、最大熵模型等。

2、  非齐次概率建模:在自然语言处理领域中,各级语言元素(字、词、词性、组块、短句……)因其语法语义属性不同,其可以充当的语言成分不同,因此,其在语言元素序列中出现的位置和范围具有一定的规律性。上述规律性通常对应概率模型中的非齐次性假设,因此又称为语言元素的非齐次属性。语言元素非齐次现象是语言元素的普遍现象,语言元素的非齐次属性是语言元素的本质属性。非齐次概率建模期望将语言元素的非齐次属性进行量化表示并加以利用,从而提高传统概率模型的性能,增强概率模型在自然语言处理各项任务中的应用效果。

3、  汉字处理: 汉字处理解决在计算机及移动设备上输入汉字的问题。研究内容包括音字转换、手写体识别以及键盘输入等问题。

4、  词法分析:词法分析的主要目的是找出词汇的各个词素,从中获得语言学信息。词法分析是很多中文信息处理任务的必要步骤。很多应用,如搜索引擎、机器翻译都需要词法分析的支持。词法分析的主要研究内容包括自动分词、词性标注、歧义消解、新词识别等,采用的方法主要以统计机器学习为主。

5、  命名实体识别:命名实体识别的任务是自动识别文本中的人名、地名、机构名等各种实体。命名实体识别可以提高语言理解的准确性,是信息抽取系统的重要组成部分。命名实体识别的主要研究内容包括识别语料的标注、识别规则的自动抽取、识别模型的构建以及识别特征的自动选取等。

6、  句法分析:句法分析是对句子和短语的结构进行分析。句法分析可分为完全句法分析和浅层句法分析。句法分析是语言学理论和实际的自然语言应用的一个重要桥梁。一个实用的、完备的、准确的句法分析将是计算机真正理解自然语言的基础。

7、  语义分析:在过去,计算语言学研究集中在词法分析和句法分析上,基于规则、基于统计的语法分析技术率先在自然语言处理领域得到广泛运用。目前,随着Internet网络应用的普及和深入,多语种内容信息的理解和处理逐渐受到人们的关注。语义分析的研究,如词义排歧和语义归纳、推理等,开始处于萌芽期并将逐步走向前台,成为下一阶段计算语言学研究的一个亮点。计算机本身没有智能,自然语言的语义分析和内容信息的理解,离不开相应的语义知识库的支持,它是帮助计算机“了解”人类语言的一个媒介和桥梁,也是让计算机逐渐“聪明”起来的一个物质前提。语义分析主要研究基于语义知识库的语义相似度的计算方法、语义知识库的自动构建等内容。

8、  语料库多级加工:语料库语言学是以语料库为基本知识源来研究自然语言规律的学科,其中语料库加工的理论、方法和工具和基于语料库的知识获取是语料库语言学研究的主要内容。语料库是按照一定的原则组织在一起的真实的自然语言数据(包括书面语和口语)的集合,主要用于研究自然语言的规律,特别是统计语言学模型的训练以及相关系统的评价和测试。所谓语料库标注或加工就是对电子语料(包括书面语和口语)进行不同层次的语言学分析,并添加相应的"显性"的解释性的语言学信息过程。与不同层次的自然语言分析相对应,语料库的加工主要包括词性标注、句法标注、语义标注、言语标注和语用标注等,由于汉语书写的特殊性,汉语的语料加工还包括分词。

 

自然语言处理的专业英语

学习和研究中文分词问题,引起了我对中文分词的极大兴趣,甚至到了无法自拔的地步.我非常希望,能够通过自己的学习和研究,自己开发一套高性能的中文处理系统.但越学习越深入,越发现自己的知识的缺乏.熟练掌握一门编程语言是最基本的,另外涉及到概率论、统计和语言学、汉字编码等诸多复杂问题。因为这些问题同时也是国际上的热点问题,在学习这些内容时不可避免的要遇到一些英语问题。本文将最近所遇到的该领域的专业英语及其含义做一个简单的小结,列举如下。

    corpus  语料库。其本义是尸体、文集的意思。记住哦,在统计自然语言处理领域它是语料库的意思。它是文本的集合,这里的“文本”通常是指文本文件,如记事本及其内容。为了便于理解和统计的方便,人们通常会把词汇信息存储在这样的文本中。多个文本便构成一个语料库了。

   corpora 语料库集合。它是语料库corpus的复数形式,顾名思义,是指多个文本集合的集合,即多个语料库的集合。

   lingusitic competence 语言能力。反映了母语说话者脑海中假设存在的语言结构知识。

  linguistic performance 语言性能。它受一系列事物的影响,例如记忆的局限性和环境的传递噪音。

  parse 语法分析。给定一个合理的语法,对一个标准的自然语句进行句法分析,句法分析的结果就是parse。

  Wordnet 词网。是一个英语电子词典。词汇被组织到一个网络层次中。每个节点由相近意思的词集组成。

  word token 词次。指文本的长度,例如在某个语料库中,其文本包含有71370个词次(token)。

  word type 词形。指文本中出现多少个不同单词的个数(在英文中是这样,在中文中有所区别)。

 根据token和type,我们可以计算其比值,他表示每个type出现的平均次数。

  hapax legomena 罕用语。它是希腊语,表示预料库中只出现一次的单词。

  bigram 二元组。

 KWIC  Keyword In Context。上下文关键词。人们通常用上下文关键词索引程序来产生数据表示,在这样的表示中,所有出现的词汇都被列出,并且词的上下文环境也分别列在它的左右两边。

 prior probability 先验概率。

 posterior probability 后验概率。

 binomial distribution 二项分布。

 Bayes optimal decision 贝叶斯最优决策。

 mutual information 互信息。

 capacity 信道容量。

 Perplexity 混乱度。在语音识别领域中,人们通常用混乱度而不是交叉熵来描述一个模型的好坏。

 parts of speech ,POS 词性。通常说来词性有三类:名词、动词、形容词。

  n-gram n元语法模型。即马尔可夫模型。

  stemming 词干化,取词根。

  dictionary-based disambiguation 基于词典的消歧。

  function fitting 函数拟合,就是说基于一些数据点推断出函数的形态。

  Hidden Markov Model, HMM。 隐马尔可夫模型。

  rule based 基于规则

  corpus based 基于语料库。

  conditional probability 条件概率

  transitive probability 转移概率

  neighboring pairs of words 词语接续对。

  maximum likehood estimation 最大似然估计

  data sparse 数据稀疏

你可能感兴趣的:(自然语言处理,语言,token,performance,任务,internet)