自然语言理解

发信人: walt (瓦尔特), 信区: AI

标 题: 自然语言理解

发信站: 国家智能中心曙光站 (Fri Oct 10 14:02:46 1997)

广义的“语言”是任何一种有结构的符号系统。人类的语言、手势、体态, 机

器的指令、命令、程序, 排版时的格式说明, 公路上的交通图标……都属于这种广

义的 “语言”。其中, 最重要的两类语言, 是自然语言和形式语言。

狭义的“语言”指“自然语言”, 即人类在其社会生活中发展出来的用来互相

交际的声音符号系统。现已发现数千种不同的自然语言。“自然语言理解”指的就

是使计算机来按照这种语言所表达的意义作出相应的反应的机制。

语言学上对语言有这样的层次划分: 第一层次是语音和文字, 即基本语言信号

的构成; 第二层次是词法和句法(合称“语法”), 即语言基本运用单位的构成和组

合的形式规律; 第三层次是语义, 即语言所要表达的概念结构; 第四层次是语用,

即语言与语言使用环境的相互作用。一般说来, 人和计算机打交道, 目前是采用键

盘输入字符的方式, 但语音的文字方式由于语音和文字的识别的进展也已经开始进

入实用的水平; 自然语言理解的关键, 仍然是文字进入计算机以后的词法和句法分

析、语义分析和语用分析。现在已经有一些计算机程序能在受限制的领域内“懂得”

英语等自然语言, 比如根据数据库里的信息回答问题或处理事务, 按照自然语言的

命令做一些简单的事情等等。要实现不限领域的自然语言理解, 目前在技术上还面

临很艰巨的挑战。

首先, 自然语言是极其复杂的符号系统。一个人尽管可以对自己的母语运用自

如, 但却无法把自己母语的构成规律、意义的表达规律和语言使用的规律用计算机

可以接受的方式彻底说清楚。传统的语言学是在没有计算机参照的条件下发展起来

的, 虽然为自然语言理解积累了宝贵的财富, 但那是讲给人的, 真正要让语言学知

识变成计算机上可操作的, 绝不是那么简单, 也不能那么模糊。这个目标的实现,

需要大量又懂语言学又懂计算机的人在正确的技术路线的指导下一起做非常大规模

的基本建设, 绝不是一拍脑袋想出个“绝招”就能解决的。

其次, 自然语言的各个层次上都含有巨大的不确定性。在语音和文字层次上,

有一字多音、一音多字的问题; 在词法和句法层次上, 有词类词性、词边界、句法

结构的不确定性问题; 在语义和语用层次上, 也有大量的因种种原因造成的内涵、

外延、指代、言外之义的不确定性。语言学上把这些不确定性叫做“歧义”。歧义

一般不能通过发生歧义的语言单位自身获得解决, 而必须借助于更大的语言单位乃

至非语言的环境背景因素和常识来解决。人类有很强的依靠整体消除局部不确定性

的能力和常识推理能力, 体现在语言上就是利用语境信息和常识消除歧义的能力。

使计算机获得同样强大的能力, 是从事自然语言理解的学者梦寐以求的目标。

另外, 自然语言不是一成不变的死的语言, 它在社会生活中发展, 在操不同语

言和同一语言的不同变体的人们之间的相互影响中变化。一个词、一个说法可能在

一夜之间突然流行起来; 特殊的人群结构变化会导致新的语言或新的语言变体 (如

方言) 的出现。这些都要求理解自然语言的计算机程序要具有对外界语言环境的应

变能力

最后一点, 自然语言是人们交流思想的工具。既然交流的是思想, 那思想本身

在计算机里的组织结构就显得格外重要。在人工智能里, 这就是“知识表示”的问

题。可以说, 在知识表示问题上的突破, 对于自然语言理解的进展将产生决定性的

影响

在上述四个方面, 都有许多学者在勇敢地迎接挑战, 使计算机程序一步步地朝

着不限领域的自然语言理解的远大目标前进。善解人意的计算机系统一定会在不远

的将来造福人类。

你可能感兴趣的:(数据库,生活,语言,工具,交通,曙光)