本文是中国人工智能学会编著的《人工智能导论(面向非计算机专业)》一书第二章的摘要与笔记,仅供个人学习之用。其它章节请访问下列相应 URL。
第一章 绪论
第二章 概念表示(本章)
对于人工智能来说,知识是最重要的部分。知识由概念组成,概念是构成人类知识世界的基本单元。 人们借助概念才能正确地理解世界,与他人交流,传递各种信息。如果缺少对应的概念,将自己的想法表达出来是非常困难甚至是不可能的。鉴于知识自身也是一个概念,因此,想要表达知识,能够准确表达概念是先决条件。
所谓概念的精确定义,就是可以给出一个命题,亦称概念的经典定义方法。在这样一种概念定义中,对象属于或不属于一个概念是一个二值问题——一个对象要么属于这个概念,要么不属于这个概念,二者必居其一。而一个经典概念的组成,正如第一章所述包含三个部分,即:概念名、概念的内涵表示、概念的外延表示。
英文字母的概念名为“英文字母”。其内涵表示为如下命题:英语单词里使用的字母符号(不区分字体)。英文字母的外延表示为经典集合 {a, b, c, d, e, f, g, h, i, j, k, l, m, n, o, p, q, r, s, t, u, v, w, x, y, z}。
经典概念在科学研究、日常生活中具有极其重要的意义。如果限定概念都是经典概念,则既可以使用其内涵表示计算(即数理逻辑);也可以使用外延表示进行计算(集合论)。下面进行简单介绍。
数理逻辑作为一门独立学科,内容庞杂,在此仅简要介绍命题逻辑中最基本的概念——命题,更多知识请学习“数理逻辑”或“离散数学”相关内容。
在数理逻辑中,真用“1”来表示,假用“0”来表示。
命题是可判断真假的陈述句。真命题表达的判断为正确,假命题表达的判断为错误。任何命题的真值唯一。
不能分解为更简单的命题的命题称为简单命题或原子命题;通过连结词联结而成的命题称为复合命题。在命题逻辑中,简单命题是基本单位,不能再细分。
给出下列自然语言语句:
- 您去看电影吗?
- 看雪去!
- 这句话是谎话。
- 哎呀,您……
- x=2
- 两个奇数之和是奇数。
- 欧拉常数是无理数。
- 任何人都会死,苏格拉底是人,因此,苏格拉底是会死的。
- 如果下雨,则我打伞。
- 李白要么擅长写诗,要么擅长喝酒。
- 李白既不擅长写诗,又不擅长喝酒。
1~5 不是命题。1, 2, 4 不是陈述句;3 虽为陈述句,但无法判断真假(称为悖论);5 的真假依赖于 x 的取值,不能确定。
6~11 都是命题。6 和 7 是简单命题。6 是假命题。7 是命题,但目前不知欧拉常数是否为无理数,故目前无法判断其为真命题或为假命题;但可以确定欧拉常数要么是有理数(则该命题为假),要么是无理数(则该命题为真)。判断一个语句是否为命题时,只要知道该语句可判断真假即可(即要求真值唯一),是否知道真值对于判断是否为命题并不重要。(说到底,还是要先判断是不是命题,再判断是真命题还是假命题) 8~10 是复合命题,其真值在此不做讨论。
在命题逻辑中,简单命题常用 p, q, r, s, t 等小写字母表示。复合命题则用简单命题和逻辑词进行符号化。
常见的逻辑联结词有五个——否定联结词、合取联结词、析取联结词、蕴含联结词、等价联结词。
需要指出的是,日常生活里 p→q 中的前件 p 与后件 q 往往存在某种内在关系;而在数理逻辑里,并不要求前件 p 与后件 q 有任何联系,前件 p 与后件 q 可以完全没有内在联系。
例:给出三个命题:p: 建国同志发动武装暴动夺得了美国总统职位;q: 建国同志被授予诺贝尔和平奖;r: 太阳从西边出来。
根据现实(截止至2021年2月4日)容易得出:p 为假,q 为假,r 为假。
用自然语言表述 p→q 有:如果建国同志发动武装暴动夺得了美国总统职位,则建国同志被授予诺贝尔和平奖。
用自然语言表述 r→q 有:如果太阳从西边出来,则建国同志被授予诺贝尔和平奖。
比较上述两个命题可知,两个命题的逻辑结构完全一致。虽然命题 p→q 看似荒谬,但在命题逻辑看来,p 为假,无论 q 为真或为假,p→q 均为真,抽象为真值表示为:0→0=1。故上述两命题均为真。
真值表
p | q | ¬p | p⋀q | p⋁q | p→q | p↔q |
---|---|---|---|---|---|---|
0 | 0 | 1 | 0 | 0 | 1 | 1 |
0 | 1 | 1 | 0 | 1 | 1 | 0 |
1 | 0 | 0 | 0 | 1 | 0 | 0 |
1 | 1 | 0 | 1 | 1 | 1 | 1 |
当需要定义或使用一个概念时,常常需要明确概念指称的对象。一个由概念指称的所有对象组成的整体称为该概念的集合,这些对象就是集合的元素或者成员。 该概念名为集合的名称,该集合称为对应概念的外延表示,集合中的元素为对应概念的指称对象,如一元二次方程 x²-2=0 的解组成的集合、人类性别的集合、质数集合等等。
为了方便计算,集合通常用大写英文字母标记,例如,自然数集合 N、整数集合 Z、有理数集合 Q、实数集合 R、复数集合 C等。因此,集合的名字常常有两个,一个用在自然语言里,对应该集合的概念名;一个用在数学里,用来降低书写的复杂度。
集合有两种表示方法:一种是枚举表示法,一种是谓词表示法。
集合的枚举表示法 :列出集合中的所有元素,元素之间用逗号隔开,并把它们用花括号括起来,如 N={0, 1, 2, 3, 4, …}。并不是所有的集合都可以用枚举法来表示,比如实数集合。
在用枚举表示法时,集合中的元素彼此不同,不允许一个元素在集合中多次出现(互异性);集合中的元素地位是平等的,出现的次序无关紧要,即集合中的元素无顺序,或者说两个集合如果在其对应的枚举表示法中元素完全相同而其出现顺序不同,则认为这两个集合是相同的(无序性)。
集合的谓词表示法 :用谓词来概括集合中元素的属性。该谓词是与集合对应的概念的内涵表示,即其命题表示的谓词符号化中的谓词。例如集合 B={x|x∈R⋀x²-2=0}。
如果同一层次的不同概念之间有各种关系,则对于同一层次上的两个集合,彼此之间也存在各种不同关系。
定义 2.1 如果 A、B 是两个集合,且 A 中的任意元素都是集合 B 中的元素,则称集合 A 是 B 的子集合,这时也称 A 被 B 包含,或者 B 包含 A,记作 A ⊆ B A\subseteq B A⊆B。如果 A 不被 B 所包含,则记作 A ⊈ B A\nsubseteq B A⊈B。
包含的谓词符号化为: A ⊆ B ⇔ ∀ x ( x ∈ A → x ∈ B ) A\subseteq B ⇔ \forall x(x\in A→x\in B) A⊆B⇔∀x(x∈A→x∈B)。
定义 2.2 如果 A、B 是两个集合,且 A ⊆ B A\subseteq B A⊆B 与 B ⊆ A B\subseteq A B⊆A 同时成立,则称 A 与 B 相等,记作 A = B A=B A=B。如果 A 与 B 不相等,则记作 A ≠ B A\ne B A=B。
相等的符号化表示为: A = B ⇔ A ⊆ B ∧ B ⊆ A A=B ⇔ A\subseteq B\wedge B\subseteq A A=B⇔A⊆B∧B⊆A。
定义 2.3 如果 A、B 是两个集合,且 A ⊆ B A\subseteq B A⊆B 与 A ≠ B A\ne B A=B 同时成立,则称 A 是 B 的真子集,记作 A ⊂ B A\subset B A⊂B。如果 A 不是 B 的真子集,则记作 A ⊄ B A\not\subset B A⊂B。
真子集的符号化表示为: A ⊂ B ⇔ A ⊆ B ∧ A ≠ B A\subset B ⇔ A\subseteq B\wedge A\ne B A⊂B⇔A⊆B∧A=B。
定义 2.4 不含任何元素的集合叫做空集,记作 ∅。
空集可以符号化表示为: ∅ = { x ∣ x ≠ x } \emptyset = \{x|x\ne x\} ∅={ x∣x=x}。
定理 2.1 空集是一切集合的子集。
定义 2.5 集合 A 的全体子集构成的集合叫做集合 A 的幂集,记作 P(A)。不难知道,如果 A 为 n 元集,则 P(A) 有 2 n 2^n 2n 个元素。
定义 2.6 在一个具体问题中,如果涉及的集合都是某个集合的子集,则称该集合为全集,记作 E。
定义 2.7 设 A、B 为集合,A 与 B 的并集 A ∪ B A\cup B A∪B,交集 A ∩ B A\cap B A∩B,对称差 A ⊕ B A\oplus B A⊕B,B 对 A 的相对补集 A − B A-B A−B 可分别定义如下: A ∪ B = { x ∣ x ∈ A ∨ x ∈ B } A\cup B = \{x|x\in A\vee x\in B\} A∪B={ x∣x∈A∨x∈B} A ∩ B = { x ∣ x ∈ A ∧ x ∈ B } A\cap B = \{x|x\in A\wedge x\in B\} A∩B={ x∣x∈A∧x∈B} A ⊕ B = { x ∣ ( x ∈ A ∧ x ∉ B ) ∧ ( x ∈ B ∧ x ∉ A ) } A\oplus B = \{x|(x\in A\wedge x\notin B)\wedge(x\in B\wedge x\notin A)\} A⊕B={ x∣(x∈A∧x∈/B)∧(x∈B∧x∈/A)} A − B = { x ∣ x ∈ A ∧ x ∉ B } A-B = \{x|x\in A\wedge x\notin B\} A−B={ x∣x∈A∧x∈/B}
如果两个集合的交集为空集,则称这两个集合是不可交的。
在给定全集 E 以后, A ⊆ E A\subseteq E A⊆E,A 的绝对补集 ~A 可定义如下: ∼ A = E − A = { x ∣ x ∈ E ∧ x ∉ A } \sim A = E-A = \{x|x\in E\wedge x\notin A\} ∼A=E−A={ x∣x∈E∧x∈/A}
由此,可以具体计算集合之间的并、交、对称差、相对补和绝对补。
显然,当概念的外延表示为经典集合时,概念之间的计算可以由集合运算来代替。
不是所有的概念都具有经典概念表示。 第一章已经指出,概念的经典理论假设概念的内涵表示由一个命题表示,外延表示由一个经典集合表示,但是对于日常生活里使用的概念来说,这个要求过高,比如常见的概念人、勺子、美、丑等就很难给出其内涵表示或者外延表示。人们很难用一个命题来准确定义什么是人、勺子、美、丑,也很难给出一个经典集合将对应着人、勺子、美、丑这些概念的对象一一枚举出来。命题的真假与对象属不属于某个经典集合都是二值假设,非 0 即 1,但现实生活中的很多事情难以以这种方式计算。
著名的“秃子悖论”可以清楚地说明这一点。所谓“秃子悖论”是如下一个陈述句:比秃子多一根头发地人也是秃子。如果假设“秃子”这个概念是经典概念,那么运用经典推理技术,从“头上一根头发也没有的人是秃子”这个基准论断出发,经过 10 万次推理,就可以推断出“一个人即使具有 10 万根头发也是秃子”。显然,这是一个荒谬的结论,因为据统计,一个成年人正常也就有 10 万根头发。错误发生在哪里呢?显然,“秃子”属于经典概念这个假设并不正确。
在 1953 年出版的《哲学研究》里,通过仔细剖分“游戏”这个概念,维特根斯坦对概念的内涵表示的存在性提出了严重质疑,明确指出如下假设并不正确:所有的概念都存在经典的内涵表示(命题表示)。现代认知科学是这一观点的支持者,认为各种生活中的实用概念如人、猫、狗等都不一定存在经典的内涵表示(命题表示)。
但是,这并不意味着概念的内涵表示在没有发现时,该概念就不能被正确使用。实际上,人们对于日常生活中的概念应用得很好,但是其相应的内涵表示不一定存在。为此,认知科学家提出了一些新概念表示理论,如原型理论、样例理论和知识理论。
原型理论认为一个概念可由一个原型来表示。 一个原型既可以是一个实际的或者虚拟的对象样例,也可以是一个假设性的图示性表征。通常,假设原型为概念的最理想代表。
比如“好人”这个概念很难有一个命题表示,但在中国,好人通常用雷锋来表示,雷锋就是好人的原型。又比如,对于“鸟”这个概念,成员一般具有羽、卵生、有喙、会飞、体轻等特点,麻雀、燕子都符合这个特点,而鸵鸟、企鹅、鸡、家鸭等不太符合鸟的典型特征。显然,麻雀、燕子适合作为鸟的原型,而鸵鸟、企鹅、鸡、家鸭等不太适合作为鸟的原型,虽然也属于鸟类,但不属于典型的鸟类。
因此,在原型理论里,同一个概念中的对象对于概念的隶属度并不都是 1,会根据其与原型的相似程度而变化。在概念原型理论里,一个对象归为某类而不是其他类仅仅因为该对象更像某类的原型表示而不是其他类的原型表示。
正是注意到这一现象,扎德于 1965 年提出了模糊集合的概念,其与经典集合的主要区别在于对象属于集合的特征函数不再是非 0 即 1,而是一个不小于 0、不大于 1 的实数。据此,基于模糊集合发展出模糊逻辑,可以解决秃子悖论问题。
但是,要找到概念的原型也不是简单的事情。一般需要辨识属于同一个概念的许多对象,或者事先有原型可以展示才可能。但这两个条件并不一定存在。特别是 20 世纪 70 年代儿童发育学家通过观察发现,一个儿童只需要认识同一个概念的几个样例,就可以对这几个样例进行辨识,但其并没有形成相应概念的原型。据此,又提出了概念的样例理论。
样例理论认为概念不可能由一个对象或者原型来代替,但是可以由多个已知样例来表示。 理由是,一两岁的婴儿已经可以正确辨识什么是人、什么不是人,即可以使用“人”这样的概念了。但是一两岁的婴儿解除的人的个体数量非常有限,其不可能形成“人”这个概念的原型。
这实际上与很多人的实际经验也相符。人们认识一个概念,比如认识“一”这个字,显然,只可能通过有限的这个字的样本来认识,不可能将所有“一”这个字的样本都拿来让人学习。
在样例理论中,一个样例属于某个特定概念 A 而不是其他概念,仅仅因为该样例更像特定概念 A 的样例表示而不是其他概念的样例表示。
个人认为原型理论和样例理论的区别在于:
- 原型理论需要找到一个概念中特征最典型、最明显的个体,作为该概念的原型,判断新的个体是否属于该概念时,需要将该个体与原型比较判断隶属度(相似度)是否达到阈值。
- 样例理论则是从属于一个概念中任意取出多个个体中,作为该概念的样例,判断新的个体是否属于该概念时,需要将该个体与样例之间的共性是否相符。
若有误欢迎指点批评
更进一步,认知科学家发现在各种人类文明中都存在颜色概念,但是具体的颜色概念各有差异,并由此推断出单一概念不可能独立于特定的文明之外而存在。由此形成了概念的知识理论。认知理论认为,概念是特定知识框架(文明)的一个组成部分。 但是不管怎样,认知科学总是假设概念在人的心智中是存在的。概念在人心智中的表示称为认知表示,其属于概念的内涵表示。
最后需要指出的是,已有研究发现不同的概念具有不同的内涵表示,可能是命题表示,可能是原型表示,可能是样例表示,也可能是知识表示,当然也可能存在不同于以上的认知表示。对于一个具体的概念,到底是哪一种表示,需要根据实际情况具体研究。据此可知,对于概念表示,一个公开的问题是:是否存在一种统一的可以与已知的概念表示理论相容的概念表示理论?