第一篇 基础理论
一、 概述
二、生物原型研究
2-1.人体神经结构
人工数字神经网络系统源于人脑神经网络。了解人脑神经网络的组成和原理,有助于对人工神经网络的理解。
2-1-1.神经元
人脑是认识客观世界的器官。研究表明,人的意识、思维、行为等脑的高级功能都与客观世界密切相关。神经科学起始于上个世纪末,1875年意大利解剖学家C.Golgi用染色体法首先识别出单个神经细胞,1889年Caial创立了神经元学说,指出了神经系统是由结构上相对独立的神经细胞构成,在最近几十年来的研究结果认为人脑的神经元效量为1013。每个神经元包含了以下几个结构特性:
2-1-1-1. 细胞体(Cell Body),其大小在5至100微米的直径不等。细胞体由细胞核,细胞质和细胞膜组成。
2-1-1-2. 铀突(Axon),是细胞体向其它细胞伸出的最长一条分支,即神经纤维,相当于细胞的输出,每个神经元只有一个。
2-1-1-3. 树突(也称枝晶,Dendrites),是细胞体向外伸出的许多较短的树状分支,相当于细胞的输入。
2-1-1-4. 突触(Synaptic),是神经元之间连接的接口。整个脑内突触的数目大约在1014一1015之间,通过突触互连,连接方式不同,其生理作用也不同。突触的信息传递特性可变,因此细胞之间的连接强度可变,这是一种柔性连接,也称为神经元结构的可塑性。
另外,研究表明,神经元细胞膜内外之间存在电位差,称为膜电位。膜外为正,膜内为负。其大小约为几十微伏。膜电压接受神经其它神经元的输入后,电位上升或下降,当转入冲动的时空整合结果,使膜电位上升,而且当超过叫做动作电位的团值时,细胞进入兴奋状态,产生神经冲动,由轴突输出,这个过程称为兴奋。动作阂值电位约为40微伏13传入的冲动时空整合结果使膜电压下降并低于动作电压的闻值时,细胞进入抑制状态,无神经冲动输出。
2-1-2.信息传递
突触是神经细胞间传递信息的结构,突触由三部分构成,即突触前成分,突触间隙和突触后成分。突触所传递的信息采用电传递和化学传递两种方式。突触前成分是神经末梢上一个特化了的部分。突触末梢形成许多球形的小体。小体上直接进入突触连接部分的质膜叫做突触前膜。小体原浆中含有大量的突触小泡,小泡的直径约为200--800埃,内含神经递质。突触前膜外面是突触间隙,是突触前后之间的一个区域,其宽度为100-500埃。突触间隙的液体与细胞外液体是连通的,因此具有相同的离子组成。突触后细胞的一边是突触下膜,它是突触后细胞质膜特化的区域,含有待殊的分子受体。突触的结构示图和突轴信息传递过程。
高等动物神经系统中,突触前的电活动不直接引起突触后成分的活动,不存在电学耦连。突触传递一般通过持殊的化学物质中介,这种物质叫做神经介质或递质,突触的信息传递只能由突触前到突触后,不存在反向活动的机制。因此突触传递是单方向的。兴奋一分泌耦连,神经介质释放和介质在间隙的扩散直到突触后膜的去极化约需o。5-1毫秒,这就是突延迟。用微电极技术研究脊髓前角细胞的模电位。根据突触后电位的反应,将突触分为两种:兴奋性突触和抑制性突触。神经末梢释放介质使突触后膜产生极化反应,即兴奋性突触后电位,这是兴奋性突触。如果释放介质使突触后膜产生超极化反应,即抑制性突触后电位,则是抑制性突触。在许多可兴奋的细胞之间发现电学期连。现已证明,缝隙连接在形态上代表这种耦连。电学突触能够提供更大的传输速率,并在神经细胞间产生整合作用。
另外研究也表明了神经网络的复杂多样性,不仅在于神经元和突触的数量大,组合方式复杂和联系广泛,还在于突触传递机制中,释放神经递质是实现突触传递机制的中心环节,不同的神经递质有着不同的作用性质和特点。神经递质在维持正常生理功能方面起着重要的作用,通过电信号-化学反应信号系统传递神经信息,进行复杂的信息加工,实现对机体的调节控制。
2-2. 神经组织
神经元与神经纤维构成的神经组织具有两种基本特性,即兴奋与传导。当神经元的某一部分受到某种刺激时,在受刺激的部位就产生兴奋。这种兴奋会沿着神经元扩散开来,并在一定的条件下通过突触传达到相连的神经细胞。神经纤维的一部分兴奋起来时产生电位或电流的变化。这就是生物电流,是研究神经兴奋状态的标志。电位的变化非常迅速且短暂,叫做峰形电位。神经兴奋的结果产生神经冲动,神经冲动是能量传递的一种方式。通常,一条神经纤维接受一个适度的刺激时测会产生一个冲动。但当对一个神经来进行刺激时,则会引起若干纤维同时冲动。刺激越强,则发生冲动的神经纤维越多,反之亦然。实验表明,神经冲动的能量并非来自刺激。而是神经纤维本身产生的。刺激的作用是引发神经纤维产生冲动。
对于人体来说,在外界、内界环境刺激下,通过神经系统,机体对刺激产生规律性回答。外部和内部刺激物作用于感受器,引起神经冲动。神经冲动沿着传入神经传达到神经中枢。通过中枢的神经联系,再经传出神经传达到效应器官,引起反应。这就是一个完整的反射过程。产生反射活动的基本结构组成有感受器,传入神经,神经中枢,传出神经和效应器。感受器一舱是神经组织末梢的特殊结构,它把刺激的能量转变为神经的兴奋过程,所以感受器是一种换能装置。
某一特定的反射往往是在刺激特定的感受器后产生的,该特定感受器所在的部位成为这个感受器的感受野。神经中枢是指调节某一特定生理机能的神经细胞群。神经中枢的活动可以通过神经纤维直接影响效应器,在某些情况下,也可以通过体液的道路间接影响效应器,这种体液调节就是指内分泌腺的调节。这时反射是按感受器、传入神经、神经中枢、传出神经、内分泌腺、激素在血液中转运、效应器这样的过程进行。
反射可以分为两种:无条件反射和条件反射。无条件反射是先天性的,一定刺激作用于一定的感受野时。常引起一定的反射。例如,食物入口引起唾液分泌反射,机械刺激角膜产生眨眼反射等。无条件反射使人们能初步适应环境。条件反射是在机体的生活中形成的,它可以随着机体的外部环境和内部状况的变化而变化。条件反射的建立大大扩展了机体的反应范围。比无条件反射有更大的预见性和灵活性,更适应于复杂变化的生存环境。在实际活动中,无条件反射和条件反射的划分有相对的意义,肌体的每一活动都具有这两种反射的性质。在肌体内。无条件反射只有在新生时出现,在这以后由于条件反射不断建立,条件反射和无条件反射越来越不可分割地融合在一起。每次无条件反射出现,都有条件反射参与,而条件反射归根到底是在无条件反射的基础上建立的,它的构成已经把某些无条件反射的成分包括了进去。所以,几乎所有的生理机能都是无条件反射相条件反射的有机统一。
2-3. 视觉神经
眼是人接收来自外部信息的最主要的接收器官,是最为复杂的感官器官。外界物体的光线射入眼中,聚焦后在视网膜上成像,视网膜发出神经冲动达到大脑皮层视区,产生视觉。人眼的简要水平切面如图所示。角膜与晶状体之间是前房,虹膜与晶状体之间是后房,前房、后房之间都充满液体叫房水。晶状体的后方直到视网膜充满透明的胶状物质,叫玻璃体。角膜,房水与晶状体等构成折光系统,它是透明的组织,能把物像形成在视网膜上。在所有的感官系统中,视网膜的结构最复杂。视网膜为感光系统,能感受光的刺激,发放神经冲动。它不仅有一级神经元(感光细胞),还有二级神经元(双极细胞)和三级神经无(神经节细胞)。
感光细胞有两种,视杆和视锥细胞。二者都与双极细胞形成突触联系。双极细胞外端与视杆细胞和视锥细胞相连,内端与神经节细胞相接。感光细胞的分布是不均匀的,视锥细胞分布在视网膜的中央凹部分。前视杆细胞则分布在视网膜的比较边缘部分。在视神经进入的地方没有感受细胞,形成盲点。视杆细胞的特点是对弱光有高度的感受性,因而是夜视觉的器官。视锥细胞对光的强度有较弱的感受性,因而是昼视觉的器官。视杆细胞中含有夜视觉所必须的视紫红质。视锥细胞中含有昼视觉所必须的视紫质。视锥细胞可以感受和分辨颜色。
视神经是由成柬的神经节细胞的轴突组成,来自两侧的视神经在脑下垂体前方会合成视交叉。在这里组成每一根视神经的神经纤维束在进一步进入脑部之前被重新分组。从视神经交叉再发出的神经束叫作视束。在重新分组时,来自两眼视网膜右侧的纤维合成一束传向脑的右半部.来自两眼视网膜左侧的纤维合成另一束传向脑的左半部(如图所示)。
这两束经过改组的纤维视柬继续向脑内行进,大部分终止于丘脑的两个被分成外侧膝状体的神经核。外腺体的细胞主要有两类,投射细胞相中间神经元。外膝体完成输入信息处理上的第一次分离,然后传送到大脑的第一视区和第二视区。外膝体属丘脑,是眼到视皮层的中继站。这就是视觉通路。视网膜上的光感受细胞通过光化学反应和光生物化学反应,产生光感受器电位和神经脉冲,在视网膜上沿垂直和水平两个方向传递信息。这样的信息沿着视觉通路进行传播。视觉信号按连续步骤进行加工.发生在每一水平的转变相整合。从神经感受野可以作出员完善的分析。中枢神经元的感受野是指能影响某一视神经元反应的视网膜或视野的区域。每个视皮层,外侧膝状体的神经元或视网膜神经细胞节细胞在视网膜上均有其特定的感受野,视网膜上神经细胞的感受野都是同心圆。可分为开中心圆型和闭中心圆型两类。外侧膝状体的神经元的感受野与神馒节细胞相似。皮层神经无的感受野至少可分为三种类型:简单型、复杂型、超复杂型。
HubeL相WieseI于1962年提出了一个组合的感受野模式。具有相同感受野
的视皮层神经元在垂直于皮层表明的方向上呈住状分布.它们是视皮层的基本功能单位,成为超柱。超柱内的神经元对同一感受野中图像和景物的各种持征进行并行的处理和译码,是产生主观感知觉的重要神经基础。现在大体止有两种超住模型及译码理论:特征提取理论和空间频率分析器理论。视觉持征提取理论认为.视觉废层的超柱是由许多不同特征的提取功能柱所组成。每种功能校内的细胞不但感受野相同,其功能也相同,根据功能不同可以分为方位柱,服势柱和颜色柱等。与上述特征提取的超柱模型不同,视觉空间频率分析器的理论则认为.视皮层的神经元类似于傅立叶分析器,每个神经元敏感的空间频率不同。大量的研究结果表明,对复杂图形的视知觉即包含待征提取.又包括空间按空间频率分析的译码过程。此外.视皮层以外的皮层联络区也协同活动。
MHter和Stryker总结了眼优势柱的生理学研究成果之后,建立了眼优势柱模型。他们认为视皮层活动性差异是形成神经元可塑性的基础,活动性差异的统计学规律是优势柱形成的基础.每只限传入刺激引起的视皮层神经元单位发放模式的相关性,比西服同时性传入刺激引起的发放差异,在服优势校形成中具有更大的作用;不仅传入刺激引起的突触前神经活动模式是重要的,突触后的皮层神经元反应模式在服优势校中也是重要的。这些假设基本符合Hebb突触理论观点。
2-4. 脑记忆生理机制
神经生理学家一直在从事脑在何处以及如何记忆的研究。研究结果表明.在脑细胞经受多次某个对象的刺激而保持连续兴奋状态时,只有当这种刺激达到一定强度(阀值)之后,脑细胞里才会留下痕迹。而且当这个对象刺激的频率提高时.阀值降低,记忆更加牢固。
人脑的大量神经细胞都以发射和不发射冲动对行为和精神活动做出贡献。这些细胞之间以多种方式交互作用。动态记忆理论是由桑克在1982年提的,它描述了记忆是如何组织的,记忆是怎样从过去经验中获得智能而自动改变和增长的。当证实过去的经验失败就存储新的经验,即由经验中学习,用联想及从联想中归纳的方法改变结构以适应预测的失败。动态记忆依赖持续运行的神经冲动,或者依赖于可能由重复到达的冲动所强化的神经元内某些活跃的代谢变化和电位变化的保持。通过联系神经元的封闭环(或神经冲动)可能是这种动态记忆机制,每个记忆项目依赖于特定的神经元环或网的活动。事实上人们的记忆容量比神经元多,因此,不同的记忆可能共用部分通路。如果冲动实际上没打留下长时持续的痕迹,那么活动一旦停止.记忆便完全地,不可改变地消失掉。
另外,实验证明记忆不是纯动态的。但是这并不排除最初对神经元的依赖性。冲动的运行必然包含在那种留下记忆痕迹的最初经验中。重复造成更好的记忆这一事实告诉我们.冲动为了以后留下持久的物质变化必须在它选定的道路上循环流动。事实上巩固记忆痕迹的确需要时间作为代价。学习机制表明,突触结构的变化,或者神经蛋白质的变化,是这种持久的静态痕迹。那么神经元原来不起作用,由于活动而可能变得起作用并持续起作用。既然是记忆就存在一个记忆位置的问题。
在神经元生理学中,记忆研究最常用的方法是对人脑进行局部破坏,观察归纳障碍的情况。实验表明记忆与海马有密切的关系。另外与记忆有关的是杏仁体。杏仁体把感觉输入信号会聚成同样-些部分,又把神经纤维深入地送进大脑小的丘脑下部。杏仁体的多种联系构成为认为它能为记忆服务的多种作用的基础。从皮质感觉系统最终一个神经站来的神经纤维到达杏仁体。感觉印象在那里启动记忆系统的一条环路,它依靠杏仁体和丘脑之间的联系。杏仁体和丘脑之间的联系.杏仁体和丘脑下部之间的纽带似乎允许把-种体验与情感通路接合起来。那些纽带通过激活从杏仁体到感觉通路之间的反复联系,也可以便感情影响学习。从杏仁体返回到感觉区的联系的存在,有可能解释一个单一的刺激能引出多种多样的记忆。如当嗅到一种熟悉的食物的气味时能唤起对它的外观、质地和味道记忆。
总的来说.两个主要的记忆回路分别起源于海马和杏仁体,它们负责许多种认知学习。除此之外,还存在用于学习的第二系统。复制刺激反应是该系统中的关键部分,我们称这种学习类型为习惯。习惯是刺激和反应的无意识接合。行为主义心理学家早就证明这种接合是所有学习的基础。行为主义观点中排除了通常意义中的"精神"、"认知"、以及"记忆"这样一些术语。学习可能依靠两个完全不同的系统,其中之一源自认知性习惯,另一个则是认知记忆的基础。这样就可调和行为主义和认知主义学派,行为就可能是对刺激的无意识反应和由认知和期望所指导的行为的接合体。
三、 神经网络和分布系统
3-1. 分布系统
3-1-1. 概述
分布系统是在人类周围存在的最为普遍的系统。分布系统与非分布系统存在着较大的差异。非分布系统往往受一个统一命令的指挥,有一个集中发布命令的机构。与之相反,分布系 统有多个发布命令的机构,故而称之为分布的。显然分布系统应该包含异步这一层含义,既然 没有统一的指挥机构自然表现为非同步。另外,对于分布系统不能期待整个系统为完全有序。 即从宏观上看是有序的,而在微观动作上存在着随机性,以实现与其它系统或环境的协调。此 外,分布系统中的每个要素相互竞争、协调,在各种制约下作为整体保持一定秩序,适应外界的 变动。社会学中的很多现象,如一个人类集团内部,民族之间、国家之间,以至人与人,人类与自 然之间等等普遍存在这种现象。
3-1-2. 系统的特点:
3-1-2-1. 分布性
分布性体现在.系统由多个独立智能要素构成。独立的智能要素可以是简单要素,也可以是子系统,它们有某种自主的决定权利。
3-1-2-2. 蠕动性
就分布系统本身而言,有其不确定性,即系统并非固定不变。在此,系统存在某种程度的流动性、模糊性、异步性,各要素之间通过相互作用、相互通信达到协调工作。
3-1-2-3. 自组织
分布系统能适应环境的变化进行自组织,按一种规律或秩序来达到某一目的。自组织与自适应概念相似。自适应是通过自组织(或重构)实现的。系统在自组织过程中不断地从外界环境中吸取信息,不断地重新组织本身。
3-1-2-4. 集中与分布共享
"集中"的含义是指用一个统一的命令体系来控制系统动作。在此我们对这一解释稍加扩展。如果在一个系统中有多个主体、自律要素或子系统,它们执行一个动作,这种情况在客观效果上与执行统一命令相同,我们也使用"集中"这个术语。"分布"与"集中"恰好相对,如果所有的要素接受不同的、独立的信息,进行不同的动作,我们称之为"完全"的分布系统。对于一般的分布系统而言,它往往表现在"集中"与"完全"分布系统之间,即在分布系统中某些要素接受不同的、独立的信息,进行不同的动作,而另外一些要素可能在一个或多个不同的统一的命令体系控制下进行动作。恰当选择分布系统的组成形式有助于使系统的功能可以达到某一最终日的或实现某一秩序。
3-1-2-5. 宏观性
研究分布系统时并不注重每个要素的微观动作,如同在热力学研究中不关心每个气体分子的状态一样。气体分子在微观层次上完全无序,而在宏观层次上看来是均匀的。在分布系统研究中着眼于系统整体的宏观动作或秩序。当然,微观和宏观是相对的概念。
3-2. 人工神经网络
3-2-1. 概述
人工神经网络在80年代中期得到了飞速的发展。1982年美国加州州立理工学院物理学家Hopfield教授提出了Hopfield人工神经网络模型,他将能量函数的概念引入人工神经网络,并给出了稳定性的判据,开拓了人工神经网络用于联想记忆和优化计算的新途径。
人工神经网络模拟人类部分形象思维的能力,是模拟人工智能的一条途径。特别是可以利用人工神经网络解决人工智能研究中所遇到的一些难题。人工神经网络理论的应用已经渗透到多个领域,在计算机视觉、模式识别、智能控制、非线性优化、自适应滤波相信息处理、机器人等方面取得了可喜的进展。
人工神经网络模型发展到今日已有百余种模型,建造的方法也是多种多样,有出自于热力学的.数学方法的,模糊以及混沌方法。对于有规则的网络结构比较适合我们习惯的简洁分析方法。由于网络拓扑结构的规则性,限制了系统的自由性和无序运动,因而可以采用非效力学的其它方法。如对于前馈拓扑结构的人工神经网络,可使用感知器算法、误差反传递算法、竞争学习算法等。尽管如此,鉴于人工神经网络从本质上体现了分布系统的基本性质,所以分布系统的理论和方法均适合人工神经网络的研究。
3-2-2. 人工神经网络的信息处理原理
人工神经网络是由大量称为神经处理单元的自律要素以及这些自律要素相互作用形成的网络。它是在多年来对神经科学研究的基础之上,经过一定的抽象、简化与模拟的人工信息处理模型。它反映了人脑功能的某些基本持性.促又不世人脑的真实写照,形所-个具有高度非线性的大规模非线性动力学系统。必须指出,人工神经网络绝对不是任何意义的人脑的神经网络或其它生物脑。人工神经网络系统基础功能:
3-2-2-1. 学习能力:通过实践进行学习;
3-2-2-2. 自适应能力:系统能适应外界的变化保持良好的性能;
3-2-2-3. 自组织能力:依据外部环境的变化进行自组织,自适应是通过自组织实现的;
3-2-2-4. 容错与自修复能力:对不完整的信息给出正确的解答,或者系统内部发生某些故障时仍能达到良好的状态;
3-2-2-5. 输入输出能力;
3-2-2-6. 知识表示能力;
3-2-2-7. 模式存储、检索能力。
从数学的角度可以归纳为以下几个基础属性:
a) 非线性:人工神经元可以表述为激活和抑制两种基本状态,这就是一种非线性关系。
b) 非局域性:人工神经网络系统是以人工神经元之间的相互作用表现信息的处理和存储能人。系统的整体行为不仅取决于单个神经元的状态,而且取决于它们之间的相互作用,用此来模拟大脑的非局域性。
c) 非凸性:非凸性是指人工神经网络的演化过程在满足一定条件下取决于某特定函数,而且该函数具有多个稳定点,这将导致在不同边界条件下得到不同的结果,这就是系统演变的多样性。
d) 非定常性;表现在人工神经网络具有自组织、自适应和自学习能力。
在分布系统论中假定了分布系统中的大量处理单元都是自律要素,并且通过自律要素间的相互作用体现整体性能相信息处理能力。自律要素的处理能力可以是非常复杂,也可能异常简单。相对而言,在人工神经网络模型中,一般假设神经元是一个非常简单的处理单元.每个单元向其它单元发送兴奋性或抑制性信号。单元表示可能存在的假设,单元之间的相互作用则表示单元之间存在的约束。这些单元的稳定激活模式就是问题的解。
3-3. 企业数字神经网络
企业数字神经系统是人工神经网络系统在企业管理上的一种应用系统。数字神经系统通过对神经元以及神经系统的模仿,确立系统模型,解决企业的信息传递机制和流程问题。系统核心强调信息准确、传递及时、对象合理。业数据交流的双向性、互动性和数据信息的复杂性,数字神经系统的网络模型是一种综合的神经网络模型。根据不同的一些情况,采用反馈神经网络、自组织神经网络模型。
反馈神经网络模型:采用经典的Hopfield网络模型。在反馈神经网络中,输入数据决定反馈系统的初始状态,然后系统经过一系列状态转移后,逐渐收敛于平衡状态。这样的平御伏态就是反馈神经网络经计算后的输出结果。 Hopfield经常被用于资源组合优化问题。
自组织网络模型(Self-organizing Neural NetWork):Kohonen的自组织特征映射神经网络(seIf-organizing Feature Map)。自组织神经网络是一种无教师学习神经网络,它能模拟人类根据过去经验自动适应无法预测的环境变化。
1982年,J.Hopfield提出了可用作联想存储器的互连网络,这个网络称为Hopfield网络模型,也称Hopfield模型。Hopfield神经网络模型是一种循环神经网络,从输出到输入有反馈连接。Hopfield网络有离散型和连续型两种。
反馈神经网络由于其输出端有反馈到其输入端;所以,Hopfield网络在输入的激励下,会产生不断的状态变化。当有输入之后,可以求取出Hopfield的输出,这个输出反馈到输入从而产生新的输出,这个反馈过程一直进行下去。如果Hopfield网络是一个能收敛的稳定网络,则这个反馈与迭代的计算过程所产生的变化越来越小,一旦到达了稳定平衡状态;那么Hopfield网络就会输出一个稳定的恒值。对于一个Hopfield网络来说,关键是在于确定它在稳定条件下的权系数。
应该指出:反馈网络有稳定的,也有不稳定的。对于Hopfield网络来说,还存在如何判别它是稳定网络,亦或是不稳定的问题;而判别依据是什么,也是需要确定的。
1.3.1 离散Hopfield网络
Hopfield最早提出的网络是二值神经网络,神经元的输出只取1和0这两个值,所以,也称离散Hopfield神经网络。在离散HopfieId网络中,所采用的神经元是二值神经元;故而,所输出的离散值1和0分别表示神经元处于激活和抑制状态。
首先考虑由三个神经元组成的离散Hopfield神经网络,其结构如图1—13中所示。
在图中,第0层仅仅是作为网络的输人,它不是实际神经元,所以无计算功能;而第一层是实际神经元,故而执行对输人信息和权系数乘积求累加和,并由非线性函数f处理后产生输出信息。f是一个简单的阀值函效,如果神经元的输出信息大于阀值θ,那么,神经元的输出就取值为1;小于阀值θ,则神经元的输出就取值为θ。
对于二值神经元,它的计算公式如下
其中:xi为外部输入。并且有:
Yi=1,当Ui≥θi时
Yi=0,当Ui<θi时
对于一个离散的Hopfield网络,其网络状态是输出神经元信息的集合。对于一个输出层是n个神经元的网络,则其t时刻的状态为一个n维向量:
Y(t)=[Y1(t),Y2(t),...,Yn(t)]T
故而,网络状态有2n个状态;因为Yj(t)(j=1……n)可以取值为1或0;故n维向量Y(t)有2n种状态,即是网络状态。
对于三个神经元的离散Hopfield网络,它的输出层就是三位二进制数;每一个三位二进制数就是一种网络状态,从而共有8个网络状态。这些网络状态如图1—14中所示。在图中,立方体的每一个顶角表示一种网络状态。同理,对于n个神经元的输出层,它有2n个网络状态,也和一个n维超立方体的顶角相对应。
如果Hopfield网络是一个稳定网络,那么在网络的输入端加入一个输入向量,则网络的状态会产生变化,也就是从超立方体的一个顶角转移向另一个顶角,并且最终稳定于一个特定的顶角。
对于一个由n个神经元组成的离散Hopfield网络,则有n*n权系数矩阵w:
W={Wij} i=1,2,...,n j=1,2,...,n
同时,有n维阀值向量θ:
θ=[θ1,θ2,...θn]T
一船而言,w和θ可以确定一个唯一的离散Hopfield网络。对于图1—13所示的三神经元组成的Hopfield网络,也可以改用图1—15所示的图形表示,这两个图形的意义是一样的。考虑离散Hopfield网络的一船节点状态;用Yj(t)表示第j个神经元,即节点j在时刻t的状态,则节点的下一个时刻(t+1)的状态可以求出如下:
当Wij在i=j时等于0,则说明一个神经元的输出并不会反馈到它自己的输入;这时,离教的HopfieId网络称为无自反馈网络。
当Wij在i=j时不等于0,则说明—个神经元的输出会反馈到它自己的输入;这时,离散的Hopfield网络称为有自反馈的网络。
1.串行(异步)方式
在时刻t时,只有某一个神经元j的状态产生变化,而其它n-1个神经元的状态不变这时称串行工作方式。并且有
Yi(t+1)=Yj(t) i≠j
在不考虑外部输人时,则有
2.并行(同步)方式
在任一时刻t,所有的神经元的状态都产生了变化;则称并行工作方式。并且有
在不考虑外部输入时,则有
对于一个网络来说,稳定性是一个重大的性能指标。
对于离散Hopfield网络,其状态为Y(t):
Y(t)=[Y1(t),Y2(t),...,Yn(t)]T
如果,对于任何△t>0.当神经网络从t=0开始,有初始状态Y(0);经过有限时刻t,有:
Y(t+△t)=Y(t)
则称网络是稳定的。
在串行方式下的稳定性称之为串行稳定性。同理,在并行方式的稳定性称之为并行稳定性。在神经网络稳定时,其状态称稳定状态。
从离散的Hopfield网络可以看出:它是一种多输入,含有阀值的二值非线性动力系统。在动力系统中,平衡稳定状态可以理解为系统的某种形式的能量函数在系统运动过程中,其能量值不断减小,最后处于最小值。
对Hopfield网络引入一个Lyapunov函数,即所谓能量函数:
即有:
离散Hopfield网络有二种不同的工作方式:
(1-46) | |
对于神经元j,其能量函数可表示为 | |
(1-47) |
也即是有
神经元j的能量变化量表示为△Ej:
(1-48) |
图1-22 2/3规则
二、ART模型的基本工作原理
在ART模型中,显然分为F1,F2两层神经网络。对于注意子系统,F1和F2这两层的作用可以用图1—23表示。
图1-23 F1和F2层的信息处理
Fl层接收输人模式I,则在F1中被转换成激活模式X,X由F1中的激活神经元表示,如图1—23中的长方形所示。这个模式x被短期存储在F1中。只有激活值足够高的神经元才能产生输出信号并通过连接传送到F2的神经元去。
在F1中,由x所产生的F1输出模式为S,S模式通过连接送到F2的神经元输入端。并在F2的神经元的输入端土产生一个和s不同的模式T。从s到T的转换称为自适应滤波。无论F1还是P2,其神经元是一般形式的神经元结构。一般而言,这些神经元的状态.输入和输出并不相同。
在F2层中.模式T经过F2神经元的相互作用会迅速地被转换。这个相互作用是对输入模式T的比较及除弱增强过程。其结果产生一个短期存储在F2中的模式Y,这也是F2的状态。
在一般情况时,从T到Y这个比较,除弱增强的转换会使多个神经元处于激活状态。这时,这种转换结果变由F2中的多个神经元群来表达。这个转换过程自动地把F1的输入模式I划分到不相交的各个识别聚类中去,每个类对应于F2中的某个特征神经元。在特殊情况时,从T到Y的比较、除弱增强过程就是在F2中选择一个与当前输入I相对应的而输出值最大的神经元的过程。所选择的神经元就是用于表示激活模式的唯一神经为了说明ART模型的有关工作基本原理,下面分五点进行介绍:
1.自下而上的自适应滤波和STM中的对比度增强过程。
输入信号I加到注意子系统的F1的输入端,经过F1的节点变换成激活模式X,这一过程起到特征检出作用。
在F1中,激活值较高的神经元就会有输出到F2的信号,并成为输出模式s.s经过F1到F2的连接通道时受到加权组合(LTM),变换成模式T后作用于F2的输入端。S到T的变换称为自适应滤波。F2接收到T后通过神经元间的相互作用迅速产生对比度增强了的激活模式Y,并且存储于F2中。如图1—24(a)所示。
这个阶段的学习是一个变换系列:I—X—S—T—Y
2.自上而下的学习期望匹配和对已学习编码的稳定。
一旦当自下而上的变换X—Y完成之后.Y就会产生自上而下的输出信号的模式u,并送向F1,只有激活值足够大的才会向反馈通道送出信号u。 u经加权组合变换成模式v。v称为自上而下的模板,或学习期望。
由于x和V这两个模式对F1输入,则它们的共同作用在F1中产生激活模式X*;—般而言,x*和只由输入信号产生的x模式不同。这时,F1的作用就是试图使v和I匹配,其匹配结果确定了以后的作用过程。
这时的情况如图1—24(b)所示。
3.注意子系统和取向子系统相互作用过程。
这个过程和输入I有关。在图1—24(a)中,在输入模式I产生x的同时,也会激活取向子系统A;只是在A产生输出之前,F1中的x对A所产生的输出端就起禁止作用。当F2的反馈模式v与P1的输入模式[失配时,就会大大减弱这一禁止作用,当减弱到一定的程度时,A就被激活。如图1—24(c)所示。
A被激活之后就向F2送出重置信号.并作用于F2的全部神经元,从而改变F2的状态.取消了原来的自上而下的学习期望V;终止了V和I的失配;于是输入I再次作用直到F2产生新的状态Y*。如图1—24(d)所示。
Y*会产生新的自上而下的学习期望v*,如果v*仍然和I失配,那么,取向子系统A继续起作用;这样.产生一个快速的一系列匹配与重置过程。这个过程控制LTM的搜索从调整了LW对外界环境的编码。这个过程一直执行下去,直到F2送出的模式v和输人I相互匹配为止。
图1-24 ART模型的工作过程
4.需考虑的一些特点
在注意子系统的增益控制及起动这一自上而下的学习期望匹配过程中,还应考虑一些有关特点。
例如在F1输出向下而上的作用之前,F2已被激活,这时F2就会产生自上而下的学习期望并作用于Fl;这时则F1也会被激活,并产生自下而上的作用过程。显然,需要对来自外部输入的激活以及来自F2的反馈激活进行区分。所以,设置一个辅助机构进行区分激活来源的工作。这个辅助机构称为注意增益控制。
为F2被激活时,注意起动机构会向F1选出学习期望信号,注意增益控制就会给出禁止作用,从而影响Fl对输入响应灵敏度,使得F1可以区分激活信号的来源。
5.匹配
采用2/3规则,以确定F1的输出。这实际上是把存储模式和输入模式进行匹配的规则。
三、ART模型的工作过程
在图1—21所示的ART结构中,F1可称为比较层,F2可称为识别层。
比较层F1接收输入模式I,初始时不作任何变动作为输出向量S送去识别层F2;此后,F1同时接受识别层输出的向量v和输人模式I,还有增益控制的输出,并按2/3规则产生输出。在初始时,增益控制的输出为I,而v设置为o,故有S等于输入I。
识别层F2是用作输入向量分类器的。在识别层中,只有一个神经元和输入的向量s最优匹配,这个神经元就会被激活,而其它神经元则被抑制。根据神经元的结构原理,最优匹配规则如下:
其中: S是输入F2的向量;s=(sl,s2,…,Sn);
w3是识别层中第j个神经元和比较层中神经元从F1一F2的权系数向量wj=(W1j,W2j......),
wc是识别层中最优匹配神经元c从FI—F2的权系数向量Wc=(W1c,W2c……)。
应该注意:最优匹配神经元c到比较层神经元有从F2一FI的权系数向量Wc’,Wr’=(Wc1,Wc2……)很明显,Wc和Wc’就组成了输入向量的类别样本;也即是权系数的形态表示一类模式。
在识别层中,为了使一个神经元有最大输出值并取得竞争的优胜,并抑制其它神经元。故而识别层有横向连接,每个神经元的输出和正的权系数相乘后作本神经元的一个输入,而其它神经元的输出和负权系数相乘后再作为本神经元的输入。这种作用等于加强自身,抑制其它。从而保证了只有一个神经元被激活。这种情况如图1—25所示。
图1-25 F2层的横向连接
增益控制有两部分,它们的作用功能不同。识别层F2的增益控制输出原则为:只要输入向量I有一个元素为1,则输出1。比较层F1的增益控制原则为:只要在I有一个元素为1,同时F2的输出向量U全部元素为0时,才输出1。
重置作用是在输入信号I和F1的输出s之间的匹配存在问题,差别大于某警戒值时.则发清零信号到F2。以便重新进行识别。
ART网络的学习分类分为三部,即识别,比较和搜索。下面作简要说明。
1.识别
初始化时,网络无输人信号,故I全部元素为0;识别层F2增益控制输出为0;识别层F2输出全部为0。在有模式I输入后,I必有元素为1,故F1增益控制、F2增益控制均输出1;比较层F1按2/3规则全部复制I作为输出;S=(s1,s2,…,Sn)。接着识别层F2的每个神经元j执行下面操作;从而求出最优匹配神经元C:
则神经元C输出1,其余输出U。这些输出送回比较层F1。F2输出的值为U=(U1,U2……)。找寻最优匹配神经元C的过程就是识别。
2.比较
从识别层F2反馈到Fl的向量U不再全部为0,故而,F1增益控制输出0。按2/3规则,只有输人向量I及反馈向量U的元素同时为1所激励的神经元才会被激活。从另一个角度讲.就是来自F2的反馈强迫输入向量I中那些不匹配存储模式u的S元素为0。
如果I与U不匹配,则产生的S只有少数元素为1,这也说明模式U不是所要寻找的I模式。取向子系统对I和s的相符程度进行判别,如果低于结定的警戒值,则发出重置信号,使识别层F2激活的神经元清零;这也说明该神经元失去竞争的资格。则到此这个阶段分类比较过程结束。如果I与U匹配,则输入模式I所属的类别已找到,分类结束。
3.搜索
在I与U不匹配时,为了找到较好的匹配必须对其余的模式进行搜索。重置信号把识别层F2的神经元全部清0,则F1增益控制又输出1,网络返回到初始状态。输入模式I再进行输入,识别层的另一个神经元会取得优胜,则反馈一个新的存储模式U送回比较层F1。接着又进行匹配比较,如不匹配,则又重置识别层……不断执行下去。
搜索过程直到产生下列情况之一才会停止:
(1)找到一个存储模式,在警戒值范围内和输入模式I匹配;则ART网络进入学习阶段。修正和匹配神经元C相关的权系数Wic和Wci。
(2)搜索了全部模式后,没有一个模式能够和I相似匹配;则网络也进人学习阶段。把原来来分配模式的神经元j赋于输人模式I,构造相应的权系数Wij和Wji,并作为样本模式存储。
特别应指出的是:搜索过程是包含了识别和比较二个阶段的。搜索不过是识别—比较—识别—比较……的多次重复。
严格来说,ART应分成搜索和学习这两种最主要的过程和功能。
1.4.3ART模型的数学描述
在ART模型中,F1或F2中的神经元用Nk表示,神经元被激活后产生的激活值用Xk表示,从神经生理学的研究结果,可以知道神经元的激活值,即神经元未经s函数处理的输出Xk满足下面的微分方程:
其中:e是远小于1的正实数;
Jk+是送到神经元Nk的所有激励输入之和
Jk-是送到神经元Nh的所有抑制输入之和
A,B,C是非负常数;
Xk的取值范围为[-BC-1,A-1]
一、F1层的数学描述
用Ni表示F1的神经元,并且i=1,2,…,n,
则有
很明显,有F1的激活模式X
X={X1,X2,...Xn}
1.Ji+的形式
由于F1神经元Nt的激励输入Ji+是自下而上的输入Ii以及自上而下的输入vi之和,故而有
Ji+=Ii+Vi
其中Ii是一个n维输入向量;I={I1,I2,…In};
;这里,f(Xj)是F2中神经元Ni的输出,Wji是Nj到Ni的连接权系数;
D1是系数。
v={v1,v2,…,vn},也是n维间量。
2.Ji-的形式
对F1层,抑制输入Ji-是由注意子系统增益控制信号来控制,即
当且仅当F2的激活值很高时,Ji-=0,否则Ji->0。
二、F2层的数学描述
用Nj表示F2的神经元.并且j=n+1,n+2,…,n+m,则有:
则有F2的激活模式Y
Y={Xn+1,Xn+2,...Xn+m}
选择F2中的激活模式的输入和参数,使到F2中具有来自F1的最大输入的神经元取得竞争的胜利。故而对Jj+和Jj-考虑应有如下形式:
1.Jj+的形式
Jj+=g(Xj)+Tj
其中:g(xj)为Nj的自反馈信号;
Tj是从F1来的到F2的输入模式;,这里的h(xi)是F中神经元Ni的输出,D2是系数;
Wij是F1到F2的神经元的连接权系数。
2.Jj-的形式
对应于图1—24中的情况,可以看出向量S,T,U,V的关系,并且有
S={h(X1),h(X2),...,h(Xn)}
T={Tn+1,Tn+2,...,Tn+m}
U={f(Xn+1),f(Xn+2),...,h(Xn+m)}
V={V1,V2,...,Vn}
并且有 I={I1,I2,...,In}
(1-49) |
其中:Ej为神经元j的能量;
△Ej为神经元j的能量变化;
Wij为神经元i到神经元j的权系数:
Yi为神经元j的输出;
Xj为神经元j的外部输入;
θj为神经元j的阀值;
△Yj为神经元j的输出变化。
如果,令
Uj=ΣWijYi+Xj
则△Ej可表示为:
考虑如下两种情况:
1.如果Uj≥θj,即神经元j的输入结果的值大于阀值,则Uj-θj≥0,则从二值神经元的计算公式知道:Yj的值保持为1,或者从0变到1。这说明Yj的变化△Yj只能是0或正值。这时很明显有△Ej:
△Ej≤0
这说明Hopfield网络神经元的能量减少或不变。
2.如果Uj≤θj,即神经元j的输入结果的值小于阀值,则Uj-θj≥0,则从二值神经元的计算公式可知:Yj的值保持为0,或者从1变到0。这说明Yj的变化△Yj只能是零或负位。这时则有△Ej:
△Ej≤0
这也说明Hopfield网络神经元的能量减少。
上面两点说明了Hopfield网络在权系数矩阵W的对角线元素为0,而且W矩阵元素对称时,Hopfield网络是稳定的。
Coben和Grossberg在1983年给出了关于Hopfield网络稳定的充分条件,他们指出:
如果Hopfield网络的权系数矩阵w是一个对称矩阵,并且,对角线元素为0.则这个网络是稳定的。即是说在权系数矩阵W中,如果
i=j时,Wij=0
i≠j时,Wij=Wji
则Hopfield网络是稳定的。
应该指出:这只是Hopfield网络稳定的充分条件.而不是必要条件。在实际中有很多稳定的Hopfield网络,但是它们并不满足权系数矩阵w是对称矩阵这一条件。
上面的分析可知:
无自反馈的权系数对称Hopfield网络是稳定的网络。它如图1—16,图1—17所示。
图1-16 对角线权系数为0的对称Hopfield网络
图1-17 对角线权系数为0的对称网另一图示
Hopfield网络的一个功能是可用于联想记忆,也即是联想存储器。这是人类的智能特点之一。人类的所谓“触景生情”就是见到一些类同过去接触的景物,容易产生对过去情景的回昧和思忆。对于Hopfield网络,用它作联想记忆时,首先通过一个学习训练过程确定网络中的权系数,使所记忆的信息在网络的n维超立方体的某一个顶角的能量最小。当网络的权系数确定之后,只要向网络给出输入向量,这个向量可能是局部数据.即不完全或部分不正确的数据,但是网络仍然产生所记忆的信息的完整输出。1984年Hopfield开发了一种用n维Hopfield网络作联想存储器的结构。在这个网络中,权系数的赋值规则为存储向量的外积存储规则(out product storage prescription),其原理如下:
设有m个样本存储向量x1,x2,…,xm
X1={X11,X21,...,Xm1}
X2={X12,X22,...,Xm2}
......
Xm={Xm1,Xm2,...,Xmm}
把这m个样本向量存储人Hopfield网络中,则在网络中第i,j两个节点之间权系数的值为:
其中:k为样本向量Xk的下标,k=1,2,…m;
i,j分别是样本向量Xk的第i,j分量Xi,Xj的下标;i,j=1,2,…n。
对联想存储器的联想检索过程如下:
给定一个向量X。进行联想检索求取在网络中的存储内容。这时,把向量
X={X1,X2,...Xn}
的各个分量x1,x2,…,xn赋于相对应的节点j,(j=1,2,…,n),则节点有相应的初始状态Yj(0),则有
Yj(0)=Xj,j=1,2,…,n
接着,在Hopfield网络中按动力学系统原则进行计算,得
Yj(t+1)=f[ΣWijYj(0)-θj] , i,j=1,2,…,n
其中,f[·]是非线性函数,可取阶跃函数。
通过状态不断变化,最后状态会稳定下来.最终的状态是和给定向量x最接近的样本向量。所以,Hopfield网络的最终输出也就是给定向量联想检索结果。这个过程说明,即使给定向量并不完全或部分不正确,也能找到正确的结果。在本质上,它也有滤波功能。
1.3.2连续Hopfield网络
连续Hopfield网络的拓朴结构和离散Hopfield网络的结构相同。这种拓朴结构和生物的神经系统中大量存在的神经反馈回路是相一致的。在连续Hopfield网络中,和离散Hopfield网络一样,其稳定条件也要求Wij=Wji。
连续Hopfield网络和离散Hopfield网络不同的地方在于其函数g不是阶跃函数,而是S形的连续函数。一般取
g(u)=1/(1+e-u) (1-50)
连续Hopfield网络在时间上是连续的.所以,网络中各神经元是处于同步方式工作的。考虑对于一个神经细胞,即神经元j,其内部膜电位状态用uj表示.细胞膜输入电容为Cj,细胞膜的传递电阻为Rj,输出电压为Vj,外部输入电流用Ij表示,则连续Hopfield网络可用图1—18所示的电路表示。
(1-51) |
vj(t)为输出电位;
Uj(t)为输入电位。
图1-18 连续Hopfield网络的电路形式
对于连续Hopfield网络,Hopfield给出如下稳定性定理:
给出能量函数E(t)
(1-52) |
其中:g-1(v)是Vj(t)=gj(uj(t))的反函数。
如果连续Hopfield网络中神经元传递函数是单调增长的连续并有界函数,并且Wij=Wji,则有
当并且仅当
时,有
这个定理的意义可以解释如下:当网络神经元的传递函数是S函数,并且网络权系数矩阵对称;则随时间的变化网络的能量会下降或不变;而且仅当输出电位随时间变化不变时.网络的能量才会不变。换而言之,在上述条件下的网络是能量不变或下降的。
这个定理的证明过程如下:
对能量函数E(t)求时间的导数dE(t)/dt,则有
(1-53) |
如果存在Wij=Wji,则上式可写为
(1-54) | |
从连续Hopfield网络的动态方程,有 | |
(1-55) | |
故上面(1—54)式可写成 | |
(1-56) | |
由于 Vj(t)=gj(Uj(t)) | (1-57) |
故而有 Uj(t)=gj-1(Vj(t)) | (1-58) |
从而有 | |
(1-59) | |
从 g(u)=1/(1+exp(-u)) | (1-60) |
可知其反函数为单调升函数。因而对于dE(t)/dt中的gj-1(vj(t)),必有单调升的特点.则其导数必定大于0,即
[gj-1(vj(t))]'>0
同时容易知道
Cj>0
很明显,在dE(t)/dt时,必定有
而且当,仅当
有
至此,则定理证明完毕。
这个定理说明Hopfield网络的能量函数E(t)是单调下降的;如果E(t)有下界,即有确定的极小值;那么网络必定是稳定的。而且,可以知道稳定点对应于能量函数的下界,即极小值。
下一步工作,只需证明能量函数有下界,那么.就可以证明网络是稳定的。
可以证明,如果Hopfield网络的传递函数g是连续而且有界的,那么,能量函数E(t)是有界的。
最后,有如下结论:
当Hopfield网络的神经元传递函数g是连续且有界的,例如Sigmoid函数,并且网络的权系数矩阵对称,则这个连续Hopfield网络是稳定的。在实际应用中,任何一个系统,如果其优化问题可以用能量函数E(t)作为目标函数,那么,总可以用连续Hopfield网络对其进行求解。由于引入能量函数E(t),Hopfield使神经网络和问题优化直接对应;这种工作是具开拓性的。利用神经网络进行优化计算,就是在神经网络这一动力系统给出初始的估计点,即初始条件;然后随网络的运动传递而找到相应极小点。这样,大量的优化问题都可以用连续的Hopfield网来求解。这也是Hopfield网络用于神经计算的基本原因。