–兼谈基于微分几何的人工智能
标签(空格分隔): 人工智能 计算机视觉 自主移动 微分流形 Ricci流
版权声明:本文为作者原创文章,未经作者允许不得转载。
人工智能是分主观与客观的,是硬币的两个方面,
客观智能是世界的本质描述,是物理的是数学的,
主观智能是来自于客观智能,是哲学的是宗教的。
抛开物理与数学只讲方法是走不远的,如无本之木、无源之水,
单讲物理与数学只会得到一个静默纷扰的世界,无乐无诗无书无画。
什么是智能,这是一个令人思绪飞扬的问题,本文的内容经过了我的理论计算及实践,其中的方法及算法全部在我的六个发明专利里,既反映了我的想法和兴趣,也暴露了我的局限和偏见,这里要感谢我太太对我研究工作的持续激励,也感谢我可爱的孩子Andie,在这段时间里所带给我的欢乐与慰藉(http://blog.csdn.net/hjwang1/article/details/52007697)。
加州大学圣塔芭芭拉分校(UCSB)著名的理论和实验物理学家Matthew Fisher就笃信,人的意识、记忆和思维是量子纠缠的,要用量子理论来解释,这也从一个方面说明当前各种xx学习远不足以解释AI的现象,根源在所用数学理论,绕不开梯度散射等局限性,理不顺长短记忆,道不清缘由,指不明方向;最有可能统一物理的微分几何,可做人脸识别表情识别,携带了原始三维信息,其应用前景不可估量;几何决定了光的弯曲与时空弯曲,可做环境识别,可做智主移动,远不是巡线、避障、定位建图的层次;物理将统一于几何,宏微观将统一于几何,主客观将统一于几何,智能在微分几何,莫比乌斯带上的“蚂蚁”将揭开其中奥妙。
人类无时无刻不在通过眼、耳、鼻、舌等器官来摄取环境的信息,动物也是同样通过各自的器官获得环境信息。而对无生命的机器来说,若要体现出类人的智能,首要就是要考虑如何感知环境的信息。
借鉴人与动物的感官,我们创造出了各种各样的传感器,以辅助机器感知周围的环境,部分如下:
机器在通过传感器摄取到环境信息后,它是怎么识别的?它是怎么记忆的?它又是怎么触类旁通的?,说实话,如果真正解决了这些问题,那么也就离发展出通用智能不远了。单就视觉与运动这一方向来说,还是有路可循的。
从人类的视觉出发,一般来讲,人们通过物体的色彩、材质、形状及拓扑信息来辨识与比较物体。对机器来说,色彩可以由camera的感光器件可以识别,材质也有各种传感器做出些许识别,形状可以由基于测距的扫描scanner感知,进而再计算建模得出其表面形状信息,更进一步可以计算其拓扑信息。所以,机器视觉还是可以在一定程度上比肩人类,根据视频感知,实时做出路径规划与自主运动,类似的无人驾驶汽车,已经研制出来,相信不远的将来就可以走向商业应用。
有了前面章节的基础感知信息,机器就可以大规模的计算,基本上可以做到实时的路径规划与避障。当前常见的这方面的算法有A*算法、D*算法等,应用方面,大到火星车上面,小到游戏应用设计里,都能见到其身影。这些路径规划算法,其应用基础就是要有一个环境地图,而这地图的获取方面,同步定位与建图之SLAM算法,名满全行业,而且已经有了初步的商业应用,如扫地机器人,像美国的iRobot公司、中国的科沃斯公司等等,都已经做了较深入的研究与产品的商业化推广。
蝙蝠的飞行不是靠眼睛看的,众所周知,而是靠耳朵和发音器官嘴与鼻以飞行的。蝙蝠在飞行时,会发出一种尖叫声,这是一种超声波信号,是人类无法听到的,因为它的音频超出人耳能接收到的范围20Hz~20kHz。这些超声波的信号在发出之后几乎呈直线传播,如果在传播时碰到其他物体,就会立刻反射回来,在接收到返回的信息之后,蝙蝠会实时对这些信号进行计算,感知周围环境,并且快速地绕开障碍物,去捕捉适合自己品味的猎物。
喉咙是蝙蝠发出超声波的源泉,嘴和鼻子是其超声波的发射天线,再通过耳朵接收返回的声波。进而分辨出物体是大是小,是远是近,是活是死,从而也就能知道他所需要的食物在什么方向。
科学家把蝙蝠的这一行为叫做回声定位,并且根据这一原理制造出了雷达,这一可以利用无线电波进行探测的装置。时至今日,雷达已经被广泛应用在军事、天文、气象、航海、航空等领域里。
现代意义上的人工智能AI(Artificial Intelligence),其诞生标志被广泛承认是1956年达特矛斯会议,人工智能几十年来的发展经历了多次高潮与低谷。截止目前,我们所接触到的智能学习算法包括有以下几大类:模式识别(Pattern recognition)、机器学习(machine learning)、深度学习(deep learning),其中深度学习近年来明显被热捧,以下图所示为来自谷歌趋势的“2004年1月到2016年6月间三种学习热度”,借Tomasz Malisiewicz博士的话说:
模式识别一开始主要是作为机器学习的代名词;
模式识别正在慢慢没落和消亡;
机器学习就像是一个真正的冠军一样持续昂首而上;
深度学习是个崭新的和快速攀升的领域。
2004年1月到2016年6月间三种学习热度,来自谷歌趋势
什么是机器学习,各家定义不尽相同,然而个人喜好Tom Mitchell在《Machine Learning(中文版:计算机科学丛书:机器学习 )》一书中的提法:这门学科所关注的问题是“计算机程序如何随着经验积累自动提高性能”。初学者可以简单认为机器学习分类为监督学习与无监督学习,监督学习多用于解决分类、回归等问题,无监督学习多用于解决聚类、密度估计等问题。我们常见的一种机器学习应用便是手写数字识别,例如邮政编码自动识别系统、税表与银行支票自动识别系统。
深度学习的灵感源自于人脑视觉系统,在某种程度上,可以认为深度学习是机器学习的一个分支,深度学习的概念源于人工神经网络的研究,在语音识别和图像识别等领域获得了不小的成功,从识别率方面来讲可以说是超过了其他方法,微软将其应用的语音识别中,Google Brain系统用其识别图像。
以下是典型的多层深度学习结构
经典的多隐层深度学习结构
截止目前,人类的智能是如何运转的仍然是未解。对于未来人工智能的发展,有乐观派,也有悲观派。另一方面,微分几何的技术应用,对人们认识自身的智能及医辽方面,有了不小的进展,可以参考顾险峰老师的文章:纯粹数学的雪崩效应:庞加莱猜想何以造福了精准医疗?
诺贝尔奖获得者David Hunter Hubel与Torsen Wiesel,通过对猫的视觉中枢研究,证明视觉中枢系统具有由简单模式构成复杂模式的功能,这对人工神经网络的发展有一定的启发。后来,通过对猴子视觉中枢的解剖,发现从视网膜到第一视觉中枢的大脑皮层曲面之间存在共形映射。而,共形映射属于微分几何的范畴,再配以庞加莱猜想的单值化定理,所有现实的物体及环境都可以在微分几何的范围内施以更形象化的运算。参考顾险峰老师的文章:人工智能中的符号主义和联结主义。
近些年来,北美和日本采用了虚拟肠镜技术,用以微分几何的Ricci曲率流方法计算器官的共形映射,从而提高早期直肠癌的发现几率,降低了直肠癌的死亡率。另一应用就是脑神经疾病的预防与诊断,例如癫痫、儿童自闭症等脑神经疾病,利用微分几何的知识就可以将相关器官共形映射到球面上,进而就可以加以精确分析比对。
机器视觉,类似于尚未被认知的生物视觉,同样是没有彻底的、通用的方法加以实现,截止目前,机器视觉仍是工程领域、科学领域中的一个极富挑战性的重要研究领域,它是一门综合性的学科,包括计算机科学和工程、信号处理、物理学、应用数学和统计学、神经生理学和认知科学等。本文从一个新的角度切入,对机器人的环境感知与自主运动的问题进行了探讨,通过探讨,笔者提出了一些自己的看法,给出了一套视觉感知算法,以期能起到抛砖引玉的效果。
相比于同时定位与建图的SLAM算法与图像处理的SIFT算法,笔者这里给出的视觉感知算法Dog-like AI与其有相同点,也有明显的区别。与SLAM一样要依赖测距传感器扫描做为信息的输入,与SIFT算法一样是基于特征运算的,不同的是,Dog-like AI算法是基于几何拓扑的,数学基础是微分几何,从结构上来讲,由简单到复杂、由局部到整体,一定程度上可以认为比较符合生物的认知原理,人类的视觉中枢本身由多个区域,分层、抽象是其重大特征。
如下图所示的,基于微分几何的等曲率共形变换
图片参考顾险峰老师的文章:纯粹数学的雪崩效应:庞加莱猜想何以造福了精准医疗?
在一个等曲率的几何拓扑空间上,对所有的物体加以分析运算,这有可能是人工智能一种通用模型,既有局部又有整体,既有简单又有复杂,既有低级刻画又有高级抽象,也体现了连续与离散的统一。Dog-like AI算法也是建立在“信息存储与记忆皆在几何结构中”之假设基础上。
在实践中,针对现实生活中的物体或环境,在空间某一点用测距传感器扫描,获取物体表面各点的距离信息,可以将物体表面双射到某一基准面上,即双射,
由上我们得出,实际物体双射共形变换到基准面上后,其对应的点云空间,如下:
Walsh变换全称Walsh Hadama变换,是一种离散正交变换,也是一种完备的正交变换方法,它本身也是一种矩阵,记为 Hn,n∈2m,m∈N
根据Walsh Hadama矩阵,我们就可以利用Walsh Hadama变换求出物体的特征矩阵(二维空间)或特征向量(一维空间),如下,
经过以上几小节的分析,我们发现还有一个环节没有处理,就是怎么计算物体的共形双射之等曲率变换。这里我们就不得不提大名顶顶的“庞加莱猜想之单值化定理”。庞加莱(Poincaré)于1904年提出的曲率单值化猜想,现在看来给物体识别带来了一线曙光,可以让具有复杂拓扑的物体微分同胚到正则空间内,这里的正则空间与前述基准面的概念是相通的,可以是欧氏空间、球面空间或双曲空间;上世纪七、八十年代哈密尔顿(Richard Hamilton)的工作、本世纪最初的几年里佩雷尔曼(Grigoriy Perelman)的工作彻底从理论上证明了庞加莱猜想,并且进一步证明此微分同胚是可以保形的,其计算复杂度上来讲是指数级收敛,非常高效。
限于篇幅,我们这里只给出一个可行的大概的示意算法,对于一个三维闭合曲面(或是有缺口的)表示的物体,通过相关设备及算法,例如三维激光雷达、双目摄像头等,已经获取了实际环境物体的三维点云信息,其包括以下步骤:
1. 由物体的点云信息构建物体的三维栅格地图时,对点云数据做中间处理,这些中间处理环节包括但不限于插值优化、平滑优化、扫描点过滤等,
2. 由物体的三维栅格地图,根据Delaunay算法或其他算法构建物体的三角剖分网格图,
3. 计算物体的三角剖分网格图的欧拉示性数,并确定共形变换时单值化的曲率及所嵌背景几何,
4. 由Circle Packing、离散Ricci流方法,迭代计算,把物体的三角剖分网格图共形映射到常曲率的标准正则空间内:球面几何、欧氏几何、双曲几何,
5. 根据曲率及度量等信息,把物体表面的所有的点,拉回嵌入到标准正则空间内,在正则空间内的点,如前4.2节所述表示为 S(β,θ,d) ,
6. 接前4.2节所述,我们就可以求出相应的特征矩阵与特征谱。
这里对Circle Packing、离散Ricci流方法不再展开,详细可以参考相关书箱与论文。
Circle Packingy方法如下图示,
基于Delaunay三角剖分的离散Ricci流图示,
接上前面章节分析,两个物体相似时,如果相似比为1,我们可以称此两个物体是等价的,从特征矩阵出发,在具有相似关系下的两个物体,转化为等价关系后,就可以分析其镜像对称性、平移不变性及旋转不变性。
由特征谱 P(M) 与 P(N) ,判断出物体 M 与 N 相似后,就可以由特征谱来计算其相似比,如下:
由特征谱 P(M) 与 P(N) ,判断出物体 M 与 N 相似后,就可以由特征矩阵 F(M) 与 F(N) 来计算其镜像对称性,首先把物体 M 与 N 转化为等价关系,即,
如下所示,假设我们已经得到一个物体 x 的共形矩阵
二维环境感知原理
二维激光平面扫描示意图
以上图示参考gmapping slam算法,但不是必须。
实践中二维空间下的环境感知
三维激光扫描示意图:借用Slamtec扫描示意图
实践中三维空间下的环境感知
这里姑且把具备一定智能的自主运动,称之为智主运动,这里的智能指上文提到过的Dog-like AI,本质在不与人类交互的情况下,这里的智能对自主运动来说是完全足够的,正如在没有人类的参与下,各星体按万有引力定律运行于宇宙空间内,“光”自会选取最省能量的路线传播。
智主运动是一种物体自主移动的决策方法,对于已经建好的二维或三维栅格地图,在栅格地图中进行特征分析并做环境特征建模,通过环境势函数与环境场强度来表征环境特征,是物体自主移动的基础,物体根据这些环境特征的势函数与场强度来做出移动的决策,本方法可以应用于机器人的路径规划与自主运动,为机器人在实际环境中的游戏应用、机器人清洁、无人机玩具低空飞行、穿越及起降等方面提供支撑。
环境建模原理图
实践下的智主运动
参考:微分几何与黎曼几何1,还有部分源程序代码2。
作者 [email protected]
2016 年 05月 20日