关于人工智能的浅见

ai,大模型如此卷,我也有幸作为圈外人参与了一个讨论,结果被喷民科,我也反驳了几句,“至少我还是程序员,而你只是程序员,如果你连智能都不懂,何谈人工智能?在心理学,脑科学,语言学,动物行为学,生理学,进化论,范畴论,控制论… 这些人工智能必遭遇的领域,包括你我在内的这里所有人,都是民科…”,人工智能属实跨界,引号内的几个领域我稍有涉猎但完全谈不上业余,但这不妨碍我输出自己的观点,那些房地产自媒体都能蹭一下 ai 热度,我为什么不能呢。
作为连业余都算不上的人,怕言多必失,所以长话短说,但语言表达也不太行,可能还是会显得啰嗦。
观点一:学习事物的关系而不是事物本身。
chatgpt 成功的背后来自 “把字词句编码到语义空间”,即编码和语义一一对应。“经理” 和 “工人” 语义上离得很远,在编码空间离得同样远,这就绑定了编码和语义的相对关系,此基础上构建和训练模型才能事半功倍。
作为反例,传统计算机编码与此相悖。这导致计算机操作很难容错,“浙江温州皮鞋湿” 这句诗在网络上传输被误码成 “浙江杭州皮鞋湿”,则校验码不通过要被重传,但如果采用语义编码,就很容易纠错。
以上论述基于编码和语言,但编码和语言属于抽象范畴,可能人类独有,如果涉及要学习的世界万物,目前的方法或许是另一个反例。
图像识别作为一个单独方向被研究,但当前的方法还是基于像素(我的浅见,或许并不是),或许如果没有强大算力,模式识别反而会有进展。
图像识别只是 “万物识别” 的一个侧面,人工智能同样要学习关系而非像素的轮廓,颜色,明暗。关系可以框定前后左右上下等广延,彻底摆脱过拟合。一个前景工人挡住了后面一个经理的皮鞋,传统方法可能会认为后面这个构成经理的像素没有构成皮鞋的像素,而关系则忽略工人,经理,皮鞋等这些具体轮廓,直接断定前面的某个人挡住了后面的某个东西,至于工人,经理这些像素,可以理解为称谓,不重要。
要学习关系,就要学习物理。
观点二:学习物理和物理学习。
chatgpt 通过注入信息的方式训练,因为自然语言本就抽象,但你不能想象一个只有眼睛和耳朵,没有躯干的人从出生就固定在一个地方,他竟可理解这世界,虽然他也能学会说话并和你对话。
将一辆车冲着一个人开过来的视频分解为连续帧的图片训练模型,它能得出人会跑开的结论吗?但猫冲一个老鼠跑去,老鼠就会躲开,因为老鼠懂物理规则,如果不跑开,猫就会和自己接触,猫爪和牙齿就会进入自己的身体。同样,一个工人挡住了经理的皮鞋脚,你知道这只是工人挡住了皮鞋脚的漫反射光线。
曾经流行的愤怒的鸟,你也可基于 box2d 构建一个类似的游戏,box2d 内置物理模型,这类游戏中,如果一个目标躲在弹球运动的死角就不会被击中,因为这可以通过物理定律轻松计算处理,而前提是你要先学会基本物理定律。
遗憾的是,物理定律可能只能通过物理的方式学习。婴儿通过接触硬物的疼痛感获得负向反馈,通过接触被子的舒适感获得正向反馈,通过费力抬起胳膊获取物体会自然掉下来的感受,通过父母或宠物的移动接触获取惯性的理解,这些感受需要实际和物理世界交互而获得,而不仅仅只是通过成型的信息来训练。
有了物理接触,就有了世界的关系。
观察动物的行为也有收益。我养过的一只小猫照镜子看到自己时,会试图从镜子后面找自己,看到电视里会动的小动物时,会扑向屏幕。虽然这也是过拟合,但显然这是 “智能” 的过拟合。
如果不在物理世界学习,就要言传身教,但如果你不实际接触一下物品,就要理解 “接触” 这个词,而这个词需要更多的词来解释,最终总要在物理世界落实,否则就是一个永远封闭不了的环。
先感觉到,接触和交互,才能描述,而不是反过来。物理世界的训练,需要聚焦的视角。
观点三:聚焦的视角。
一间屋子里,如果你的眼睛布满一面墙,就无法理解这屋子里物体间的关系,因为屋里的一切在你看来是不变的。要理解屋里的物体关系,你需要一双聚焦且会移动的眼睛。当你盯着椅子看,它是形状 a,往左偏一下眼睛,它是形状 b,再往右偏一下且走近,它是形状 c,然后你就有了椅子的概念,这一切,你都要这种不断变换视角来获得认知。
作为反例,参考毕加索的立体主义作品。
这观点一个抽象的含义是,只有不对称,才能形成认知。第一人称视角形成模式,他在不同视角可识别到同一个物体,位置信息不一样,但相对连续移动的第一视角而言,它竟是同一个,如果是平坦的知识,就不会形成这种认知,这也符合信息熵的原理。
现代人工智能方法显然是从一面墙的眼睛 “硬” 分析像素的差异而看到的,这太累了,而且不准,但我们认为不那么智能的动物却比这要强得多。
观点四:大多数哺乳动物已经足够智能了
猫在镜子后面找镜中猫(自己)说明猫没有自我意识,它就很难理解真正的语言逻辑,因为语言逻辑涉及 “指代”,没有 “我” 就理解不了 “非我”,如 “它”,“他”,“这”,“那”,从而无法真正理解语言,也就无法和人媲美。
人工智能有门派专攻对理解语言,但问题是同样不理解语言(它们只是对音素进行反射,而不是理解语言)的猫狗已足够好,它们在识别和模拟等物理世界的特殊领域具有真正智能,人工智能应该先向它们看齐。
既然当前人工智能无非就是拟合 “目标函数” 最优解,为什么不向猫狗学习呢。一些街头变戏法的人展示自己的猫狗猴子会算术,计算还挺快,可它们并不懂真正的数学逻辑,这类似现在人工智能,但另一面,那些猫狗猴子对物理世界的理解却完败当前最好的人工智能。
诸如自动驾驶这些物理世界的智能需求,向猫狗学习的人工智能即使不必理解人类理性,也足够胜任了。在我看来,即使类比和反思,也并非神之赐予,物理世界的刺激就可以给到这种能力。
观点五:人工智能的目标太大或太小
连续第一人称视角和交互体验,区分物品的位置,事物的性质,立体空间方位关系,前景背景,这些才是亟待解决的问题。
但目前两极分化的是,要么大谈自由意志,要么沉迷于基于统计模型的具体算法调用 api,这两个方向都不屑于让人工智能先达到猫狗的水平。
当我提出这些时,一个大厂 ai 专家用一大堆专业术语怼我,“你这些都不对,我就干这个的,难道还不如你的理解深刻?” 这些术语和细节大多是我不懂的,但我不在意也不认输,我曾经质疑假牛肉时,地下假肉丸子作坊的操作工也说过类似的话,“我就做这个的,还能不懂肉吗,这东西不如两个大馒头顶饿”,我没必要跟他讲碳水化物和蛋白质,虽然,它这个假肉也是蛋白质做的,只是他不知道而已,他理解的豆制品和白面馒头是一类东西。
虽然也有人 chatgpt 并不是真懂你在说什么,它也是依赖强大算力的最佳匹配,也基于统计模型和概率分布,依然没有自我意识,但这重要吗?当一个成年人大谈笛卡尔哲学时,他是真理解了这个哲学,还是仅仅复述了他从老师或书上学到的呢?甚至,又有多少人的思想是真正自由的呢?熟读唐诗三百首,就能写顺口的打油诗,这是一种理解,还是不那么拙劣的模仿?

浙江温州皮鞋湿,下雨进水不会胖。

你可能感兴趣的:(人工智能)