基于语义级认知攻击的思考

        最近OpenAI发布的最新chat GPT引起了信息业界的轰动,既有专业的技术人员,也有普通爱好者通过对chat GPT的问答来进行各类测试。不可否认chat GPT通过超大规模预训练模型实现了一个智能问答质的飞跃,体现在:

        1.传统的智能问答,不管是一问一答还是模糊回答、专业检索回答、指令性操作,都需要通过构建专业的知识库,或者是指令模型库,但是chat GPT的超大规模训练已经初步实现了跨多个知识域的知识库。在知识库的泛化上确实做的不错,这一点google、百度、腾讯等公司也有类似的训练框架,实现甚至超越是迟早的事,这个没什么好说的。

        2.NLU自动语义生成,这个就比较有意思了,自然语义处理其实分为自然语义的理解和自然语义的生成,传统做NLP的都是基于领域知识库去做处理,但是自然语言生成其实一直没有很好的效果,大部分都停留在写写打油诗之类的程度,娱乐大于实际意义。但是chat GPT能够根据控制指令和问题生成有意义的段落,甚至代码和图像,这就是自然语义处理的一个飞跃了,google I/O大会几年前也玩过一次,所以也只能说chat GPT的生成模型库做的更泛化(包括可以AI作画,写邮件)。不过google的语义自动生成自然语音,这个难度也不小。

        所以本质上看超大规模训练是有意义的,同时需要解决内存、通信、算力等很多工程问题,也算是神经网络的一次重大升级,但是本质上看没有太多的底层创新和突破。

        这种突破很多人乐观的认为GPT4是有可能通过图灵测试的,不过也有专业工作者发现chat GPT生成的结果从语义逻辑上是没问题的,但是如果按照DIKW(数据-信息-知识-智慧模型)来看,在知识层实际上有大量合乎语言逻辑但是不符合科学逻辑的谬误,比如虚拟试验结果的论文、完全不存在的百科知识。所以如果将认知分为科学知识和语义两部分,中间以科研方法论做为分界线,chat GPT真正适用的是语义部分,不适用于科研及工程部分,因为本质上GPT现阶段是无法做科研上的创新的。但是人的认知层中科学知识和语义理解是有密切的交互关系的,特别是对于不熟悉或者无法完全证伪的知识领域,比如一个天文学专家,如果回答他关于某个岛国的历史知识,但是这些知识都是伪造的,而又合乎常规语义逻辑,那这个天文学专家就会错误的信任并且传播这些历史知识。如果是普通人不清楚科学知识的验伪方法,连去验伪的机会都没有。

        前面铺垫说明了这么多,其实就为了衍生说明一个问题,在心理学中有个概念叫“认知否认”,如果说狭义相对论是物理学指导建造了现代最具杀伤力的核武器,那么“认知否认”就是心理学提供的最具杀伤力的心理攻击理论。

        “认知否认”可以通过图像、视频、环境进行心理暗示并发动认知攻击,但是最直接也是最高效的手段就是通过语言发起的针对性攻击,PUA和心理控制都是利用了认知否认原理发起的攻击,属于个体小范围攻击,如果一旦和智能问答相结合,就会发生可怕的质变,变身成为群体大范围攻击。说到这里,很多技术同学已经猜到如何结合GPT发起群体攻击了,只需要在GPT的每次回答中加入一些字词句的暗示和引导(不太懂的同学可以看看什么叫煤气灯效应),就可以发动针对特定群体的控制、诱导甚至引发社会群体反应乃至于自杀,其隐蔽性、持久性和破坏性会比生化武器、核武器更危险。

        当然现阶段没有证据证明GPT有这方面的问题,从工程角度讲,要真正通过语义问答引擎发动认知攻击,还有些技术问题需要解决。但是从原理和技术逻辑上,这种攻击的实现是存在可能性的,需要我们高度警惕。

你可能感兴趣的:(人工智能,自然语言处理)