关于AI测试与评价的思考

严格地说,现在的AI技术测试与评价仅是半个或更小部分的测试与评价,即它只是建立在已有基础不完备科学技术上的测试与评价,忽略了更重要的非科技因素,如不确定性人文和环境的因素,所以这样的测试与评价大都是乌托邦式的,单纯军事领域的兵棋推演、红蓝对抗解决不了AI测试与评价的根本问题,这是一个超出了单一领域的复杂性难题,如同2015年第87届奥斯卡奖电影《Birdman》中那句经典台词一样的“AI is AI,not what is said of that AI”(道可道,非常道),所以我们认为应该借鉴孔子“随心所欲,不逾矩”的思想,即自主要有原则,而不能够无底线。AI军事化与AI游戏有根本的不同,就像生死的差异,对游戏化的军事智能测试与评价需要高度警惕。

由于人、机、环境诸多影响因素的可变性和可分离性,人工智能技术测试与评价在很多军事博弈任务中是普遍不重复性的不可控实验,所以“各国应确保在部署前在实际作战条件下对人工智能军事系统进行全面测试、评估、验证和验证”会很难实现,不过“建立最低标准”应该比较现实,以确保遵守国际人道主义法和其他相关国际法规则。

令人遗憾的是,当前的AI测试与评价往往是场景化的,陆、海、空及其之间通信协同、指挥控制等等,从技术上看,主要有机器的稳定可靠、快速准确等可计算性指标;从人机交互上看,还应有人的敏捷洞察、触类旁通、责任勇敢等非计算性指标;从更高的层次上看,还应有伦理道德、法律法规等非计算指标条件。所以真实的AI技术测试与评价本质上常常是非场景化的,是计算性指标与非计算性指标结合的产物,若仅仅限于科学技术方法而言,甚至应该是无解的,如绝不能让希特勒们拥有核武器一样,也要坚决制止他们拥有高级的人工智能武器。

客观而言,人工智能技术中还有我们远远没有看到的东西,如同当前的核生化技术一样,除了最原始、最底层的技术性测试与评价之外,还有大量的非技术性测试与评价,如同前几次我们讨论过的人机环境系统问题,这里的人涉及许多方面的人,如开发者、使用者、维护者、销售者、管理者甚至包括我们这些交流探讨者等等,角度不同,认识的深度和广度也会不同,一件人工智能武器本身就是一种双刃剑,既可以伤人也可能伤己,而且反转的可能性还不小,比如一套便携式的智能空中武器或防空武器通过第三方一旦被对手缴获,很容易被对手利用攻击己方,核生化也有同样的问题;机器包括软件和硬件部分,软件程序的脆弱性、数据毒化、算法偏见、深度伪造、不可解释性、无常识性以及硬件的老化破损也存在着大量的隐患和潜在的问题;环境包括各种各样的环境,如真实环境、虚拟环境、任务环境、天气环境、社会环境等等,这些不同的环境会对AI测试与评价起到重要的作用,中国有句古话:“天时不如地利,地利不如人和”就是在讲各种环境对于博弈结果的影响,也许这句话对AI技术也有适用之处吧!比如一套AI辅助决策系统经过计算告诉你“中国新疆有棉花问题”,你就采取了行动,然而事实却不是这样的,而且是相反的,这样AI系统就起到了相反的作用,究其因,缘于这套AI系统不了解真实的社会环境所产生的算法歧视所致。真实的人机回路测试与评价系统往往是人、机、环境的上、中、外混杂进行的,而不是单纯的人在环上、中、外,而正是这种混杂性,使得人机环境系统常常失配。

随着AI新的理论和技术层出不穷,并且速度不断加快,当前过早制定的测试与评价指标会变得过时甚至是荒谬,所以目前讨论的重点还不应是过细的指标体系,而应该是现有的技术缺陷以及这些技术与可能出现的技术对人类的影响,当然还有各种不合时宜的法律规则之前的有关伦理道德的基本框架,如此“见义(should)勇为”,才有可能真正实现对AI这头怪兽的管控与约束,进而才能保障人类本身的安全不毁于“人类聪明”之手。

总之,人工智能技术的测试与评价产生于数以百万计(甚至于无穷)的“自发”(意料之外)和“设计”(意料之内)的人机环境系统秩序的复杂互动中。这种秩序以渐进、弥散、聚合、转化、调整的方式演化,它是众多人的动机/行为、机器装置的运行、环境变化互动的综合结果,而非单纯人类设计的结果。

平心而论,人机混合的智能技术同人工智能技术一样依然存在着许多缺点和不足,同样很难在复杂环境下做出正确的判断和决策,那么该如何克服这些薄弱环节达到更好的智能效果呢?通过人机环境系统智能可能是一种较好的研究途径,要确定当前、未来AI测试与评价的指标体系,进而为AI军事系统的测试和评估提出一套通用的指标和标准,建议双方下一步更加深入地探讨研究人、机、环境结合的系统智能问题。

你可能感兴趣的:(人工智能,机器学习,大数据,深度学习,python)