FSM(状态机)、HFSM(分层状态机)、BT(行为树)的区别

游戏人工智能AI中最常听见的就是这三个词拉:

FSM

这个不用说拉,百度一大堆解释,

简单将就是将游戏AI行为分为一个一个的状态,状态与状态之间的过渡通过事件的触发来形成。

比如士兵的行为有“巡逻”,“追击敌人”,“攻击敌人”,“逃跑”等行为,

响应的事件就有“发现敌人”,“追到敌人”,“敌人逃跑”,“敌人死亡”,“自己血量不足”等。

那么可以写成这样一个状态机:

1.士兵 “巡逻”,如果 “发现敌人”,那么,“追击敌人”

2.士兵 “追击敌人”, 如果 “追到敌人”, 那么,“攻击敌人”

3.士兵 “追击敌人”, 如果 “敌人死亡”, 那么,继续 “巡逻”

4.士兵 “攻击敌人”, 如果 “敌人死亡”, 那么,继续 “巡逻”

5.士兵 “攻击敌人”, 如果 “血量不足”, 那么,“逃跑”

其中,士兵就是这个FSM的执行者,红色的就是状态,蓝色的就是事件,

整个状态机的行为可以总结为:

当前状态=>是否满足条件1,如果是,则跳转到对应状态

否则=>是否满足条件2,如果是,则跳转到对应状态

由此可看出,状态机是一种“事件触发型”AI,就是只有事件的触发才会发生引起状态的变化。

HFSM

简单来说,就是FSM当状态太多的时候,不好维护,于是将状态分类,抽离出来,将同类型的

状态做为一个状态机,然后再做一个大的状态机,来维护这些子状态机。

举个决策小狗行为的例子:

我们对小狗定义了有很多行为,比如跑,吃饭,睡觉,咆哮,撒娇,摇尾巴等等,如果每个行为都是一个状态,

用常规状态机的话,我们就需要在这些状态间定义跳转,比如在“跑”的状态下,如果累了,那就跳转到“睡觉”状态,

再如,在“撒娇”的状态下,如果感到有威胁,那就跳转到“咆哮”的状态等等,我们会考量每一个状态间的关系,定

义所有的跳转链接,建立这样一个状态机。如果用层次化的状态机的话,我们就先会把这些行为“分类”,把几个小状

态归并到一个状态里,然后再定义高层状态和高层状态中内部小状态的跳转链接。

其实层次化状态机从某种程度上,就是限制了状态机的跳转,而且状态内的状态是不需要关心外部状态的跳转的,

这样也做到了无关状态间的隔离,比如对于小狗来说,我们可以把小狗的状态先定义为疲劳,开心,愤怒,然后这些

状态里再定义小状态,比如在开心的状态中,有撒桥,摇尾巴等小状态,这样我们在外部只需要关心三个状态的跳

转(疲劳,开心,愤怒),在每个状态的内部只需要关心自己的小状态的跳转就可以了。这样就大大的降低了状态机的复杂度,

另外,如果觉得两层的状态机还是状态太多的话,可以定义更多的状态层次以降低跳转链接数。

在这里插入图片描述

分层状态机的设计思路

转载little_two_two

很多人问游戏AI该怎么做?随着游戏类型的多元化,非 MMO或者卡牌的游戏越来越多,对AI的需求也越来越强了。而市面上关于 AI的书,网上找得到的文章,也都流于一些只言片语的认识,理论化的套路,和一些简单的 DEMO,离真正的项目差距甚远,无法前后衔接成一条线,更无法真正落地到编码。

国内真正做过游戏AI的少之又少,东拉西扯的人很多,真正做过项目的人很少,因为国内主要以MMO为主,RTS比较少,体育竞技类游戏更少,而从AI的难度上来看,应该是:MMO < FPS < RTS < 体育竞技。作为实际开发过AI的人,给大家科普一下,什么叫做硬派AI。

硬派游戏AI,不是虚无缥缈的神经网络,用神经网络其实是一个黑洞,把问题一脚踢给计算机,认为我只要训练它,它就能解决一切问题的懒人想法。更不是遗传算法和模糊逻辑,你想想以前8位机,16位机上就能有比较激烈对抗的足球游戏、篮球游戏,那么差的处理器能做这些计算么?

硬派游戏AI,就是状态机和行为树。状态机是基本功,行为树可选(早年AI没行为树这东西,大家都是hard code的)。大部分人说到这里也就没了,各位读完还是无法写代码。因为没有把最核心的三个问题讲清楚,即:分层状态机、决策支持系统、以及团队角色分配。下面以我之前做的篮球AI为例,简单叙述一下:

何为分层状态机?

每个人物身上,有三层状态机:基础层状态机、行为层状态机、角色层状态机。每一层状态机解决一个层次的复杂度,并对上层提供接口,上层状态机通过设置下层状态机的目标实现更复杂的逻辑。

基础状态机:直接控制角色动画和绘制、提供基础的动作实现,为上层提供支持。

行为状态机:实现分解动作,躲避跑、直线移动、原地站立、要球、传球、射球、追球、打人、跳。

角色状态机:实现更复杂的逻辑,比如防射球、篮板等都是由N次直线运动+跳跃或者打人完成。

每一层状态机都是通过为下一层状态机设定目标来实现控制(目标设定后,下层状态机将自动工作,上层不用关心动画到底播到哪了,现在到底是跑是跳),从而为上层提供更加高级拟人化的行为,所有状态机固定频率更新(如每秒10次),用于判断状态变迁和检查底层目标完成情况。最高层的角色状态机的工作由团队AI来掌控,即角色分配的工作。而行为状态机以上的状态抉择,比如回防,到底是跑到哪一点,射球,到底在哪里起跳,路径是怎样的,则由决策支持系统提供支持。

何为决策支持系统?

状态机为角色的大脑,而决策支持系统为角色的眼睛和耳朵,常见的工具有势力图(Influence Map)和白板(相当于不同角色间喊话),其中势力图比较常用,篮球游戏AI势力图可以用下面几张图来表示:

势力图1:于防守篮板距离的map,每格分值为最远距离减去该格到篮板所在格子的距离
  势力图2:进攻篮板距离的map,每个分值为最远距离减去该格到篮板距离,篮板后为0
  势力图3:同敌人距离,每个敌人有影响范围,范围内,离敌人越近分越低,范围重叠选低的。
  势力图4:同所有队友目标位置距离map,打分方法类似上图。
  势力图5:与每个队友目标位置距离的map,标识单个队友目标位置距离的map。
  势力图6:现实传球可行性的map,分数越高,越容易把球传到该格子上。
  势力图7:容易把球传出的位置map,越容易直接传球给队友的区域分数越高。
  势力图8:综合map,把以上map按一定加权求和。球员有合法目标区域,便于实现内线游走和外线游走。

每个球员性格不同,权值也不同,有保守的球员,有喜欢冒险的球员,权值不同而已。这些势力图都是为了给上面的三层状态机和团队状态机提供决策支持的。

何为团队角色分配?

每一层状态机为下一层设定一个目标,让下层自动工作,顶层角色层的目标则由最高层的团队ai进行战术指导。

团队状态机跟据当前的游戏情况确定当前首要目标(进攻或者防守),又根据当前的势力图等信息,确定进攻或者防守的具体战略(比如中路突破、盘路包抄、下底传中等),最终为当前己方的所有角色分配一个新的任务,即设定角色层状态机的新目标,确定他是做主攻还是做助攻,还是联防还是策应。具体该怎么联防,怎么策应,那就是角色层状态机的事情了。

话题总结

其实团队AI没那么玄乎,任何问题就是一个编程的建模问题,而最复杂的体育竞技类游戏的AI策略,上文已经给出模型,相信各位略加修改即可使用。写状态机是游戏AI的硬功夫,如果状态机逻辑经常改变或者项目规模大了以后可以考虑引入决策树来控制状态机,程序提供一系列接口,然后用可视化的编辑器进行更改,感兴趣的人可以参考决策树相关文章。

概率统计

如果上面这些逻辑都实现了,这时候才可以辅助与概率统计来让角色具备学习特性,比如统计某个策略对对手的成败情况,用来支撑下一次决策,这样能够逐步发现对手的弱点,还可以统计所有用户的大数据,来确定某种情况下,选择什么策略,能够对付60%的用户。

神经网络

在上面所有逻辑都实现了,你调试好了,玩着比较顺畅的时候,再在团队角色分配处尝试使用神经网络或者模糊逻辑,同样是学习大数据,来引入一些不可控的人性化的成分,让游戏更加有意思。(EA的 FIFA 20XX号称引入神经网络,Call of Duty的AI也号称引入了神经网络和学习机制)。确实让游戏更有趣一点,但仅仅如此而已。

PS:关于棋牌类 AI的相关话题,和这个不一样,因为棋牌AI是要寻求最佳解的,使用博弈树等工具进行解决,感兴趣的话,可以参考我另外一篇文章:TINY-GOBANG 最精简的五子棋人机对战

PS:当你看到屏幕的角色好似被你赋予了生命的样子,一个个单独而有整体有序的活动着,偶尔还能做出你意料之外的事情,你将充满了创造的喜悦。

Behavir Tree

谈到游戏AI,很明显智能体拥有的知识条目越多,便显得更智能,但维护
庞大数量的知识条目是个噩梦:使用有限状态机(FSM),分层有限状态机(HFSM),
决策树(Decision Tree)来实现游戏AI总有那么些不顺意。

试试Next-Gen AI的行为树(Behavior Tree)吧。

虽说Next-Gen AI,但距其原型提出已有约10年时间,而微软Halo系列估计
已用了超过8年了,Spore和一些著名游戏也早已使用行为树作为它们的AI结构。
如从未接触,那wikipedia(http://en.wikipedia.org/wiki/Behavior_Trees)
绝对是入门好资料。

———————————————————————

先借用网上的一张图来诠释下行为树到底是怎么样的

在这里插入图片描述

———————————————————————

行为树(Behavior Tree)具有如下的特性:

它只有4大类型的Node:

  • Composite Node  组合节点
  • Decorator Node   修饰节点
  • Condition Node   条件节点(叶节点)
  • Action Node    动作节点(叶节点)

任何Node被执行后,必须向其Parent Node报告执行结果:成功 / 失败。
这简单的成功 / 失败汇报原则被很巧妙地用于控制整棵树的决策方向。

———————————————————————

先看Composite Node,其实它按复合性质还可以细分为3种:

  • Selector Node
    当执行本类型Node时,它将从begin到end迭代执行自己的Child Node:
    如遇到一个Child Node执行后返回True,那停止迭代,
    本Node向自己的Parent Node也返回True;否则所有Child Node都返回False,
    那本Node向自己的Parent Node返回False。

  • Sequence Node
    当执行本类型Node时,它将从begin到end迭代执行自己的Child Node:
    如遇到一个Child Node执行后返回False,那停止迭代,
    本Node向自己的Parent Node也返回False;否则所有Child Node都返回True,
    那本Node向自己的Parent Node返回True。

  • Parallel Node
    并发执行它的所有Child Node。
    而向Parent Node返回的值和Parallel Node所采取的具体策略相关:
    Parallel Selector Node: 一False则返回False,全True才返回True。
    Parallel Sequence Node: 一True则返回True,全False才返回False。
    Parallel Hybird Node: 指定数量的Child Node返回True或False后才决定结果。

Parallel Node提供了并发,提高性能。
不需要像Selector/Sequence那样预判哪个Child Node应摆前,哪个应摆后,
常见情况是:
(1)用于并行多棵Action子树。
(2)在Parallel Node下挂一棵子树,并挂上多个Condition Node,
以提供实时性和性能。
Parallel Node增加性能和方便性的同时,也增加实现和维护复杂度。

PS:上面的Selector/Sequence准确来说是Liner Selector/Liner Sequence。
AI术语中称为strictly-order:按既定先后顺序迭代。

Selector和Sequence可以进一步提供非线性迭代的加权随机变种。
Weight Random Selector提供每次执行不同的First True Child Node的可能。
Weight Random Sequence则提供每次不同的迭代顺序。
AI术语中称为partial-order,能使AI避免总出现可预期的结果。

———————————————————————

再看Decorator Node,它的功能正如它的字面意思:它将它的Child Node执行
后返回的结果值做额外处理后,再返回给它的Parent Node。很有些AOP的味道。

比如Decorator Not/Decorator FailUtil/Decorator Counter/Decorator Time…
更geek的有Decorator Log/Decorator Ani/Decorator Nothing…

———————————————————————

然后是很直白的Condition Node,它仅当满足Condition时返回True。

———————————————————————

最后看Action Node,它完成具体的一次(或一个step)的行为,视需求返回值。
而当行为需要分step/Node间进行时,可引入Blackboard进行简单数据交互。

———————————————————————

整棵行为树中,只有Condition Node和Action Node才能成为Leaf Node,而也
只有Leaf Node才是需要特别定制的Node;Composite Node和Decorator Node均
用于控制行为树中的决策走向。(所以有些资料中也统称Condition Node和Action
Node为Behavior Node,而Composite Node和Decorator Node为Decider Node。)

更强大的是可以加入Stimulus和Impulse,通过Precondition来判断masks开关。

通过上述的各种Nodes几乎可以实现所有的决策控制:if, while, and, or,
not, counter, time, random, weight random, util…

———————————————————————

总的来说,行为树具有如下几种优点,确实是实现AI框架的利器,甚至是一种
通用的可维护的复杂流程管理利器:

静态性
越复杂的功能越需要简单的基础,否则最后连自己都玩不过来。

静态是使用行为树需要非常着重的一个要点:即使系统需要某些”动态”性。

其实诸如Stimulus这类动态安插的Node看似强大,
但却破坏了本来易于理解的静态性,弊大于利。
Halo3相对于Halo2对BT AI的一个改进就是去除Stimulus的动态性。
取而代之的做法是使用Behavior Masks,Encounter Attitude,Inhibitions。
原则就是保持全部Node静态,只是根据事件和环境来检查是否启用Node。

静态性直接带来的好处就是整棵树的规划无需再运行时动态调整,为很多优化
和预编辑都带来方便。

直观性
行为树可以方便地把复杂的AI知识条目组织得非常直观。
默认的Composite Node的从begin往end的Child Node迭代方式就像是处理一个
预设优先策略队列,也非常符合人类的正常思考模式:先最优再次优。

行为树编辑器对优秀的程序员来说也是唾手可得。

复用性
各种Node,包括Leaf Node,可复用性都极高。
实现NPC AI的个性区别甚至可以通过在一棵共用的行为树上不同的位置来
安插Impulse来达到目的。

当然,当NPC需要一个完全不同的大脑,比如70级大BOSS,
与其绞尽脑汁在一棵公用BT安插Impulse,不如重头设计一棵专属BT。

扩展性
虽然上述Node之间的组合和搭配使用几乎覆盖所有AI需求。
但也可以容易地为项目量身定做新的Composite Node或Decorator Node。
还可以积累一个项目相关的Node Lib,长远来说非常有价值。

--------------------------------本人补充---------------------------------------

每个节点都应该有以下三种状态:
Running,
Success,
Failed

Running状态用于表明该节点的结果不能立刻获知,比如游戏中的角色进行“向目标移动”

这个动作,很显然这个动作不能在这一帧中立刻完成,当行为树运行到此节点时,并不能

获知是success或者failed,于是返回running,表示该节点正在运行中,并记录此节点

的位置,下一帧运行到此节点的父节点时,则从此节点继续运行,跳过之前的节点。

在这里插入图片描述

                                

你可能感兴趣的:(#,状态机)