译文|游戏剧情的用户研究怎么做？

前前前言(我说的)：和上一篇一样从《The Wiley Handbook of Human Computer Interaction》摘取出来的章节。很久以前也整理过动视的用盐在GURSIG上分享的关于COD系列开发过程中他们在游戏剧情和角色测试方面的经验和方法。这一篇则来自于微软的Studios User Research团队，部分内容曾经在2014年的GDC上分享过，但这本书里的内容可能会更加全面些。以下是全文：

尽管传统的游戏用户研究集中关注游戏的玩法和UI，游戏开发团队大都坚信游戏剧情也是玩家体验中极其关键的一部分。设计师们想要玩家爱上虚拟的世界，去怀念和感伤逝去的角色，去切实体验那些诱使沉浸的惊险和挑战，然后带着“我很了不起”的感觉离开游戏。然而现实中，游戏剧情则并不能总是让玩家们获得这些体验。

剧情测试的先期尝试

当工作室的用研刚刚开始研究游戏剧情的时候，我们邀请了几个玩家来到实验室，就他们最喜欢的游戏剧情进行了访谈。其中我们做的一件事是请他们复述一下他们最喜欢的游戏剧情。以下是其中一位玩家向我们复述的《上古卷轴》：

嗯，基本上它从我获得第一个龙吼开始展开，然后我去灰胡子那里，他们教我怎么用龙吼。呃，其实是他们教会了我第一次龙吼。然后我就继续了，嗯接下来就是... 嗯想要全想起来还挺难的。嗯，我还做了别的什么，不，还有一条龙，我不是很记得它的名字了。总之我干掉了一条龙，还有一条没杀掉的。嗯，这条我没杀掉的是...我记不起来了。真的，这太难了。

关于剧情的记忆，我们在游戏领域中很常见到上述这样的复述。玩家们在开始的时候还好，但到了结尾部分的描述就只能算是挣扎了(即使是这些他们自己最喜欢的剧情也一样)。然而不同的是，如果让他们复述其它文娱内容中他们最喜欢的故事，这样的问题就不存在了。以下是同一个玩家向我们复述《行尸走肉》的故事：

嗯，在第一集的时候他(瑞克)被，嗯，中枪然后住院了。然后他醒过来的时候就想“啊嘞，怎么回事？”然后他看到了行尸，然后在他前往小镇的路上遇到了他的家庭。我忘了是什么小镇了。他再遇了朋友，然后又再遇了...嗯，天呐，我挺早以前看的了。然后又再遇了这个女孩，她在这季最后的时候跑掉了，然后他们就一起寻找她，这基本就是前6集了。然后在第二季他们找她的时候，小孩中枪了。然后还有他们的谷仓里还有行尸，他们在第二季末的时候才发现，这真是把我吓得不轻。太可怕了！真的！

随着关于其它领域故事的复述结果一一呈现，我们发现很明显的模式：虽然玩家们在复述游戏故事的时候都磕磕绊绊的，但这并不是玩家的问题。他们完全有能力去记忆和复述长篇的、非游戏的剧情。因此如果错不在玩家，那么我们不得不承认是游戏出错了。

当意识到游戏的设计目标没能够完全实现的时候，就是该邀请游戏用户研究员入场的时候了。精准的判断游戏刺激和玩家体验之间的差异正是我们所擅长的，尤其是对于游戏剧情这样有着较高设计预期和较大成本投入的东西而言。剧情的呈现，例如分镜就是十分昂贵的；因此如果他们不能提供预期的体验，就需要我们去帮助设计师们找到其中的原因。

剧情测试中的阻碍

由于游戏玩法在早期原型阶段中就已经初步成型可以拿来测试了，而剧情则通常很少能够在很早的时候就能拿出来做有意义的测试。所以在剧情测试时比较大的挑战性在于不知道该测试什么东西。尽管普遍来说我们能够在早期就开始测试游戏玩法，因为游戏玩法中缺失的部分一般不会很大程度上影响研究中的关注点，比如怪物的行为、或者说墙的颜色不对等等都不会明显影响核心玩法机制。举例来说，在《Halo 4》中用于早期研究和后期研究中的关卡在设计上有着很大的差异（见下图）。

同样一个场景，上一张是我们首次测试玩法时用的，下面则是我们最后一次测试时使用的

用这些早期原型进行测试的原因在于：我们能够从测试中获得许多关于关卡布局、战斗设置、武器平衡等方面的信息，而且越早获得这些信息就能够让开发团队尽快做出调整，避免无谓的成本支出。而在我们首次测试游戏玩法的时候，基本没有什么成型的剧情能够拿来测试。这意味着剧情测试通常发生在游戏开发过程的后期，研究时间表通常看起来像是下图中一样：

这个时间表的问题就在于，即使我们能够在测试过程中找到剧情中的错误，这些发现也通常太晚出现（太贵）而难以做出调整。

解决方法

Hendersen向我们推荐的推荐方法的是停止研究玩法构建的尝试，反而要去看看那些编剧们用来保证他们能够产出一个好故事的工具。剧情设计师们和策划们一样都很早就开始设计工作了，只是他们用不同方式来产出自己的“原型”。在早期开发过程中，剧情设计师们通常以建立一系列叙事节拍(Narrative Beats)，即游戏故事中的关键时刻。对于AAA游戏而言，剧情节拍通常也就三页纸，而且尽管这几页中还充满了占位符(角色名字，地点、用于开门的小道具等等)，它们大体包括了剧情的整个逻辑以及从头到尾的展开方向。叙事节拍中不会包括这个故事的讲述方式。尽管讲述方式也是游戏剧情中很重要的组成，但叙事学中的一个重要的概念就是“故事和讲述方式是分开的”。

在1971年Benveniste最初提出，然后现在被广泛认可的是：人们能够判别出“故事(story, 事件或者是有顺序的事件)”和“叙事语篇(narrative discourse，这些故事的代表物)”之间的不同。想象一下《灰姑娘》，同样一个童话，格林童话和迪士尼在讲述的时候采用了不一样的方法（叙事语篇），但是在整个叙述过程中仍然有着部分一致的东西（故事）。在剧情设计师们的叙事节拍中所描述的就是游戏的故事，或者说有顺序关系的事件；然而叙事语篇则是那些需要不断完善，导致不能在早期测试游戏剧情的阻碍。而对于故事，我们是能够在早期进行测试、迭代、在昂贵的语篇成型前就做出调整。就像在早期测试游戏玩法一样，我们也能够使用观察性的出声思考等研究方法去理解玩家体验。

为了测试游戏故事，我们需要将叙事节拍转化成为真实的刺激物。有时，开发组已经有了一些用于描述玩家体验而专门设计的故事板，如下图中就是《罗马之子：Ryse》的故事板。设计这些具象化刺激物的推动力主要来源于我们想知道这个游戏的故事是不是足够好。

在测试中用这样的图片容易导致玩家在阅读的时候过度解读图片中的信息，进而得出错误的结论。

然而我们在这个时候测试剧情的目的并不是想要知道玩家喜不喜欢它。我们的关注点应该是玩家能否理解这个故事。这个故事的逻辑是否流畅？角色的行为是否保持内在一致性？故事的转折是不是有惊喜但是在可接受/理解的范围内？想要回答这些问题的话，单独使用叙事节拍能够更有效率。以下是一些将叙事节拍做成PPT的建议：

1. 从头到尾讲述完整的故事，如果不是影响到玩家直接的选择那么尽量不要提供过于详尽的背景故事。

2. 使用描述性而非解释性的描述。例如应该用“角色1向着角色2大声咆哮着，一拳锤到墙上”而不要用“角色1对角色2很是气愤”。基本上就是说尝试去描述将会出现在显示屏上的一幕，并且仅限于这一幕。

3. 把PPT的间断/切换放在惊喜或者答案出现的间隙中。让参与者去预测“接下来会发生什么”通常是探索其想法和理解的有效方式。

4. 保持高度的概括性，想要完整地研究一遍故事或是全部的节拍仍然需要很长的时间。

在PPT中我们也会使用图片作为辅助，可能是一副概念图或者从其它游戏/电影中截取的表达图。这能够让玩家们可以看到实际的东西，让玩家对游戏的世界有一定的感觉，但要注意不要让图片把玩家的注意力从故事上完全吸引走了。完成这样的PPT可能会花费一定的时间，但是在完成这个PPT的过程中和剧情设计师之间的沟通和相互反馈对我们来说都会是很有帮助的。

通过让玩家阅读故事、解释发生了什么事情、判断哪些是不合理的以及预测接故事的走向，我们从玩家那里获取的反馈除了能够帮助发现情节的漏洞、误导性剧情、剧情冲突等基础性问题，还能用来了解关于游戏类型信息的交互、系列信息(或缺乏系列信息)、角色的动机和一致性等方面的问题。

如果故事对玩家而言没有太多问题了，开发者和用研就可以开始思考故事的呈现方式了。可以在大规模的可玩性测试中添加情感性问题来研究这个问题，当然要这么做研究还是需要有已经成型的剧情才行。尽管还在等着完善最后的场景，但如果能有一些动画或者话外音通常都会是很有用的。人们在面对机器的时候能够听到声音总是好的，当然至少要保证声音和性别是对应的，且在游戏测试的过程中同一角色的声音保持不变。对于临时的视频，粗劣的铅笔画(或手翻书)也都是可以的(例如下图)。

这种程度的铅笔画就算是高质量了

准备好这些东西以后，用研就可以开始尝试了解玩家对游戏节奏的看法、对故事的理解和喜欢，然后能够开始构建角色的描述了。对于游戏角色而言，他们的恐怖、不讨喜、愚蠢也可以是件好事，他们的英雄气质、善良也有可能是件坏事。当建构角色的时候，使用定量和非参数的研究方法去了解玩家喜不喜欢游戏角色或者是他们会如何向其他人介绍这个角色通常都能够提供有意义的结果。定量的结果不仅能够告诉我们玩家们如何看待这些角色，同时也能够了解角色中哪些元素让玩家形成了这样的认知。例如《光晕》中科塔娜的粉丝们可能会因为她的性格多是通过对话展现而在描述她的时候频频引用她的台词，但士官长的粉丝们则可能更多的使用过场动画中士官长的英勇行为来描述他。在测试角色的时候，需要重点关注的是那些能够将角色相互区分出来的特征，角色设计是否成功的标准更多取决于设计的意图，而不能简单按照玩家的喜好度来决定。

在我们收集回来的反馈中有一些重点数据是能够帮助我们判断游戏的剧情是否设计成功的：

首先，玩家应该能够从头到尾地复述整个故事。

其次，玩家对剧情的理解和喜欢应该是随着剧情的展开和完善而不断提高的。和玩法不一样，剧情是需要看长期收益的，所以很有可能在刚开始玩家还没有理解关键要素的时候，不能很好理解或者不喜欢剧情都是很常见的，但随着剧情的逐渐展开，玩家的理解和喜欢应该是呈对数上升的。

第三，一旦玩家深入沉浸到剧情中，他们讨论剧情的方式可能会发生变化。不再是单纯的复述故事，他们会开始以游戏角色为主体来讲述这个故事，在复述过程中还可能会穿插着自己的评价和意见。

最后，需要注意的是在测试剧情之前建立好想要对比的标准。因为相对于游戏玩法，玩家们在夸奖剧情的时候有着更高的天花板，他们会更容易给出“大于满分”的情况。游戏玩法能够提供刺激、紧张感和奖励；而剧情则能够孕育“热爱”。

案例：《古墓丽影：崛起》

在开发《古墓丽影：崛起》的早期我们就开始关注剧情测试了，我们通过测试从玩家那里获得了他们对剧情的理解和喜好，这些反馈也反映到了剧情的调整中。有一些关键性的调整是关于游戏的主要反派角色--安娜和康斯坦丁。在英雄式故事中，反派角色的设计通常非常难，尤其是在英雄已经非常出名了的时候：当大多数玩家都确定了劳拉肯定会赢的时候，就很难让他们真的因为危机产生紧张感了。对反派角色的设计优化需要结构化的调整，聚焦于“故事是什么样的”然后再去考虑“怎么讲故事”。

我们在开发早期用剧情可用性测试研究了《崛起》的剧情，下图中是我们在测试中用过的一页PPT，其中展示了关于安娜和康斯坦丁最原始的角色介绍。

在《崛起》剧情可用性测试中我们用过的一页PPT

最初的研究发现玩家们并没有将这些主要的反派角色当一回事，一个是因为我们没有解释清楚反派角色想要达成的目标—除了和劳拉一样都想要拿到宝藏。尽快通过这样做为我们在劳拉的冒险上设置阻碍提供了理由，也算说明了游戏中主要的冲突。但从故事的角度来看，安娜和康斯坦丁看起来就只是在忽来忽去的，完全没有自己的计划或目标。

在没有始终如一的目标的情况下，康斯坦丁感觉起来就好像是过渡的小BOSS，而并非真正的反派，因此劳拉对他的反应就显得过于强烈，与玩家认知中的劳拉不太符合。在故事的开始就有一个场景描述的是劳拉和康斯坦丁的最终对峙。然而，在测试中有一些玩家都觉得劳拉把康斯坦丁干掉这个结果不太合理。尽管是游戏主要的反派，玩家也总觉得这样是有些不太合理的地方：

他是个坏蛋，这很明显！你可能知道他们会打起来，然后他估计得完。但是我没有觉得他有那么坏啊，尤其是他在努力救他的妹妹，这就让我有点儿同情。但是她(劳拉)对他的的恨意太极端了，她还算“我一定会杀了你”，然后就真的杀了，感觉有点儿不太合适。

最后，甚至当三体(安娜和康斯坦丁所在的反派组织)成功阻止了劳拉获得关键性道具的时候，剧情都没能给玩家留下“三体真厉害”的印象。反而，玩家们只是觉得劳拉作为唯一掌握道具信息的人，但却一直被三体的势力妨碍着然后就被三体提前得手了，这是很没逻辑的事情。这样的模式并不如我们预期的那样展现了三体的威胁力，反而打破了剧情的一致性。研究获得的这些反馈最终导致了以下的一些重大调整：

首先，安娜在刚开始的时候作为劳拉的心理咨询师，两人之间有一定的关系纠葛。之后在开发中安娜身份一变又成了劳拉的继母，进一步强化了两人的关系，增强了背叛感。通过结合这两个角色，在构建了更多的历史和与劳拉之间直接的关系之后，安娜这个角色感觉起来就变得一致了很多，同时也减少了玩家们需要去记住的角色和产生相应情感的数量。

其次，新的场景直接将安娜、康斯坦丁和劳拉遇见的准军事部队联系起来了，确保玩家们能够理解他们是劳拉达成目标过程中统一(并且关键而暴力)的障碍。另外，还增加了额外的场景来解释康斯坦丁的目的，以及为什么劳拉要不顾一切地阻止他。

最后，故事中的事件也做了很大的调整：不管是劳拉比三体更快找到道具，或者是因为三体也发现了道具所在地所以劳拉必须要比三体更快拿到道具。通过减少三体的成功，但更符合剧情的调整，玩家反而认识到了三体的威胁性。对劳拉和三体的复杂度的增强同时也让故事变得更加逼真了。

随着开发的进程，剧情研究从可用性转向到可玩性测试。我们进行了一系列专注于剧情而非游戏玩法的可玩性测试。在这些测试中，我们鼓励玩家去关注主要战役，并且尽量忽视游戏玩法的内容。在测试时间内，这样能让更多的玩家去看到更多的故事内容，然后我们就能获得更多玩家对剧情的理解和建议了。在这些测试中，我们会在提供的过场场景里频繁地用到铅笔画(例如下图)和占位符语音。

在《崛起》剧情可用性测试中我们用过的一页铅笔画

在这些测试中，我们慢慢发现玩家们对安娜和康斯坦丁的印象还是“老套的(clichéd)”卡通反派，而不是成熟的游戏人物。尽管从可用性测试中获得的结果能够让玩家们更好地理解“他们是谁”以及“为什么他们有危害性”，我们仍然没能对康斯坦丁的角色塑造提供有足够说服力的呈现方式。所以，开发组又继续想办法给这些角色加戏。他们增加了更多有康斯坦丁出现的场景来表现他的性格(而不仅仅是在故事中的行为和作用)。另外，他们还增加了更多关于康斯坦丁身份背景以及他和安娜之间关系的音频日志，这些日志散布在整个游戏中让玩家们去发现。最后，为了让康斯坦丁更加符合我们希望塑造的形象，开发组还换了新的配音演员来录他的台词。因为这些调整，我们再后续的测试中终于看到愈来愈多的玩家把康斯坦丁看做是高质量的游戏人物了。

在我们为《崛起》做用户研究的过程中，我们小组一共进行了两次剧情可用性测试和三场以剧情为主的可玩性测试。另外，在测试玩法的可玩性测试中我们也将故事和角色作为了关键的测试要素去研究。这些研究和Crystal Dynamics(《崛起》的开发商)他们内部的测试相结合，我们帮助创作了玩家们更加喜欢、更易理解的剧情体验。我们可以从玩家和评论家们的反映中知道这一点，同时，《崛起》还获得了2016年美国编剧协会的最佳游戏编剧大奖

经验教训

1. 理解高于喜欢。和游戏玩法一样，如果玩家不能理解你的剧情，那么也很难会爱上它。疑惑和神秘是不一样的。从玩家能够看懂剧情开始，他们就能提供有用的反馈了。

2. 好的剧情和好的UI一样，当它们良好运行的时候，你是不会注意到它们的。这种隐匿性也是为什么剧情设计师们普遍认为剧情中游戏角色的重要性远远高于情节的原因。但是如果情节不行的话，玩家是不会看到角色的，而一旦情节流畅下来，玩家们的讨论就会聚焦到角色上来了。

3. 不要搞错了游戏开发的阶段性产出。原型是早期的开发产出，而且对于游戏中各个元素都有很多不同的方法可以去做原型。例如用纸笔画的UI、用白盒(结构)组织等级、PPT呈现剧情等都是能够帮助我们在早期进行测试的原型。