"可用性测试方法的改进"指导书

我们组翻译的章节叫做Usability Testing，也就是可用性测试。系统地讲解了可用性测试的概念，流程，结果分析以及方法改进，我翻译的内容主要是关于可用性方法的改进，所以这篇博文也会主要围绕“可用性测试方法的改进”展开。

这篇章节中的专业术语和概念非常多，导致很多内容就算翻译出来在理解上还是有一定难度，所以我决定选取论文中提到的5种改进的可用性测试方法，结合原文并旁征博引进行详细的解释（原文一共提到了8种改进的可用性测试方法，一一讲解太过冗长，希望通过5个方法的详细解释给出一个理解书中本章节的正确思路，引导读者更容易地理解本章内容，通过通俗的讲解使读者明白什么是“可用性测试方法“，以及为读者提供”可用性测试方法“改进的思路）。

“Usability Testing”这篇文章大篇幅地详述了可用性测试的具体内容，说真的我通篇读下来都觉得有点云里雾里，抓不住重点。由于我主要负责的部分不是可用性测试的概念流程，因此在这里仅对可用性测试的概念进行简短通俗的介绍，便于对后续“可用性测试方法的改进“进行理解。

什么是好设计（产品）的衡量标准？

正如同乔布斯所说的：“设计的核心并不是看起来和摸起来的感觉，而是它用起来的感觉。”所以美并不是设计的目的，它只是达成设计目标的途径。好的设计应该具备良好的可用性，实用性，合意性，且有吸引力。每一个属性都是为了能够让产品发挥作用而存在的，想要让这些属性和指标真正达到标准，创意团队应该通过测试来验证和调整。

简单来说：可用性是衡量一个设计（产品）好坏的其中一种极其重要的属性。

什么是可用性？

Nielsen Norman Group 将可用性界定为一种用来衡量界面好用程度高低的属性。可用性的高低，通常取决于下面的5个因素：可学习性，满意度，效率，记忆性和错误。可学习性代表着用户在第一次执行和使用的过程中，完成任务的难度，满意度则意味着使用过程中令人愉悦的程度。效率则反映了快速完成任务的能力，记忆性则是产品在使用过产品之后，重新记起并熟悉的时间，最后的错误属性则值得是用户在使用过程中出错的数量，以及他们能否从这些错误中学习。

简单来说：可用性就是一种用来衡量界面好用程度高低的属性。

什么是可用性测试？

可用性测试，是通过针对潜在用户进行测试来评估产品的方法。通过这种方法，设计人员能够了解被测产品是否可用，并且可以针对用户体验中可能存在的问题进行筛查。

简单来说：可用性测试就是评估产品可用性高低的测试。目的呢，就是通过可用性测试发现可用性问题，进而让产品变得更好用

以上就是我对于可用性测试的通俗理解，那么你也就不难猜到“可用性测试方法“就是应用在可用性测试中，用来测试产品可用性高低的方法。

说得再直白点，可用性测试方法就是：

测试一个产品好用程度高低的方法！

针对于整个可用性测试流程，可用性测试方法就用在红圈标注的地方。（当然，根据可用性测试方法的不同，前期准备也是各不相同的）

图1 可用性测试流程图

可用性测试的常用方法有很多，它们适用于不同的研发阶段，针对不同类型的产品。（在这篇文章里你可以找到很多解释通俗的可用性测试方法：http://www.chaoqi.net/ganhuo/2018/0507/149320.html）

这里我们来简单介绍一个非常常用的可用性测试方法：出声思维

出声思维的方法其实就是要求用户在使用系统时发声讲述他们正在完成的任务，目的是通过出声思维使得人们将那些沉默的行为--诸如理解，计划，反映转化为明确的，能够被观察到和分析的数据和行为。

（需要注意的是：很多人错误的把发声讲述他们正在完成的任务和出声提出设计意见混做一谈。事实上，前者（出声思维）非常宝贵，而后者（出声提出设计意见）非常一般，甚至有可能是有害的。

以下是一些通常你希望从一个出声思维者口中听到的例子：

“我打算操作这个....”

"看到这个界面，我想它的这部分是用来..."

”嗯....这个和我想象中的不太一样，我以为接下来会是....“

“这比我预期中的时间长了很多...”

而你不需要听到类似这些评论：

”我觉得背景颜色应该是蓝色的“

”我觉得其他用户肯定没办法理解这部分...“

“如果我设计，我会把这部分放在那边”

类似的评论并没办法对当前问题提供实际的启发和引导，只不过是在已经很多的意见当中又增加了一些。它甚至会误导开发者们做出错误的决定。）

总之，通过出声思维，你希望了解的是用户怎样理解他手头需要完成的这个任务，以及他如何将界面与任务对应起来。

可见，出声思维这种方法可以将用户对于产品的理解和思考转化为可分析的数据和行为，是非常实用的可用性测试方法，但是它可以应用于所有情况吗？

首先它不能应用于婴幼儿的测试，因为婴幼儿的语言表达能力有限。

其次我们大部分人在思考、计划、理解的过程中都是沉默的，所以“出声思维”对很多用户来说是感觉不自然的，不习惯的。

而且根据Rubin, J.和Chisnell, D的研究指出， “出声思维”可能会降低用户的效率，因此用户可能会更加在意平时使用中忽略的细节，也就会差生一些误差

显然“出声思维”并不适用于所有情况，那么就引出了这篇文章要介绍的主要内容——“可用性测试方法的改进“

（本篇论文介绍了8种不同的改进方法，这里挑出4种进行较详细的介绍）

1.配对用户测试

原文：Paired‐user testing is one way to make the thinking aloud more natural for the users. It involves two users together trying to solve a problem or exploring a system. It has been used for a long time, so it has several names, such as constructive interaction, codiscovery learning, team usability testing, paired‐user testing and coparticipation. In paired‐user testing, the participants are encouraged to experiment with the studied system, and they are disturbed or interrupted only if the discussion ends. The participants explain their ideas and rationale behind their hypotheses to their partner, so they need to know each other beforehand and have comparable expertise to make an equal and relaxed rapport. The moderator can stay further from the test users in paired‐user testing, as the users are engaged in analyzing and exploring the system. We have used the method for example when evaluating televisions, gaming slot machines and office systems and phones.

我的理解：配对用户测试需要两个对系统陌生的用户一起研究使用系统，并在过程中互相解释他们的想法和理由。这就相当于一种双人交互式的出声思维，一个人自言自语会很尴尬，两个人采用讨论的方式进行出声思维就会让出声思维更加自然。

优点：让用户“出声思维”更自然

关键词：一对用户

2.朋辈导修

原文：Peer tutoring is another way to make use of the natural interactions between two users. For example, Höysniemi, Hämäläinen, and Turkki (2003) used peer tutoring to evaluate an interactive computer game with children. Similarly, we used peer tutoring when we evaluated a new educational system for 9–10 years old children (Kantosalo, 2014). We had one child at a time first learning to use the system, and then teaching it to his / her friend. This way, the children could use their own language, and focus on things that they were most interested. We have used peer tutoring also with adults, for example by including a third party entering the test room during the test. When studying work related systems, this third party has acted as a new trainee, and with a recreational system, the role has been of a relative or a friend asking for an advice in using the evaluated system. This setting has helped in revealing the users’ doubts and uncertainties in controlling the system.

我的理解：朋辈导修依然需要两个用户进行测试，和“配对用户测试“的不同之处就在于要求一个用户熟悉系统，一个用户不熟悉系统，由熟悉系统的用户辅导不熟悉系统的用户学习系统，通过用户学习过程中用户的提问来揭示用户在控制系统时的疑虑和不确定性。

优点：有助于揭示用户在控制系统时的疑虑和不确定性。

关键词：一对用户，教会用户使用系统

3.多元可用性测试

原文：Pluralistic usability walkthrough is a usability evaluation method bringing representative users, system designers, and usability experts together to evaluate and discuss on new design ideas (Bias, 1994). The discussion is based on tasks that the participants try to perform with the help of a paper prototype, such as a set of user interface sketches of the system. The participants get copies of the dialogues that they need to perform the given tasks, and instructions to which dialogue to proceed according to their actions. Documentation or help functions are rarely available at this point, so the system designers usually serve as “living documentation,” and answer questions that users indicate they would try to solve with the help of the system documentation. In this way, the users are able to carry on with their tasks, and the designers obtain valuable hints for documentation and further development. In the original method by Bias, the pluralistic usability walkthrough combines experts doing usability inspections and users commenting on the system. However, we have kept these separate so that the users can be the focus of the sessions. For the same reason, we let the users start the discussion, and only after all the users have commented on the task are the system designers allowed to say which solutions the system supports. The designers usually suggest some new ideas for the system based on the users’ comments, and all the participants are welcome to comment these ideas and to generate new ones. (Riihiaho, 2002, 2015)

我的理解：它的多元体现在要将代表用户，产品开发人员和可用性测试专家这三类人聚集在一起探讨新的设计思想。因为探讨的内容是还未成型的新思想，所以测试原型允许使用纸张原型，纸张原型就是系统的用户界面草图（类似于图2），而我们上文提到的方法用到的都是功能原型，就是已经可以完整实现功能的系统。

图2 纸张原型示例

因为这里使用的是纸张原型，所以用户可能会不知道下一步会怎么样，而且没有什么帮助文档的，所以这时候开发人员就会充当“活文档”为用户解答问题，同时开发人员也会获取到对进一步开发有用的信息。

优点：（原文没有明确提到，我在维基百科上查到）

因为他是纸张原型时期的测试，所以可以在实施昂贵的设计策略之前，可以提供早期的性能和满意度数据。

由于是涉及用户，开发人员和可用性专家协同设计。对多学科团队发现的问题的讨论将产生创造性，可用性和快速的解决方案。

关键词：多元（代表用户，产品开发人员和可用性测试专家），纸张原型

4.对可视演练方法进行的改进

原文：Visual walkthrough is a user testing method that has been developed in our research group to get information about users’ perceptions and interpretations of the evaluated user interface and its components (Nieminen & Koivunen, 1995). The method can be used to complement a usability test or as a separate method. During a visual walkthrough, the users are not allowed to explore the user interface but to concentrate on one view at a time. At first, the users are asked to tell what they see and notice on the screen. After this general overview, the users are asked to describe what kind of elements, groups and details they notice. The next step is to ask the users to explain what they think the terms and symbols mean, and what kind of functionalities they think the elements provide. After that, a task may be presented, and the users are asked to state their intentions without actually doing the actions (Nieminen & Koivunen, 1995). We have used the visual walkthrough method also in a modified version that evaluates the utility of a system in addition to its usability. In the modified version, we ask the tests users to mark with different colors in the hard copies the parts that they needand use the most, parts that are rather important, and parts that they never use or that they find useless (Juurmaa, Pitkänen, Riihiaho, Kantola, & Mäkelä, 2013). The participants in this method need to be experts in the domain, so that they are able to assess what information is relevant. To present the results of the coloring tasks, we combined some user interface elements into blocks, and colored these blocks either with one color if the users’ colorings were convergent, or with stripes if the colorings varied a lot. These aggregated block maps showed the most relevant parts as green, whereas the red color indicated blocks that the participants had never used or used only rarely. This coloring method proved to be simple and inexpensive, applicable even with paper and pens. We also found the colored block maps to be valuable tools in communicating the results in a convincing and easily understandable format to the customers (Juurmaa et al., 2013; Riihiaho,2015).

我的理解：这种方法是本文作者对于传统可视演练方法进行的改进方法。

传统可视演练方法是：不允许用户浏览用户界面，而是一次只关注一个视图。首先要求用户描述他们在屏幕上看到了什么和注意到什么。在此概述之后，要求用户描述他们注意到的元素、组和细节。下一步是要求用户解释他们认为（视图中出现的）术语和符号意味着什么，以及他们认为元素分别提供了什么样的功能。

作者将传统可视演练方法和热点图结合开发出一种可以快速分析评估系统实用性，并且成本低廉的方法，这个方法在原本的文章中讲解简单，但是本文作者写过一篇专门针对这种改进方法的论文（Visual walkthrough as a tool for utility assessment in a usability test），于是我查看了这篇论文，想结合该论文中的案例具体讲解一下这个方法。

案例中针对的系统是一个面向医疗专业人员的信息密集型web（如图3），这张图就是他们的主页，我们可以看到这张网页信息冗杂，缺乏主次。包括作者在内的测试者希望通过可用性测试方法来识别用户界面中的重要元素，给它更大的空间版面，同时降低一些不重要元素的可见性。

对于被测用户的选择，测试者选择了具有医疗专业知识并且对于该网站较为熟悉的用户，因为只有具有一定专业性的用户才能对元素的重要性给出有参考价值的评判。

图3.面向专业医疗人员的信息密集型web

可用性测试用到的工具非常简单，成本低廉，仅仅是网站的打印件和荧光笔。

然后测试人员将网站的不同服务界面打印输出，同时提供给用户三只荧光笔，要求被测用户标记不同元素。

绿色代表他们经常使用和认为重要的元素

黄色代表他们不经常使用或从未使用，但可能在某个时候需要的元素

红色代表他们从未使用过的元素，或者他们认为无用的元素

图4就是一张用户做完标记的示意图。

图4.用户标记的示例图

最后测试人员总结结果，得到一张平均重要性评级的热点图（如图5）。

图5.具有平均重要性评级的热点图

这里需要注意的是，热点图也常常用于眼动跟踪研究，就是通过用户眼睛注视一个元素的时间，注释的次数来生成热点图。虽然说眼睛的注视可以一定程度代表用户的注意力，但是不能排除用户在不知道它是什么东西的情况下盯着看的情况。而作者他们生成的热点图并不是反映用户在看什么，而是显示用户如何评价这些元素。所以得到的是一张，平均重要性评级的热点图。

从绿色到到红色代表用户认为的平均的最重要元素到最不重要元素。

最后，基于总结的结果，测试者对原网页进行了调整（如图6）。

图6.web页面的重组，包括（A）搜索，（B）介绍，（C）许可信息和（D）内容列表的元素

我们可以看到测试者将绿色的（最重要的）元素移到了页面的中间和顶部，黄色的元素被放在绿色的下面，橙色的元素凝练成链接放在绿色元素旁边，而红色元素（最不重要元素）仅仅保留了强制性内容放在了底端。

作者就是利用这样的方法对原网页进行了重组，这种方法不仅简单，节省成本。可以向客户传达令人信服且易于理解的结果。

关键词：传统可视演练结合热点图，工具简单，快速分析数据。

以上就是我通过原文并结合一些课外资料，对于可用性测试以及部分改进的可用性测试方法做出的解释，希望可以给不理解可用性测试的同学一些帮助。

一些问题和解答

可用性测试和用户体验有什么区别？

可用性测试很容易与用户体验混淆，它们到底有什么区别呢？

·定义不同

用户体验指的是一个人对于特定产品的主管感受和态度，它涉及到功能范畴，产品品牌，心理期望和实际的情绪感受，这些是用户体验中不可或缺的组成部分。

可用性的是数字产品/系统的交互上的一个重要质量指标，是产品的有效性、易用性、易学性、高效性、用户满意度和出错频率所构成的综合指标。可用性关注的是产品的功能，笼统上来说，可用性好的产品是“不用让我思考”的产品。在可用性上出问题，会明显降低产品的转化率。

在以用户为中心的设计环境下，典型的可用性问题包括：

评估产品的总体有效性和效率，并将其作为设计的目标

评估用户的舒适度和满意度，并将其作为设计的目标

将产品设计得易于使用，并能评估其可用性的问题

以用户为中心的设计环境下，典型的用户体验问题包括：

设计和评估用户和产品从开始到结束的交互全程所有的工作

最大限度地产生刺激、认可并且激发情感共鸣

·衡量要素不同

可用性的四要素

功能性：这个产品能够正常工作吗？

可学习性：这个产品在不经过额外学习的情况下能够顺利使用吗？

灵活性：除了完成主要的任务之外，这个产品能做更多的事情吗？

工业设计：这个产品设计上是否足够优秀、漂亮？

用户体验的四要素

可用性：完成任务是否很容易？

适应性：用户是否很快开始顺利使用这个产品？

合意性：体验是否有趣并且引人入胜？

价值：产品对于用户而言是否有价值？

·关注重点不同

尽管可用性和用户体验的评估没有在某个特定的点上有本质性的区别，但是由于关注重点的不同，一个关注绩效，一个更注重满意度导致了在开发过程中关注不同的点。

在以用户为中心的设计环境中，典型的可用性问题包括：

评估整体有效性和高效性，且为此目标设计

评估用户舒适度和满意度，且为此目标设计

设计是为了使产品更容易使用，为解决可用性问题而进行评估

当相关的时候，在现实层面考虑易学性的问题

在以用户为中心的设计环境中，典型的用户体验问题包括：

以人们在与一个产品交互直到结束的过程中都做些什么以及为什么这么做为目的设计和评估

最大化的实现刺激、认同以及唤起和联动情感共鸣

有时候可用性和用户体验被放在两组下进行对比，但是更多的组织更愿意把他们两个放在同一个用户体验情境中。

·用户体验的范围更广

用户体验的概念更扩大化：用户体验包括用户在使用前、中、后期，产生的所有情绪、信仰、编号、认知、生理、心理反应、行为和成就。

衡量人类反应的范围将会扩大已包含的快乐。衡量的情况将会包含语气使用以及使用后的反思。同样重要的是为了达到提升产品全生命周期的用户体验使得我们提升了通过用户参与的全生命周期的经历的重要性，帮助我们理解做什么可以提升用户体验。

而可用性研究是关注需求的，体验是排在比较靠后的考虑因素，建立一个符合标准的可接受的评估结果是更重要的。

在本篇论文中，并没有专门对比可用性测试和用户体验的部分，根据网络上提供的资料，我们可以知道的是，可用性测试和用户体验没有明显的划分，很多测试内容是交叉的，两种测试更大的不同在于关注问题和侧重点的不同，简单来说可以理解成:

可用性－－－是能不能用，需要的功能有没有？

用户体验－－－是在可用的基础上好用不好用的问题？界面是否友好？操控逻辑是否合理？操作是否流畅？

参考文献

Juurmaa, K., Pitkänen, J., Riihiaho, S., Kantola, T., & Mäkelä, J. (2013). Visual walkthrough as a tool for utility assessment in a usability test. In Proceedings of the 27th International BCS Human Computer Interaction Conference (pp. 1–6).

https://en.wikipedia.org/wiki/Pluralistic_walkthrough

http://www.chaoqi.net/ganhuo/2018/0507/149320.html

http://www.bkjia.com/dedecms/373966.html

http://www.woshipm.com/user-research/846772.html

"可用性测试方法的改进"指导书

测试一个产品好用程度高低的方法！

一些问题和解答

参考文献

你可能感兴趣的:("可用性测试方法的改进"指导书)