启发式评估(Heuristic Evaluation)是让一小批评估人员评估用户界面以及判断这些界面是否符合已经确立的可用性(Usability)规则,以发现界面设计中的可用性问题,并把它们作为界面再设计过程中所重视问题的可用性方法。
一般而言,启发式评估法是由多个评估人员对界面进行评估以提高效率,也避免单个评估人员的局限性。在评估过程中,评估人员多次查看界面,检测各类界面,并把他们与一系列已经认可的可用性原则进行比较。这些原则包括用来描述易用界面通常具备的共同特点的通用原则和对某特定产品的特殊可用性原则。启发式评估法过程中,每个评估人员分别单独检查界面。只有当所有的评估都结束之后,评估人员才可以交流并将他们的发现整合在一起。这是为了确保每个评估人员独立的无偏见地进行评估。
评估的结果可以通过两种方式记录:1、让每个评估人员做书面报告;2、让所有评估人员边仔细查看界面边口述他们的意见给一个指定的评估观察员。
启发式评估后输出的结果是一系列在评估人员眼里违背了可用性原则的用户界面上的可用性问题。评估人员不能简单地说他们不喜欢什么,他们必须依据可用性原则解释为什么不喜欢。评估人员应该尽可能地做到详细明确,并将每个可用性问题单独列出来。启发式评估虽然无法提供系统的方法去找到解决可用性问题的方法,也不能提供一个途径去检测任何再设计的质量。但是,因为启发式评估过程中利用已确立的原则解释了每个发现的可用性问题,而且这些可用性准则是良好的交互系统中所提取出来的,所以制定一个修正的设计方案变得相当容易。
启发式评估与传统用户测试的差异体现在两个方面:1、观察者在评估过程中回答来自评估人员的问题的自动自发性;2、评估人员在使用用户界面的时候获得的提示和线索的程度。在传统用户测试中,人们一般想要发现用户在使用界面时所犯的错误,用户需要通过使用系统来找到回答他们问题的答案,因此,测试人员只愿意提供绝对必要的帮助。启发式评估则相反,评估过程中需要观察者回答评估人员的问题以使他们更好地评定用户界面在关于这一领域方面的可用性,当评估人员在使用界面时遇到问题的时候,他们可以获得提示去继续操作从而充分利用评估时间。
启发式评估被明确地成作是一种“廉价可用性工程方法”(Discount Usability Engineering Methodology)方法。研究(Jefries et al. 1991)已经明确证实,启发式评估是一种非常有效的可用性工程方法。
原文作者:Jakob Nielsen
译者:初心不忘
原文链接:How to Conduct a Heuristic Evaluation
启发式评估(Nielsen and Molich, 1990; Nielsen 1994)是可用性工程的一种方法,目的是为了找出用户界面设计中的可用性问题,因此启发式评估能够被当成是反复设计过程(an iterative design process)中的一部分。启发式评估是指少数几个评估者检查界面,并判断界面是否符合公认的可用性原则(即“启发式”)。
大体上来说,仅让一个人来做启发式评估是困难的。因为单独一个人永远也不可能找出界面中的所有可用性问题。幸运的是,从许多不同的项目得出的经验来看,不同的人会发现不同的可用性问题。因此,通过多个评估者,可能大大提高启发式评估的效果。图1显示了启发式评估安全研究的一个实例,19个评估者发现了语音回复系统的16个可用性问题(Nielsen, 1992)。图1中每一个黑色的广场代表了一个评估者发现的一个可用性问题。该图清楚地显示出不同的评估者发现的问题有相当大的部分不是重叠的。很显然,有的可用性问题很容易被发现,几乎每个评估者都找出了这样的问题,但是,也有一些问题只被少数评估者所发现。并且,不能仅仅依靠评估者的发现来判断他们是否是好的评估者。首先,不能保证评估者在每一次评估中都是最好的评估者;其次,有一些很难被发现的可用性问题是那些没有发现许多可用性问题的评估者发现的(可见图1中最左边的一栏)。因此,没有必要在每次评估中都包括多个评估者(下文将会讨论评估者的最佳人数)。我的建议是使用3至5名评估者,因为不能够通过使用更多的人数来获得更多额外的信息了。
图1
图1显示了每个评估者在评估银行系统中发现的可用性问题。横排表示19个评估者,竖列表示16个可用性问题。方框体代表可用性问题:黑色代表评估者发现了该问题,而白色则代表评估者没有发现该问题。发现可用性问题最多的评估者在最底一排而发现可用性问题最少的评估者在最上面一排;最容易发现的可用性问题显示在最右边的列而最难被发现的可用性问题显示在最左边的列。
在进行启发式评估时,每个评估者单独地检查界面。当所有的评估者都完成了他们的评估后,将他们聚集在一起进行讨论并整合他们的发现。这一程序是非常重要的,目的是确保每个评估者的独立性和无偏见地进行评估。评估结果可以通过评估者自己记录成手写的报告或者当他们在检查时,将评估结果口述给一旁的观察者。手写报告的优点是能够呈现评估较正式的评估结果,但是需要评估者花费更多地额外劳动。使用观察者增加了每一个评估的费用,但是减少了评估者的劳动量。另外,评估结果在最后一次评估之后很快就可用,因为观察者仅需要理解和整理他自己的个人笔记即可,不需要整理其他人写的报告。并且,当界面出现问题的时候,观察者可以帮助评估者,例如一个不稳定的原型,当评估者在专业领域里有所限制或者需要对界面做出解释时。
在用户测试的情景下,观察者(通常称变实验者)有责任解释用户的行为以推断这些行为如何与界面设计的可用性问题相关的。这就使得用户完全不知道用户界面设计的情景下,用户测试成为可能。相反,在启发式评估中,分析用户界面是评估者的职责,因此观察者只需要记录评估者关于界面的评论,而不需要去解释评估者的操作。
另外两个启发式评估与传统用户测试的不同是观察者回答评估者问题的意愿和评估者在操作界面时能够获得的提示的程度。对于传统用户测试来说,观察者通常想发现用户在使用界面时发生的错误;因此,除了绝对需要的东西之外,实验者不太愿意提供更多的帮助。同样,要求用户通过使用系统来发现他们问题的答案而不是从实验者那里获得答案。而对于一个领域特殊性应用的启发式评估,拒绝回答评估者关于此领域的问题是不现实的,尤其是评估者中没有领域专家。相反,回答评估者的问题能够让他们更好的评估用户界面的可用性问题。类似的,当评估者在使用界面遇到问题时,实验者可以告诉他们如何进行下去以便不在与界面的机制进行斗争时浪费宝贵的评估时间。很重要的一点需要指出,不需要给评估者帮助除非他们明确其困难或者提出关于可用性问题的疑问。
通常,一次启发式评估需要持续1到2小时。对于较大和较复杂的界面来说,更长的评估是必要的,但是最后将评估分成若干次进行,在每个小评估中只关注界面的一部分问题。
在评估过程中,评估者数次仔细检查界面和不同的对话(dialogue element)并将其与公认的可用性原则比较。这些启发式原则是描述可用界面通用属性的一般规则。另外,评估者除了要参考通用的启发式原则外,他们也需要考虑其他的与特殊的对话相关的可用性原则或者结果。并且,有必要开发出类别特殊性的启发式原则以适应特殊的产品。一个建立补充的启发式原则的方法是进行竞争性分析并在已经存在的类别下进行用户测试以试图抽象出可以解释可用性问题的原则(Dykstra, 1993)。
原则上,评估者自己决定如何评估界面。然而,一般的建议是,他们至少检查界面两次。第一次的目的是获得交互流程的总体感觉和对系统的总体了解。第二次,评估者需要集中在详细的界面,以了解它们是如何适合更大的整体。
因为评估者不用系统完全真实的任务,所以,在纸面上来评估用户界面是可行的(Nielsen, 1990)。这使得启发式评估能够在可用性工程生命周期的初期就能够适用。
如果系统是为大部分人群设计的“走过来即用的” (walk-up-and-use)或者评估者是领域专家的话,在评估者使用系统的时候不提供进一步的帮助。如果系统是领域依赖性的或者评估者在系统所在的领域内完全是新手的话,向评估者提供帮助有利于帮助他们使用系统。一个有效的方法是向评估者提供一个典型的使用情景,列出用户在完成现实任务时会采用的不同步骤。这一情景可以在对实际用户的任务分析和他们工作的基础上建立。
使用启发式评估得到的结果是一个可用性问题的列表,与之相关的是评估者需要指出这些问题违背了哪些可用性原则。仅仅是简单地说他们不喜欢什么是不够的,他们需要参考启发式原则解决为什么他们不喜欢。评估者需要尽可能的详细并且单独列出每一条可用性问题。例如,如果在一个对话上有三个错误,这三个错误需要针对不同的可用性原则分别列出,并解释为什么每一个部分存在可用性问题。单独记录可用性问题有两个原因:其一,在一个对话上,存在重复问题的风险,即使完全重新设计界面,除非人们已经完全了解所有的问题;其二,在一个界面不可能解决所有的可用性问题或者通过全新的设计来替换这些问题,但是如果我们知道了所有的问题,解决其中的一些问题是可能的。
启发式评估不能产生一个系统的方法来解决可用性问题或者评估重新设计的大概质量。但是,因为启发式评估的目的是在参照可用性原则的基础上解释每个发现的可用性问题,所以产生一个修正的设计是相当容易的。另外,很多可用性问题只要被发现是很容易被解决的。例如,如果问题是用户不能将信息从一个窗口复制到另一个窗口,那么解决方案很显然就是加入一个复制的功能。
扩展启发式评估以获得设计建议的一个方法是在最后的评估结束后,进行一个询问环节( debriefing session)。参与者包括所有的评估者、观察者及设计者代表。询问环节主要以头脑风暴的方式进行,关注点在于讨论主要可用性问题和设计上的一般问题并给出修改建议。询问也是讨论设计积极方面的一个良好机会,尽管启发式评估并没有强调这一点。
启发式评估明确地被看作是一种“打折可用性工程”(discount usability engineering)的方法。独立研究(Jeffries et al., 1991)证实启发式评估是一种非常有效的可用性方法。我的一个案例研究发现,一个启发式项目的利益成本比率为48:使用该方法的成本为10,5000美元,而预期收益约为500,000美元(Nielsen, 1994)。作为一种打折可用性工程方法,启发式评估不能确保提供最完美的结果或者发现一个界面的所有可用性问题。
-
参考文献:
Dykstra, D. J. 1993. A Comparison of Heuristic Evaluation and Usability Testing: The Efficacy of a Domain-Specific Heuristic Checklist. Ph.D. diss., Department of Industrial Engineering, Texas A&M University, College Station, TX.
Jeffries, R., Miller, J. R., Wharton, C., and Uyeda, K. M. 1991. User interface evaluation in the real world: A comparison of four techniques. Proceedings ACM CHI'91 Conference (New Orleans, LA, April 28-May 2), 119-124.
Molich, R., and Nielsen, J. (1990). Improving a human-computer dialogue, Communications of the ACM 33, 3 (March), 338-348.
Nielsen, J. 1990. Paper versus computer implementations as mockup scenarios for heuristic evaluation. Proc. IFIP INTERACT90 Third Intl. Conf. Human-Computer Interaction (Cambridge, U.K., August 27-31), 315-320.
Nielsen, J., and Landauer, T. K. 1993. A mathematical model of the finding of usability problems. Proceedings ACM/IFIP INTERCHI'93 Conference (Amsterdam, The Netherlands, April 24-29), 206-213.
Nielsen, J., and Molich, R. (1990). Heuristic evaluation of user interfaces, Proc. ACM CHI'90 Conf. (Seattle, WA, 1-5 April), 249-256.
Nielsen, J. 1992. Finding usability problems through heuristic evaluation. Proceedings ACM CHI'92 Conference (Monterey, CA, May 3-7), 373-380.
Nielsen, J. (1994). Heuristic evaluation. In Nielsen, J., and Mack, R.L. (Eds.), Usability Inspection Methods. John Wiley & Sons, New York, NY.