你已经了解了系统可用性量表。你知道什么是好的分数。现在你想实际开展一次调查。
这是一份实操指南。读完之后,你将知道该调查谁、何时发送、需要多少回复,以及收到结果后该如何处理。
第一步:确定你要测量什么
在发送任何内容之前,先明确你要评估的对象。SUS与技术无关——它对Web应用、移动应用、桌面工具或物理设备同样适用——但当范围具体时效果最佳。
你是在测量整个产品?某个特定流程,比如注册引导或结账?还是刚刚发布的新功能?
范围越窄,信号越有用。如果你请用户评价整个产品,你会得到一幅关于可用性的全景图。如果你请他们专门评价注册引导体验,你会得到关于该旅程环节更精确的测量。
对于大多数首次开展SUS的团队来说,测量整个产品是正确的起点。它为你提供一个基准线。一旦你知道该关注哪里,就可以更有针对性地深入。
第二步:选择参与者
SUS应由代表你实际用户的人来填写——不是同事,不是朋友,不是碰巧在旁边的人。
这比样本量更重要。来自合适人群的10份回复,比来自不合适人群的50份回复能告诉你更多。
几个原则:
他们应该使用过产品。 SUS衡量的是感知的可用性,这需要实际体验。不要询问只看过演示或观看过产品介绍的人。
他们应该符合你的目标受众。 如果你的产品面向小企业主,就调查小企业主——而不是会以完全不同的心智模型来使用产品的开发人员或设计师。
他们不需要是资深用户。 实际上,新用户往往能提供最有用的信号。有经验的用户会随着时间适应摩擦,不再注意到这些问题。
第三步:确定样本量
SUS的好处是在小样本量下就具有统计可靠性。你不需要数百份回复。
实用参考:
- 5份回复 — 提供大致的方向性信号,适用于快速检查
- 12-15份回复 — 对大多数产品决策足够可靠
- 20份以上回复 — 高置信度,适合向利益相关者报告或与以往分数进行对标
如果你在不同版本之间定期开展SUS,一致性比完美更重要。每次从可比较的用户中获得12份回复,就能形成一条可信赖的趋势线。
第四步:选对时机
你何时请用户填写问卷,几乎和你请谁填写一样重要。
SUS应在用户与产品进行了真实互动之后进行——不是之前,也不是在体验已经淡忘之后。
两种最常见的方法:
会话后 — 在可用性测试或特定任务完成后立即进行。这能获得最新鲜的印象,也是SUS最初设计时采用的方法。
引导完成后 — 在用户注册并有时间探索几天后发送。这对没有正式研究流程的团队更实用,能更具代表性地反映真实体验。
避免向几个月前注册并已大量使用产品的用户发送SUS问卷。长期的熟悉感会掩盖可用性问题——有经验的用户会适应摩擦,不再察觉。
第五步:撰写问卷引言
SUS的十个问题是固定的——不能修改。但你在问题前写的引言设定了背景,会影响回复质量。
保持简短。告诉用户:
- 你请他们评估什么(具体的产品或功能)
- 没有对错之分——你想要的是他们真实的感受
- 只需不到两分钟
一个简单的示例:
“我们想了解[产品名称]的使用体验。请根据你目前的使用感受回答以下十个问题。没有对错之分——我们希望听到你最真实的第一印象。大约不到两分钟即可完成。”
不要用正面语言引导(“我们希望你喜欢这个产品”),也不要用负面框架(“我们知道存在一些问题”)。保持中立。
第六步:发送十个问题
SUS问卷是标准化的。准确的措辞很重要——不要改写或重新排序问题。用户在1(非常不同意)到5(非常同意)的量表上对每个陈述进行评分。
十个陈述如下:
- 我认为我会愿意经常使用这个系统。
- 我觉得这个系统不必要地复杂。
- 我认为这个系统很容易使用。
- 我觉得我需要技术人员的帮助才能使用这个系统。
- 我觉得这个系统的各项功能整合得很好。
- 我认为这个系统中存在太多不一致的地方。
- 我想大多数人都能很快学会使用这个系统。
- 我觉得这个系统使用起来非常繁琐。
- 我在使用这个系统时感到非常有信心。
- 在开始使用这个系统之前,我需要学习很多东西。
实用提示:如果读起来更自然,可以将”系统”替换为你的产品名称。“我认为[产品名称]很容易使用”完全没问题,还能让问卷显得不那么笼统。
第七步:计算分数
由于问题在正面表述和负面表述之间交替,计算方法有些反直觉。方法如下:
对于奇数题(1、3、5、7、9): 用户的回答减去1。
对于偶数题(2、4、6、8、10): 用5减去用户的回答。
将所有十个调整后的值相加,然后乘以2.5。结果就是该用户的SUS分数,范围为0到100。
要获得总体分数,将所有受访者的个人分数取平均值。
如果听起来很繁琐,确实如此。大多数团队会创建电子表格模板来处理计算,或者使用自动完成此操作的工具。
第八步:解读结果

得到分数后,按以下方式解读:
| 分数 | 等级 | 含义 |
|---|---|---|
| 90以上 | A+ | 卓越——用户觉得非常好用 |
| 80-90 | A | 优秀——超过此阈值,用户很可能会推荐 |
| 68-80 | B/C | 高于平均——可用,但有改进空间 |
| 68 | C | 行业平均水平 |
| 51-67 | D | 低于平均——用户正在经历明显的摩擦 |
| 51以下 | F | 需要立即解决的严重可用性问题 |
记住:68是平均水平,不是好分数。如果你在庆祝70出头的分数,那是C等级。瞄准80及以上——那是用户开始主动向他人推荐产品的起点。
第九步:不要只做一次就停下
单一的SUS分数是一张快照。有用,但有限。
SUS的真正价值在于长期追踪——以固定的间隔进行调查,观察趋势线。今天的71分本身意义不大。经过四个版本从58升到71的分数,则说明你的团队在可用性方面的努力正在产生可衡量的效果。
将SUS纳入你的发布周期。每次重大更改后都执行一次。给自己设定每次都要超越的目标。
捷径
以上所有步骤都可以手动完成——用Google表单做问卷,用电子表格算分,每次调查后手动更新图表。
这行得通,尤其是刚开始的时候。但它会产生摩擦,这意味着往往无法持续执行。下次发布后问卷没发出去,因为有人忘了。电子表格没更新,因为没人负责。趋势线永远也形成不了。
UXScore自动处理问卷、评分和追踪——让定期开展SUS成为一种习惯,而不是一个项目。