如何开展SUS问卷调查：分步指南

你已经了解了系统可用性量表。你知道什么是好的分数。现在你想实际开展一次调查。

这是一份实操指南。读完之后，你将知道该调查谁、何时发送、需要多少回复，以及收到结果后该如何处理。

第一步：确定你要测量什么

在发送任何内容之前，先明确你要评估的对象。SUS与技术无关——它对Web应用、移动应用、桌面工具或物理设备同样适用——但当范围具体时效果最佳。

你是在测量整个产品？某个特定流程，比如注册引导或结账？还是刚刚发布的新功能？

范围越窄，信号越有用。如果你请用户评价整个产品，你会得到一幅关于可用性的全景图。如果你请他们专门评价注册引导体验，你会得到关于该旅程环节更精确的测量。

对于大多数首次开展SUS的团队来说，测量整个产品是正确的起点。它为你提供一个基准线。一旦你知道该关注哪里，就可以更有针对性地深入。

第二步：选择参与者

SUS应由代表你实际用户的人来填写——不是同事，不是朋友，不是碰巧在旁边的人。

这比样本量更重要。来自合适人群的10份回复，比来自不合适人群的50份回复能告诉你更多。

几个原则：

他们应该使用过产品。 SUS衡量的是感知的可用性，这需要实际体验。不要询问只看过演示或观看过产品介绍的人。

他们应该符合你的目标受众。 如果你的产品面向小企业主，就调查小企业主——而不是会以完全不同的心智模型来使用产品的开发人员或设计师。

他们不需要是资深用户。 实际上，新用户往往能提供最有用的信号。有经验的用户会随着时间适应摩擦，不再注意到这些问题。

第三步：确定样本量

SUS的好处是在小样本量下就具有统计可靠性。你不需要数百份回复。

实用参考：

5份回复 — 提供大致的方向性信号，适用于快速检查
12-15份回复 — 对大多数产品决策足够可靠
20份以上回复 — 高置信度，适合向利益相关者报告或与以往分数进行对标

如果你在不同版本之间定期开展SUS，一致性比完美更重要。每次从可比较的用户中获得12份回复，就能形成一条可信赖的趋势线。

第四步：选对时机

你何时请用户填写问卷，几乎和你请谁填写一样重要。

SUS应在用户与产品进行了真实互动之后进行——不是之前，也不是在体验已经淡忘之后。

两种最常见的方法：

会话后 — 在可用性测试或特定任务完成后立即进行。这能获得最新鲜的印象，也是SUS最初设计时采用的方法。

引导完成后 — 在用户注册并有时间探索几天后发送。这对没有正式研究流程的团队更实用，能更具代表性地反映真实体验。

避免向几个月前注册并已大量使用产品的用户发送SUS问卷。长期的熟悉感会掩盖可用性问题——有经验的用户会适应摩擦，不再察觉。

第五步：撰写问卷引言

SUS的十个问题是固定的——不能修改。但你在问题前写的引言设定了背景，会影响回复质量。

保持简短。告诉用户：

你请他们评估什么（具体的产品或功能）
没有对错之分——你想要的是他们真实的感受
只需不到两分钟

一个简单的示例：

“我们想了解[产品名称]的使用体验。请根据你目前的使用感受回答以下十个问题。没有对错之分——我们希望听到你最真实的第一印象。大约不到两分钟即可完成。”

不要用正面语言引导（“我们希望你喜欢这个产品”），也不要用负面框架（“我们知道存在一些问题”）。保持中立。

第六步：发送十个问题

SUS问卷是标准化的。准确的措辞很重要——不要改写或重新排序问题。用户在1（非常不同意）到5（非常同意）的量表上对每个陈述进行评分。

十个陈述如下：

我认为我会愿意经常使用这个系统。
我觉得这个系统不必要地复杂。
我认为这个系统很容易使用。
我觉得我需要技术人员的帮助才能使用这个系统。
我觉得这个系统的各项功能整合得很好。
我认为这个系统中存在太多不一致的地方。
我想大多数人都能很快学会使用这个系统。
我觉得这个系统使用起来非常繁琐。
我在使用这个系统时感到非常有信心。
在开始使用这个系统之前，我需要学习很多东西。

实用提示：如果读起来更自然，可以将”系统”替换为你的产品名称。“我认为[产品名称]很容易使用”完全没问题，还能让问卷显得不那么笼统。

第七步：计算分数

由于问题在正面表述和负面表述之间交替，计算方法有些反直觉。方法如下：

对于奇数题（1、3、5、7、9）： 用户的回答减去1。

对于偶数题（2、4、6、8、10）： 用5减去用户的回答。

将所有十个调整后的值相加，然后乘以2.5。结果就是该用户的SUS分数，范围为0到100。

要获得总体分数，将所有受访者的个人分数取平均值。

如果听起来很繁琐，确实如此。大多数团队会创建电子表格模板来处理计算，或者使用自动完成此操作的工具。

第八步：解读结果

一个人在白纸上书写，纸上有各种图表

得到分数后，按以下方式解读：

分数	等级	含义
90以上	A+	卓越——用户觉得非常好用
80-90	A	优秀——超过此阈值，用户很可能会推荐
68-80	B/C	高于平均——可用，但有改进空间
68	C	行业平均水平
51-67	D	低于平均——用户正在经历明显的摩擦
51以下	F	需要立即解决的严重可用性问题

记住：68是平均水平，不是好分数。如果你在庆祝70出头的分数，那是C等级。瞄准80及以上——那是用户开始主动向他人推荐产品的起点。

第九步：不要只做一次就停下

单一的SUS分数是一张快照。有用，但有限。

SUS的真正价值在于长期追踪——以固定的间隔进行调查，观察趋势线。今天的71分本身意义不大。经过四个版本从58升到71的分数，则说明你的团队在可用性方面的努力正在产生可衡量的效果。

将SUS纳入你的发布周期。每次重大更改后都执行一次。给自己设定每次都要超越的目标。

捷径

以上所有步骤都可以手动完成——用Google表单做问卷，用电子表格算分，每次调查后手动更新图表。

这行得通，尤其是刚开始的时候。但它会产生摩擦，这意味着往往无法持续执行。下次发布后问卷没发出去，因为有人忘了。电子表格没更新，因为没人负责。趋势线永远也形成不了。

UXScore自动处理问卷、评分和追踪——让定期开展SUS成为一种习惯，而不是一个项目。