좋은 SUS 점수란 무엇이며, 비즈니스에 중요한 이유

많은 제품 팀이 System Usability Scale(SUS)에 대해 들어본 적이 없기 때문에, 처음 설문 결과를 받아보고 71점이라는 점수를 본 사람이 ”…이게 좋은 건가?”라고 생각하는 것은 당연합니다.

짧게 답하면, 평균 이상이지만 사람들이 당신의 제품을 열정적으로 추천할 정도는 아닙니다.

여기서는 점수가 실제로 무엇을 의미하는지, 그리고 디자인 전략 개선에 어떻게 활용할 수 있는지 설명합니다.

System Usability Scale이란

System Usability Scale(SUS)은 제품의 사용성을 실제 사용자가 어떻게 느끼는지 측정하는 10문항 설문입니다. 1986년 영국 Digital Equipment Corporation의 John Brooke가 개발했으며, 이후 학술 인용 20,000회 이상, 소프트웨어·하드웨어·웹사이트·앱 전반에서 수십 년간 실전 적용되면서 세계에서 가장 널리 사용되는 사용성 측정 도구가 되었습니다.

설문은 사용자에게 “이 시스템이 불필요하게 복잡하다고 느꼈다”, “이 시스템은 사용하기 쉽다고 생각했다” 등 10가지 문항을 1~~5점 척도로 평가하도록 요청합니다. 응답은 0~~100 사이의 단일 점수로 합산됩니다.

이 점수는 퍼센트가 아닙니다. 70점이 “제품의 70%가 사용 가능하다”는 뜻이 아닙니다. 더 구체적이고, 더 유용한 의미를 담고 있습니다.

알아야 할 벤치마크 수치

500건 이상의 사용성 연구 분석을 바탕으로, 연구자들은 SUS 점수를 해석하기 위한 명확한 기준을 확립했습니다.

51점 미만 — 심각한 사용성 문제가 있습니다. 사용자가 기본적인 작업에 어려움을 겪고 있으며, 마찰 때문에 제품을 완전히 이탈하는 사람도 있을 것입니다. 즉각적인 조치가 필요합니다.

51~67점 — 평균 이하입니다. 사용자가 어떻게든 사용하고 있지만, 경험에 노력이 필요합니다. 리텐션과 입소문에 악영향을 줄 것입니다.

68점 — 테스트된 모든 제품의 평균 SUS 점수입니다. 68점이라면 실패는 아니지만 눈에 띄지도 않습니다.

68~80점 — 평균 이상입니다. 사용자가 대체로 제품을 잘 사용하고 있지만, 개선의 여지가 상당히 있습니다.

80점 이상 — 여기서부터 흥미로워집니다. 연구에 따르면 80점을 넘는 제품은 사용자가 추천할 가능성이 크게 높아집니다. “수용 가능”에서 “진정으로 좋은” 영역으로 넘어간 것입니다.

90점 이상 — 탁월합니다. 사용자가 “쓰기 즐겁다”고 느끼는 제품만이 도달하는 영역입니다.

단일 점수가 생각보다 유용한 이유

SUS에 대한 가장 흔한 반론은 “무엇이 잘못됐는지는 알려주지 않고, 뭔가 잘못됐는지만 알려준다”는 것입니다. 사실이며, 의도적인 것입니다. SUS는 진단 도구가 아닙니다. 어떤 버튼이 잘못된 위치에 있는지는 알려주지 않습니다.

대신 일관되고 비교 가능한 기준선을 제공합니다.

Office worker is making presentation to colleagues talking writing on whiteboard discussing marketing strategy. People and business discussions concept.

이것이 중요한 이유는 세 가지입니다.

대화에서 주관을 제거합니다. 리디자인이 경험을 개선했는지에 대해 두 사람의 의견이 다를 때, 전후 SUS 점수는 누가 더 높은 직급인지 신경 쓰지 않습니다. 숫자가 말해주는 것입니다.
시간 경과에 따른 진행 상황을 추적할 수 있습니다. 오늘의 71점은 그냥 숫자입니다. 하지만 세 번의 릴리스를 거치며 63점에서 71점으로 올라간 점수는, 팀이 의도적으로 개선하고 있다는 이야기입니다.
벤치마크와 비교할 수 있습니다. 평균은 68점입니다. 업계 동료도 아마 그 근처에 있을 것입니다. 자신이 79점인지 54점인지를 아는 것은, 마지막 사용성 테스트에서 사용자가 올바른 버튼을 클릭했는지가 아니라, 전체 환경 속에서 자신의 위치를 파악하는 것입니다.

측정 시기

SUS는 일회성이 아닌 반복적으로 실시할 때 가장 효과적입니다. 가장 유용한 패턴은 주요 릴리스 후, 중대한 UI 변경 후, 또는 분기별 주기로 설문을 보내 스냅샷이 아닌 추세선을 구축하는 것입니다.

단일 점수는 현재 위치를 알려줍니다. 일련의 점수는 하고 있는 일이 효과가 있는지를 알려줍니다.

설문 자체는 사용자에게 2분도 걸리지 않습니다. 10개 문항입니다. 정리해야 할 주관식 피드백도, 봐야 할 세션 녹화도, 코딩해야 할 정성 데이터도 없습니다. 숫자를 얻습니다. 추적합니다. 파악합니다.

낮은 점수가 나왔을 때 대처법

점수가 68점 미만으로 나오면, 즉시 리디자인하고 싶은 충동을 참으세요. SUS는 뭔가 잘못되었다고 말하고 있지만, 무엇이 잘못되었는지는 아닙니다. 올바른 다음 단계는 점수를 정성적 방법(사용자 인터뷰, 세션 리플레이, 사용성 테스트)과 결합하여 마찰이 어디서 발생하는지 파악하는 것입니다.

점수는 “살펴보라”고 말해줍니다. 정성 조사가 “어디를”이라고 말해줍니다.

점수가 68점 이상 80점 미만이라면, 질문은 “어떤 인터랙션이 평균을 끌어내리고 있는가?”가 됩니다. SUS는 이에 직접 답하지 않지만, 직감만으로는 절대 할 수 없는 방식으로 이 질문을 이끌어냅니다.

핵심 정리

좋은 SUS 점수란 개선되고 있는 점수입니다.

움직이지 않는 80점보다 6개월째 오르고 있는 62점이 더 흥미롭습니다. 왜냐하면 상승하는 점수는 팀의 일하는 방식에 대해 무언가를 말해주기 때문입니다 — 측정하고, 대응하고, 더 나아지고 있다는 것을.

기준선부터 시작하세요. 설문을 실시하세요. 숫자를 얻으세요. 그리고 그것을 넘어설 목표를 세우세요.