논문검색
| 논문제목 | UX 휴리스틱 평가 도구로서의 LLM 활용 가능성과 한계: 모델 간 심각도 평가 경향 차이를 중심으로 | ||
|---|---|---|---|
| 영문 | The Potential and Limitations of Using LLMs as UX Heuristic Evaluation Tools: Focusing on Differences in Severity Assessment Tendencies Across Models | ||
| 저자 | 정수빈,허정현 | 첨부파일 | |
| 초록 | 생성형 AI, 특히 LLM은 UX 사용성 평가 등 디자인 프로세스의 전반적인 단계에서 활발히 활용되고 있다. 그러나 LLM을 평가 도구로 사용할 경우, 모델 고유의 학습 데이터와 추론 방식에 따라 평가 결과에 편향(bias)이 발생할 수 있다. 본 연구는 ChatGPT, Claude, Gemini 세 모델이 Nielsen의 10가지 휴리스틱을 기준으로 동일한 UI 50개를 평가할 때 나타나는 심각도 판단 차이를 실증적으로 분석하였다. 혼합효과모형 분석 결과, 모델 유형은 심각도 점수에 통계적으로 유의한 영향을 미쳤으며(p < .001), ChatGPT(2.631) > Claude(2.417) > Gemini(2.031) 순으로 심각도를 높게 평가하는 경향이 확인되었다. 모델 간 효과 크기는 중간~매우 큰 수준(d = 0.655~1.837)이었고, 반복 평가 간 변동계수(CV < 1%)는 각 모델의 판단 경향이 매우 안정적임을 보여주었다. 이는 단일 LLM에만 의존한 사용성 평가가 특정 모델의 심각도 판단 경향에 의해 영향을 받을 수 있음을 시사한다. 따라서 LLM 기반 UX 평가 시 복수 모델 교차 검증 또는 인간 전문가와의 병행 평가 전략을 적용할 것을 권장한다. | ||
