KIDRS

논문검색

논문제목사용성 문제 발견 및 평가 신뢰성을 중심으로 본 휴리스틱 평가에서 인간 전문가와 대규모 언어모델(LLM)의 차이 분석
영문Understanding the Differences Between Human Experts and LLMs in Heuristic Evaluation : Focusing on Usability Issue Discovery and Evaluation Reliability
저자전서연,이정은,허정윤첨부파일
초록
본 연구는 인간 전문가와 LLM의 휴리스틱 평가 결과를 비교하여 공통 발견 문제와 각 주체별 단독 발견 문제를 분석하고, LLM 평과 결과의 유효성과 개선안의 실행 가능성을 검토하는 것을 목적으로 한다. 이를 위해 Nielsen의 10가지 휴리스틱을 기준으로 총 40개의 의도적 사용성 문제를 삽입한 가상 열차 예매 애플리케이션 프로토타입을 제작하고, 인간 전문가와 LLM이 동일한 평가 기준에 따라 독립적으로 휴리스틱 평가를 수행하도록 하였다. 연구 결과, 인간 전문가와 LLM은 각각 대략 75% 이상의 탐지율을 보였지만 발견한 문제의 유형에는 차이가 있었다. 인간 전문가는 실제 사용 경험과 도메인 지식을 기반으로 판단해야 하는 맥락적 문제를 주로 발견한 반면, LLM은 직접 조작과 예외 상황 점검을 통해 드러나는 문제를 상대적으로 잘 발견하였으며, 두 결과를 통합 할 경우 발견 문제 범위는 92.5%까지 확장되었다. 다만 LLM이 보고한 일부 문제는 판단 근거가 충분하지 않았으며 환각 현상과 실행 가능성이 낮은 개선안도 확인 되었다. 이러한 결과는 LLM이 1차적으로 넓은 범위의 문제를 탐색하고, 인간 전문가가 그 결과를 검증·해석·우선순위화하는 협업적 휴리스틱 평가 구조의 가능성을 제안한다.