넥스트리뷰(NEXT REVIEW)새로운 디지털 서비스를 가장 쉽게 발견하는 미디어

인터랙티브 비디오 월드 모델 평가 벤치마크 'WBench' 공개

넥스트리뷰 편집부

인터랙티브 월드 모델의 체계적인 평가를 지원하는 종합 멀티턴 벤치마크 'WBench'가 공개되었습니다. 이 벤치마크는 289개의 테스트 케이스와 1,058개의 상호작용 턴을 활용해 비디오 품질, 일관성, 물리 법칙 준수 등 5개 차원에서 모델을 평가합니다.

'WBench'의 5대 평가 차원 및 다중 입력 인터페이스를 시각화한 대시보드 화면
'WBench'의 5대 평가 차원 및 다중 입력 인터페이스를 시각화한 대시보드 화면.출처: AI 생성 이미지

월드 모델 평가를 위한 종합 멀티턴 벤치마크 등장

인터랙티브 월드 모델(Interactive World Models)의 역량을 체계적으로 검증하고 평가할 수 있는 종합 멀티턴 벤치마크인 'WBench'가 공개되었습니다. 기존의 평가 방식들은 월드 모델에 요구되는 역량의 일부만 다루어 체계적인 평가 표준이 부재했으나, 이번 WBench의 도입으로 다각도적인 성능 측정이 가능해질 전망입니다.

WBench는 롱캣(LongCat) 소속의 Kaining Ying, Hengrui Hu, Siyu Ren을 비롯한 연구진이 개발하여 2026년 5월 25일에 발표했으며, 다음 날인 5월 26일에 제출되었습니다. 해당 연구는 인터랙티브 월드 모델이 빠르게 발전하는 흐름에 맞춰 상호작용 평가의 통합적인 기준을 제시하는 것을 목표로 합니다.

5개 차원 기반의 텍스트 및 다중 입력 인터페이스 평가

WBench는 모델의 성능을 총 5가지 차원에서 평가합니다. 구체적인 평가 항목은 비디오 품질(Video quality), 설정 준수 여부(Setting adherence), 상호작용 준수 여부(Interaction adherence), 일관성(Consistency), 물리 법칙 준수(Physics compliance) 등입니다.

벤치마크 데이터셋은 289개의 테스트 케이스와 1,058개의 상호작용 턴(Interaction turns)으로 구성되어 있습니다. 개별 케이스는 특정 환경 설정과 멀티턴 상호작용 시퀀스를 지정하며, 다양한 장면, 스타일, 피사체뿐만 아니라 1인칭 및 3인칭 시점을 모두 포함합니다.

상호작용 유형은 내비게이션, 피사체 행동, 이벤트 편집, 시점 전환의 4가지 종류로 분류됩니다. 특히 내비게이션 영역에서는 텍스트, 6자유도(6-DoF) 포즈, 불연속 행동 제어를 하나로 통합하여 모델이 가진 고유의 입력 인터페이스 유형과 관계없이 평가를 수행할 수 있도록 설계되었습니다.

전문 비전 및 멀티모달 모델 활용한 자동 평가 체계

성능 측정에는 전문 비전 모델과 대형 멀티모달 모델(LMM)을 결합한 22개의 자동 하위 지표(Sub-metrics)가 활용되며, 모든 지표는 인간의 판단 기준과 대조하여 검증을 거쳤습니다.

연구진이 현재 최고 수준의 AI 모델 20개를 대상으로 평가를 진행한 결과, 모든 차원에서 전반적으로 강력한 성능을 보여주는 단일 모델은 존재하지 않는 것으로 나타났습니다. WBench는 각 모델이 가진 고유의 강점과 약점, 그리고 향후 해결해야 할 과제에 대한 상세한 진단 분석을 제공합니다.

공식 사이트 방문

#WBench#월드 모델#인터랙티브 비디오#허깅페이스#롱캣