# Introduction다음 논문은 Action-Scene Hallucination 문제를 해결하기 위해 제안되었다.이는, 모델이 장면을 잘못 해석하거나, 관찰된 행동을 기반으로 scene을 잘못 추론하는 경우를 의미한다. 예를 들어, 도서관에서 복싱을 하는 영상을 보여주면, 모델은 이를 실제 복싱 경기장(boxing ring)으로 잘못 인식한다. 이는 ‘복싱’이라는 동작만 보고 그에 맞는 전형적인 장소를 상상해버리는 오류이다.또 다른 예로, 눈 덮인 산에 아무도 등장하지 않는 영상을 제시했을 때, 모델은 실제로 보이지도 않는 스키 타는 사람이나 스노보더가 있다고 잘못 예측하기도 한다. 저자들은 Video-LLM에서의 action-scene hallucination문제가 아래 두 한계 때문이라고 보고..