# Introduction요즘 ChatGPT처럼 똑똑한 AI들이 이미지를 이해하는 능력까지 갖추면서, Large Vision-Language Models (LVLMs)가 딥러닝 연구의 핵심으로 떠오르고 있다. 이미지나 영상 기반의 질문 응답, 설명 생성, 문서 이해 등 다양한 비전-언어 작업에서 엄청난 성능을 보여주고 있다.그런데 이런 LVLM들이 현실에 가까워질수록 큰 걸림돌이 하나 생긴다.바로 계산 비용(computational cost)이 엄청나게 높다는 점이다.이미지나 영상은 텍스트보다 훨씬 연속적이고 고해상도이며 정보 밀도도 높다. 하지만 동시에 중복도 많아서, 모든 정보를 다 처리하는 건 비효율적이다.예를 들어, 해상도가 조금만 올라가도 visual token 수가 수천에서 수만 개로 급증하고..