2025/07/09 7

[25’ CVPR] PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction (CVPR 2025)

# Introduction요즘 ChatGPT처럼 똑똑한 AI들이 이미지를 이해하는 능력까지 갖추면서, Large Vision-Language Models (LVLMs)가 딥러닝 연구의 핵심으로 떠오르고 있다. 이미지나 영상 기반의 질문 응답, 설명 생성, 문서 이해 등 다양한 비전-언어 작업에서 엄청난 성능을 보여주고 있다.그런데 이런 LVLM들이 현실에 가까워질수록 큰 걸림돌이 하나 생긴다.바로 계산 비용(computational cost)이 엄청나게 높다는 점이다.이미지나 영상은 텍스트보다 훨씬 연속적이고 고해상도이며 정보 밀도도 높다. 하지만 동시에 중복도 많아서, 모든 정보를 다 처리하는 건 비효율적이다.예를 들어, 해상도가 조금만 올라가도 visual token 수가 수천에서 수만 개로 급증하고..

[25’ ICML] SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference

# Introduction요즘 LLM(대형 언어 모델)의 발전 덕분에, 이미지와 텍스트를 동시에 이해하는 비전-언어 모델(VLM)도 빠르게 성장하고 있다.이미지에서 정보를 읽어내고, 질문에 답하거나 설명을 생성하는 작업이 이제는 꽤 자연스럽게 가능해졌다.이런 VLM들은 주로 이미지를 여러 개의 visual token으로 쪼개고, 이를 LLM과 함께 입력에 넣는 방식으로 작동한다.문제는, 이렇게 visual token을 많이 넣게 되면 계산량과 메모리 사용량이 폭발적으로 증가한다는 것이다.예를 들어, LLaVA 모델에서 672×672 이미지를 넣으면 무려 2304개의 visual token이 생성되고,이 토큰들만으로 전체 입력의 절반 이상을 차지하게 된다.하지만 텍스트와 달리, 이미지 정보는 덜 조밀하고 ..

[25’ AAAI] Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models

# Introduction요즘 이미지와 텍스트를 동시에 이해하는 멀티모달 LLM(Multimodal Large Language Models, MLLMs)이 엄청나게 주목받고 있다.이미지 설명, 웹 탐색, 문제 풀이 등 다양한 작업을 하나의 모델로 처리할 수 있기 때문이다. MLLM 문제: visual token이 증가함에 따라 계산 복잡도도 증가이런 MLLM은 보통 이미지에서 추출한 정보를 visual token 형태로 바꿔 텍스트와 함께 LLM에 넣는다. 예를 들어 LLaVA 모델은 이미지를 576개 patch로 나누어 각각을 visual token으로 변환해 사용한다. 문제는 이렇게 하면 계산량이 급격히 늘어난다는 점이다.실제로 텍스트만 사용할 때보다 6배 이상의 계산비용(FLOPs)이 드는 경우도 ..

[24’ ECCV Oral] An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models

# Introduction요즘 ChatGPT나 Gemini 같은 AI 모델들은 단순히 텍스트만 이해하는 걸 넘어서, 이미지도 같이 해석하는 멀티모달 능력을 점점 더 강화하고 있다. 이렇게 텍스트와 시각 정보를 함께 처리할 수 있는 LVLM(Large Vision-Language Model)들은 이미지 설명, 웹 탐색, 스마트폰 조작, 심지어 현실 세계에서의 의사결정까지도 가능하게 만든다.LVLM 문제: visual token이 증가함에 따라 계산 복잡도도 증가이런 LVLM들은 주로 이미지를 수백~수천 개의 visual token으로 변환한 뒤, 텍스트 프롬프트와 함께 LLM에 입력하는 구조로 동작한다. 그런데 여기엔 치명적인 단점이 하나 있다.바로 계산 복잡도(computational complexity..

[25’ ICCV] [CLS] Attention is All You Need for Training-Free Visual Token Pruning: Make VLM Inference Faster

# Introduction요즘 대세인 ChatGPT, Gemini, Claude 같은 AI는 텍스트와 이미지를 함께 이해할 수 있는 대형 비전-언어 모델(VLM) 덕분에 점점 더 똑똑해지고 있다. 그런데 흥미로운 사실이 하나 있다. 문제점: 지나치게 많은 visual tokenVLM의 입력 시퀀스에서 visual token이 차지하는 비중이 매우 높은데, 거의 90%에 달한다. 이로 인해 계산 복잡도(computational complexity)와 추론 비용(inference cost)이 급격히 증가한다.일부 연구들은 입력 이미지 해상도를 높여 성능을 개선하려 했지만, 이 역시 visual token의 개수를 증가시켜 오히려 계산 비용을 키우는 결과를 낳았다. 특히 Video-LLaVA 같은 비디오 기반..

[25' ICML] Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas

# IntroductionVLM은 왜 “책이 촛불 뒤에 있다”는 것도 잘 모를까? – ADPATVIS의 등장요즘 대세인 ChatGPT, Gemini, Claude 같은 AI는 텍스트와 이미지를 함께 이해하는 대형 비전-언어 모델(VLM) 덕분에 점점 똑똑해지고 있다. 그런데 한 가지 흥미로운 사실이 있다.아무리 성능 좋은 VLM이라도 "촛불 뒤에 책이 있다" 같은 간단한 공간 관계조차 자주 틀린다는 것이다.그 이유는 뭘까? 문제: AI는 공간 추론(Spatial Reasoning)에 약하다사람에게는 매우 쉬운 일이다.그림을 보고 “이 물체가 저 물체의 왼쪽에 있다”고 말하는 것 말이다.하지만 대형 VLM들은 이런 **기본적인 공간 개념(“left”, “right”, “behind”, “above” 등)*..

[25' CVPR] DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation

# IntroductionDiTCtrl: 프롬프트마다 장면이 바뀌는 자연스러운 영상 생성, 훈련 없이도 가능하다?영상 생성 AI가 점점 더 똑똑해지고 있다. 텍스트를 입력하면 영상 전체를 만들어주는 Text-to-Video(T2V) 모델은 Sora 같은 모델을 통해 이미 큰 주목을 받고 있다. 하지만 아직 해결되지 않은 중요한 문제가 하나 있다.바로 “다양한 프롬프트에 따라 장면이 바뀌는 자연스러운 긴 영상”을 만드는 것이다.왜 멀티 프롬프트 영상 생성은 어려울까?현재 대부분의 T2V 모델은 하나의 프롬프트에 대해 하나의 짧은 영상을 생성하도록 훈련되어 있다. 그래서 여러 프롬프트를 순서대로 넣으면 영상이 툭툭 끊기듯 이어지지 않고, 프롬프트를 하나로 합쳐도 각각의 장면 전환이 자연스럽지 않게 나타난다...