'📚 Study/Paper Review' 카테고리의 글 목록

[25’ CVPR] PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction (CVPR 2025)

# Introduction요즘 ChatGPT처럼 똑똑한 AI들이 이미지를 이해하는 능력까지 갖추면서, Large Vision-Language Models (LVLMs)가 딥러닝 연구의 핵심으로 떠오르고 있다. 이미지나 영상 기반의 질문 응답, 설명 생성, 문서 이해 등 다양한 비전-언어 작업에서 엄청난 성능을 보여주고 있다.그런데 이런 LVLM들이 현실에 가까워질수록 큰 걸림돌이 하나 생긴다.바로 계산 비용(computational cost)이 엄청나게 높다는 점이다.이미지나 영상은 텍스트보다 훨씬 연속적이고 고해상도이며 정보 밀도도 높다. 하지만 동시에 중복도 많아서, 모든 정보를 다 처리하는 건 비효율적이다.예를 들어, 해상도가 조금만 올라가도 visual token 수가 수천에서 수만 개로 급증하고..

📚 Study/Paper Review 2025.07.09

[25’ ICML] SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference

# Introduction요즘 LLM(대형 언어 모델)의 발전 덕분에, 이미지와 텍스트를 동시에 이해하는 비전-언어 모델(VLM)도 빠르게 성장하고 있다.이미지에서 정보를 읽어내고, 질문에 답하거나 설명을 생성하는 작업이 이제는 꽤 자연스럽게 가능해졌다.이런 VLM들은 주로 이미지를 여러 개의 visual token으로 쪼개고, 이를 LLM과 함께 입력에 넣는 방식으로 작동한다.문제는, 이렇게 visual token을 많이 넣게 되면 계산량과 메모리 사용량이 폭발적으로 증가한다는 것이다.예를 들어, LLaVA 모델에서 672×672 이미지를 넣으면 무려 2304개의 visual token이 생성되고,이 토큰들만으로 전체 입력의 절반 이상을 차지하게 된다.하지만 텍스트와 달리, 이미지 정보는 덜 조밀하고 ..

📚 Study/Paper Review 2025.07.09

[25’ AAAI] Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models

# Introduction요즘 이미지와 텍스트를 동시에 이해하는 멀티모달 LLM(Multimodal Large Language Models, MLLMs)이 엄청나게 주목받고 있다.이미지 설명, 웹 탐색, 문제 풀이 등 다양한 작업을 하나의 모델로 처리할 수 있기 때문이다. MLLM 문제: visual token이 증가함에 따라 계산 복잡도도 증가이런 MLLM은 보통 이미지에서 추출한 정보를 visual token 형태로 바꿔 텍스트와 함께 LLM에 넣는다. 예를 들어 LLaVA 모델은 이미지를 576개 patch로 나누어 각각을 visual token으로 변환해 사용한다. 문제는 이렇게 하면 계산량이 급격히 늘어난다는 점이다.실제로 텍스트만 사용할 때보다 6배 이상의 계산비용(FLOPs)이 드는 경우도 ..

📚 Study/Paper Review 2025.07.09

[24’ ECCV Oral] An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models

# Introduction요즘 ChatGPT나 Gemini 같은 AI 모델들은 단순히 텍스트만 이해하는 걸 넘어서, 이미지도 같이 해석하는 멀티모달 능력을 점점 더 강화하고 있다. 이렇게 텍스트와 시각 정보를 함께 처리할 수 있는 LVLM(Large Vision-Language Model)들은 이미지 설명, 웹 탐색, 스마트폰 조작, 심지어 현실 세계에서의 의사결정까지도 가능하게 만든다.LVLM 문제: visual token이 증가함에 따라 계산 복잡도도 증가이런 LVLM들은 주로 이미지를 수백~수천 개의 visual token으로 변환한 뒤, 텍스트 프롬프트와 함께 LLM에 입력하는 구조로 동작한다. 그런데 여기엔 치명적인 단점이 하나 있다.바로 계산 복잡도(computational complexity..

📚 Study/Paper Review 2025.07.09

[25’ ICCV] [CLS] Attention is All You Need for Training-Free Visual Token Pruning: Make VLM Inference Faster

# Introduction요즘 대세인 ChatGPT, Gemini, Claude 같은 AI는 텍스트와 이미지를 함께 이해할 수 있는 대형 비전-언어 모델(VLM) 덕분에 점점 더 똑똑해지고 있다. 그런데 흥미로운 사실이 하나 있다. 문제점: 지나치게 많은 visual tokenVLM의 입력 시퀀스에서 visual token이 차지하는 비중이 매우 높은데, 거의 90%에 달한다. 이로 인해 계산 복잡도(computational complexity)와 추론 비용(inference cost)이 급격히 증가한다.일부 연구들은 입력 이미지 해상도를 높여 성능을 개선하려 했지만, 이 역시 visual token의 개수를 증가시켜 오히려 계산 비용을 키우는 결과를 낳았다. 특히 Video-LLaVA 같은 비디오 기반..

📚 Study/Paper Review 2025.07.09

[25' ICML] Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas

# IntroductionVLM은 왜 “책이 촛불 뒤에 있다”는 것도 잘 모를까? – ADPATVIS의 등장요즘 대세인 ChatGPT, Gemini, Claude 같은 AI는 텍스트와 이미지를 함께 이해하는 대형 비전-언어 모델(VLM) 덕분에 점점 똑똑해지고 있다. 그런데 한 가지 흥미로운 사실이 있다.아무리 성능 좋은 VLM이라도 "촛불 뒤에 책이 있다" 같은 간단한 공간 관계조차 자주 틀린다는 것이다.그 이유는 뭘까? 문제: AI는 공간 추론(Spatial Reasoning)에 약하다사람에게는 매우 쉬운 일이다.그림을 보고 “이 물체가 저 물체의 왼쪽에 있다”고 말하는 것 말이다.하지만 대형 VLM들은 이런 **기본적인 공간 개념(“left”, “right”, “behind”, “above” 등)*..

📚 Study/Paper Review 2025.07.09

[25' CVPR] DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation

# IntroductionDiTCtrl: 프롬프트마다 장면이 바뀌는 자연스러운 영상 생성, 훈련 없이도 가능하다?영상 생성 AI가 점점 더 똑똑해지고 있다. 텍스트를 입력하면 영상 전체를 만들어주는 Text-to-Video(T2V) 모델은 Sora 같은 모델을 통해 이미 큰 주목을 받고 있다. 하지만 아직 해결되지 않은 중요한 문제가 하나 있다.바로 “다양한 프롬프트에 따라 장면이 바뀌는 자연스러운 긴 영상”을 만드는 것이다.왜 멀티 프롬프트 영상 생성은 어려울까?현재 대부분의 T2V 모델은 하나의 프롬프트에 대해 하나의 짧은 영상을 생성하도록 훈련되어 있다. 그래서 여러 프롬프트를 순서대로 넣으면 영상이 툭툭 끊기듯 이어지지 않고, 프롬프트를 하나로 합쳐도 각각의 장면 전환이 자연스럽지 않게 나타난다...

📚 Study/Paper Review 2025.07.09

[25’ NeurlPS] Slot-VLM: SlowFast Slots for Video-Language Modeling

# IntroductionVision-Language >>> Video-Language이미지 수준의 VLM은 MiniGPT-4, LLaVA 같은 모델들로 큰 진전을 이뤘다. 이들은 이미지의 특징을 텍스트와 잘 정렬하기 위해 다양한 구조(Q-Former, projection layers 등)를 활용했다. 하지만 "영상"은 또 다른 이야기이다.이미지는 한 장으로 정보를 담을 수 있지만, 영상은 시간 축을 따라 연속된 수많은 프레임으로 구성되어 있다. 그래서 영상 이해를 위해선 여러 프레임을 샘플링하고, 각 프레임에서 추출한 특징을 언어 모델에 넣는 방식이 자주 사용된다.예를 들어, 프레임별로 토큰을 뽑아 그대로 LLM에 쌓아 넣는 방식이 대표적이다.하지만 이 방식엔 치명적인 한계가 있다. 예를 들어 디테일을..

📚 Study/Paper Review 2025.07.08

[25' CVPR Highlights] MASH-VLM: Mitigating Action-Scene Hallucination in Video-LLMs through Disentangled Spatial-Temporal Representations

# Introduction다음 논문은 Action-Scene Hallucination 문제를 해결하기 위해 제안되었다.이는, 모델이 장면을 잘못 해석하거나, 관찰된 행동을 기반으로 scene을 잘못 추론하는 경우를 의미한다. 예를 들어, 도서관에서 복싱을 하는 영상을 보여주면, 모델은 이를 실제 복싱 경기장(boxing ring)으로 잘못 인식한다. 이는 ‘복싱’이라는 동작만 보고 그에 맞는 전형적인 장소를 상상해버리는 오류이다.또 다른 예로, 눈 덮인 산에 아무도 등장하지 않는 영상을 제시했을 때, 모델은 실제로 보이지도 않는 스키 타는 사람이나 스노보더가 있다고 잘못 예측하기도 한다. 저자들은 Video-LLM에서의 action-scene hallucination문제가 아래 두 한계 때문이라고 보고..

📚 Study/Paper Review 2025.07.03

[25’ ICLR] VIDEOGRAIN: MODULATING SPACE-TIME ATTENTION FOR MULTI-GRAINED VIDEO EDITING

# Introduction논문에서는 multi-grained video editing이라는 개념을 소개한다. 이는 편집의 세밀한 수준에 따라 class-level, instance-level, part-level의 세 가지로 구분된다. (Figure 2 왼쪽)Class-level editing은 동일한 클래스 내에서 객체를 교체하는 작업을 의미한다.Instance-level editing은 서로 다른 객체 인스턴스를 구분하고 수정하는 것이다.Part-level editing은 새로운 객체를 추가하거나 기존 객체의 속성(attribute)을 부분적으로 변경하는 작업을 포함한다. 기존의 방법들은 instance-agnostic(객체를 구분하지 못함)하기에 editing을 할 때 서로 다른 instance의..

📚 Study/Paper Review 2025.06.30

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tech blog

📚 Study/Paper Review 29

티스토리툴바