[Paper Review] Vision-Language Models for Vision Tasks: A Survey

윰갱 2025. 5. 8. 17:23

0. Abstract

기존의 visual recognition 연구는 딥 뉴럴 네트워크(DNN)를 각 visual recognition task 마다 별도로 학습시켜야 했다.
--> 이는 대규모의 수작업 라벨 데이터에 의존하며 많은 시간과 인력 자원이 소모되는 구조

이러한 문제를 해결하기 위해 최근 주목받고 있는 것이 바로 Vision-Language Models (VLMs)이다.
VLM은 (1) 웹에서 거의 무한히 얻을 수 있는 대규모 이미지-텍스트 쌍을 활용하여 시각-언어 간의 풍부한 상관관계를 학습하며,
(2) 단 하나의 모델로 다양한 visual recognition task에 대해 제로샷(Zero-Shot) 예측이 가능하다는 강점을 가진다.

이 논문은 VLM을 기반으로 한 시각 인식 기술에 대해 다음과 같은 내용을 체계적으로 정리한다:

Visual recognition 패러다임의 발전 과정
Foundations of VLM: 주요 네트워크 아키텍처, 사전학습 목표, 다운스트림 과제
Datasets: VLM 사전학습 및 평가에 널리 사용되는 데이터셋
기존 VLM의 pre-training, transfer learning, knowledge distillation 방법의 분석
다양한 VLM 방법들에 대한 벤치마킹, 성능 분석 및 논의
향후 연구 과제와 발전 방향

또한 이 서베이 논문과 연계된 프로젝트가 GitHub 링크에 공개되어 있다.

(본 repo에서 꾸준히 VLM paper들을 업데이트 해주고 있는 것을 확인할 수 있다.)

1. Introduction

1-1. 배경: Visual Recognition의 중요성과 한계

이미지 분류image classification, 객체 탐지object detection, 의미 분할semantic segmentation 등 시각 인식(Visual Recognition)은 컴퓨터 비전에서 핵심 문제이며, 자율주행, 로봇, 원격탐사 등 다양한 응용 분야의 기반임.
기존에는 딥러닝 기반의 DNN(Deep Neural Networks)으로 큰 성과를 냈지만,
- 학습 속도 느림 (from scratch 학습 시)
- 라벨링된 대규모 데이터 필요 등의 한계가 존재

1-2. 학습 패러다임: Pre-training → Fine-tuning → Prediction

사전학습된 모델을 가져와서 태스크 특화 데이터로 미세조정(Fine-tuning)하는 방식은
- 학습 수렴을 빠르게 하고,
- 다양한 다운스트림 태스크에서 좋은 성능을 냄.
하지만 여전히 태스크별 라벨링 데이터가 추가로 필요함.

1-3. 새로운 학습 패러다임: Vision-Language Models (VLMs)와 Zero-shot 예측

최근에는 VLM 사전학습 + Zero-shot 예측 방식이 주목받음.
CLIP 같은 모델은 웹상의 대규모 이미지-텍스트 쌍을 사용해 학습하고,
학습 후에는 별도 파인튜닝 없이도 다양한 태스크에 곧바로 적용 가능.

➡️ 예시: CLIP은 이미지 분류부터 행동 인식, OCR까지 총 36개 태스크에서 탁월한 zero-shot 성능을 보여줌.

1-4. 주요 연구 흐름 2가지

VLM의 성공 이후, 현재 연구는 크게 두 방향으로 나뉨:

Transfer Learning:
- Prompt tuning, visual adaptation 등을 통해 VLM을 다운스트림 태스크에 효과적으로 적응시키는 방법
Knowledge Distillation:
- VLM의 지식을 다른 모델로 증류하여 객체 탐지, 분할 등에서 성능 향상을 도모

1-5. 이 논문의 Contribution

C1	이미지 분류, 객체 탐지, 의미 분할 등 다양한 태스크를 포함한 VLM 기반 시각 인식 연구를 체계적으로 정리한 첫 서베이 논문
C2	다양한 데이터셋에서 기존 연구의 벤치마크 및 비교 제공
C3	향후 VLM 기반 시각 인식 연구를 위한 challenges 및 research directions 제안

1-6. 정리

Vision-Language Model 기반 방법 (c)은
(a)와 (b)의 Pretraining–Finetuning–Prediction 구조와 달리, 다음과 같은 특징을 갖는다:

Image–Text Pair 데이터를 활용한 학습
- 기존의 라벨된 이미지가 아닌, 웹에서 수집된 이미지–텍스트 쌍을 활용
이에 적합한 학습 objective를 사용
- 예: Contrastive Learning, Masked Cross-modal Modeling 등
Web-scale 데이터셋을 사용하여 범용 표현 학습
- 다양한 도메인의 표현을 학습함으로써 task-specific fine-tuning 없이도 zero-shot prediction 가능

최근의 VLM 연구들은 모델 성능 향상을 위해 다음의 세 가지 주요 관점에서 접근하고 있다:

정보성이 높은 대규모 이미지-텍스트 데이터 수집
- 다양한 도메인과 표현을 포함한, 학습에 유의미한 데이터 구축
대규모 데이터 학습을 위한 고용량(high-capacity) 모델 설계
- 복잡한 멀티모달 표현을 충분히 포용할 수 있는 구조 설계
VLM에 특화된 사전학습 objective 연구
- contrastive learning, masked modeling 등 효과적인 학습을 위한 목적 함수 고안

2. Background

2-1. Development of VLMs for Visual Recognition

1) Pretraining-Objective: 단일 → 복합(hybrid) 목적

초기 VLM (예: CLIP)은 contrastive learning 등 단일 학습 목적만 사용
최근 VLM들은 여러 목적을 동시에 활용해 성능 향상 시도
- Contrastive (유사도 기반 정렬)
- Alignment (특정 위치 정렬)
- Generative (텍스트 생성 등)

➡️ 서로 다른 목적 간의 시너지를 통해 더 강건한 표현 학습 가능

2) Pre-training Framework: 이중 타워(multiple separate networks) → 단일 타워(unified network)

초기에는 이미지 인코더와 텍스트 인코더가 서로 분리된 두 네트워크로 구성됨
(예: CLIP: 이미지 ↔ 텍스트 따로 처리)
최근에는 하나의 통합 네트워크(one-tower) 구조 사용 → 이미지와 텍스트를 하나의 모델이 함께 처리

➡️ 장점: GPU 메모리 절약 & 멀티모달 간 정보 교류 더 원활

3) Downstream Task: 간단한 태스크 → 복잡하고 정밀한 태스크

초기 VLM들은 이미지 분류 등 이미지 단위 태스크에 집중
최근 VLM들은 dense prediction 태스크로 확장 중
(예: 객체 탐지, 의미 분할 등 위치 인식이 필요한 작업 포함)

➡️ VLM이 점점 더 범용적이고 복합적인 시각 태스크도 처리할 수 있는 구조로 진화 중

3. VLM Foundations

3-1. Network Architectures

pre-training dataset: $D = (x_{n}^I, x_{n}^T)^N_{n=1}$

image sample $x_{n}^I$, text sample $x_{n}^T$

image encoder $f_{\theta}$, text encoder $f_{\phi}$

image embedding $z_{n}^I = f_{\theta}(x_{n}^I)$, text embedding $z_{n}^T = f_{\phi}(x_{n}^T)$

3-1-1. Architectures for Learning Image Features

CNN-based Architectures(ResNet) / Transformer-based Architectures(ViT)

3-1-2. Architectures for Learning Language Features

대부분 Transformer 또는 그 변형(GPT, BERT 등) 을 사용

3-2. VLM Pre-training Objectives

3-2-1. Contrastive Objectives

이미지와 텍스트 쌍(positive pair)은 가까이, 다른 쌍(negative)은 멀리 떨어지도록 임베딩 공간에서 학습함.

Image Contrastive Learning: 이미지들 간의 유사성(예: data augmentation된 쌍)을 기준으로 학습

$L_{I}^{InfoNCE} = -\frac{1}{B} \sum_{i = 1} ^ B log \frac{exp(z_i^I * z_+^I / \tau)}{\sum_{j = 1, i \neq j} ^ {B+1} exp(z_i^I * z_j^I / \tau)}$

Image-Text Contrastive Learning: 이미지와 텍스트 간의 임베딩을 정렬(이미지→텍스트 / 텍스트→이미지 두 방향으로 학습)

$L_{infoNCE}^{IT} = L_{I->T} + L_{T->I}$

$L_{I->T} = -\frac{1}{B} \sum_{i = 1} ^ B log \frac{exp(z_i^I * z_j^T / \tau)}{\sum_{j = 1} ^ {B} exp(z_i^I * z_j^T / \tau)}$

$L_{T->I} = -\frac{1}{B} \sum_{i = 1} ^ B log \frac{exp(z_i^T * z_j^I / \tau)}{\sum_{j = 1} ^ {B} exp(z_i^T * z_j^I / \tau)}$

Image-Text Label Contrastive Learning: 같은 클래스(label)인 이미지-텍스트 쌍을 더 가까이 정렬

$L_{infoNCE}^{ITL} = L_{I->T}^{ITL} + L_{T->I}^{ITL}$

$L_{I->T}^{ITL} = -\sum_{i = 1}^B \frac{1}{|P(i)|}\sum_{k \in P(i)}log \frac{exp(z_i^I * z_k^T / \tau)}{\sum_{j = 1} ^ {B} exp(z_i^I * z_j^T / \tau)}$

$L_{T->I}^{ITL} = -\sum_{i = 1}^B \frac{1}{|P(i)|}\sum_{k \in P(i)}log \frac{exp(z_i^T * z_k^I / \tau)}{\sum_{j = 1} ^ {B} exp(z_i^T * z_j^I / \tau)}$

3-2-2. Generative Objectives

시맨틱한 정보 학습을 위해 이미지나 텍스트를 직접 생성하거나 복원하도록 네트워크를 훈련함

일반적인 분류보다는 복원/생성 기반 예측 문제로 접근해, 보다 풍부한 표현 학습이 가능함

Masked Image Modelling (MIM): 이미지를 patch 단위로 나눈 뒤, 일부 패치를 mask하고 나머지를 이용해 복원하도록 학습 ( MAE (Masked AutoEncoder), BEiT)

$ L_{MIN} = \frac{1}{B}\sum_{i=1}^B log f_{\theta}(\bar{x}_{i}^I|\hat{x}_{i}^I)$

masked image patch $\bar{x_i}^I$, unmasked image patch $\hat{x_i}^I$

Masked Language Modeling (MLM): 자연어 텍스트에서 일부 단어를 가리고 나머지로부터 복원하도록 학습 (BERT)

(vision-language 모델에서도 텍스트 encoder 훈련 시 자주 사용됨)

$L_{MIN} = \frac{1}{B}\sum_{i=1}^B log f_{\phi}(\bar{x}_{i}^T|\hat{x}_{i}^T)$

masked token $\bar{x_i}^T$ , unmasked token $\hat{x_i}^T$

Masked Cross-Modal Modeling (MCMM): 이미지와 텍스트 모두에서 일부를 mask하고 상호 조건화를 통해 복원

(modality 간 상호작용을 깊게 학습할 수 있음)

$L_{MCM} = -\frac{1}{B} \sum_{i=1}^B [log f_{\theta}(\bar{x_i}^I|\hat{x_i}^I,\hat{x_i}^T) + log f_{\phi}(\bar{x_i}^T|\hat{x_i}^I,\hat{x_i}^T)]$

$\bar{x}_i^I/\hat{x}_i^I$: masked/unmasked patches in $x_i^T$

$\bar{x_i}^T/\hat{x_i}^T$: masked/unmasked text tokens in $x_i^T$

Image-to-Text Generation (ITG): 이미지 $z^I$를 입력받아 자연어 설명, 질문, 캡션 등을 생성

(GPT류의 autoregressive decoder를 활용하는 경우가 많음)

$L_{ITG} = - \sum_{l=1}^L logf_{\theta}(x^T|x^T_{<l},z^I)$

3-2-3. Alignment Objectives

이미지-텍스트가 서로 얼마나 관련 있는지를 정렬시켜 학습함

Image-Text Matching (ITM): 이미지-텍스트 쌍이 서로 정상적인 짝인지 여부를 분류하는 이진 분류 문제 (CLIP이나 UNITER 등에서 자주 사용)

$L_{IT} = plogS(z^I,z^T) + (1-p)log(1-S(z^I,z^T))$

$p$: image-text paired이면 1, 아니면 0

Region-Word Matching (RWM): 이미지 안의 부분(region)과 텍스트 내 단어(word)의 local 정렬을 학습 ("cat"이라는 단어와 이미지 속 고양이 영역 간 alignment)

$L_{RW} = plogS^r(r^I,w^T) + (1-p)log(1-S^r(r^I,w^T))$

$(r^I,w^T)$: region-word pair

3-3. VLM Pre-training Frameworks

VLM(Vision-Language Model)을 사전 학습할 때 사용하는 세 가지 주요 프레임워크 구조가 있다.

각각은 이미지와 텍스트를 처리하는 방식과 멀티모달 통합 전략에 따라 다르다:

구조	인코더 수	멀티모달 상호작용	대표 모델
Two-Tower	2	없음	CLIP
Two-Leg	2 + Fusion	있음	BLIP
One-Tower	1	강함	FLAVA

3-4. Evaluation Setups and Downstream Tasks

3.4.1 Zero-shot Prediction (제로샷 예측)

사전 학습된 VLM을 태스크별로 추가 학습(fine-tuning) 없이 바로 적용하여 성능 평가

downstream task	설명
Image Classification	이미지 임베딩 vs 텍스트 임베딩 비교로 분류 Prompt engineering을 통해 텍스트 쿼리를 만듦 (e.g. "a photo of a [label]")
Semantic Segmentation	각 픽셀 임베딩 vs 클래스 설명 텍스트 비교
Object Detection	객체 proposal box 임베딩 vs 텍스트 비교
Image-Text Retrieval	텍스트 → 이미지, 이미지 → 텍스트 검색

3.4.2 Linear Probing (선형 분류기 평가)

사전 학습된 VLM의 가중치는 고정하고 해당 임베딩 위에 선형 분류기만 학습하여 성능 평가

4. Datasets

4-1. Datasets for Pre-training VLMs

대부분 웹에서 수집한 대규모 이미지-텍스트 쌍 데이터를 사용
기존의 수작업 라벨링된 데이터셋(ImageNet 등)보다 훨씬 크고 비용이 저렴함
최근에는 수십억 개 규모의 데이터셋도 등장
예: LAION-5B, ALIGN 등

4-2. Datasets for VLM Evaluation

다양한 다운스트림 태스크에 따라 총 40개 이상의 평가용 데이터셋이 사용됨

5. VISION-LANGUAGE MODEL PRE-TRAINING

5-1. VLM Pre-Training with Contrastive Objectives

Image Contrastive Learning

: 이미지 내부의 표현 학습을 향상시키는 보조 목적(auxiliary)으로 사용됨

Image-Text Contrastive Learning

: 쌍을 이루는 이미지-텍스트 간 임베딩을 dot-product 기반으로 최대화하고 InfoNCE 기반 손실을 양방향(이미지→텍스트, 텍스트→이미지)으로 사용함

Image-Text-Label Contrastive Learning

: 분류(label) 정보를 함께 사용하여 이미지-텍스트-레이블을 동일한 임베딩 공간에 매핑

Dicussion

Limitation 2가지 존재

(1) contrastive learning은 positive-negative 쌍을 동시에 최적화하는게 어렵고 복잡하다.

(2) 또한 온도 하이퍼파라미터 temperature $\tau$로 feature discriminability가 필요하다.

5-2. VLM Pre-training with Generative Objectives

Masked Image Modelling (MIM)

: 이미지 패치 일부를 마스킹(masking) 한 후, 나머지 정보를 기반으로 이를 재구성함 (MAE, BEiT)

Masked Language Modelling (MLM)

: NLP에서 널리 쓰이는 방식. 문장 내 일부 토큰(예: 15%)을 마스킹 후, 나머지로 예측하도록 학습함

Masked Cross-Modal Modelling (MCM)

: 이미지 패치와 텍스트 토큰을 동시에 일부 마스킹 후, 서로의 정보를 이용해 양쪽 모두 복원 (시각 + 언어 양쪽의 공존적 의미(context) 학습 가능)

Image-to-Text Generation (ITG)

: 이미지 인코더로 시각 정보를 추출한 후, 이를 텍스트 생성(decoding) 모델에 입력하여 이미지를 설명하는 자연어 문장(= 캡션)을 생성하는 방식 (VLM이 이미지로부터 미세한 의미(세분화된 정보)까지 추론하도록 학습 가능)

Discussion

이미지나 텍스트를 생성하거나 복원하면서, 시각·언어·멀티모달 문맥을 풍부하게 학습하도록 돕는 방식이다.

보통 다른 학습 목표와 함께 보조적으로 사용되어 제로샷 성능을 향상시킨다.

5-3. VLM Pre-training with Alignment Objectives

주요 목적은 주어진 이미지와 텍스트 쌍이 의미적으로 일치하는지 여부를 예측하는 것

Image-Text Matching

: 이미지 전체와 텍스트 전체가 잘 맞는지를 판단함

예: FLAVA는 이미지와 해당 캡션이 맞는지를 분류하는 이진 분류(binary classification)를 수행함
FIBER는 더 어려운 negative sample을 pair-wise similarity를 이용해 찾아냄으로써 정렬 성능을 높임

Region-Word Matching

: 이미지 내부의 object region과 텍스트의 단어 단위를 정밀하게 대응시킴

예: GLIP, FIBER, DetCLIP 등은 객체 인식에서 각 객체(region)의 classification logits을 region-word 유사도(dot-product)로 대체함.
이를 통해 object detection이나 semantic segmentation처럼 dense prediction task에 적합한 정렬을 학습함.

Discussion

시각 또는 언어의 단일 모달리티 내부의 관계는 학습하지 못함.

그래서 일반적으로 보조 목적 함수(auxiliary loss)로 사용되어, 다른 VLM pre-training objective와 함께 활용됨

6. VLM TRANSFER LEARNING

Vision-Language Model(VLM)은 원래 zero-shot 방식으로 평가되지만, 최근에는 다양한 downstream task에 더 잘 적응하기 위해 전이 학습(Transfer Learning)이 활발히 연구되고 있다.

6-1. Motivation of Transfer learning

Pre-trained VLM이 강력한 일반화 능력을 갖고 있음에도, 실제 downstream task에 적용할 때 다음과 같은 두 가지 간극(gap)이 발생함:

도메인 차이 (Distribution Gap)
- downstream 데이터셋의 이미지 스타일이나 텍스트 형식이 pretraining 데이터와 다름
- 예: 학습 시 자연 이미지, 평가 시 의료 이미지
목표 차이 (Objective Gap)
- VLM은 보통 일반 개념 학습을 위한 task-agnostic objective로 훈련됨
- 반면, downstream task는 보통 세부 분류(coarse/fine-grained), region-level 또는 pixel-level 인식 같은 특정 목적을 지님

→ 이 두 가지 문제를 해결하기 위해 transfer learning이 필요

6-2. Common Setup of Transfer Learning

Vision-Language Model(VLM)을 실제 downstream task에 적용할 때, 도메인 간 격차(domain gap)를 줄이기 위한 세 가지 transfer learning 설정이 존재한다.

Supervised Transfer

가장 전통적인 방식으로, 전체 라벨링된 downstream 데이터를 활용하여 fine-tuning을 수행
학습 성능은 높지만, 라벨 비용이 큼

Few-shot Supervised Transfer

소량의 라벨 데이터만 활용하여 fine-tuning하는 방식
데이터가 적은 상황에서도 효과적으로 적응할 수 있어 annotation efficiency가 뛰어남

Unsupervised Transfer

라벨 없는 데이터만으로 fine-tuning하는 방법으로, 가장 도전적이지만 확장성 면에서 가장 유망한 방식
pseudo-labeling, self-training 등의 기법과 함께 사용됨

6-3. Common Transfer Learning

6-3-1. Transfer via Prompt Tuning

Prompt Tuning은 NLP에서 유래된 개념으로, 모델 파라미터는 그대로 두고, 입력(prompt)만 조절하는 방식이다.

VLM에서는 text prompt tuning, visual prompt tuning, text-visual prompt tuning 이렇게 세가지 접근이 존재한다.

Text Prompt Tuning

기존의 수동 프롬프트(예: "a photo of a [class]") 대신, 학습 가능한 텍스트 벡터(learnable text prompt)를 활용

대표 연구:

기본 개념 확장 및 과적합 해결

CoOp	클래스 이름(label)에 붙는 문맥 단어([V]1, [V]2, ..., [V]m)을 학습 가능한 벡터로 만들어 최적화
CoCoOp	프롬프트를 이미지 조건부(context conditioned)로 생성해 과적합 방지
SubPT	프롬프트 벡터의 서브스페이스(subspace)를 학습해 일반화 성능 향상
LASP	학습 가능한 프롬프트를 기존 수작업 프롬프트와 regularization함으로써 안정성 확보
VPT	프롬프트 분포를 이미지 인스턴스별로 다르게 학습해 일반화 개선
KgCoOp	새로운 클래스에도 잘 일반화되도록 텍스트 지식 망각 방지 전략 도입

다양한 태스크 적용 및 확장성 연구

SoftCPT	여러 few-shot 태스크를 동시에 학습 (multi-task prompt tuning)
PLOT	카테고리 내 다양한 특징을 설명하는 복수 프롬프트를 학습 (optimal transport 사용)
DualCoOp	멀티라벨 분류를 위해 positive + negative 프롬프트 동시 학습
TaI-DP	조잡한(coarse) + 세밀한(fine) 표현을 동시에 학습하는 이중 레벨 프롬프트 설계
DenseCLIP	dense prediction task를 위해 텍스트 프롬프트를 비주얼 피처로 튜닝
ProTeCt	계층적 분류(hierarchical classification)의 일관성 강화를 위한 프롬프트 설계

라벨 없이 학습하는 Unsupervised Prompt Tuning

UPL	pseudo-label을 선택하고 self-training을 통해 프롬프트 최적화
TPT	단 1개의 샘플만 보고 test-time에 프롬프트를 적응적으로 생성 (adaptive prompt at test time)

Visual Prompt Tuning

텍스트 대신 이미지 입력에 learnable perturbation을 더해 프롬프트로 사용.
대표 연구:
- VP: 입력 이미지 $x^I$에 작은 벡터 $v$를 더하여 $x^I + v$로 학습
- RePrompt: 이미지 프롬프트에 retrieval 기반 정보를 통합해 downstream task에 더 잘 적응
특히 pixel-level 조정이 가능하기 때문에 dense prediction task에 효과적

Text–Visual Prompt Tuning

텍스트와 이미지 양쪽에 프롬프트를 함께 학습하여 상호보완 효과를 얻는 방식
대표 연구:
- UPT: 이미지와 텍스트 프롬프트를 동시에 최적화
- MAPLE, CAVPT: cross-attention 구조를 활용해 modality 간 시너지 유도
- MVLPT: multi-task 기반 prompt 튜닝으로 학습 지식을 task 간 공유

Discussion

장점

모델 전체를 건드리지 않기 때문에(black-box) 매우 효율적
파라미터 수가 적고, 지식재산(IP) 보호가 중요한 상황에도 적합
다양한 태스크에 빠르게 적응 가능

한계

기존 VLM의 표현 공간(manifold)을 그대로 따라야 하기 때문에 표현 유연성이 낮음
특히 복잡하거나 fine-grained한 task에선 성능 저하 가능

6-3-2. Transfer via Feature Adaptation

Feature adaptation은 이미지나 텍스트 임베딩 자체를 가볍게 조정해 downstream task에 맞게 VLM을 적응시키는 방식이다.
Prompt tuning이 입력(input)을 조절했다면, feature adaptation은 중간 표현(feature)을 조절하는 방식이라고 볼 수 있다.

대표 연구 및 방식

CLIP-Adapter [33]	CLIP의 image/text encoder 뒤에 얇은 선형 레이어(adapter)를 추가하여 학습 CLIP 본체는 고정된 상태로, adapter만 학습
Tip-Adapter [34]	학습이 필요 없는 방식으로, few-shot 이미지들의 임베딩을 adapter weight로 바로 사용
SVL-Adapter [153]	self-supervised 방식의 추가 encoder를 통해 이미지 표현을 보완하는 구조를 도입

Discussion

장점
- 구조 변경이 크지 않고, 다양한 downstream task에 유연하게 맞출 수 있음
- pixel-level task나 복잡한 멀티모달 작업에도 쉽게 확장 가능
단점
- prompt tuning보다 직접적인 네트워크 구조 변경이 필요하기 때문에,
  IP 보호가 필요한 상황이나 black-box VLM에는 적용이 어려움

6-3-3. Other Transfer Methods

Prompt tuning이나 adapter 방식 외에도, 모델 구조 자체를 수정하거나 attention을 조정하는 방식도 다수 제안되고 있다.

Wise-FT [162]	pre-trained VLM과 fine-tuned VLM의 weight를 혼합(weight interpolation)하여 기존 지식을 유지하면서 새로운 태스크에 적응
MaskCLIP [163]	CLIP의 image encoder 구조를 수정하여, dense feature를 추출하는 방식으로 확장
VT-CLIP [157]	이미지에서 유도된 시각적 정보로 텍스트 attention을 강화하여, 시맨틱 정렬 성능을 향상
CALIP [158]	parameter-free attention을 도입해, 텍스트와 이미지 간 효율적인 정보 교환을 가능하게 함
TaskRes [159]	pre-trained VLM의 기존 텍스트 기반 분류기(classifier)를 재활용하면서 downstream task에 맞게 조정
CuPL [160], VCD [161]	GPT-3 등 대형 언어모델을 활용해, 풍부하고 구분력 있는 텍스트 프롬프트를 생성함으로써 VLM의 분류 성능을 강화

6-3-4. Summary

Prompt Tuning과 Feature Adapter는 VLM 전이학습에서 가장 널리 쓰이는 두 가지 대표적인 접근 방식

Prompt Tuning은 입력 텍스트나 이미지 자체를 수정하고,
Feature Adapter는 이미지/텍스트 특징(feature)을 조정하는 방식

두 방식 모두 기존 VLM 파라미터를 고정(freeze)하고, 아주 적은 수의 학습 가능한 파라미터만 도입하기 때문에 전이 효율이 높다.
대부분의 연구는 few-shot 학습 기반의 supervised transfer에 초점을 맞추지만,
최근에는 라벨 없이 학습하는 unsupervised transfer 방식도 다양한 태스크에서 경쟁력 있는 성능을 보이며 주목받고 있다.

7. VLM KNOWLEDGE DISTILLATION

최근에는 이러한 VLM의 범용 표현력을 object detection, semantic segmentation 같은
밀도 예측(dense prediction) 과제에 효과적으로 전이하기 위한 연구들이 활발히 진행되고 있다.

7-1. Motivation of Distilling Knowledge from VLMs

대부분의 Vision-Language Model(VLM)은 이미지 전체(image-level) 표현을 중심으로 학습된다.

반면, 실제 많은 비전 과제는 object-level(region-level)이나 pixel-level 표현이 요구된다.

따라서 VLM이 가진 넓고 일반화된 시각-언어 지식을 더 세밀한 수준의 태스크에 맞게 증류(distill)하는 방법이 필요하다.

VLM의 표현을 Faster R-CNN, DETR 등 다른 detection 아키텍처로 이전할 수 있다.

7-2. Common Knowledge Distillation Methods

7-2-1. Knowledge Distillation for Object Detection

open-vocabulary detection: 기존 분류 범위를 넘어, 텍스트로 기술 가능한 임의의 객체 카테고리까지 인식하도록 detector를 확장

ViLD	CLIP의 이미지 임베딩 공간과 일치하도록 two-stage detector 학습
HierKD	글로벌 + 로컬 지식을 계층적으로 증류
RKD	이미지 ↔ 객체(region) 간 정렬 학습
ZSD-YOLO	CLIP + pseudo label 기반 self-labelling 증강
OADP	proposal feature 보존 + 컨텍스트 정보 전달
RO-ViT	개별 객체가 아닌 region 집합(bag of regions) 단위로 증류
BARON	주변 지역(neighborhood) 정보 활용
DetPro / PromptDet	region-level prompt 학습으로 정렬 개선
PB-OVD / XPM / P3OVD	CLIP으로부터 생성한 pseudo bounding box/mask를 self-training에 활용

7-2-2. Knowledge Distillation for Semantic Segmentation

기존 segmentation 모델은 base class에 한정되는 경우가 많다.

VLM의 표현을 pixel-level로 확장하여, open-vocabulary pixel segmentation이 가능하도록 한다.

CLIPSeg	CLIP 기반 + transformer decoder로 경량 segmentation 구조 구현
LSeg	CLIP 텍스트 임베딩과 pixel-level 이미지 임베딩 간 상관성 극대화
ZegCLIP	CLIP으로 semantic mask 생성 + 관계 디스크립터로 overfitting 방지
MaskCLIP+ / SSIW	CLIP 기반 pseudo pixel label을 생성 후 증류
FreeSeg	mask 후보 → zero-shot 분류 구조 적용
CLIP-ES	CAM + CLIP 정렬 → 카테고리 혼동 완화
CLIMS	CLIP으로부터 고품질 CAM을 생성하여 약지도 성능 향상

7-3. Summary and Discussion

주요 구분 기준

Object Detection	이미지-level ↔ 객체-level 정렬 강화
Semantic Segmentation	이미지-level ↔ 픽셀-level 정렬 해결

접근 방식 분류

Feature-space distillation	VLM encoder와 detection/segmentation encoder 간 임베딩 정렬
Pseudolabelling distillation	CLIP 등의 VLM이 생성한 pseudo-label을 활용해 regularization 수행

VLM knowledge distillation은 기존 transfer 방식보다 더 높은 유연성과 확장성을 제공하며,

detection, segmentation처럼 복잡한 dense task에도 VLM의 범용 지식을 효과적으로 이전할 수 있는 강력한 접근이다.

8. PERFORMANCE COMPARISON

8-1. Performance of VLM Pre-training

Vision-Language Model(VLM)은
사전학습(pre-training)만으로도 제로샷(zero-shot) 방식으로 다양한 시각 인식 태스크에서 뛰어난 성능을 보인다.

평가 대상 태스크

이미지 분류 (image classification)
객체 탐지 (object detection)
의미 분할 (semantic segmentation)

VLM 성능을 결정짓는 3가지 핵심 요인

1. Big Data	인터넷 기반의 거대한 이미지-텍스트 쌍으로 학습 (수백만~수십억 개), 다양한 개념을 포괄하여 일반화 성능 향상
2. Big Model	ViT-L, ViT-G 등 초대형 모델(ex: COCA의 ViT-G는 20억 파라미터)을 사용해 데이터 표현력 강화
3. Task-agnostic Supervision	텍스트는 특정 태스크에 종속되지 않고, 다양하고 풍부한 정보 제공 → 다양한 태스크에 유연하게 대응 가능

Performance of VLM pre-training methods over zero-shot prediction setup on segmentation task & detection task

해당 분야는 아직 연구가 적어 제한적이지만, 제로샷으로도 성능이 상당히 경쟁력 있음

Limitation of VLMs

(1) 성능 포화	데이터/모델을 아무리 키워도 일정 수준 이후에는 성능 향상이 정체된다.
(2) 자원 소모 큼	대규모 데이터 학습은 수백 개의 GPU, 수백 시간의 연산 시간이 필요 (예: CLIP ViT-L은 256 V100 GPU, 288시간 필요)
(3) 추론 부담	대형 모델은 학습뿐 아니라 추론 시에도 메모리와 연산 비용이 매우 큼

8-2. Performance of VLM Transfer Learning

VLM은 사전학습만으로도 제로샷 추론이 가능하지만, 실제 태스크에서 도메인 갭(domain gap)이 존재할 수 있다.
이를 해결하기 위해 다양한 방식의 전이 학습(Transfer Learning)이 사용된다.

본 절에서는 다음 세 가지 방식의 성능을 비교한다:

Supervised Transfer
Few-shot Supervised Transfer
Unsupervised Transfer

핵심 결론

1. 모든 Transfer 방식은 도메인 갭을 줄여 성능 향상에 기여한다

VLM은 사전학습 데이터와 downstream 태스크 간 도메인 차이가 존재할 수 있음
전이 학습은 라벨이 있든 없든 이 차이를 줄이는 데 효과적임
→ supervised, few-shot, unsupervised 모두 성능 향상에 기여함

Supervised	Wise-FT	+10.9%
Few-shot	CoOp (16-shot)	+1.7%
Unsupervised	TPT	+0.8%

2. Few-shot transfer는 supervised transfer보다 성능이 낮다

예:
- Wise-FT (supervised) → 87.1%
- CuPL (few-shot) → 76.6%
이유:
- few-shot 환경에서는 라벨 수가 적어 과적합(overfitting)이 발생하기 쉬움
- VLM의 일반화 능력이 제한될 수 있음

3. Unsupervised transfer는 few-shot transfer와 유사하거나 더 뛰어날 수 있다

예시:
- UPL (unsupervised) > 2-shot CoOp (+0.4%)
- TPT (unsupervised) ≒ 16-shot CoOp
이유:
- 라벨 없이 더 많은 데이터 사용 가능 → 일반화에 유리
- 과적합 위험이 적음
단점:
- pseudo-label이 노이즈가 많을 수 있음
- 여전히 연구 초기 단계, 성숙도는 낮음

8-3. Performance of VLM Knowledge Distillation

지식 증류는 성능을 안정적으로 향상시킨다

대부분의 detection 및 segmentation 모델에서 baseline 대비 성능이 향상됨
이는 단순한 구조 개선보다 VLM이 가진 일반화된 표현을 잘 활용한 결과

8-4. Summary

1) VLM Pre-training:

이미지 분류(분류 중심 태스크)에는 매우 효과적,그러나 dense task(탐지·분할)에는 여전히 미흡

장점/한계

- 잘 설계된 pre-training objective 덕분에 제로샷 이미지 분류 성능이 매우 우수	- region/pixel 수준의 dense 태스크(detection/segmentation)는 연구 부족
- COCA, FILIP, CLIP 등은 다양한 task에서 strong performance 달성	- pre-training에서 사용하는 데이터·모델·태스크가 제각각이라 공정한 비교 어려움

2) VLM Transfer Learning:

다양한 백본과 데이터셋에서 안정적인 성능 향상하지만 아직 라벨 의존성이 크거나, unsupervised는 소외됨

장점/한계

- ResNet, ViT, Transformer 등 다양한 백본에서 높은 성능	- Supervised/few-shot 방식은 라벨 필요
- 대부분 동일한 pre-trained 모델과 downstream task로 실험하여 재현성과 벤치마킹 용이	- Unsupervised transfer는 유망하지만 아직 많이 연구되지 않음

3) VLM Knowledge Distillation:

복잡한 태스크에 맞춰 일반화된 지식을 효율적으로 전이하지만 백본 다양성으로 인해 벤치마킹이 어려움

장점/한계

- Faster R-CNN, DETR 등 task-specific 구조와 결합해 성능 향상	- 백본과 구조가 제각각(ViLD vs OV-DETR 등) → 일관된 비교 어려움
- Detection/segmentation에서도 CLIP의 지식을 효과적으로 활용	- downstream 구조나 학습 방식에 따라 결과 편차가 큼

9. FUTURE DIRECTIONS

Vision-Language Model(VLM)은 지금까지 놀라운 성과를 보여주었지만,
그 잠재력을 극대화하기 위해 해결해야 할 과제도 분명히 존재한다.

9-1. VLM Pre-training의 주요 과제

(1) 정밀한 비전-언어 정렬 학습 (Fine-grained correlation modelling)

기존 VLM은 주로 이미지 전체와 텍스트 간의 정렬을 학습한다.
하지만 객체 탐지나 의미 분할과 같은 밀도 예측 태스크에서는
영역(region)이나 픽셀 수준의 정밀한 정렬이 요구된다.
아직 이 분야의 연구는 많지 않아, 제로샷 밀도 예측을 위한 정밀 학습 연구가 필요하다.

(2) 비전과 언어의 통합 학습 (Unification of vision and language learning)

기존 VLM은 이미지와 텍스트를 각각 다른 인코더로 처리한다.
Transformer의 등장은 이미지와 텍스트를 동일한 토큰 처리 방식으로 통합할 수 있는 가능성을 열었다.
단일 네트워크 안에서 멀티모달 학습을 수행하면, 효율성과 효과 모두 향상될 수 있다.

(3) 다국어 기반의 VLM 사전학습 (Multilingual VLMs)

현재 대부분의 VLM은 영어만으로 학습되어 있다.
이는 문화적/지역적 편향을 유발할 수 있으며, 다국어 환경에서의 적용성을 떨어뜨린다.
다양한 언어로 된 텍스트를 포함하여 학습하면, 다양한 언어적 표현과 문화적 시각 특성을 포괄하는 모델이 될 수 있다.

(4) 데이터 효율적인 VLM 학습 (Data-efficient VLMs)

대부분의 VLM은 수억 개의 이미지-텍스트 쌍과 막대한 연산 자원을 사용해 학습된다.
지속가능한 모델을 위해, 적은 데이터로도 학습 가능한 효율적인 VLM 구조가 요구된다.
예: 이미지 간 관계, 쌍 간 비교 등 보다 정교한 학습 supervision 활용

(5) LLM과의 융합을 통한 사전학습 강화 (Pre-training with LLMs)

최근 연구에서는 LLM(GPT 등)을 활용해 텍스트 설명을 확장하여
VLM의 언어적 이해력을 향상시키는 시도가 이루어지고 있다.
향후 VLM 사전학습에서 LLM을 더욱 적극적으로 결합하는 연구가 기대된다.

9-2. VLM Transfer learning의 주요 과제

(1) Unsupervised Transfer

많은 연구가 supervised나 few-shot에 집중되어 있으나,
unsupervised 방식은 라벨 비용이 없고 과적합 위험이 낮아 매우 유망하다.
더 정교한 pseudo-label 생성, self-training 방식 연구가 필요하다.

(2) Visual Prompt/Adapter 기반 전이

대부분의 기존 연구는 텍스트 프롬프트(text prompt)에 집중되어 있음
그러나 이미지 입력 자체를 조절하는 visual prompt 또는 adapter는
특히 픽셀 단위 조정이 필요한 태스크에서 더 효과적일 수 있다.
이 분야는 현재까지 많이 소외되어 있으며, 향후 활발한 연구가 필요하다.

(3) Test-time Transfer

기존의 전이 학습은 매번 태스크별로 파인튜닝이 필요해 반복적인 학습 비용이 든다.
반면, 테스트 시점에 프롬프트를 적응적으로 조정(test-time prompt tuning)하는 방식은
훨씬 더 효율적인 멀티태스크 대응이 가능하다.

(4) LLM을 활용한 자동 프롬프트 생성

수동 설계 대신, LLM(GPT 등)을 활용해 다운스트림 태스크에 맞는 프롬프트를 자동 생성하는 시도들이 등장하고 있다.
이는 거의 라벨 없이도 학습이 가능하다는 점에서, 저비용 전이 방식으로 매우 유망하다.

9-3. VLM Knowledge Distillation의 주요 과제

(1) 다수 VLM으로부터의 지식 증류

여러 VLM이 가진 표현력을 통합·보완적으로 증류함으로써 시너지 효과를 얻을 수 있음

(2) 다양한 비전 태스크로 확장

현재는 object detection과 semantic segmentation에 국한된 경우가 많음
향후에는 instance segmentation, panoptic segmentation, person re-ID 등
다양한 비전 태스크로 distillation 연구를 확장할 수 있다.