[Paper Review] Vision-Language Models for Vision Tasks: A Survey
0. Abstract
๊ธฐ์กด์ visual recognition ์ฐ๊ตฌ๋ ๋ฅ ๋ด๋ด ๋คํธ์ํฌ(DNN)๋ฅผ ๊ฐ visual recognition task ๋ง๋ค ๋ณ๋๋ก ํ์ต์์ผ์ผ ํ๋ค.
--> ์ด๋ ๋๊ท๋ชจ์ ์์์
๋ผ๋ฒจ ๋ฐ์ดํฐ์ ์์กดํ๋ฉฐ ๋ง์ ์๊ฐ๊ณผ ์ธ๋ ฅ ์์์ด ์๋ชจ๋๋ ๊ตฌ์กฐ
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ต๊ทผ ์ฃผ๋ชฉ๋ฐ๊ณ ์๋ ๊ฒ์ด ๋ฐ๋ก Vision-Language Models (VLMs)์ด๋ค.
VLM์ (1) ์น์์ ๊ฑฐ์ ๋ฌดํํ ์ป์ ์ ์๋ ๋๊ท๋ชจ ์ด๋ฏธ์ง-ํ
์คํธ ์์ ํ์ฉํ์ฌ ์๊ฐ-์ธ์ด ๊ฐ์ ํ๋ถํ ์๊ด๊ด๊ณ๋ฅผ ํ์ตํ๋ฉฐ,
(2) ๋จ ํ๋์ ๋ชจ๋ธ๋ก ๋ค์ํ visual recognition task์ ๋ํด ์ ๋ก์ท(Zero-Shot) ์์ธก์ด ๊ฐ๋ฅํ๋ค๋ ๊ฐ์ ์ ๊ฐ์ง๋ค.
์ด ๋ ผ๋ฌธ์ VLM์ ๊ธฐ๋ฐ์ผ๋ก ํ ์๊ฐ ์ธ์ ๊ธฐ์ ์ ๋ํด ๋ค์๊ณผ ๊ฐ์ ๋ด์ฉ์ ์ฒด๊ณ์ ์ผ๋ก ์ ๋ฆฌํ๋ค:
- Visual recognition ํจ๋ฌ๋ค์์ ๋ฐ์ ๊ณผ์
- Foundations of VLM: ์ฃผ์ ๋คํธ์ํฌ ์ํคํ ์ฒ, ์ฌ์ ํ์ต ๋ชฉํ, ๋ค์ด์คํธ๋ฆผ ๊ณผ์
- Datasets: VLM ์ฌ์ ํ์ต ๋ฐ ํ๊ฐ์ ๋๋ฆฌ ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ์
- ๊ธฐ์กด VLM์ pre-training, transfer learning, knowledge distillation ๋ฐฉ๋ฒ์ ๋ถ์
- ๋ค์ํ VLM ๋ฐฉ๋ฒ๋ค์ ๋ํ ๋ฒค์น๋งํน, ์ฑ๋ฅ ๋ถ์ ๋ฐ ๋ ผ์
- ํฅํ ์ฐ๊ตฌ ๊ณผ์ ์ ๋ฐ์ ๋ฐฉํฅ
๋ํ ์ด ์๋ฒ ์ด ๋ ผ๋ฌธ๊ณผ ์ฐ๊ณ๋ ํ๋ก์ ํธ๊ฐ GitHub ๋งํฌ์ ๊ณต๊ฐ๋์ด ์๋ค.
(๋ณธ repo์์ ๊พธ์คํ VLM paper๋ค์ ์ ๋ฐ์ดํธ ํด์ฃผ๊ณ ์๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.)
1. Introduction
1-1. ๋ฐฐ๊ฒฝ: Visual Recognition์ ์ค์์ฑ๊ณผ ํ๊ณ
- ์ด๋ฏธ์ง ๋ถ๋ฅimage classification, ๊ฐ์ฒด ํ์งobject detection, ์๋ฏธ ๋ถํ semantic segmentation ๋ฑ ์๊ฐ ์ธ์(Visual Recognition)์ ์ปดํจํฐ ๋น์ ์์ ํต์ฌ ๋ฌธ์ ์ด๋ฉฐ, ์์จ์ฃผํ, ๋ก๋ด, ์๊ฒฉํ์ฌ ๋ฑ ๋ค์ํ ์์ฉ ๋ถ์ผ์ ๊ธฐ๋ฐ์.
- ๊ธฐ์กด์๋ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ์ DNN(Deep Neural Networks)์ผ๋ก ํฐ ์ฑ๊ณผ๋ฅผ ๋์ง๋ง,
- ํ์ต ์๋ ๋๋ฆผ (from scratch ํ์ต ์)
- ๋ผ๋ฒจ๋ง๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ ํ์ ๋ฑ์ ํ๊ณ๊ฐ ์กด์ฌ
1-2. ํ์ต ํจ๋ฌ๋ค์: Pre-training → Fine-tuning → Prediction
- ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ๊ฐ์ ธ์์ ํ์คํฌ ํนํ ๋ฐ์ดํฐ๋ก ๋ฏธ์ธ์กฐ์ (Fine-tuning)ํ๋ ๋ฐฉ์์
- ํ์ต ์๋ ด์ ๋น ๋ฅด๊ฒ ํ๊ณ ,
- ๋ค์ํ ๋ค์ด์คํธ๋ฆผ ํ์คํฌ์์ ์ข์ ์ฑ๋ฅ์ ๋.
- ํ์ง๋ง ์ฌ์ ํ ํ์คํฌ๋ณ ๋ผ๋ฒจ๋ง ๋ฐ์ดํฐ๊ฐ ์ถ๊ฐ๋ก ํ์ํจ.
1-3. ์๋ก์ด ํ์ต ํจ๋ฌ๋ค์: Vision-Language Models (VLMs)์ Zero-shot ์์ธก
- ์ต๊ทผ์๋ VLM ์ฌ์ ํ์ต + Zero-shot ์์ธก ๋ฐฉ์์ด ์ฃผ๋ชฉ๋ฐ์.
- CLIP ๊ฐ์ ๋ชจ๋ธ์ ์น์์ ๋๊ท๋ชจ ์ด๋ฏธ์ง-ํ ์คํธ ์์ ์ฌ์ฉํด ํ์ตํ๊ณ ,
- ํ์ต ํ์๋ ๋ณ๋ ํ์ธํ๋ ์์ด๋ ๋ค์ํ ํ์คํฌ์ ๊ณง๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅ.
โก๏ธ ์์: CLIP์ ์ด๋ฏธ์ง ๋ถ๋ฅ๋ถํฐ ํ๋ ์ธ์, OCR๊น์ง ์ด 36๊ฐ ํ์คํฌ์์ ํ์ํ zero-shot ์ฑ๋ฅ์ ๋ณด์ฌ์ค.
1-4. ์ฃผ์ ์ฐ๊ตฌ ํ๋ฆ 2๊ฐ์ง
VLM์ ์ฑ๊ณต ์ดํ, ํ์ฌ ์ฐ๊ตฌ๋ ํฌ๊ฒ ๋ ๋ฐฉํฅ์ผ๋ก ๋๋จ:
- Transfer Learning:
- Prompt tuning, visual adaptation ๋ฑ์ ํตํด VLM์ ๋ค์ด์คํธ๋ฆผ ํ์คํฌ์ ํจ๊ณผ์ ์ผ๋ก ์ ์์ํค๋ ๋ฐฉ๋ฒ
- Knowledge Distillation:
- VLM์ ์ง์์ ๋ค๋ฅธ ๋ชจ๋ธ๋ก ์ฆ๋ฅํ์ฌ ๊ฐ์ฒด ํ์ง, ๋ถํ ๋ฑ์์ ์ฑ๋ฅ ํฅ์์ ๋๋ชจ
1-5. ์ด ๋ ผ๋ฌธ์ Contribution
C1 | ์ด๋ฏธ์ง ๋ถ๋ฅ, ๊ฐ์ฒด ํ์ง, ์๋ฏธ ๋ถํ ๋ฑ ๋ค์ํ ํ์คํฌ๋ฅผ ํฌํจํ VLM ๊ธฐ๋ฐ ์๊ฐ ์ธ์ ์ฐ๊ตฌ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ ๋ฆฌํ ์ฒซ ์๋ฒ ์ด ๋ ผ๋ฌธ |
C2 | ๋ค์ํ ๋ฐ์ดํฐ์ ์์ ๊ธฐ์กด ์ฐ๊ตฌ์ ๋ฒค์น๋งํฌ ๋ฐ ๋น๊ต ์ ๊ณต |
C3 | ํฅํ VLM ๊ธฐ๋ฐ ์๊ฐ ์ธ์ ์ฐ๊ตฌ๋ฅผ ์ํ challenges ๋ฐ research directions ์ ์ |
1-6. ์ ๋ฆฌ
Vision-Language Model ๊ธฐ๋ฐ ๋ฐฉ๋ฒ (c)์
(a)์ (b)์ Pretraining–Finetuning–Prediction ๊ตฌ์กฐ์ ๋ฌ๋ฆฌ, ๋ค์๊ณผ ๊ฐ์ ํน์ง์ ๊ฐ๋๋ค:
- Image–Text Pair ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ํ์ต
- ๊ธฐ์กด์ ๋ผ๋ฒจ๋ ์ด๋ฏธ์ง๊ฐ ์๋, ์น์์ ์์ง๋ ์ด๋ฏธ์ง–ํ ์คํธ ์์ ํ์ฉ - ์ด์ ์ ํฉํ ํ์ต objective๋ฅผ ์ฌ์ฉ
- ์: Contrastive Learning, Masked Cross-modal Modeling ๋ฑ - Web-scale ๋ฐ์ดํฐ์
์ ์ฌ์ฉํ์ฌ ๋ฒ์ฉ ํํ ํ์ต
- ๋ค์ํ ๋๋ฉ์ธ์ ํํ์ ํ์ตํจ์ผ๋ก์จ task-specific fine-tuning ์์ด๋ zero-shot prediction ๊ฐ๋ฅ
์ต๊ทผ์ VLM ์ฐ๊ตฌ๋ค์ ๋ชจ๋ธ ์ฑ๋ฅ ํฅ์์ ์ํด ๋ค์์ ์ธ ๊ฐ์ง ์ฃผ์ ๊ด์ ์์ ์ ๊ทผํ๊ณ ์๋ค:
- ์ ๋ณด์ฑ์ด ๋์ ๋๊ท๋ชจ ์ด๋ฏธ์ง-ํ
์คํธ ๋ฐ์ดํฐ ์์ง
- ๋ค์ํ ๋๋ฉ์ธ๊ณผ ํํ์ ํฌํจํ, ํ์ต์ ์ ์๋ฏธํ ๋ฐ์ดํฐ ๊ตฌ์ถ - ๋๊ท๋ชจ ๋ฐ์ดํฐ ํ์ต์ ์ํ ๊ณ ์ฉ๋(high-capacity) ๋ชจ๋ธ ์ค๊ณ
- ๋ณต์กํ ๋ฉํฐ๋ชจ๋ฌ ํํ์ ์ถฉ๋ถํ ํฌ์ฉํ ์ ์๋ ๊ตฌ์กฐ ์ค๊ณ - VLM์ ํนํ๋ ์ฌ์ ํ์ต objective ์ฐ๊ตฌ
- contrastive learning, masked modeling ๋ฑ ํจ๊ณผ์ ์ธ ํ์ต์ ์ํ ๋ชฉ์ ํจ์ ๊ณ ์
2. Background
2-1. Development of VLMs for Visual Recognition
1) Pretraining-Objective: ๋จ์ผ → ๋ณตํฉ(hybrid) ๋ชฉ์
- ์ด๊ธฐ VLM (์: CLIP)์ contrastive learning ๋ฑ ๋จ์ผ ํ์ต ๋ชฉ์ ๋ง ์ฌ์ฉ
- ์ต๊ทผ VLM๋ค์ ์ฌ๋ฌ ๋ชฉ์ ์ ๋์์ ํ์ฉํด ์ฑ๋ฅ ํฅ์ ์๋
- Contrastive (์ ์ฌ๋ ๊ธฐ๋ฐ ์ ๋ ฌ)
- Alignment (ํน์ ์์น ์ ๋ ฌ)
- Generative (ํ ์คํธ ์์ฑ ๋ฑ)
โก๏ธ ์๋ก ๋ค๋ฅธ ๋ชฉ์ ๊ฐ์ ์๋์ง๋ฅผ ํตํด ๋ ๊ฐ๊ฑดํ ํํ ํ์ต ๊ฐ๋ฅ
2) Pre-training Framework: ์ด์ค ํ์(multiple separate networks) → ๋จ์ผ ํ์(unified network)
- ์ด๊ธฐ์๋ ์ด๋ฏธ์ง ์ธ์ฝ๋์ ํ ์คํธ ์ธ์ฝ๋๊ฐ ์๋ก ๋ถ๋ฆฌ๋ ๋ ๋คํธ์ํฌ๋ก ๊ตฌ์ฑ๋จ
- (์: CLIP: ์ด๋ฏธ์ง ↔ ํ ์คํธ ๋ฐ๋ก ์ฒ๋ฆฌ)
- ์ต๊ทผ์๋ ํ๋์ ํตํฉ ๋คํธ์ํฌ(one-tower) ๊ตฌ์กฐ ์ฌ์ฉ → ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ํ๋์ ๋ชจ๋ธ์ด ํจ๊ป ์ฒ๋ฆฌ
โก๏ธ ์ฅ์ : GPU ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ & ๋ฉํฐ๋ชจ๋ฌ ๊ฐ ์ ๋ณด ๊ต๋ฅ ๋ ์ํ
3) Downstream Task: ๊ฐ๋จํ ํ์คํฌ → ๋ณต์กํ๊ณ ์ ๋ฐํ ํ์คํฌ
- ์ด๊ธฐ VLM๋ค์ ์ด๋ฏธ์ง ๋ถ๋ฅ ๋ฑ ์ด๋ฏธ์ง ๋จ์ ํ์คํฌ์ ์ง์ค
- ์ต๊ทผ VLM๋ค์ dense prediction ํ์คํฌ๋ก ํ์ฅ ์ค
- (์: ๊ฐ์ฒด ํ์ง, ์๋ฏธ ๋ถํ ๋ฑ ์์น ์ธ์์ด ํ์ํ ์์ ํฌํจ)
โก๏ธ VLM์ด ์ ์ ๋ ๋ฒ์ฉ์ ์ด๊ณ ๋ณตํฉ์ ์ธ ์๊ฐ ํ์คํฌ๋ ์ฒ๋ฆฌํ ์ ์๋ ๊ตฌ์กฐ๋ก ์งํ ์ค
3. VLM Foundations
3-1. Network Architectures
pre-training dataset: $D = (x_{n}^I, x_{n}^T)^N_{n=1}$
image sample $x_{n}^I$, text sample $x_{n}^T$
image encoder $f_{\theta}$, text encoder $f_{\phi}$
image embedding $z_{n}^I = f_{\theta}(x_{n}^I)$, text embedding $z_{n}^T = f_{\phi}(x_{n}^T)$
3-1-1. Architectures for Learning Image Features
CNN-based Architectures(ResNet) / Transformer-based Architectures(ViT)
3-1-2. Architectures for Learning Language Features
๋๋ถ๋ถ Transformer ๋๋ ๊ทธ ๋ณํ(GPT, BERT ๋ฑ) ์ ์ฌ์ฉ
3-2. VLM Pre-training Objectives
3-2-1. Contrastive Objectives
์ด๋ฏธ์ง์ ํ ์คํธ ์(positive pair)์ ๊ฐ๊น์ด, ๋ค๋ฅธ ์(negative)์ ๋ฉ๋ฆฌ ๋จ์ด์ง๋๋ก ์๋ฒ ๋ฉ ๊ณต๊ฐ์์ ํ์ตํจ.
Image Contrastive Learning: ์ด๋ฏธ์ง๋ค ๊ฐ์ ์ ์ฌ์ฑ(์: data augmentation๋ ์)์ ๊ธฐ์ค์ผ๋ก ํ์ต
$L_{I}^{InfoNCE} = -\frac{1}{B} \sum_{i = 1} ^ B log \frac{exp(z_i^I * z_+^I / \tau)}{\sum_{j = 1, i \neq j} ^ {B+1} exp(z_i^I * z_j^I / \tau)}$
Image-Text Contrastive Learning: ์ด๋ฏธ์ง์ ํ ์คํธ ๊ฐ์ ์๋ฒ ๋ฉ์ ์ ๋ ฌ(์ด๋ฏธ์ง→ํ ์คํธ / ํ ์คํธ→์ด๋ฏธ์ง ๋ ๋ฐฉํฅ์ผ๋ก ํ์ต)
$L_{infoNCE}^{IT} = L_{I->T} + L_{T->I}$
$L_{I->T} = -\frac{1}{B} \sum_{i = 1} ^ B log \frac{exp(z_i^I * z_j^T / \tau)}{\sum_{j = 1} ^ {B} exp(z_i^I * z_j^T / \tau)}$
$L_{T->I} = -\frac{1}{B} \sum_{i = 1} ^ B log \frac{exp(z_i^T * z_j^I / \tau)}{\sum_{j = 1} ^ {B} exp(z_i^T * z_j^I / \tau)}$
Image-Text Label Contrastive Learning: ๊ฐ์ ํด๋์ค(label)์ธ ์ด๋ฏธ์ง-ํ ์คํธ ์์ ๋ ๊ฐ๊น์ด ์ ๋ ฌ
$L_{infoNCE}^{ITL} = L_{I->T}^{ITL} + L_{T->I}^{ITL}$
$L_{I->T}^{ITL} = -\sum_{i = 1}^B \frac{1}{|P(i)|}\sum_{k \in P(i)}log \frac{exp(z_i^I * z_k^T / \tau)}{\sum_{j = 1} ^ {B} exp(z_i^I * z_j^T / \tau)}$
$L_{T->I}^{ITL} = -\sum_{i = 1}^B \frac{1}{|P(i)|}\sum_{k \in P(i)}log \frac{exp(z_i^T * z_k^I / \tau)}{\sum_{j = 1} ^ {B} exp(z_i^T * z_j^I / \tau)}$
3-2-2. Generative Objectives
์๋งจํฑํ ์ ๋ณด ํ์ต์ ์ํด ์ด๋ฏธ์ง๋ ํ ์คํธ๋ฅผ ์ง์ ์์ฑํ๊ฑฐ๋ ๋ณต์ํ๋๋ก ๋คํธ์ํฌ๋ฅผ ํ๋ จํจ
์ผ๋ฐ์ ์ธ ๋ถ๋ฅ๋ณด๋ค๋ ๋ณต์/์์ฑ ๊ธฐ๋ฐ ์์ธก ๋ฌธ์ ๋ก ์ ๊ทผํด, ๋ณด๋ค ํ๋ถํ ํํ ํ์ต์ด ๊ฐ๋ฅํจ
Masked Image Modelling (MIM): ์ด๋ฏธ์ง๋ฅผ patch ๋จ์๋ก ๋๋ ๋ค, ์ผ๋ถ ํจ์น๋ฅผ maskํ๊ณ ๋๋จธ์ง๋ฅผ ์ด์ฉํด ๋ณต์ํ๋๋ก ํ์ต ( MAE (Masked AutoEncoder), BEiT)
$ L_{MIN} = \frac{1}{B}\sum_{i=1}^B log f_{\theta}(\bar{x}_{i}^I|\hat{x}_{i}^I)$
masked image patch $\bar{x_i}^I$, unmasked image patch $\hat{x_i}^I$
Masked Language Modeling (MLM): ์์ฐ์ด ํ ์คํธ์์ ์ผ๋ถ ๋จ์ด๋ฅผ ๊ฐ๋ฆฌ๊ณ ๋๋จธ์ง๋ก๋ถํฐ ๋ณต์ํ๋๋ก ํ์ต (BERT)
(vision-language ๋ชจ๋ธ์์๋ ํ ์คํธ encoder ํ๋ จ ์ ์์ฃผ ์ฌ์ฉ๋จ)
$L_{MIN} = \frac{1}{B}\sum_{i=1}^B log f_{\phi}(\bar{x}_{i}^T|\hat{x}_{i}^T)$
masked token $\bar{x_i}^T$ , unmasked token $\hat{x_i}^T$
Masked Cross-Modal Modeling (MCMM): ์ด๋ฏธ์ง์ ํ ์คํธ ๋ชจ๋์์ ์ผ๋ถ๋ฅผ maskํ๊ณ ์ํธ ์กฐ๊ฑดํ๋ฅผ ํตํด ๋ณต์
(modality ๊ฐ ์ํธ์์ฉ์ ๊น๊ฒ ํ์ตํ ์ ์์)
$L_{MCM} = -\frac{1}{B} \sum_{i=1}^B [log f_{\theta}(\bar{x_i}^I|\hat{x_i}^I,\hat{x_i}^T) + log f_{\phi}(\bar{x_i}^T|\hat{x_i}^I,\hat{x_i}^T)]$
$\bar{x}_i^I/\hat{x}_i^I$: masked/unmasked patches in $x_i^T$
$\bar{x_i}^T/\hat{x_i}^T$: masked/unmasked text tokens in $x_i^T$
Image-to-Text Generation (ITG): ์ด๋ฏธ์ง $z^I$๋ฅผ ์ ๋ ฅ๋ฐ์ ์์ฐ์ด ์ค๋ช , ์ง๋ฌธ, ์บก์ ๋ฑ์ ์์ฑ
(GPT๋ฅ์ autoregressive decoder๋ฅผ ํ์ฉํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์)
$L_{ITG} = - \sum_{l=1}^L logf_{\theta}(x^T|x^T_{<l},z^I)$
3-2-3. Alignment Objectives
์ด๋ฏธ์ง-ํ ์คํธ๊ฐ ์๋ก ์ผ๋ง๋ ๊ด๋ จ ์๋์ง๋ฅผ ์ ๋ ฌ์์ผ ํ์ตํจ
Image-Text Matching (ITM): ์ด๋ฏธ์ง-ํ ์คํธ ์์ด ์๋ก ์ ์์ ์ธ ์ง์ธ์ง ์ฌ๋ถ๋ฅผ ๋ถ๋ฅํ๋ ์ด์ง ๋ถ๋ฅ ๋ฌธ์ (CLIP์ด๋ UNITER ๋ฑ์์ ์์ฃผ ์ฌ์ฉ)
$L_{IT} = plogS(z^I,z^T) + (1-p)log(1-S(z^I,z^T))$
$p$: image-text paired์ด๋ฉด 1, ์๋๋ฉด 0
Region-Word Matching (RWM): ์ด๋ฏธ์ง ์์ ๋ถ๋ถ(region)๊ณผ ํ ์คํธ ๋ด ๋จ์ด(word)์ local ์ ๋ ฌ์ ํ์ต ("cat"์ด๋ผ๋ ๋จ์ด์ ์ด๋ฏธ์ง ์ ๊ณ ์์ด ์์ญ ๊ฐ alignment)
$L_{RW} = plogS^r(r^I,w^T) + (1-p)log(1-S^r(r^I,w^T))$
$(r^I,w^T)$: region-word pair
3-3. VLM Pre-training Frameworks
VLM(Vision-Language Model)์ ์ฌ์ ํ์ตํ ๋ ์ฌ์ฉํ๋ ์ธ ๊ฐ์ง ์ฃผ์ ํ๋ ์์ํฌ ๊ตฌ์กฐ๊ฐ ์๋ค.
๊ฐ๊ฐ์ ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐฉ์๊ณผ ๋ฉํฐ๋ชจ๋ฌ ํตํฉ ์ ๋ต์ ๋ฐ๋ผ ๋ค๋ฅด๋ค:
๊ตฌ์กฐ | ์ธ์ฝ๋ ์ | ๋ฉํฐ๋ชจ๋ฌ ์ํธ์์ฉ | ๋ํ ๋ชจ๋ธ |
Two-Tower | 2 | ์์ | CLIP |
Two-Leg | 2 + Fusion | ์์ | BLIP |
One-Tower | 1 | ๊ฐํจ | FLAVA |
3-4. Evaluation Setups and Downstream Tasks
3.4.1 Zero-shot Prediction (์ ๋ก์ท ์์ธก)
์ฌ์ ํ์ต๋ VLM์ ํ์คํฌ๋ณ๋ก ์ถ๊ฐ ํ์ต(fine-tuning) ์์ด ๋ฐ๋ก ์ ์ฉํ์ฌ ์ฑ๋ฅ ํ๊ฐ
downstream task | ์ค๋ช |
Image Classification | ์ด๋ฏธ์ง ์๋ฒ ๋ฉ vs ํ
์คํธ ์๋ฒ ๋ฉ ๋น๊ต๋ก ๋ถ๋ฅ Prompt engineering์ ํตํด ํ ์คํธ ์ฟผ๋ฆฌ๋ฅผ ๋ง๋ฆ (e.g. "a photo of a [label]") |
Semantic Segmentation | ๊ฐ ํฝ์ ์๋ฒ ๋ฉ vs ํด๋์ค ์ค๋ช ํ ์คํธ ๋น๊ต |
Object Detection | ๊ฐ์ฒด proposal box ์๋ฒ ๋ฉ vs ํ ์คํธ ๋น๊ต |
Image-Text Retrieval | ํ ์คํธ → ์ด๋ฏธ์ง, ์ด๋ฏธ์ง → ํ ์คํธ ๊ฒ์ |
3.4.2 Linear Probing (์ ํ ๋ถ๋ฅ๊ธฐ ํ๊ฐ)
์ฌ์ ํ์ต๋ VLM์ ๊ฐ์ค์น๋ ๊ณ ์ ํ๊ณ ํด๋น ์๋ฒ ๋ฉ ์์ ์ ํ ๋ถ๋ฅ๊ธฐ๋ง ํ์ตํ์ฌ ์ฑ๋ฅ ํ๊ฐ
4. Datasets
4-1. Datasets for Pre-training VLMs
- ๋๋ถ๋ถ ์น์์ ์์งํ ๋๊ท๋ชจ ์ด๋ฏธ์ง-ํ ์คํธ ์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉ
- ๊ธฐ์กด์ ์์์ ๋ผ๋ฒจ๋ง๋ ๋ฐ์ดํฐ์ (ImageNet ๋ฑ)๋ณด๋ค ํจ์ฌ ํฌ๊ณ ๋น์ฉ์ด ์ ๋ ดํจ
- ์ต๊ทผ์๋ ์์ญ์ต ๊ฐ ๊ท๋ชจ์ ๋ฐ์ดํฐ์ ๋ ๋ฑ์ฅ
- ์: LAION-5B, ALIGN ๋ฑ
4-2. Datasets for VLM Evaluation
๋ค์ํ ๋ค์ด์คํธ๋ฆผ ํ์คํฌ์ ๋ฐ๋ผ ์ด 40๊ฐ ์ด์์ ํ๊ฐ์ฉ ๋ฐ์ดํฐ์ ์ด ์ฌ์ฉ๋จ
5. VISION-LANGUAGE MODEL PRE-TRAINING
5-1. VLM Pre-Training with Contrastive Objectives
Image Contrastive Learning
: ์ด๋ฏธ์ง ๋ด๋ถ์ ํํ ํ์ต์ ํฅ์์ํค๋ ๋ณด์กฐ ๋ชฉ์ (auxiliary)์ผ๋ก ์ฌ์ฉ๋จ
Image-Text Contrastive Learning
: ์์ ์ด๋ฃจ๋ ์ด๋ฏธ์ง-ํ ์คํธ ๊ฐ ์๋ฒ ๋ฉ์ dot-product ๊ธฐ๋ฐ์ผ๋ก ์ต๋ํํ๊ณ InfoNCE ๊ธฐ๋ฐ ์์ค์ ์๋ฐฉํฅ(์ด๋ฏธ์ง→ํ ์คํธ, ํ ์คํธ→์ด๋ฏธ์ง)์ผ๋ก ์ฌ์ฉํจ
Image-Text-Label Contrastive Learning
: ๋ถ๋ฅ(label) ์ ๋ณด๋ฅผ ํจ๊ป ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง-ํ ์คํธ-๋ ์ด๋ธ์ ๋์ผํ ์๋ฒ ๋ฉ ๊ณต๊ฐ์ ๋งคํ
Dicussion
Limitation 2๊ฐ์ง ์กด์ฌ
(1) contrastive learning์ positive-negative ์์ ๋์์ ์ต์ ํํ๋๊ฒ ์ด๋ ต๊ณ ๋ณต์กํ๋ค.
(2) ๋ํ ์จ๋ ํ์ดํผํ๋ผ๋ฏธํฐ temperature $\tau$๋ก feature discriminability๊ฐ ํ์ํ๋ค.
5-2. VLM Pre-training with Generative Objectives
Masked Image Modelling (MIM)
: ์ด๋ฏธ์ง ํจ์น ์ผ๋ถ๋ฅผ ๋ง์คํน(masking) ํ ํ, ๋๋จธ์ง ์ ๋ณด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ด๋ฅผ ์ฌ๊ตฌ์ฑํจ (MAE, BEiT)
Masked Language Modelling (MLM)
: NLP์์ ๋๋ฆฌ ์ฐ์ด๋ ๋ฐฉ์. ๋ฌธ์ฅ ๋ด ์ผ๋ถ ํ ํฐ(์: 15%)์ ๋ง์คํน ํ, ๋๋จธ์ง๋ก ์์ธกํ๋๋ก ํ์ตํจ
Masked Cross-Modal Modelling (MCM)
: ์ด๋ฏธ์ง ํจ์น์ ํ ์คํธ ํ ํฐ์ ๋์์ ์ผ๋ถ ๋ง์คํน ํ, ์๋ก์ ์ ๋ณด๋ฅผ ์ด์ฉํด ์์ชฝ ๋ชจ๋ ๋ณต์ (์๊ฐ + ์ธ์ด ์์ชฝ์ ๊ณต์กด์ ์๋ฏธ(context) ํ์ต ๊ฐ๋ฅ)
Image-to-Text Generation (ITG)
: ์ด๋ฏธ์ง ์ธ์ฝ๋๋ก ์๊ฐ ์ ๋ณด๋ฅผ ์ถ์ถํ ํ, ์ด๋ฅผ ํ ์คํธ ์์ฑ(decoding) ๋ชจ๋ธ์ ์ ๋ ฅํ์ฌ ์ด๋ฏธ์ง๋ฅผ ์ค๋ช ํ๋ ์์ฐ์ด ๋ฌธ์ฅ(= ์บก์ )์ ์์ฑํ๋ ๋ฐฉ์ (VLM์ด ์ด๋ฏธ์ง๋ก๋ถํฐ ๋ฏธ์ธํ ์๋ฏธ(์ธ๋ถํ๋ ์ ๋ณด)๊น์ง ์ถ๋ก ํ๋๋ก ํ์ต ๊ฐ๋ฅ)
Discussion
์ด๋ฏธ์ง๋ ํ ์คํธ๋ฅผ ์์ฑํ๊ฑฐ๋ ๋ณต์ํ๋ฉด์, ์๊ฐ·์ธ์ด·๋ฉํฐ๋ชจ๋ฌ ๋ฌธ๋งฅ์ ํ๋ถํ๊ฒ ํ์ตํ๋๋ก ๋๋ ๋ฐฉ์์ด๋ค.
๋ณดํต ๋ค๋ฅธ ํ์ต ๋ชฉํ์ ํจ๊ป ๋ณด์กฐ์ ์ผ๋ก ์ฌ์ฉ๋์ด ์ ๋ก์ท ์ฑ๋ฅ์ ํฅ์์ํจ๋ค.
5-3. VLM Pre-training with Alignment Objectives
์ฃผ์ ๋ชฉ์ ์ ์ฃผ์ด์ง ์ด๋ฏธ์ง์ ํ ์คํธ ์์ด ์๋ฏธ์ ์ผ๋ก ์ผ์นํ๋์ง ์ฌ๋ถ๋ฅผ ์์ธกํ๋ ๊ฒ
Image-Text Matching
: ์ด๋ฏธ์ง ์ ์ฒด์ ํ ์คํธ ์ ์ฒด๊ฐ ์ ๋ง๋์ง๋ฅผ ํ๋จํจ
- ์: FLAVA๋ ์ด๋ฏธ์ง์ ํด๋น ์บก์ ์ด ๋ง๋์ง๋ฅผ ๋ถ๋ฅํ๋ ์ด์ง ๋ถ๋ฅ(binary classification)๋ฅผ ์ํํจ
- FIBER๋ ๋ ์ด๋ ค์ด negative sample์ pair-wise similarity๋ฅผ ์ด์ฉํด ์ฐพ์๋์ผ๋ก์จ ์ ๋ ฌ ์ฑ๋ฅ์ ๋์
Region-Word Matching
: ์ด๋ฏธ์ง ๋ด๋ถ์ object region๊ณผ ํ ์คํธ์ ๋จ์ด ๋จ์๋ฅผ ์ ๋ฐํ๊ฒ ๋์์ํด
- ์: GLIP, FIBER, DetCLIP ๋ฑ์ ๊ฐ์ฒด ์ธ์์์ ๊ฐ ๊ฐ์ฒด(region)์ classification logits์ region-word ์ ์ฌ๋(dot-product)๋ก ๋์ฒดํจ.
- ์ด๋ฅผ ํตํด object detection์ด๋ semantic segmentation์ฒ๋ผ dense prediction task์ ์ ํฉํ ์ ๋ ฌ์ ํ์ตํจ.
Discussion
์๊ฐ ๋๋ ์ธ์ด์ ๋จ์ผ ๋ชจ๋ฌ๋ฆฌํฐ ๋ด๋ถ์ ๊ด๊ณ๋ ํ์ตํ์ง ๋ชปํจ.
๊ทธ๋์ ์ผ๋ฐ์ ์ผ๋ก ๋ณด์กฐ ๋ชฉ์ ํจ์(auxiliary loss)๋ก ์ฌ์ฉ๋์ด, ๋ค๋ฅธ VLM pre-training objective์ ํจ๊ป ํ์ฉ๋จ
6. VLM TRANSFER LEARNING
Vision-Language Model(VLM)์ ์๋ zero-shot ๋ฐฉ์์ผ๋ก ํ๊ฐ๋์ง๋ง, ์ต๊ทผ์๋ ๋ค์ํ downstream task์ ๋ ์ ์ ์ํ๊ธฐ ์ํด ์ ์ด ํ์ต(Transfer Learning)์ด ํ๋ฐํ ์ฐ๊ตฌ๋๊ณ ์๋ค.
6-1. Motivation of Transfer learning
Pre-trained VLM์ด ๊ฐ๋ ฅํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฐ๊ณ ์์์๋, ์ค์ downstream task์ ์ ์ฉํ ๋ ๋ค์๊ณผ ๊ฐ์ ๋ ๊ฐ์ง ๊ฐ๊ทน(gap)์ด ๋ฐ์ํจ:
- ๋๋ฉ์ธ ์ฐจ์ด (Distribution Gap)
- downstream ๋ฐ์ดํฐ์ ์ ์ด๋ฏธ์ง ์คํ์ผ์ด๋ ํ ์คํธ ํ์์ด pretraining ๋ฐ์ดํฐ์ ๋ค๋ฆ
- ์: ํ์ต ์ ์์ฐ ์ด๋ฏธ์ง, ํ๊ฐ ์ ์๋ฃ ์ด๋ฏธ์ง
- ๋ชฉํ ์ฐจ์ด (Objective Gap)
- VLM์ ๋ณดํต ์ผ๋ฐ ๊ฐ๋ ํ์ต์ ์ํ task-agnostic objective๋ก ํ๋ จ๋จ
- ๋ฐ๋ฉด, downstream task๋ ๋ณดํต ์ธ๋ถ ๋ถ๋ฅ(coarse/fine-grained), region-level ๋๋ pixel-level ์ธ์ ๊ฐ์ ํน์ ๋ชฉ์ ์ ์ง๋
→ ์ด ๋ ๊ฐ์ง ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด transfer learning์ด ํ์
6-2. Common Setup of Transfer Learning
Vision-Language Model(VLM)์ ์ค์ downstream task์ ์ ์ฉํ ๋, ๋๋ฉ์ธ ๊ฐ ๊ฒฉ์ฐจ(domain gap)๋ฅผ ์ค์ด๊ธฐ ์ํ ์ธ ๊ฐ์ง transfer learning ์ค์ ์ด ์กด์ฌํ๋ค.
Supervised Transfer
- ๊ฐ์ฅ ์ ํต์ ์ธ ๋ฐฉ์์ผ๋ก, ์ ์ฒด ๋ผ๋ฒจ๋ง๋ downstream ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ fine-tuning์ ์ํ
- ํ์ต ์ฑ๋ฅ์ ๋์ง๋ง, ๋ผ๋ฒจ ๋น์ฉ์ด ํผ
Few-shot Supervised Transfer
- ์๋์ ๋ผ๋ฒจ ๋ฐ์ดํฐ๋ง ํ์ฉํ์ฌ fine-tuningํ๋ ๋ฐฉ์
- ๋ฐ์ดํฐ๊ฐ ์ ์ ์ํฉ์์๋ ํจ๊ณผ์ ์ผ๋ก ์ ์ํ ์ ์์ด annotation efficiency๊ฐ ๋ฐ์ด๋จ
Unsupervised Transfer
- ๋ผ๋ฒจ ์๋ ๋ฐ์ดํฐ๋ง์ผ๋ก fine-tuningํ๋ ๋ฐฉ๋ฒ์ผ๋ก, ๊ฐ์ฅ ๋์ ์ ์ด์ง๋ง ํ์ฅ์ฑ ๋ฉด์์ ๊ฐ์ฅ ์ ๋งํ ๋ฐฉ์
- pseudo-labeling, self-training ๋ฑ์ ๊ธฐ๋ฒ๊ณผ ํจ๊ป ์ฌ์ฉ๋จ
6-3. Common Transfer Learning
6-3-1. Transfer via Prompt Tuning
Prompt Tuning์ NLP์์ ์ ๋๋ ๊ฐ๋ ์ผ๋ก, ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ ๊ทธ๋๋ก ๋๊ณ , ์ ๋ ฅ(prompt)๋ง ์กฐ์ ํ๋ ๋ฐฉ์์ด๋ค.
VLM์์๋ text prompt tuning, visual prompt tuning, text-visual prompt tuning ์ด๋ ๊ฒ ์ธ๊ฐ์ง ์ ๊ทผ์ด ์กด์ฌํ๋ค.
Text Prompt Tuning
- ๊ธฐ์กด์ ์๋ ํ๋กฌํํธ(์: "a photo of a [class]") ๋์ , ํ์ต ๊ฐ๋ฅํ ํ ์คํธ ๋ฒกํฐ(learnable text prompt)๋ฅผ ํ์ฉ
- ๋ํ ์ฐ๊ตฌ:
- ๊ธฐ๋ณธ ๊ฐ๋ ํ์ฅ ๋ฐ ๊ณผ์ ํฉ ํด๊ฒฐ
CoOp ํด๋์ค ์ด๋ฆ(label)์ ๋ถ๋ ๋ฌธ๋งฅ ๋จ์ด([V]1, [V]2, ..., [V]m)์ ํ์ต ๊ฐ๋ฅํ ๋ฒกํฐ๋ก ๋ง๋ค์ด ์ต์ ํ CoCoOp ํ๋กฌํํธ๋ฅผ ์ด๋ฏธ์ง ์กฐ๊ฑด๋ถ(context conditioned)๋ก ์์ฑํด ๊ณผ์ ํฉ ๋ฐฉ์ง SubPT ํ๋กฌํํธ ๋ฒกํฐ์ ์๋ธ์คํ์ด์ค(subspace)๋ฅผ ํ์ตํด ์ผ๋ฐํ ์ฑ๋ฅ ํฅ์ LASP ํ์ต ๊ฐ๋ฅํ ํ๋กฌํํธ๋ฅผ ๊ธฐ์กด ์์์ ํ๋กฌํํธ์ regularizationํจ์ผ๋ก์จ ์์ ์ฑ ํ๋ณด VPT ํ๋กฌํํธ ๋ถํฌ๋ฅผ ์ด๋ฏธ์ง ์ธ์คํด์ค๋ณ๋ก ๋ค๋ฅด๊ฒ ํ์ตํด ์ผ๋ฐํ ๊ฐ์ KgCoOp ์๋ก์ด ํด๋์ค์๋ ์ ์ผ๋ฐํ๋๋๋ก ํ ์คํธ ์ง์ ๋ง๊ฐ ๋ฐฉ์ง ์ ๋ต ๋์ - ๋ค์ํ ํ์คํฌ ์ ์ฉ ๋ฐ ํ์ฅ์ฑ ์ฐ๊ตฌ
SoftCPT ์ฌ๋ฌ few-shot ํ์คํฌ๋ฅผ ๋์์ ํ์ต (multi-task prompt tuning) PLOT ์นดํ ๊ณ ๋ฆฌ ๋ด ๋ค์ํ ํน์ง์ ์ค๋ช ํ๋ ๋ณต์ ํ๋กฌํํธ๋ฅผ ํ์ต (optimal transport ์ฌ์ฉ) DualCoOp ๋ฉํฐ๋ผ๋ฒจ ๋ถ๋ฅ๋ฅผ ์ํด positive + negative ํ๋กฌํํธ ๋์ ํ์ต TaI-DP ์กฐ์กํ(coarse) + ์ธ๋ฐํ(fine) ํํ์ ๋์์ ํ์ตํ๋ ์ด์ค ๋ ๋ฒจ ํ๋กฌํํธ ์ค๊ณ DenseCLIP dense prediction task๋ฅผ ์ํด ํ ์คํธ ํ๋กฌํํธ๋ฅผ ๋น์ฃผ์ผ ํผ์ฒ๋ก ํ๋ ProTeCt ๊ณ์ธต์ ๋ถ๋ฅ(hierarchical classification)์ ์ผ๊ด์ฑ ๊ฐํ๋ฅผ ์ํ ํ๋กฌํํธ ์ค๊ณ - ๋ผ๋ฒจ ์์ด ํ์ตํ๋ Unsupervised Prompt Tuning
UPL pseudo-label์ ์ ํํ๊ณ self-training์ ํตํด ํ๋กฌํํธ ์ต์ ํ TPT ๋จ 1๊ฐ์ ์ํ๋ง ๋ณด๊ณ test-time์ ํ๋กฌํํธ๋ฅผ ์ ์์ ์ผ๋ก ์์ฑ (adaptive prompt at test time)
Visual Prompt Tuning
- ํ ์คํธ ๋์ ์ด๋ฏธ์ง ์ ๋ ฅ์ learnable perturbation์ ๋ํด ํ๋กฌํํธ๋ก ์ฌ์ฉ.
- ๋ํ ์ฐ๊ตฌ:
- VP: ์ ๋ ฅ ์ด๋ฏธ์ง $x^I$์ ์์ ๋ฒกํฐ $v$๋ฅผ ๋ํ์ฌ $x^I + v$๋ก ํ์ต
- RePrompt: ์ด๋ฏธ์ง ํ๋กฌํํธ์ retrieval ๊ธฐ๋ฐ ์ ๋ณด๋ฅผ ํตํฉํด downstream task์ ๋ ์ ์ ์
- ํนํ pixel-level ์กฐ์ ์ด ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ dense prediction task์ ํจ๊ณผ์
Text–Visual Prompt Tuning
- ํ ์คํธ์ ์ด๋ฏธ์ง ์์ชฝ์ ํ๋กฌํํธ๋ฅผ ํจ๊ป ํ์ตํ์ฌ ์ํธ๋ณด์ ํจ๊ณผ๋ฅผ ์ป๋ ๋ฐฉ์
- ๋ํ ์ฐ๊ตฌ:
- UPT: ์ด๋ฏธ์ง์ ํ ์คํธ ํ๋กฌํํธ๋ฅผ ๋์์ ์ต์ ํ
- MAPLE, CAVPT: cross-attention ๊ตฌ์กฐ๋ฅผ ํ์ฉํด modality ๊ฐ ์๋์ง ์ ๋
- MVLPT: multi-task ๊ธฐ๋ฐ prompt ํ๋์ผ๋ก ํ์ต ์ง์์ task ๊ฐ ๊ณต์
Discussion
์ฅ์
- ๋ชจ๋ธ ์ ์ฒด๋ฅผ ๊ฑด๋๋ฆฌ์ง ์๊ธฐ ๋๋ฌธ์(black-box) ๋งค์ฐ ํจ์จ์
- ํ๋ผ๋ฏธํฐ ์๊ฐ ์ ๊ณ , ์ง์์ฌ์ฐ(IP) ๋ณดํธ๊ฐ ์ค์ํ ์ํฉ์๋ ์ ํฉ
- ๋ค์ํ ํ์คํฌ์ ๋น ๋ฅด๊ฒ ์ ์ ๊ฐ๋ฅ
ํ๊ณ
- ๊ธฐ์กด VLM์ ํํ ๊ณต๊ฐ(manifold)์ ๊ทธ๋๋ก ๋ฐ๋ผ์ผ ํ๊ธฐ ๋๋ฌธ์ ํํ ์ ์ฐ์ฑ์ด ๋ฎ์
- ํนํ ๋ณต์กํ๊ฑฐ๋ fine-grainedํ task์์ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ
6-3-2. Transfer via Feature Adaptation
Feature adaptation์ ์ด๋ฏธ์ง๋ ํ
์คํธ ์๋ฒ ๋ฉ ์์ฒด๋ฅผ ๊ฐ๋ณ๊ฒ ์กฐ์ ํด downstream task์ ๋ง๊ฒ VLM์ ์ ์์ํค๋ ๋ฐฉ์์ด๋ค.
Prompt tuning์ด ์
๋ ฅ(input)์ ์กฐ์ ํ๋ค๋ฉด, feature adaptation์ ์ค๊ฐ ํํ(feature)์ ์กฐ์ ํ๋ ๋ฐฉ์์ด๋ผ๊ณ ๋ณผ ์ ์๋ค.
๋ํ ์ฐ๊ตฌ ๋ฐ ๋ฐฉ์
CLIP-Adapter [33] | CLIP์ image/text encoder ๋ค์ ์์ ์ ํ ๋ ์ด์ด(adapter)๋ฅผ ์ถ๊ฐํ์ฌ ํ์ต CLIP ๋ณธ์ฒด๋ ๊ณ ์ ๋ ์ํ๋ก, adapter๋ง ํ์ต |
Tip-Adapter [34] | ํ์ต์ด ํ์ ์๋ ๋ฐฉ์์ผ๋ก, few-shot ์ด๋ฏธ์ง๋ค์ ์๋ฒ ๋ฉ์ adapter weight๋ก ๋ฐ๋ก ์ฌ์ฉ |
SVL-Adapter [153] | self-supervised ๋ฐฉ์์ ์ถ๊ฐ encoder๋ฅผ ํตํด ์ด๋ฏธ์ง ํํ์ ๋ณด์ํ๋ ๊ตฌ์กฐ๋ฅผ ๋์ |
Discussion
- ์ฅ์
- ๊ตฌ์กฐ ๋ณ๊ฒฝ์ด ํฌ์ง ์๊ณ , ๋ค์ํ downstream task์ ์ ์ฐํ๊ฒ ๋ง์ถ ์ ์์
- pixel-level task๋ ๋ณต์กํ ๋ฉํฐ๋ชจ๋ฌ ์์ ์๋ ์ฝ๊ฒ ํ์ฅ ๊ฐ๋ฅ
- ๋จ์
- prompt tuning๋ณด๋ค ์ง์ ์ ์ธ ๋คํธ์ํฌ ๊ตฌ์กฐ ๋ณ๊ฒฝ์ด ํ์ํ๊ธฐ ๋๋ฌธ์,
IP ๋ณดํธ๊ฐ ํ์ํ ์ํฉ์ด๋ black-box VLM์๋ ์ ์ฉ์ด ์ด๋ ค์
- prompt tuning๋ณด๋ค ์ง์ ์ ์ธ ๋คํธ์ํฌ ๊ตฌ์กฐ ๋ณ๊ฒฝ์ด ํ์ํ๊ธฐ ๋๋ฌธ์,
6-3-3. Other Transfer Methods
Prompt tuning์ด๋ adapter ๋ฐฉ์ ์ธ์๋, ๋ชจ๋ธ ๊ตฌ์กฐ ์์ฒด๋ฅผ ์์ ํ๊ฑฐ๋ attention์ ์กฐ์ ํ๋ ๋ฐฉ์๋ ๋ค์ ์ ์๋๊ณ ์๋ค.
Wise-FT [162] | pre-trained VLM๊ณผ fine-tuned VLM์ weight๋ฅผ ํผํฉ(weight interpolation)ํ์ฌ ๊ธฐ์กด ์ง์์ ์ ์งํ๋ฉด์ ์๋ก์ด ํ์คํฌ์ ์ ์ |
MaskCLIP [163] | CLIP์ image encoder ๊ตฌ์กฐ๋ฅผ ์์ ํ์ฌ, dense feature๋ฅผ ์ถ์ถํ๋ ๋ฐฉ์์ผ๋ก ํ์ฅ |
VT-CLIP [157] | ์ด๋ฏธ์ง์์ ์ ๋๋ ์๊ฐ์ ์ ๋ณด๋ก ํ ์คํธ attention์ ๊ฐํํ์ฌ, ์๋งจํฑ ์ ๋ ฌ ์ฑ๋ฅ์ ํฅ์ |
CALIP [158] | parameter-free attention์ ๋์ ํด, ํ ์คํธ์ ์ด๋ฏธ์ง ๊ฐ ํจ์จ์ ์ธ ์ ๋ณด ๊ตํ์ ๊ฐ๋ฅํ๊ฒ ํจ |
TaskRes [159] | pre-trained VLM์ **๊ธฐ์กด ํ ์คํธ ๊ธฐ๋ฐ ๋ถ๋ฅ๊ธฐ(classifier)**๋ฅผ ์ฌํ์ฉํ๋ฉด์ downstream task์ ๋ง๊ฒ ์กฐ์ |
CuPL [160], VCD [161] |
GPT-3 ๋ฑ ๋ํ ์ธ์ด๋ชจ๋ธ์ ํ์ฉํด, ํ๋ถํ๊ณ ๊ตฌ๋ถ๋ ฅ ์๋ ํ ์คํธ ํ๋กฌํํธ๋ฅผ ์์ฑํจ์ผ๋ก์จ VLM์ ๋ถ๋ฅ ์ฑ๋ฅ์ ๊ฐํ |
6-3-4. Summary
Prompt Tuning๊ณผ Feature Adapter๋ VLM ์ ์ดํ์ต์์ ๊ฐ์ฅ ๋๋ฆฌ ์ฐ์ด๋ ๋ ๊ฐ์ง ๋ํ์ ์ธ ์ ๊ทผ ๋ฐฉ์
- Prompt Tuning์ ์ ๋ ฅ ํ ์คํธ๋ ์ด๋ฏธ์ง ์์ฒด๋ฅผ ์์ ํ๊ณ ,
- Feature Adapter๋ ์ด๋ฏธ์ง/ํ ์คํธ ํน์ง(feature)์ ์กฐ์ ํ๋ ๋ฐฉ์
- ๋ ๋ฐฉ์ ๋ชจ๋ ๊ธฐ์กด VLM ํ๋ผ๋ฏธํฐ๋ฅผ ๊ณ ์ (freeze)ํ๊ณ , ์์ฃผ ์ ์ ์์ ํ์ต ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ๋ง ๋์ ํ๊ธฐ ๋๋ฌธ์ ์ ์ด ํจ์จ์ด ๋๋ค.
- ๋๋ถ๋ถ์ ์ฐ๊ตฌ๋ few-shot ํ์ต ๊ธฐ๋ฐ์ supervised transfer์ ์ด์ ์ ๋ง์ถ์ง๋ง,
์ต๊ทผ์๋ ๋ผ๋ฒจ ์์ด ํ์ตํ๋ unsupervised transfer ๋ฐฉ์๋ ๋ค์ํ ํ์คํฌ์์ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ ์ฃผ๋ชฉ๋ฐ๊ณ ์๋ค.
7. VLM KNOWLEDGE DISTILLATION
์ต๊ทผ์๋ ์ด๋ฌํ VLM์ ๋ฒ์ฉ ํํ๋ ฅ์ object detection, semantic segmentation ๊ฐ์
๋ฐ๋ ์์ธก(dense prediction) ๊ณผ์ ์ ํจ๊ณผ์ ์ผ๋ก ์ ์ดํ๊ธฐ ์ํ ์ฐ๊ตฌ๋ค์ด ํ๋ฐํ ์งํ๋๊ณ ์๋ค.
7-1. Motivation of Distilling Knowledge from VLMs
๋๋ถ๋ถ์ Vision-Language Model(VLM)์ ์ด๋ฏธ์ง ์ ์ฒด(image-level) ํํ์ ์ค์ฌ์ผ๋ก ํ์ต๋๋ค.
๋ฐ๋ฉด, ์ค์ ๋ง์ ๋น์ ๊ณผ์ ๋ object-level(region-level)์ด๋ pixel-level ํํ์ด ์๊ตฌ๋๋ค.
๋ฐ๋ผ์ VLM์ด ๊ฐ์ง ๋๊ณ ์ผ๋ฐํ๋ ์๊ฐ-์ธ์ด ์ง์์ ๋ ์ธ๋ฐํ ์์ค์ ํ์คํฌ์ ๋ง๊ฒ ์ฆ๋ฅ(distill)ํ๋ ๋ฐฉ๋ฒ์ด ํ์ํ๋ค.
- VLM์ ํํ์ Faster R-CNN, DETR ๋ฑ ๋ค๋ฅธ detection ์ํคํ ์ฒ๋ก ์ด์ ํ ์ ์๋ค.
7-2. Common Knowledge Distillation Methods
7-2-1. Knowledge Distillation for Object Detection
open-vocabulary detection: ๊ธฐ์กด ๋ถ๋ฅ ๋ฒ์๋ฅผ ๋์ด, ํ ์คํธ๋ก ๊ธฐ์ ๊ฐ๋ฅํ ์์์ ๊ฐ์ฒด ์นดํ ๊ณ ๋ฆฌ๊น์ง ์ธ์ํ๋๋ก detector๋ฅผ ํ์ฅ
ViLD | CLIP์ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ ๊ณต๊ฐ๊ณผ ์ผ์นํ๋๋ก two-stage detector ํ์ต |
HierKD | ๊ธ๋ก๋ฒ + ๋ก์ปฌ ์ง์์ ๊ณ์ธต์ ์ผ๋ก ์ฆ๋ฅ |
RKD | ์ด๋ฏธ์ง ↔ ๊ฐ์ฒด(region) ๊ฐ ์ ๋ ฌ ํ์ต |
ZSD-YOLO | CLIP + pseudo label ๊ธฐ๋ฐ self-labelling ์ฆ๊ฐ |
OADP | proposal feature ๋ณด์กด + ์ปจํ ์คํธ ์ ๋ณด ์ ๋ฌ |
RO-ViT | ๊ฐ๋ณ ๊ฐ์ฒด๊ฐ ์๋ region ์งํฉ(bag of regions) ๋จ์๋ก ์ฆ๋ฅ |
BARON | ์ฃผ๋ณ ์ง์ญ(neighborhood) ์ ๋ณด ํ์ฉ |
DetPro / PromptDet | region-level prompt ํ์ต์ผ๋ก ์ ๋ ฌ ๊ฐ์ |
PB-OVD / XPM / P3OVD | CLIP์ผ๋ก๋ถํฐ ์์ฑํ pseudo bounding box/mask๋ฅผ self-training์ ํ์ฉ |
7-2-2. Knowledge Distillation for Semantic Segmentation
๊ธฐ์กด segmentation ๋ชจ๋ธ์ base class์ ํ์ ๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค.
VLM์ ํํ์ pixel-level๋ก ํ์ฅํ์ฌ, open-vocabulary pixel segmentation์ด ๊ฐ๋ฅํ๋๋ก ํ๋ค.
CLIPSeg | CLIP ๊ธฐ๋ฐ + transformer decoder๋ก ๊ฒฝ๋ segmentation ๊ตฌ์กฐ ๊ตฌํ |
LSeg | CLIP ํ ์คํธ ์๋ฒ ๋ฉ๊ณผ pixel-level ์ด๋ฏธ์ง ์๋ฒ ๋ฉ ๊ฐ ์๊ด์ฑ ๊ทน๋ํ |
ZegCLIP | CLIP์ผ๋ก semantic mask ์์ฑ + ๊ด๊ณ ๋์คํฌ๋ฆฝํฐ๋ก overfitting ๋ฐฉ์ง |
MaskCLIP+ / SSIW | CLIP ๊ธฐ๋ฐ pseudo pixel label์ ์์ฑ ํ ์ฆ๋ฅ |
FreeSeg | mask ํ๋ณด → zero-shot ๋ถ๋ฅ ๊ตฌ์กฐ ์ ์ฉ |
CLIP-ES | CAM + CLIP ์ ๋ ฌ → ์นดํ ๊ณ ๋ฆฌ ํผ๋ ์ํ |
CLIMS | CLIP์ผ๋ก๋ถํฐ ๊ณ ํ์ง CAM์ ์์ฑํ์ฌ ์ฝ์ง๋ ์ฑ๋ฅ ํฅ์ |
7-3. Summary and Discussion
์ฃผ์ ๊ตฌ๋ถ ๊ธฐ์ค
Object Detection | ์ด๋ฏธ์ง-level ↔ ๊ฐ์ฒด-level ์ ๋ ฌ ๊ฐํ |
Semantic Segmentation | ์ด๋ฏธ์ง-level ↔ ํฝ์ -level ์ ๋ ฌ ํด๊ฒฐ |
์ ๊ทผ ๋ฐฉ์ ๋ถ๋ฅ
Feature-space distillation | VLM encoder์ detection/segmentation encoder ๊ฐ ์๋ฒ ๋ฉ ์ ๋ ฌ |
Pseudolabelling distillation | CLIP ๋ฑ์ VLM์ด ์์ฑํ pseudo-label์ ํ์ฉํด regularization ์ํ |
VLM knowledge distillation์ ๊ธฐ์กด transfer ๋ฐฉ์๋ณด๋ค ๋ ๋์ ์ ์ฐ์ฑ๊ณผ ํ์ฅ์ฑ์ ์ ๊ณตํ๋ฉฐ,
detection, segmentation์ฒ๋ผ ๋ณต์กํ dense task์๋ VLM์ ๋ฒ์ฉ ์ง์์ ํจ๊ณผ์ ์ผ๋ก ์ด์ ํ ์ ์๋ ๊ฐ๋ ฅํ ์ ๊ทผ์ด๋ค.
8. PERFORMANCE COMPARISON
8-1. Performance of VLM Pre-training
Vision-Language Model(VLM)์
์ฌ์ ํ์ต(pre-training)๋ง์ผ๋ก๋ ์ ๋ก์ท(zero-shot) ๋ฐฉ์์ผ๋ก ๋ค์ํ ์๊ฐ ์ธ์ ํ์คํฌ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
ํ๊ฐ ๋์ ํ์คํฌ
- ์ด๋ฏธ์ง ๋ถ๋ฅ (image classification)
- ๊ฐ์ฒด ํ์ง (object detection)
- ์๋ฏธ ๋ถํ (semantic segmentation)
VLM ์ฑ๋ฅ์ ๊ฒฐ์ ์ง๋ 3๊ฐ์ง ํต์ฌ ์์ธ
1. Big Data | ์ธํฐ๋ท ๊ธฐ๋ฐ์ ๊ฑฐ๋ํ ์ด๋ฏธ์ง-ํ
์คํธ ์์ผ๋ก ํ์ต (์๋ฐฑ๋ง~์์ญ์ต ๊ฐ), ๋ค์ํ ๊ฐ๋ ์ ํฌ๊ดํ์ฌ ์ผ๋ฐํ ์ฑ๋ฅ ํฅ์ |
2. Big Model | ViT-L, ViT-G ๋ฑ ์ด๋ํ ๋ชจ๋ธ(ex: COCA์ ViT-G๋ 20์ต ํ๋ผ๋ฏธํฐ)์ ์ฌ์ฉํด ๋ฐ์ดํฐ ํํ๋ ฅ ๊ฐํ |
3. Task-agnostic Supervision | ํ
์คํธ๋ ํน์ ํ์คํฌ์ ์ข
์๋์ง ์๊ณ , ๋ค์ํ๊ณ ํ๋ถํ ์ ๋ณด ์ ๊ณต → ๋ค์ํ ํ์คํฌ์ ์ ์ฐํ๊ฒ ๋์ ๊ฐ๋ฅ |
Performance of VLM pre-training methods over zero-shot prediction setup on segmentation task & detection task
ํด๋น ๋ถ์ผ๋ ์์ง ์ฐ๊ตฌ๊ฐ ์ ์ด ์ ํ์ ์ด์ง๋ง, ์ ๋ก์ท์ผ๋ก๋ ์ฑ๋ฅ์ด ์๋นํ ๊ฒฝ์๋ ฅ ์์
Limitation of VLMs
(1) ์ฑ๋ฅ ํฌํ | ๋ฐ์ดํฐ/๋ชจ๋ธ์ ์๋ฌด๋ฆฌ ํค์๋ ์ผ์ ์์ค ์ดํ์๋ ์ฑ๋ฅ ํฅ์์ด ์ ์ฒด๋๋ค. |
(2) ์์ ์๋ชจ ํผ | ๋๊ท๋ชจ ๋ฐ์ดํฐ ํ์ต์ ์๋ฐฑ ๊ฐ์ GPU, ์๋ฐฑ ์๊ฐ์ ์ฐ์ฐ ์๊ฐ์ด ํ์ (์: CLIP ViT-L์ 256 V100 GPU, 288์๊ฐ ํ์) |
(3) ์ถ๋ก ๋ถ๋ด | ๋ํ ๋ชจ๋ธ์ ํ์ต๋ฟ ์๋๋ผ ์ถ๋ก ์์๋ ๋ฉ๋ชจ๋ฆฌ์ ์ฐ์ฐ ๋น์ฉ์ด ๋งค์ฐ ํผ |
8-2. Performance of VLM Transfer Learning
VLM์ ์ฌ์ ํ์ต๋ง์ผ๋ก๋ ์ ๋ก์ท ์ถ๋ก ์ด ๊ฐ๋ฅํ์ง๋ง, ์ค์ ํ์คํฌ์์ ๋๋ฉ์ธ ๊ฐญ(domain gap)์ด ์กด์ฌํ ์ ์๋ค.
์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ค์ํ ๋ฐฉ์์ ์ ์ด ํ์ต(Transfer Learning)์ด ์ฌ์ฉ๋๋ค.
๋ณธ ์ ์์๋ ๋ค์ ์ธ ๊ฐ์ง ๋ฐฉ์์ ์ฑ๋ฅ์ ๋น๊ตํ๋ค:
- Supervised Transfer
- Few-shot Supervised Transfer
- Unsupervised Transfer
ํต์ฌ ๊ฒฐ๋ก
1. ๋ชจ๋ Transfer ๋ฐฉ์์ ๋๋ฉ์ธ ๊ฐญ์ ์ค์ฌ ์ฑ๋ฅ ํฅ์์ ๊ธฐ์ฌํ๋ค
- VLM์ ์ฌ์ ํ์ต ๋ฐ์ดํฐ์ downstream ํ์คํฌ ๊ฐ ๋๋ฉ์ธ ์ฐจ์ด๊ฐ ์กด์ฌํ ์ ์์
- ์ ์ด ํ์ต์ ๋ผ๋ฒจ์ด ์๋ ์๋ ์ด ์ฐจ์ด๋ฅผ ์ค์ด๋ ๋ฐ ํจ๊ณผ์ ์
- → supervised, few-shot, unsupervised ๋ชจ๋ ์ฑ๋ฅ ํฅ์์ ๊ธฐ์ฌํจ
Supervised | Wise-FT | +10.9% |
Few-shot | CoOp (16-shot) | +1.7% |
Unsupervised | TPT | +0.8% |
2. Few-shot transfer๋ supervised transfer๋ณด๋ค ์ฑ๋ฅ์ด ๋ฎ๋ค
- ์:
- Wise-FT (supervised) → 87.1%
- CuPL (few-shot) → 76.6%
- ์ด์ :
- few-shot ํ๊ฒฝ์์๋ ๋ผ๋ฒจ ์๊ฐ ์ ์ด ๊ณผ์ ํฉ(overfitting)์ด ๋ฐ์ํ๊ธฐ ์ฌ์
- VLM์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ์ ํ๋ ์ ์์
3. Unsupervised transfer๋ few-shot transfer์ ์ ์ฌํ๊ฑฐ๋ ๋ ๋ฐ์ด๋ ์ ์๋ค
- ์์:
- UPL (unsupervised) > 2-shot CoOp (+0.4%)
- TPT (unsupervised) โ 16-shot CoOp
- ์ด์ :
- ๋ผ๋ฒจ ์์ด ๋ ๋ง์ ๋ฐ์ดํฐ ์ฌ์ฉ ๊ฐ๋ฅ → ์ผ๋ฐํ์ ์ ๋ฆฌ
- ๊ณผ์ ํฉ ์ํ์ด ์ ์
- ๋จ์ :
- pseudo-label์ด ๋ ธ์ด์ฆ๊ฐ ๋ง์ ์ ์์
- ์ฌ์ ํ ์ฐ๊ตฌ ์ด๊ธฐ ๋จ๊ณ, ์ฑ์๋๋ ๋ฎ์
8-3. Performance of VLM Knowledge Distillation
์ง์ ์ฆ๋ฅ๋ ์ฑ๋ฅ์ ์์ ์ ์ผ๋ก ํฅ์์ํจ๋ค
- ๋๋ถ๋ถ์ detection ๋ฐ segmentation ๋ชจ๋ธ์์ baseline ๋๋น ์ฑ๋ฅ์ด ํฅ์๋จ
- ์ด๋ ๋จ์ํ ๊ตฌ์กฐ ๊ฐ์ ๋ณด๋ค VLM์ด ๊ฐ์ง ์ผ๋ฐํ๋ ํํ์ ์ ํ์ฉํ ๊ฒฐ๊ณผ
8-4. Summary
1) VLM Pre-training:
์ด๋ฏธ์ง ๋ถ๋ฅ(๋ถ๋ฅ ์ค์ฌ ํ์คํฌ)์๋ ๋งค์ฐ ํจ๊ณผ์ ,๊ทธ๋ฌ๋ dense task(ํ์ง·๋ถํ )์๋ ์ฌ์ ํ ๋ฏธํก
- ์ ์ค๊ณ๋ pre-training objective ๋๋ถ์ ์ ๋ก์ท ์ด๋ฏธ์ง ๋ถ๋ฅ ์ฑ๋ฅ์ด ๋งค์ฐ ์ฐ์ |
- region/pixel ์์ค์ dense ํ์คํฌ(detection/segmentation)๋ ์ฐ๊ตฌ ๋ถ์กฑ |
- COCA, FILIP, CLIP ๋ฑ์ ๋ค์ํ task์์ strong performance ๋ฌ์ฑ |
- pre-training์์ ์ฌ์ฉํ๋ ๋ฐ์ดํฐ·๋ชจ๋ธ·ํ์คํฌ๊ฐ ์ ๊ฐ๊ฐ์ด๋ผ ๊ณต์ ํ ๋น๊ต ์ด๋ ค์ |
2) VLM Transfer Learning:
๋ค์ํ ๋ฐฑ๋ณธ๊ณผ ๋ฐ์ดํฐ์ ์์ ์์ ์ ์ธ ์ฑ๋ฅ ํฅ์ํ์ง๋ง ์์ง ๋ผ๋ฒจ ์์กด์ฑ์ด ํฌ๊ฑฐ๋, unsupervised๋ ์์ธ๋จ
- ResNet, ViT, Transformer ๋ฑ ๋ค์ํ ๋ฐฑ๋ณธ์์ ๋์ ์ฑ๋ฅ | - Supervised/few-shot ๋ฐฉ์์ ๋ผ๋ฒจ ํ์ |
- ๋๋ถ๋ถ ๋์ผํ pre-trained ๋ชจ๋ธ๊ณผ downstream task๋ก ์คํํ์ฌ ์ฌํ์ฑ๊ณผ ๋ฒค์น๋งํน ์ฉ์ด |
- Unsupervised transfer๋ ์ ๋งํ์ง๋ง ์์ง ๋ง์ด ์ฐ๊ตฌ๋์ง ์์ |
3) VLM Knowledge Distillation:
๋ณต์กํ ํ์คํฌ์ ๋ง์ถฐ ์ผ๋ฐํ๋ ์ง์์ ํจ์จ์ ์ผ๋ก ์ ์ดํ์ง๋ง ๋ฐฑ๋ณธ ๋ค์์ฑ์ผ๋ก ์ธํด ๋ฒค์น๋งํน์ด ์ด๋ ค์
์ฅ์ /ํ๊ณ
- Faster R-CNN, DETR ๋ฑ task-specific ๊ตฌ์กฐ์ ๊ฒฐํฉํด ์ฑ๋ฅ ํฅ์ | - ๋ฐฑ๋ณธ๊ณผ ๊ตฌ์กฐ๊ฐ ์ ๊ฐ๊ฐ(ViLD vs OV-DETR ๋ฑ) → ์ผ๊ด๋ ๋น๊ต ์ด๋ ค์ |
- Detection/segmentation์์๋ CLIP์ ์ง์์ ํจ๊ณผ์ ์ผ๋ก ํ์ฉ | - downstream ๊ตฌ์กฐ๋ ํ์ต ๋ฐฉ์์ ๋ฐ๋ผ ๊ฒฐ๊ณผ ํธ์ฐจ๊ฐ ํผ |
9. FUTURE DIRECTIONS
Vision-Language Model(VLM)์ ์ง๊ธ๊น์ง ๋๋ผ์ด ์ฑ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ง๋ง,
๊ทธ ์ ์ฌ๋ ฅ์ ๊ทน๋ํํ๊ธฐ ์ํด ํด๊ฒฐํด์ผ ํ ๊ณผ์ ๋ ๋ถ๋ช
ํ ์กด์ฌํ๋ค.
9-1. VLM Pre-training์ ์ฃผ์ ๊ณผ์
(1) ์ ๋ฐํ ๋น์ -์ธ์ด ์ ๋ ฌ ํ์ต (Fine-grained correlation modelling)
- ๊ธฐ์กด VLM์ ์ฃผ๋ก ์ด๋ฏธ์ง ์ ์ฒด์ ํ ์คํธ ๊ฐ์ ์ ๋ ฌ์ ํ์ตํ๋ค.
- ํ์ง๋ง ๊ฐ์ฒด ํ์ง๋ ์๋ฏธ ๋ถํ ๊ณผ ๊ฐ์ ๋ฐ๋ ์์ธก ํ์คํฌ์์๋
์์ญ(region)์ด๋ ํฝ์ ์์ค์ ์ ๋ฐํ ์ ๋ ฌ์ด ์๊ตฌ๋๋ค. - ์์ง ์ด ๋ถ์ผ์ ์ฐ๊ตฌ๋ ๋ง์ง ์์, ์ ๋ก์ท ๋ฐ๋ ์์ธก์ ์ํ ์ ๋ฐ ํ์ต ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค.
(2) ๋น์ ๊ณผ ์ธ์ด์ ํตํฉ ํ์ต (Unification of vision and language learning)
- ๊ธฐ์กด VLM์ ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ๊ฐ๊ฐ ๋ค๋ฅธ ์ธ์ฝ๋๋ก ์ฒ๋ฆฌํ๋ค.
- Transformer์ ๋ฑ์ฅ์ ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ๋์ผํ ํ ํฐ ์ฒ๋ฆฌ ๋ฐฉ์์ผ๋ก ํตํฉํ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ์ด์๋ค.
- ๋จ์ผ ๋คํธ์ํฌ ์์์ ๋ฉํฐ๋ชจ๋ฌ ํ์ต์ ์ํํ๋ฉด, ํจ์จ์ฑ๊ณผ ํจ๊ณผ ๋ชจ๋ ํฅ์๋ ์ ์๋ค.
(3) ๋ค๊ตญ์ด ๊ธฐ๋ฐ์ VLM ์ฌ์ ํ์ต (Multilingual VLMs)
- ํ์ฌ ๋๋ถ๋ถ์ VLM์ ์์ด๋ง์ผ๋ก ํ์ต๋์ด ์๋ค.
- ์ด๋ ๋ฌธํ์ /์ง์ญ์ ํธํฅ์ ์ ๋ฐํ ์ ์์ผ๋ฉฐ, ๋ค๊ตญ์ด ํ๊ฒฝ์์์ ์ ์ฉ์ฑ์ ๋จ์ด๋จ๋ฆฐ๋ค.
- ๋ค์ํ ์ธ์ด๋ก ๋ ํ ์คํธ๋ฅผ ํฌํจํ์ฌ ํ์ตํ๋ฉด, ๋ค์ํ ์ธ์ด์ ํํ๊ณผ ๋ฌธํ์ ์๊ฐ ํน์ฑ์ ํฌ๊ดํ๋ ๋ชจ๋ธ์ด ๋ ์ ์๋ค.
(4) ๋ฐ์ดํฐ ํจ์จ์ ์ธ VLM ํ์ต (Data-efficient VLMs)
- ๋๋ถ๋ถ์ VLM์ ์์ต ๊ฐ์ ์ด๋ฏธ์ง-ํ ์คํธ ์๊ณผ ๋ง๋ํ ์ฐ์ฐ ์์์ ์ฌ์ฉํด ํ์ต๋๋ค.
- ์ง์๊ฐ๋ฅํ ๋ชจ๋ธ์ ์ํด, ์ ์ ๋ฐ์ดํฐ๋ก๋ ํ์ต ๊ฐ๋ฅํ ํจ์จ์ ์ธ VLM ๊ตฌ์กฐ๊ฐ ์๊ตฌ๋๋ค.
- ์: ์ด๋ฏธ์ง ๊ฐ ๊ด๊ณ, ์ ๊ฐ ๋น๊ต ๋ฑ ๋ณด๋ค ์ ๊ตํ ํ์ต supervision ํ์ฉ
(5) LLM๊ณผ์ ์ตํฉ์ ํตํ ์ฌ์ ํ์ต ๊ฐํ (Pre-training with LLMs)
- ์ต๊ทผ ์ฐ๊ตฌ์์๋ LLM(GPT ๋ฑ)์ ํ์ฉํด ํ
์คํธ ์ค๋ช
์ ํ์ฅํ์ฌ
VLM์ ์ธ์ด์ ์ดํด๋ ฅ์ ํฅ์์ํค๋ ์๋๊ฐ ์ด๋ฃจ์ด์ง๊ณ ์๋ค. - ํฅํ VLM ์ฌ์ ํ์ต์์ LLM์ ๋์ฑ ์ ๊ทน์ ์ผ๋ก ๊ฒฐํฉํ๋ ์ฐ๊ตฌ๊ฐ ๊ธฐ๋๋๋ค.
9-2. VLM Transfer learning์ ์ฃผ์ ๊ณผ์
(1) Unsupervised Transfer
- ๋ง์ ์ฐ๊ตฌ๊ฐ supervised๋ few-shot์ ์ง์ค๋์ด ์์ผ๋,
unsupervised ๋ฐฉ์์ ๋ผ๋ฒจ ๋น์ฉ์ด ์๊ณ ๊ณผ์ ํฉ ์ํ์ด ๋ฎ์ ๋งค์ฐ ์ ๋งํ๋ค. - ๋ ์ ๊ตํ pseudo-label ์์ฑ, self-training ๋ฐฉ์ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค.
(2) Visual Prompt/Adapter ๊ธฐ๋ฐ ์ ์ด
- ๋๋ถ๋ถ์ ๊ธฐ์กด ์ฐ๊ตฌ๋ ํ ์คํธ ํ๋กฌํํธ(text prompt)์ ์ง์ค๋์ด ์์
- ๊ทธ๋ฌ๋ ์ด๋ฏธ์ง ์
๋ ฅ ์์ฒด๋ฅผ ์กฐ์ ํ๋ visual prompt ๋๋ adapter๋
ํนํ ํฝ์ ๋จ์ ์กฐ์ ์ด ํ์ํ ํ์คํฌ์์ ๋ ํจ๊ณผ์ ์ผ ์ ์๋ค. - ์ด ๋ถ์ผ๋ ํ์ฌ๊น์ง ๋ง์ด ์์ธ๋์ด ์์ผ๋ฉฐ, ํฅํ ํ๋ฐํ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค.
(3) Test-time Transfer
- ๊ธฐ์กด์ ์ ์ด ํ์ต์ ๋งค๋ฒ ํ์คํฌ๋ณ๋ก ํ์ธํ๋์ด ํ์ํด ๋ฐ๋ณต์ ์ธ ํ์ต ๋น์ฉ์ด ๋ ๋ค.
- ๋ฐ๋ฉด, ํ
์คํธ ์์ ์ ํ๋กฌํํธ๋ฅผ ์ ์์ ์ผ๋ก ์กฐ์ (test-time prompt tuning)ํ๋ ๋ฐฉ์์
ํจ์ฌ ๋ ํจ์จ์ ์ธ ๋ฉํฐํ์คํฌ ๋์์ด ๊ฐ๋ฅํ๋ค.
(4) LLM์ ํ์ฉํ ์๋ ํ๋กฌํํธ ์์ฑ
- ์๋ ์ค๊ณ ๋์ , LLM(GPT ๋ฑ)์ ํ์ฉํด ๋ค์ด์คํธ๋ฆผ ํ์คํฌ์ ๋ง๋ ํ๋กฌํํธ๋ฅผ ์๋ ์์ฑํ๋ ์๋๋ค์ด ๋ฑ์ฅํ๊ณ ์๋ค.
- ์ด๋ ๊ฑฐ์ ๋ผ๋ฒจ ์์ด๋ ํ์ต์ด ๊ฐ๋ฅํ๋ค๋ ์ ์์, ์ ๋น์ฉ ์ ์ด ๋ฐฉ์์ผ๋ก ๋งค์ฐ ์ ๋งํ๋ค.
9-3. VLM Knowledge Distillation์ ์ฃผ์ ๊ณผ์
(1) ๋ค์ VLM์ผ๋ก๋ถํฐ์ ์ง์ ์ฆ๋ฅ
- ์ฌ๋ฌ VLM์ด ๊ฐ์ง ํํ๋ ฅ์ ํตํฉ·๋ณด์์ ์ผ๋ก ์ฆ๋ฅํจ์ผ๋ก์จ ์๋์ง ํจ๊ณผ๋ฅผ ์ป์ ์ ์์
(2) ๋ค์ํ ๋น์ ํ์คํฌ๋ก ํ์ฅ
- ํ์ฌ๋ object detection๊ณผ semantic segmentation์ ๊ตญํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์
- ํฅํ์๋ instance segmentation, panoptic segmentation, person re-ID ๋ฑ
๋ค์ํ ๋น์ ํ์คํฌ๋ก distillation ์ฐ๊ตฌ๋ฅผ ํ์ฅํ ์ ์๋ค.