๐Ÿ“š Study/Paper Review

[Paper Review] An Introduction to Vision-Language Modeling (Meta)

์œฐ๊ฐฑ 2025. 5. 9. 14:14

0. Abstract

์ตœ๊ทผ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ํญ๋ฐœ์ ์ธ ๋ฐœ์ „๊ณผ ํ•จ๊ป˜, ๊ทธ ๋Šฅ๋ ฅ์„ ์‹œ๊ฐ ์˜์—ญ์œผ๋กœ ํ™•์žฅํ•˜๋ ค๋Š” ์‹œ๋„๊ฐ€ ํ™œ๋ฐœํžˆ ์ด๋ฃจ์–ด์ง€๊ณ  ์žˆ๋‹ค.
VLM(Vision-Language Model)์€ ๊ณ ์ˆ˜์ค€์˜ ํ…์ŠคํŠธ ์„ค๋ช…๋งŒ์œผ๋กœ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๊ฑฐ๋‚˜, ์‹œ๊ฐ์  ์žฅ๋ฉด์„ ์–ธ์–ด๋กœ ์ดํ•ดํ•˜๋Š” ๋“ฑ
์šฐ๋ฆฌ์˜ ๊ธฐ์ˆ  ํ™˜๊ฒฝ์— ํฐ ๋ณ€ํ™”๋ฅผ ๊ฐ€์ ธ์˜ฌ ์‘์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ๋‹ค.

ํ•˜์ง€๋งŒ ์‹œ๊ฐ ์ •๋ณด๋Š” ์–ธ์–ด์™€ ๋‹ฌ๋ฆฌ ๊ณ ์ฐจ์› ์—ฐ์† ๊ณต๊ฐ„์— ์กด์žฌํ•˜๋ฉฐ, ๊ฐœ๋…์„ ๋ช…ํ™•ํžˆ ๊ตฌ๋ถ„ํ•˜๊ฑฐ๋‚˜ ํ‘œํ˜„ํ•˜๊ธฐ ์–ด๋ ต๋‹ค๋Š” ๊ทผ๋ณธ์ ์ธ ํŠน์„ฑ์ด ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ์‹œ๊ฐ ์ •๋ณด๋ฅผ ์–ธ์–ด๋กœ ์ •ํ™•ํžˆ ์—ฐ๊ฒฐ(mapping)ํ•˜๋Š” ๋ฐ์—๋Š” ์—ฌ์ „ํžˆ ๋งŽ์€ ๊ธฐ์ˆ ์  ๊ณผ์ œ๊ฐ€ ๋‚จ์•„ ์žˆ๋‹ค.

๋ณธ ๋…ผ๋ฌธ์€ ์ด๋Ÿฌํ•œ ๋ฐฐ๊ฒฝ ์†์—์„œ, VLM์˜ ๊ฐœ๋…๊ณผ ํ•™์Šต ๋ฐฉ๋ฒ•, ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์„ ์†Œ๊ฐœํ•˜๋Š” ์ž…๋ฌธ์„œ๋กœ ๊ธฐํš๋˜์—ˆ๋‹ค.
ํŠนํžˆ ์ด๋ฏธ์ง€๋ฅผ ๋„˜์–ด์„œ ๋น„๋””์˜ค๊นŒ์ง€ ํ™•์žฅ๋˜๋Š” ํ๋ฆ„์„ ์—ผ๋‘์— ๋‘๊ณ , ๋น„์ „-์–ธ์–ด ์—ฐ๊ตฌ๋ฅผ ์‹œ์ž‘ํ•˜๋ ค๋Š” ์—ฐ๊ตฌ์ž์—๊ฒŒ ์œ ์šฉํ•œ ๊ธฐ๋ณธ๊ธฐ๋ฅผ ์ œ๊ณตํ•˜๊ณ ์ž ํ•œ๋‹ค.


1. Introduction

VLM์€ ์™œ ์ค‘์š”ํ•œ๊ฐ€?

์–ธ์–ด ๋ชจ๋ธ์€ ์ ์  ๋” ๋˜‘๋˜‘ํ•ด์ง€๊ณ  ์žˆ์ง€๋งŒ, ์—ฌ์ „ํžˆ ํ˜„์‹ค์„ ๋ณด๋Š” ๋Šฅ๋ ฅ์€ ๋ถ€์กฑํ•˜๋‹ค.
์‹œ๊ฐ ์ •๋ณด๋Š” ํ…์ŠคํŠธ์™€ ๋‹ฌ๋ฆฌ:

  • ๋ถˆ์—ฐ์†(discrete)ํ•œ ์–ธ์–ด์™€ ๋‹ฌ๋ฆฌ ๊ณ ์ฐจ์› ์—ฐ์† ๊ณต๊ฐ„
  • ๊ตฌ์ฒด์  ๊ฐœ์ฒด + ์ถ”์ƒ์  ๊ด€๊ณ„ + ์œ„์น˜/ํ˜•ํƒœ/์ˆ˜๋Ÿ‰ ๋“ฑ ๋ณตํ•ฉ ์ •๋ณด ํฌํ•จ

VLM์€ ์ด์ฒ˜๋Ÿผ ๋ณต์žกํ•œ ์‹œ๊ฐ ์ •๋ณด๋ฅผ ํ…์ŠคํŠธ ํ‘œํ˜„์œผ๋กœ ๋งคํ•‘ํ•จ์œผ๋กœ์จ
AI์˜ ํ˜„์‹ค ์ดํ•ด๋ ฅ๊ณผ ์ƒํ˜ธ์ž‘์šฉ ๋Šฅ๋ ฅ์„ ๋น„์•ฝ์ ์œผ๋กœ ๋Œ์–ด์˜ฌ๋ฆด ์ˆ˜ ์žˆ๋‹ค.

 

ํ•˜์ง€๋งŒ VLM์€ ์•„์ง ๊ฐˆ ๊ธธ์ด ๋ฉ€๋‹ค

  • ๋Œ€๋ถ€๋ถ„์˜ VLM์€ ์ •ํ™•ํ•œ ์ˆ˜๋Ÿ‰ ์ถ”๋ก ์ด๋‚˜ ๊ณต๊ฐ„ ๊ด€๊ณ„ ์ดํ•ด์— ์ทจ์•ฝ
  • ์†์„ฑ(attribute)์ด๋‚˜ ์ˆœ์„œ(ordering) ๊ฐœ๋…๋„ ์ž˜ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•จ
  • ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ผ๋ถ€ ๋ฌด์‹œํ•˜๊ฑฐ๋‚˜, ์ „ํ˜€ ์ƒ๊ด€์—†๋Š” ๊ฒฐ๊ณผ(=hallucination)๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ๋„ ํ•จ

์•ˆ์ •์ ์ด๊ณ  ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” VLM ๊ฐœ๋ฐœ์€ ์—ฌ์ „ํžˆ ์ค‘์š”ํ•œ ์—ฐ๊ตฌ ๊ณผ์ œ์ธ ์ƒํƒœ

 

์ด ๋…ผ๋ฌธ์€ ์–ด๋–ค ๋‚ด์šฉ์„ ๋‹ค๋ฃจ๋Š”๊ฐ€?

์ด ๋…ผ๋ฌธ์€ ๋‹ค์Œ ๋‚ด์šฉ์„ ์ž…๋ฌธ์ž ์นœํ™”์ ์ธ ํ๋ฆ„์œผ๋กœ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค:

  1. VLM์˜ ๊ฐœ๋… ๋ฐ ๊ตฌ์กฐ
    • contrastive ๋ฐฉ์‹, masked ๋ฐฉ์‹, generative ๋ฐฉ์‹ ๋“ฑ VLM์˜ ๊ณ„๋ณด ๊ตฌ๋ถ„
    • LLM ๊ธฐ๋ฐ˜ ์‚ฌ์ „ํ•™์Šต(backbone ์‚ฌ์šฉ)์— ๋Œ€ํ•œ ์„ค๋ช…
  2. VLM ํ•™์Šต ์ „๋žต
    • ์–ด๋–ค ๋ฐ์ดํ„ฐ์…‹์„ ์จ์•ผ ํ• ๊นŒ?
    • ํ…์ŠคํŠธ ์ธ์ฝ”๋”๋Š” ์ƒˆ๋กœ ํ•™์Šตํ•ด์•ผ ํ• ๊นŒ? LLM์„ ๊ฐ€์ ธ์™€ ์“ธ ์ˆ˜ ์žˆ์„๊นŒ?
    • contrastive loss๋งŒ์œผ๋กœ ์ถฉ๋ถ„ํ•œ๊ฐ€? generative ์š”์†Œ๋„ ํ•„์š”ํ• ๊นŒ?
  3. VLM ํ‰๊ฐ€ ๋ฐฉ๋ฒ•
    • visio-linguistic benchmark์˜ ํ˜„ํ™ฉ๊ณผ ํ•œ๊ณ„
    • bias๋ฅผ ์–ด๋–ป๊ฒŒ ์ธก์ •ํ•  ๊ฒƒ์ธ๊ฐ€?
  4. VLM์˜ ๋ฏธ๋ž˜: Video๋กœ์˜ ํ™•์žฅ
    • ์ด๋ฏธ์ง€์™€ ๋‹ฌ๋ฆฌ ์˜์ƒ์€ ์‹œ๊ฐ„ ์ถ•(temporal) ์ดํ•ด๊ฐ€ ํ•„์š”
    • ์—ฐ์‚ฐ๋Ÿ‰, ์–ด๋…ธํ…Œ์ด์…˜ ๋น„์šฉ ๋“ฑ ์ƒˆ๋กœ์šด ๋„์ „ ๊ณผ์ œ ์ œ์‹œ

2. The Families of VLMs

ํŠธ๋žœ์Šคํฌ๋จธ(Transformer) ๊ธฐ๋ฐ˜์˜ ์•„ํ‚คํ…์ฒ˜๊ฐ€ ๋„์ž…๋œ ์ดํ›„, ์‹œ๊ฐ๊ณผ ์–ธ์–ด๋ฅผ ์—ฐ๊ฒฐํ•˜๋ ค๋Š” ๋‹ค์–‘ํ•œ ์—ฐ๊ตฌ๋“ค์ด ์‹œ๋„๋˜์—ˆ๋‹ค.
(1) contrastive learning (2) masking (3) pretrained backbones (4) generative modeling
์ด ์žฅ์—์„œ๋Š” ์ตœ๊ทผ์˜ VLM๋“ค์„ ํ•™์Šต ๋ฐฉ์‹์— ๋”ฐ๋ผ ๋„ค ๊ฐ€์ง€ ํŒจ๋Ÿฌ๋‹ค์ž„์œผ๋กœ ๋‚˜๋ˆ„์–ด ์†Œ๊ฐœํ•œ๋‹ค.

์ด ๋„ค ๊ฐ€์ง€ ๋ฐฉ์‹์€ ์ƒํ˜ธ ๋ฐฐํƒ€์ ์ธ ๊ฒƒ์ด ์•„๋‹ˆ๋ฉฐ, ๋งŽ์€ ๋ชจ๋ธ๋“ค์€ ์—ฌ๋Ÿฌ ๋ฐฉ์‹์„ ํ˜ผํ•ฉํ•˜์—ฌ ์‚ฌ์šฉํ•˜๊ธฐ๋„ ํ•œ๋‹ค.


2.1 Early work on VLMs based on transformers

์ดˆ๊ธฐ์˜ VLM ์—ฐ๊ตฌ์—์„œ๋Š” BERT์™€ ๊ฐ™์€ ์–ธ์–ด ๋ชจ๋ธ์„ ์‹œ๊ฐ ์ •๋ณด์— ํ™•์žฅํ•˜์—ฌ ์‚ฌ์šฉํ–ˆ๋‹ค.
์˜ˆ๋ฅผ ๋“ค์–ด, VisualBERT์™€ ViLBERT๋Š” ์ด๋ฏธ์ง€ ํ† ํฐ๊ณผ ํ…์ŠคํŠธ๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ ์‹œ๊ฐ-์–ธ์–ด ๊ฐ„์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ํ•™์Šตํ–ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๋ชจ๋ธ๋“ค์€ ๋‘๊ฐ€์ง€ objective๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต๋œ๋‹ค.

(1) classical masked modeling: ์ž…๋ ฅ์˜ ์ผ๋ถ€(ํ…์ŠคํŠธ๋‚˜ ์ด๋ฏธ์ง€)๋ฅผ ๊ฐ€๋ฆฌ๊ณ , ๋ชจ๋ธ์ด ์ด๋ฅผ ์ •ํ™•ํžˆ ์˜ˆ์ธกํ•˜๋„๋ก ํ•™์Šต

(2) sentence-image prediction: ์ฃผ์–ด์ง„ ์บก์…˜์ด ์ด๋ฏธ์ง€์™€ ์‹ค์ œ๋กœ ๊ด€๋ จ ์žˆ๋Š”์ง€ ์•„๋‹Œ์ง€๋ฅผ ๋ชจ๋ธ์ด ์ด์ง„ ๋ถ„๋ฅ˜๋กœ ํŒ๋‹จ


2.2 Contrastive-based VLMs

CLIP

CLIP (Radford et al., 2021)์€ ๋Œ€์กฐ ํ•™์Šต ๊ธฐ๋ฐ˜ Vision-Language Model ์ค‘ ๊ฐ€์žฅ ๋„๋ฆฌ ์•Œ๋ ค์ง„ ๋Œ€ํ‘œ์ ์ธ ๋ชจ๋ธ์ด๋‹ค.
์ด ๋ชจ๋ธ์€ InfoNCE ์†์‹ค ํ•จ์ˆ˜๋ฅผ ํ™œ์šฉํ•ด ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ ๊ฐ„์˜ ์Œ์„ ํ•™์Šตํ•˜์—ฌ, ๊ณต๋™ ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„(shared embedding space)์—์„œ ์˜๋ฏธ์ ์œผ๋กœ ์œ ์‚ฌํ•œ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ๊ฐ€ ๊ฐ€๊นŒ์ด ์œ„์น˜ํ•˜๋„๋ก ๋งŒ๋“ ๋‹ค.

 

  • Positive pair:
    • ํ•œ ์ด๋ฏธ์ง€์™€ ํ•ด๋‹น ์ด๋ฏธ์ง€์— ๋Œ€ํ•œ ์ •๋‹ต ์บก์…˜
  • Negative pair:
    • ๋™์ผํ•œ ์ด๋ฏธ์ง€์™€ ๋‹ค๋ฅธ ์ด๋ฏธ์ง€๋“ค์˜ ์บก์…˜๋“ค
    • ์ฆ‰, ๋ฏธ๋‹ˆ๋ฐฐ์น˜ ์•ˆ์— ์žˆ๋Š” ๋‚˜๋จธ์ง€ ๋ชจ๋“  ๋ฌธ์žฅ๋“ค๊ณผ์˜ ์กฐํ•ฉ์€ ๋ถ€์ • ์ƒ˜ํ”Œ๋กœ ๊ฐ„์ฃผ

 

CLIP์€ ์›น์—์„œ ์ˆ˜์ง‘ํ•œ 4์–ต ๊ฐœ์˜ ์ด๋ฏธ์ง€-์บก์…˜ ์Œ์œผ๋กœ ์‚ฌ์ „ ํ•™์Šต๋˜์—ˆ๊ณ , ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ฐ•๋ ฅํ•œ ์ œ๋กœ์ƒท ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค:

  • ResNet-101 ๊ธฐ๋ฐ˜ CLIP์€ supervised ResNet-101๊ณผ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ (์˜ˆ: ImageNet์—์„œ 76.2%)
  • ๋‹ค์–‘ํ•œ robustness benchmark์—์„œ๋„ ๊ธฐ์กด ์ง€๋„ ํ•™์Šต ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€

 

ํ›„์†์—ฐ๊ตฌ

๐Ÿ”ธ SigLIP (Zhai et al., 2023)(ICCV'23 Oral)

  • CLIP๊ณผ ์œ ์‚ฌํ•˜์ง€๋งŒ, InfoNCE๊ฐ€ ์•„๋‹Œ binary cross-entropy ๊ธฐ๋ฐ˜ NCE ์†์‹ค์„ ์‚ฌ์šฉํ•จ
  • ์ด๋ฅผ ํ†ตํ•ด ์ž‘์€ ๋ฐฐ์น˜ ํฌ๊ธฐ์—์„œ๋„ ์•ˆ์ •์ ์ธ ์ œ๋กœ์ƒท ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์คŒ
  • ํŠนํžˆ ๋Œ€๊ทœ๋ชจ ๋ฆฌ์†Œ์Šค ์—†์ด๋„ ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋Œ€์•ˆ์œผ๋กœ ์ฃผ๋ชฉ๋ฐ›์Œ
  • https://x.com/giffmana/status/1692641733459267713

๐Ÿ”ธ LLiP (Lavoie et al., 2024)

  • ํ•˜๋‚˜์˜ ์ด๋ฏธ์ง€์— ์—ฌ๋Ÿฌ ๋ฐฉ์‹์˜ ์บก์…˜์ด ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ํ˜„์‹ค์„ ๋ฐ˜์˜
  • ์ด๋ฏธ์ง€ ์ธ์ฝ”๋”ฉ์„ ์บก์…˜์— ์กฐ๊ฑด(condition) ํ•˜๋„๋ก cross-attention ๋ชจ๋“ˆ์„ ์ถ”๊ฐ€ํ•จ
  • ํ‘œํ˜„๋ ฅ ํ–ฅ์ƒ → ์ œ๋กœ์ƒท ๋ถ„๋ฅ˜ ๋ฐ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๊ฒ€์ƒ‰ ์„ฑ๋Šฅ ํ–ฅ์ƒ

Llip


2.3 VLMs with masking objectives

FLAVA

์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ ๋ชจ๋‘์—์„œ masking ๊ธฐ๋ฒ•์„ ํ™œ์šฉํ•ด ํ•™์Šตํ•œ ๋Œ€ํ‘œ์ ์ธ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ

FLAVA๋Š” ์„ธ ๊ฐœ์˜ Transformer ๊ธฐ๋ฐ˜ ๋ชจ๋“ˆ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋‹ค:

  1. Image Encoder
    • ViT ๊ธฐ๋ฐ˜
    • ์ด๋ฏธ์ง€ ํŒจ์น˜๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ [CLS_I] ํ† ํฐ ํฌํ•จ ์ถœ๋ ฅ
  2. Text Encoder
    • ๋ฌธ์žฅ์„ ํ† ํฐํ™”ํ•˜์—ฌ [CLS_T] ํ† ํฐ ํฌํ•จ ์ถœ๋ ฅ
  3. Multimodal Encoder
    • ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ์˜ ์ถœ๋ ฅ(hidden states)์„ ํ†ตํ•ฉ
    • cross-attention๊ณผ ์„ ํ˜• ํˆฌ์˜์„ ํ™œ์šฉํ•ด [CLS_M] ํ† ํฐ ํฌํ•จ ์ถœ๋ ฅ

FLAVA๋Š” ๋‹ค์Œ ์„ธ ๊ฐ€์ง€ ํ•™์Šต ์†์‹ค์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์‚ฌ์ „ ํ•™์Šต์„ ์ง„ํ–‰ํ•œ๋‹ค:

  • Unimodal Masked Modeling Loss: ์ด๋ฏธ์ง€ ๋˜๋Š” ํ…์ŠคํŠธ ๋‹จ๋…์œผ๋กœ ๋งˆ์Šคํ‚น๋œ ์ •๋ณด๋ฅผ ์˜ˆ์ธก
  • Multimodal Masked Modeling Loss: ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ ์ •๋ณด๋ฅผ ํ•จ๊ป˜ ์‚ฌ์šฉํ•ด ๋งˆ์Šคํ‚น๋œ ๋‚ด์šฉ์„ ์˜ˆ์ธก
  • Contrastive Objective: ์˜ฌ๋ฐ”๋ฅธ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์Œ์€ ๊ฐ€๊น๊ฒŒ, ๊ทธ๋ ‡์ง€ ์•Š์€ ์Œ์€ ๋ฉ€๊ฒŒ ์ž„๋ฒ ๋”ฉ๋˜๋„๋ก ํ•™์Šต

FLAVA๋Š” 7์ฒœ๋งŒ ๊ฐœ์˜ ๊ณต๊ฐœ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์Œ์œผ๋กœ ์‚ฌ์ „ํ•™์Šต๋˜์—ˆ์œผ๋ฉฐ, ์ด 35๊ฐœ์˜ ๋‹ค์–‘ํ•œ ๋น„์ „/์–ธ์–ด/๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค.

 

MaskVLM

FLAVA์˜ ๋‹จ์ ์€ dVAE๊ฐ™์€ pretrained vision encoder๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

์ด์ฒ˜๋Ÿผ ํƒ€์‚ฌ ๊ตฌ์„ฑ ์š”์†Œ์— ๋Œ€ํ•œ ์˜์กด์„ฑ์„ ๊ฐ€์ง€๋ฉด ์™„๋ฒฝํ•œ end-to-end ํ•™์Šต์ด ์–ด๋ ต๊ฒŒ ๋˜๋Š” ๋‹จ์ ์ด ์กด์žฌํ•œ๋‹ค.

์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์•„๋ž˜์˜ ๋ชจ๋ธ์„ ์ œ์•ˆํ•œ๋‹ค.

  • ํ”ฝ์…€ ๊ณต๊ฐ„์—์„œ์˜ ์ง์ ‘์ ์ธ ๋งˆ์Šคํ‚น
    • ์ด๋ฏธ์ง€๋ฅผ patch ๋‹จ์œ„๋กœ ๋‚˜๋ˆ„์ง€ ์•Š๊ณ , ์›๋ณธ ์ด๋ฏธ์ง€์˜ raw pixel์— ์ง์ ‘ ๋งˆ์Šคํ‚น์„ ์ ์šฉํ•œ๋‹ค.
    • ์ด๋Š” VAE ์—†์ด ์ด๋ฏธ์ง€ ์ •๋ณด๋ฅผ ์ง์ ‘ ์žฌ๊ตฌ์„ฑํ•˜๋„๋ก ์œ ๋„ํ•œ๋‹ค๋Š” ์ ์—์„œ end-to-end ํ•™์Šต์ด ๊ฐ€๋Šฅํ•ด์ง„๋‹ค.
  • ํ…์ŠคํŠธ ํ† ํฐ์— ๋Œ€ํ•œ ๋งˆ์Šคํ‚น
    • ์ด๋ฏธ์ง€๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ํ…์ŠคํŠธ ์ž…๋ ฅ๋„ ์ผ๋ถ€ ๋‹จ์–ด๋ฅผ ๋งˆ์Šคํ‚นํ•œ ํ›„ ๋ณต์›ํ•˜๋Š” Masked Language Modeling (MLM) ๋ฐฉ์‹ ์ ์šฉ.
  • ํฌ๋กœ์Šค๋ชจ๋‹ฌ ์ •๋ณด ํ๋ฆ„์˜ ํ™œ์šฉ
    • ํ…์ŠคํŠธ๋ฅผ ๋ณต์›ํ•  ๋•Œ ์ด๋ฏธ์ง€ ์ธ์ฝ”๋”์—์„œ ๋‚˜์˜จ ์‹œ๊ฐ ์ •๋ณด๋ฅผ ์‚ฌ์šฉํ•˜๊ณ ,
    • ์ด๋ฏธ์ง€๋ฅผ ๋ณต์›ํ•  ๋•Œ ํ…์ŠคํŠธ ์ธ์ฝ”๋”์—์„œ ๋‚˜์˜จ ์–ธ์–ด ์ •๋ณด๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์–‘๋ฐฉํ–ฅ ์ •๋ณด ํ๋ฆ„ ๊ตฌ์กฐ๋ฅผ ๋„์ž….
    • ์ฆ‰, ํ•œ modality์—์„œ ๋ˆ„๋ฝ๋œ ์ •๋ณด๋ฅผ ๋‹ค๋ฅธ modality๋กœ๋ถ€ํ„ฐ ๋ณด์™„ํ•˜์—ฌ ๋ณต์›ํ•œ๋‹ค.

2.4 Generative-based VLMs

์ง€๊ธˆ๊นŒ์ง€ ์†Œ๊ฐœ๋œ VLM๋“ค์€ ๋Œ€๋ถ€๋ถ„ ์ž ์žฌ ํ‘œํ˜„(latent representation) ์ˆ˜์ค€์—์„œ ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๋ฅผ ์ถ”์ƒํ™”ํ•œ ๋’ค, ์ด๋ฅผ ๋งคํ•‘ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•™์Šต๋˜์—ˆ๋‹ค. ๋ฐ˜๋ฉด, Generative-based VLMs๋Š” ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€๋ฅผ ์ง์ ‘ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์„ ์˜๋ฏธํ•œ๋‹ค. ์ด๋“ค ๋ชจ๋ธ์€ ์ด๋ฏธ์ง€ ์บก์…”๋‹, ํ…์ŠคํŠธ ์ƒ์„ฑ, ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฐฉ์‹์œผ๋กœ ๋น„์ „-์–ธ์–ด ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋ฉฐ, ํŠนํžˆ multi-modal generation์— ๊ฐ•์ ์„ ๊ฐ€์ง„๋‹ค.

Coca: ํ…์ŠคํŠธ ์ƒ์„ฑ ๊ธฐ๋ฐ˜

CoCa (Contrastive Captioner)๋Š” CLIP์—์„œ ์‚ฌ์šฉ๋œ contrastive loss์— generative loss๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ, ์ด๋ฏธ์ง€ ์บก์…”๋‹ ๋ฐ VQA(Visual Question Answering) ๊ฐ™์€ ์ž‘์—…๋„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋œ ๋ชจ๋ธ์ด๋‹ค.

  • ์ž…๋ ฅ: ์ด๋ฏธ์ง€ ์ธ์ฝ”๋”์˜ ์ถœ๋ ฅ๊ณผ ํ…์ŠคํŠธ ๋””์ฝ”๋”์˜ ์ค‘๊ฐ„ ํ‘œํ˜„
  • ์ถœ๋ ฅ: ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ…์ŠคํŠธ ๋””์ฝ”๋”๊ฐ€ ์ƒ์„ฑํ•œ ์บก์…˜
  • ํ•™์Šต ์†์‹ค: contrastive loss + caption generation loss

๊ตฌ๋ถ„/์ž…๋ ฅ/๋ชฉ์ /์ถœ๋ ฅ

Image Encoder ์ด๋ฏธ์ง€ ์‹œ๊ฐ ์ •๋ณด ์ธ์ฝ”๋”ฉ img_feature
Unimodal Text Decoder ํ…์ŠคํŠธ + [CLS] contrastive ์šฉ ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ cls_token_feature
Multimodal Text Decoder ํ…์ŠคํŠธ + ์ด๋ฏธ์ง€ context (cap_feature) ์ด๋ฏธ์ง€ ์„ค๋ช… ์ƒ์„ฑ ๋‹จ์–ด ์‹œํ€€์Šค

CoCa๋Š” ์ด๋ฏธ์ง€์˜ ๋ผ๋ฒจ์„ ํ…์ŠคํŠธ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•™์Šต๋˜๋ฉฐ, ๋Œ€๊ทœ๋ชจ ์›น ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ์…‹์ธ ALIGN (1.8B ์ด๋ฏธ์ง€)์™€ ๋‚ด๋ถ€ ๋ผ๋ฒจ ๋ฐ์ดํ„ฐ์…‹์ธ JFT-3B (>29.5K ํด๋ž˜์Šค)๋กœ ํ•™์Šต๋œ๋‹ค. ์ด๋กœ ์ธํ•ด ๋ณ„๋„์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋“ˆ ์—†์ด ๋‹ค์–‘ํ•œ ๋น„์ „-์–ธ์–ด ํƒœ์Šคํฌ๋ฅผ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

Chameleon and CM3leon: ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ƒ์„ฑ ๋ชจ๋ธ

CM3Leon (Meta AI, 2023)

CM3Leon์€ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ๊ฐ„ ์–‘๋ฐฉํ–ฅ ์ƒ์„ฑ(image captioning + text-to-image generation)์„ ๋ชจ๋‘ ์ˆ˜ํ–‰ํ•˜๋Š” multimodal autoregressive model์ด๋‹ค.

  • ํ† ํฌ๋‚˜์ด์ € ๊ตฌ์„ฑ:
    • ์ด๋ฏธ์ง€: 256×256 ์ด๋ฏธ์ง€๋ฅผ 1024๊ฐœ์˜ ์‹œ๊ฐ ํ† ํฐ์œผ๋กœ ๋ณ€ํ™˜
    • ํ…์ŠคํŠธ: ๊ธฐ์กด ํ…์ŠคํŠธ ํ† ํฌ๋‚˜์ด์ € ์‚ฌ์šฉ (vocab size 56,320)
    • ํŠน๋ณ„ ํ† ํฐ <break>๋กœ modality ์ „ํ™˜ ์‹œ์ ์„ ๋ช…์‹œ
  • ๋ชจ๋ธ ๊ตฌ์กฐ: Decoder-only Transformer
  • ํ•™์Šต ๊ณผ์ •:
    1. Retrieval-augmented pretraining: CLIP ๊ธฐ๋ฐ˜ retriever๋กœ ๊ด€๋ จ ๋ฌธ์„œ๋“ค์„ ๋ถˆ๋Ÿฌ์™€ ์‹œํ€€์Šค ์•ž์— ๋ถ™์—ฌ ํ•™์Šต
    2. Supervised fine-tuning (SFT): multi-task instruction tuning ๋ฐฉ์‹์œผ๋กœ ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ ํ•™์Šต

CM3Leon์€ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ์„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ๋‹ค์–‘ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํƒœ์Šคํฌ์—์„œ SOTA ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜์˜€๋‹ค.


Chameleon (OpenAI, 2024)

Chameleon์€ ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€, ์ฝ”๋“œ๊ฐ€ ํ•˜๋‚˜์˜ ์—ฐ์†๋œ ์‹œํ€€์Šค๋กœ ์ฒ˜๋ฆฌ๋˜๋Š” ์ง„์ •ํ•œ Mixed-modal Foundation Model์ด๋‹ค.

  • ์ž…๋ ฅ ๋‹จ์ผํ™”: ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ ๋ชจ๋‘ discrete ํ† ํฐ์œผ๋กœ ๋ณ€ํ™˜ํ•ด, ๋™์ผํ•œ Transformer๋กœ ์ฒ˜๋ฆฌ
  • ์•„ํ‚คํ…์ฒ˜ ํŠน์„ฑ:
    • Early-fusion ๊ตฌ์กฐ: ๋ชจ๋“  modality๋ฅผ ์ฒ˜์Œ๋ถ€ํ„ฐ ํ•˜๋‚˜์˜ ๊ณต๊ฐ„์— ๋งคํ•‘
    • Fully token-based: encoder ๋ถ„๋ฆฌ ์—†์ด ํ†ตํ•ฉ ํ‘œํ˜„
  • ๊ธฐ์ˆ ์  ๋„์ „๊ณผ ํ•ด๊ฒฐ:
    • Query-key normalization, layer norm ์œ„์น˜ ์กฐ์ • ๋“ฑ์œผ๋กœ ์•ˆ์ •์„ฑ ํ™•๋ณด
    • ๊ธฐ์กด ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ SFT ๊ธฐ๋ฒ•์„ mixed-modal์—๋„ ์ ์šฉ

Chameleon์€ ์ผ๋ฐ˜์ ์ธ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์ด๋‚˜ ์บก์…”๋‹์„ ๋„˜์–ด, ๋‹ค์ค‘ ๋ชจ๋‹ฌ ๋ฌธ์„œ ์ดํ•ด ๋ฐ ์ƒ์„ฑ๊นŒ์ง€ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ•๋ ฅํ•œ ๋ฒ”์šฉ ๋ชจ๋ธ๋กœ ์ฃผ๋ชฉ๋ฐ›๊ณ  ์žˆ๋‹ค.

+ Early Fusion ๋ฐฉ์‹์€ Gemini์—์„œ๋„ ์‚ฌ์šฉ๋˜์—ˆ์ง€๋งŒ, gemini๋Š” ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ์— ๋Œ€ํ•ด ๋ณ„๊ฐœ์˜ ๋””์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ•œ ๋ฐ˜๋ฉด์— Chameleon์€ ๋””์ฝ”๋” ๋ถ€๋ถ„๊นŒ์ง€ ํ†ตํ•ฉ๋œ ๋ชจ๋“ˆ๋กœ ์—”๋“œ ํˆฌ ์—”๋“œ๋กœ ๋™์ž‘ํ•œ๋‹ค๋Š” ์ฐจ์ด์ ์ด ์žˆ๋‹ค.
(์ถœ์ฒ˜: https://kk-eezz.tistory.com/109)


2.5 VLMs from Pretrained Backbones

Vision-Language Model(VLM)์„ ์ฒ˜์Œ๋ถ€ํ„ฐ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์€ ๋ง‰๋Œ€ํ•œ ๋ฆฌ์†Œ์Šค๋ฅผ ์š”๊ตฌํ•œ๋‹ค.
์ˆ˜๋ฐฑ~์ˆ˜์ฒœ ๊ฐœ์˜ GPU์™€ ์ˆ˜์–ต ๊ฐœ์˜ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์Œ์ด ํ•„์š”ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ์ตœ๊ทผ์—๋Š” ์ด๋ฏธ ํ•™์Šต๋œ LLM์ด๋‚˜ ๋น„์ „ ์ธ์ฝ”๋”๋ฅผ ์žฌํ™œ์šฉํ•˜๋Š” ๋ฐฉ์‹์ด ์ฃผ๋ชฉ๋ฐ›๊ณ  ์žˆ๋‹ค.

์ด ์ ˆ์—์„œ๋Š” ๋Œ€ํ‘œ์ ์ธ pretrained backbone ๊ธฐ๋ฐ˜ VLM๋“ค์„ ์†Œ๊ฐœํ•œ๋‹ค.

 

Frozen

Frozen

  • Frozen์€ ์‚ฌ์ „ํ•™์Šต๋œ LLM(7B ํŒŒ๋ผ๋ฏธํ„ฐ)๊ณผ ๊ฐ€๋ฒผ์šด vision encoder๋ฅผ ์—ฐ๊ฒฐํ•˜๋Š” ์ตœ์ดˆ์˜ ์‹œ๋„ ์ค‘ ํ•˜๋‚˜
  • ๊ตฌ์กฐ:
    • Vision encoder: NF-ResNet-50 (ํ•™์Šต๋จ)
    • Language model: 7B transformer (C4๋กœ ํ•™์Šต๋œ ์ƒํƒœ ๊ทธ๋Œ€๋กœ freeze)
    • ๋‘ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์‚ฌ์ด๋ฅผ ์„ ํ˜• ๋งคํ•‘ layer๋กœ ์—ฐ๊ฒฐ
  • ํ•™์Šต:
    • Conceptual Captions ๋ฐ์ดํ„ฐ์…‹ ๊ธฐ๋ฐ˜ ํ…์ŠคํŠธ ์ƒ์„ฑ ๋ชฉํ‘œ๋กœ ํ•™์Šต
  • ํŠน์ง•:
    • ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ์„ ํ•จ๊ป˜ ์ž…๋ ฅ๋ฐ›์•„ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑ
    • ์„ฑ๋Šฅ์€ ์ œํ•œ์ ์ด์ง€๋งŒ, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์˜ ๊ธฐ๋ฐ˜์„ ๋งˆ๋ จํ•œ ์˜๋ฏธ ์žˆ๋Š” ์ถœ๋ฐœ์ 

 

MiniGPT ๊ณ„์—ด

 

MiniGPT-4

  • Flamingo ์ดํ›„ ๋ฐœ์ „ํ•œ ๊ตฌ์กฐ๋กœ, ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ ํ…์ŠคํŠธ๋ฅผ ์ถœ๋ ฅํ•จ
  • ๊ตฌ์„ฑ:
    • Visual encoder: BLIP-2์˜ ViT + Q-Former
    • Language model: Vicuna
    • ์ค‘๊ฐ„ ์—ฐ๊ฒฐ: ๋‹จ์ˆœํ•œ ์„ ํ˜• projection layer
  • ํ•™์Šต:
    • 1๋‹จ๊ณ„: Conceptual Captions, SBU, LAION (5M์Œ)์œผ๋กœ ์„ ํ˜• ๋ ˆ์ด์–ด ํ•™์Šต (4GPU, 10์‹œ๊ฐ„)
    • 2๋‹จ๊ณ„: instruction tuning ๋ฐฉ์‹์˜ ์†Œ๊ทœ๋ชจ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ (400 step)
  • ์žฅ์ : ์‚ฌ์ „ํ•™์Šต๋œ ๋ฐฑ๋ณธ์„ ํ™œ์šฉํ•˜์—ฌ ๋งค์šฐ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šต ๊ฐ€๋Šฅ

MiniGPT-4

MiniGPT-5

  • MiniGPT-4์—์„œ ์ด๋ฏธ์ง€๋„ ์ถœ๋ ฅ ๊ฐ€๋Šฅํ•œ ๋ชจ๋ธ๋กœ ํ™•์žฅ
  • ์ด๋ฏธ์ง€ ์ƒ์„ฑ์„ ์œ„ํ•ด generative visual token ์‚ฌ์šฉ → Stable Diffusion 2.1์— ์ž…๋ ฅ๋จ
  • ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€ํ™”, ์Šคํ† ๋ฆฌ ์ƒ์„ฑ ๋“ฑ ๋ณตํ•ฉ ํƒœ์Šคํฌ์— ํ™œ์šฉ

MiniGPT-5

MiniGPT-v2

  • ๋‹ค์–‘ํ•œ ๋น„์ „-์–ธ์–ด ํƒœ์Šคํฌ๋ฅผ ํ•˜๋‚˜์˜ ์ธํ„ฐํŽ˜์ด์Šค์—์„œ ์ฒ˜๋ฆฌ
  • ๊ฐ ํƒœ์Šคํฌ์— ๋Œ€ํ•ด ๊ณ ์œ  ํƒœ์Šคํฌ ์‹๋ณ„์ž(token)๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต ํšจ๊ณผ์ ์œผ๋กœ ๋‹ฌ์„ฑ
  • VQA, visual grounding ๋“ฑ์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ

 

 

๊ทธ ์™ธ ๋Œ€ํ‘œ์ ์ธ ๋ฐฑ๋ณธ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ

Qwen-VL / Qwen-VL-Chat

  • ๊ตฌ์กฐ:
    • LLM: Qwen-7B
    • Visual encoder: ViT-bigG
    • Cross-attention์œผ๋กœ visual feature๋ฅผ ์••์ถ• ํ›„ LLM์— ์ž…๋ ฅ

BLIP-2

  • ๊ตฌ์กฐ:
    • Visual encoder (์˜ˆ: CLIP) → image embedding
    • Q-Former: randomly initialized query vector๋“ค์ด ์ด๋ฏธ์ง€ ์ž„๋ฒ ๋”ฉ๊ณผ cross-attention ์ˆ˜ํ–‰
    • ๊ฒฐ๊ณผ๋ฅผ ์„ ํ˜• ๋ณ€ํ™˜ํ•˜์—ฌ LLM์˜ ์ž…๋ ฅ ๊ณต๊ฐ„์œผ๋กœ ํˆฌ์˜
  • ํŠน์ง•:
    • LLM(์˜ˆ: OPT)์€ freeze ์ƒํƒœ
    • Q-Former๋งŒ ํ•™์Šต → ํšจ์œจ์ ์ด๋ฉฐ ์„ฑ๋Šฅ ์ข‹์€ ๊ตฌ์กฐ

์ถœ์ฒ˜: https://kk-eezz.tistory.com/109

Q-former์ด๋ž€?
"Query Transformer"์˜ ์•ฝ์ž๋กœ, ํ•™์Šต ๊ฐ€๋Šฅํ•œ ์ฟผ๋ฆฌ(query) ๋ฒกํ„ฐ๋“ค์„ ์‚ฌ์šฉํ•ด ์ด๋ฏธ์ง€์™€ ์ƒํ˜ธ์ž‘์šฉํ•˜๊ณ ,
์ด๋ฅผ ํ†ตํ•ด ์–ป์€ ์ •๋ณด๋ฅผ LLM์˜ ์ž…๋ ฅ ํ† ํฐ ๊ณต๊ฐ„์œผ๋กœ ๋งคํ•‘ํ•˜๋Š” ์—ญํ• ์„ ์ˆ˜ํ–‰

์™œ Q-Former๊ฐ€ ํ•„์š”ํ•œ๊ฐ€?
LLM์€ ํ…์ŠคํŠธ ํ† ํฐ๋งŒ์„ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›๋„๋ก ์„ค๊ณ„๋˜์–ด ์žˆ๋‹ค.
ํ•˜์ง€๋งŒ ์ด๋ฏธ์ง€ ์ธ์ฝ”๋”๊ฐ€ ์ถœ๋ ฅํ•˜๋Š” feature๋Š” LLM์˜ ๊ธฐ๋Œ€ํ•˜๋Š” embedding space์™€ ๋‹ค๋ฆ…๋‹ˆ๋‹ค.
>>> Q-Former๋Š” ์ด ๊ฐ„๊ทน์„ bridge(๋‹ค๋ฆฌ) ํ•ด์ฃผ๋Š” ์—ญํ• 

Q-Former์˜ ๊ตฌ์กฐ์™€ ์ž‘๋™ ๋ฐฉ์‹
โ‘  ์ž…๋ ฅ
- Image encoder (์˜ˆ: ViT)๋กœ๋ถ€ํ„ฐ ์ถ”์ถœํ•œ image feature tokens
- ํ•™์Šต ๊ฐ€๋Šฅํ•œ query vector (์˜ˆ: 32๊ฐœ, ๋žœ๋ค ์ดˆ๊ธฐํ™”)

โ‘ก Transformer ๊ธฐ๋ฐ˜ cross-attention
- Query vector๋“ค์ด image tokens๊ณผ cross-attention์„ ์ˆ˜ํ–‰ํ•จ (์ฆ‰, "์ด ์ด๋ฏธ์ง€์—์„œ ์ค‘์š”ํ•œ ์ •๋ณด๊ฐ€ ๋ญ์•ผ?"๋ฅผ query๋“ค์ด ๋ฌป๋Š” ๊ตฌ์กฐ)
- ์ด ๊ณผ์ •์„ ํ†ตํ•ด query๋“ค์€ ์ด๋ฏธ์ง€ ์ •๋ณด๊ฐ€ ๋…น์•„๋“  ๋ฒกํ„ฐ๋กœ ์—…๋ฐ์ดํŠธ๋จ

โ‘ข Projection to LLM input space
- ์œ„์—์„œ ์–ป์€ query ์ถœ๋ ฅ์„ ์„ ํ˜• projection layer๋ฅผ ํ†ตํ•ด LLM์˜ ์ž…๋ ฅ ํฌ๋งท์œผ๋กœ ๋ณ€ํ™˜
- ์ด๋•Œ ๋‚˜์˜จ ๋ฒกํ„ฐ๋“ค์€ ํ…์ŠคํŠธ ํ† ํฐ๊ณผ ๋™์ผํ•œ ํฌ๋งท์ด ๋˜์–ด, LLM์— ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์—ฐ๊ฒฐ๋จ

 

ํ•ญ๋ชฉ / Qwen-VL / BLIP-2 (Q-Former ๊ธฐ๋ฐ˜)

์‹œ๊ฐ ์ •๋ณด ์‚ฝ์ž… ๋ฐฉ์‹ ํ…์ŠคํŠธ ํ† ํฐ ์œ„์— cross-attention์œผ๋กœ ์‹œ๊ฐ ์ •๋ณด ๋ฐ˜์˜ ์ด๋ฏธ์ง€ ํ”ผ์ฒ˜๋ฅผ pseudo text token์œผ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ LLM์— ์ง์ ‘ ์ž…๋ ฅ
LLM ์ž…๋ ฅ ๊ตฌ์กฐ ํ…์ŠคํŠธ๋งŒ ์ž…๋ ฅ, ์ด๋ฏธ์ง€ ํ”ผ์ฒ˜๋Š” ๋‚ด๋ถ€์—์„œ ์ฐธ์กฐ๋งŒ ํ•จ ์ด๋ฏธ์ง€ ์ž„๋ฒ ๋”ฉ์ด ํ…์ŠคํŠธ์ฒ˜๋Ÿผ ์ง์ ‘ ์ž…๋ ฅ๋จ (Q-Former ํ†ตํ•ด ๋ณ€ํ™˜๋จ)
ํ•™์Šต๋˜๋Š” ๋ถ€๋ถ„ Cross-attention layer, LLM ์ผ๋ถ€ fine-tune Q-Former (query + cross-attn + projection)๋งŒ ํ•™์Šต
๋””์ž์ธ ์ฒ ํ•™ "ํ…์ŠคํŠธ ์ค‘์‹ฌ reasoning + ์ด๋ฏธ์ง€ ๋ณด์กฐ" "์ด๋ฏธ์ง€ ์š”์•ฝ์„ ํ…์ŠคํŠธํ™”ํ•ด์„œ LLM์—๊ฒŒ ๋งก๊น€"
์œ ์—ฐ์„ฑ ๊ธฐ์กด LLM ๊ตฌ์กฐ ๊ฑฐ์˜ ๊ทธ๋Œ€๋กœ ์œ ์ง€ ๊ฐ€๋Šฅ ๊ตฌ์กฐ์ƒ LLM๊ณผ tightly couple ํ•„์š”
ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ๊ฒฐํ•ฉ ์‹œ์  LLM ๋‚ด๋ถ€์˜ attention ๋ ˆ์ด์–ด์—์„œ ๊ฒฐํ•ฉ LLM ์ž…๋ ฅ๋‹จ์—์„œ ๊ฒฐํ•ฉ๋จ (์ž…๋ ฅ ์ž์ฒด๊ฐ€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ)

๋ชจ๋ธ / ํŠน์ง• / ์—ฐ๊ฒฐ ๋ฐฉ์‹ / ํ•™์Šต ํŒŒ๋ผ๋ฏธํ„ฐ

Frozen ์ตœ์ดˆ์˜ LLM ์—ฐ๊ฒฐ VLM linear projection LLM์€ freeze
MiniGPT-4 ํšจ์œจ์  ํ…์ŠคํŠธ ์ƒ์„ฑ linear + BLIP-2 encoder Vicuna + ViT
MiniGPT-5 ํ…์ŠคํŠธ + ์ด๋ฏธ์ง€ ์ƒ์„ฑ generative visual token + SD 2.1 ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ƒ์„ฑ
MiniGPT-v2 unified ์ธํ„ฐํŽ˜์ด์Šค + ํƒœ์Šคํฌ ์‹๋ณ„์ž instruction tuning VQA ๋“ฑ ๊ฐ•ํ•จ
Qwen-VL cross-attention ๊ธฐ๋ฐ˜ ์—ฐ๊ฒฐ ViT-bigG → LLM Qwen-7B ์‚ฌ์šฉ
BLIP-2 Q-Former๋กœ ์ •๋ ฌ CLIP → Q-Former → LLM ํšจ์œจ์  ๊ตฌ์กฐ

3. A Guide to VLM Training

์ตœ๊ทผ VLM(Vision-Language Model)์˜ ์„ฑ๋Šฅ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด ์Šค์ผ€์ผ์—…์ด ๊ฐ•์กฐ๋˜์–ด ์™”๋‹ค.
CLIP์ฒ˜๋Ÿผ ์ˆ˜์–ต ๊ฐœ์˜ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์Œ์„ ํ™œ์šฉํ•œ ๋Œ€๊ทœ๋ชจ ํ•™์Šต์€ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์žฅํ•˜์ง€๋งŒ, ๋ง‰๋Œ€ํ•œ ๋น„์šฉ๊ณผ ์ž์›์ด ์†Œ๋ชจ๋œ๋‹ค.

ํ•˜์ง€๋งŒ ์ตœ๊ทผ ์—ฐ๊ตฌ๋“ค์€ ๋‹จ์ˆœํ•œ ๋ฐ์ดํ„ฐ ์–‘์˜ ํ™•์žฅ๋ณด๋‹ค๋Š” ‘์ข‹์€ ๋ฐ์ดํ„ฐ์…‹์„ ์–ด๋–ป๊ฒŒ ์„ ๋ณ„ํ•˜๊ณ  ๊ตฌ์„ฑํ•˜๋А๋ƒ’๊ฐ€ ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๋” ํšจ๊ณผ์ ์ž„์„ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ๋‹ค.

 

์ข‹์€ ๋ฐ์ดํ„ฐ๊ฐ€ ๊ณง ์ข‹์€ ์ œ๋กœ์ƒท ์„ฑ๋Šฅ์„ ๋งŒ๋“ ๋‹ค

  • ์ œ๋กœ์ƒท ์„ฑ๋Šฅ์€ "๋ชจ๋ธ์ด ๋˜‘๋˜‘ํ•ด์„œ"๊ฐ€ ์•„๋‹ˆ๋ผ,
    ํ•™์Šต ๋ฐ์ดํ„ฐ ์•ˆ์— ๊ทธ ๊ฐœ๋…์ด ์ถฉ๋ถ„ํžˆ ํฌํ•จ๋˜์–ด ์žˆ์—ˆ๊ธฐ ๋•Œ๋ฌธ์— ๊ฐ€๋Šฅํ•œ ๊ฒƒ
  • “ํ•™์Šต ๋ฐ์ดํ„ฐ์— ๊ทธ ๊ฐœ๋…์ด ์–ผ๋งˆ๋‚˜ ์กด์žฌํ•˜๋А๋ƒ”๊ฐ€ ์ œ๋กœ์ƒท ์„ฑ๋Šฅ์˜ ํ•ต์‹ฌ

 

 


# ์ฐธ๊ณ  ๋ธ”๋กœ๊ทธ

https://kk-eezz.tistory.com/109