๐Ÿ“š Study/Paper Review

[25’ NeurlPS] Slot-VLM: SlowFast Slots for Video-Language Modeling

์œฐ๊ฐฑ 2025. 7. 8. 23:11

# Introduction

Vision-Language >>> Video-Language

์ด๋ฏธ์ง€ ์ˆ˜์ค€์˜ VLM์€ MiniGPT-4, LLaVA ๊ฐ™์€ ๋ชจ๋ธ๋“ค๋กœ ํฐ ์ง„์ „์„ ์ด๋ค˜๋‹ค. ์ด๋“ค์€ ์ด๋ฏธ์ง€์˜ ํŠน์ง•์„ ํ…์ŠคํŠธ์™€ ์ž˜ ์ •๋ ฌํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ๊ตฌ์กฐ(Q-Former, projection layers ๋“ฑ)๋ฅผ ํ™œ์šฉํ–ˆ๋‹ค. ํ•˜์ง€๋งŒ "์˜์ƒ"์€ ๋˜ ๋‹ค๋ฅธ ์ด์•ผ๊ธฐ์ด๋‹ค.

์ด๋ฏธ์ง€๋Š” ํ•œ ์žฅ์œผ๋กœ ์ •๋ณด๋ฅผ ๋‹ด์„ ์ˆ˜ ์žˆ์ง€๋งŒ, ์˜์ƒ์€ ์‹œ๊ฐ„ ์ถ•์„ ๋”ฐ๋ผ ์—ฐ์†๋œ ์ˆ˜๋งŽ์€ ํ”„๋ ˆ์ž„์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋‹ค. ๊ทธ๋ž˜์„œ ์˜์ƒ ์ดํ•ด๋ฅผ ์œ„ํ•ด์„  ์—ฌ๋Ÿฌ ํ”„๋ ˆ์ž„์„ ์ƒ˜ํ”Œ๋งํ•˜๊ณ , ๊ฐ ํ”„๋ ˆ์ž„์—์„œ ์ถ”์ถœํ•œ ํŠน์ง•์„ ์–ธ์–ด ๋ชจ๋ธ์— ๋„ฃ๋Š” ๋ฐฉ์‹์ด ์ž์ฃผ ์‚ฌ์šฉ๋œ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, ํ”„๋ ˆ์ž„๋ณ„๋กœ ํ† ํฐ์„ ๋ฝ‘์•„ ๊ทธ๋Œ€๋กœ LLM์— ์Œ“์•„ ๋„ฃ๋Š” ๋ฐฉ์‹์ด ๋Œ€ํ‘œ์ ์ด๋‹ค.

ํ•˜์ง€๋งŒ ์ด ๋ฐฉ์‹์—” ์น˜๋ช…์ ์ธ ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋””ํ…Œ์ผ์„ ์‚ด๋ฆฌ๊ธฐ ์œ„ํ•ด ํ”„๋ ˆ์ž„์„ ์ด˜์ด˜ํžˆ ์ƒ˜ํ”Œ๋งํ•˜๊ฑฐ๋‚˜, ์˜์ƒ์˜ ๊ธธ์ด๊ฐ€ ๊ธธ์–ด์ ธ์„œ ๋งŽ์€ ํ”„๋ ˆ์ž„์„ ์‚ฌ์šฉํ•ด์•ผ ํ•˜๋Š” ๊ฒฝ์šฐ, ํ† ํฐ ์ˆ˜๊ฐ€ ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ๋Š˜์–ด๋‚˜๊ฒŒ ๋œ๋‹ค. 10๋ถ„์งœ๋ฆฌ ์˜์ƒ์—์„œ ์ดˆ๋‹น 1ํ”„๋ ˆ์ž„๋งŒ ๋ฝ‘์•„๋„, ํ”„๋ ˆ์ž„๋‹น 32๊ฐœ์˜ ํ† ํฐ์ด ํ•„์š”ํ•˜๋‹ค๋ฉด ์ด 19,200๊ฐœ์˜ ํ† ํฐ์ด ์ƒ๊ธด๋‹ค. ์ด๋Š” ๋ฉ”๋ชจ๋ฆฌ๋‚˜ ์—ฐ์‚ฐ ๋น„์šฉ ์ธก๋ฉด์—์„œ ๋งค์šฐ ๋ถ€๋‹ด์Šค๋Ÿฝ๊ณ , ์ค‘๋ณต๋˜๊ฑฐ๋‚˜ ๋œ ์ค‘์š”ํ•œ ์ •๋ณด๊ฐ€ ๋งŽ์•„ ๋น„ํšจ์œจ์ ์ด๋‹ค.

 

Slot-VLM: ์˜์ƒ๋„ ๋‹จ์–ด์ฒ˜๋Ÿผ ์ชผ๊ฐœ์„œ ์ƒ๊ฐํ•˜์ž

Slot-VLM์€ ์ด ๋ฌธ์ œ๋ฅผ "์‚ฌ๋žŒ์ฒ˜๋Ÿผ ์ƒ๊ฐํ•˜๋Š” ๋ฐฉ์‹"์—์„œ ํžŒํŠธ๋ฅผ ์–ป์—ˆ๋‹ค.

์šฐ๋ฆฌ๊ฐ€ ์˜์ƒ์„ ๋ณผ ๋•Œ, ๊ทธ๋ƒฅ ํ”ฝ์…€ ๋ฉ์–ด๋ฆฌ๋กœ ๋ณด์ง€ ์•Š๊ณ , ๋ฌผ์ฒด, ์‚ฌ๊ฑด, ์›€์ง์ž„ ๋“ฑ์„ ๋ถ„๋ฆฌํ•ด์„œ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์— ๊ธฐ์ธํ–ˆ๋‹ค. Slot-VLM๋„ ์˜์ƒ์—์„œ ์ด๋Ÿฐ '์˜๋ฏธ ์ค‘์‹ฌ์˜ ํ† ํฐ', ์ฆ‰ ์Šฌ๋กฏ(Slots) ์„ ๋ฝ‘์•„ LLM๊ณผ ์—ฐ๊ฒฐํ•˜๋ ค ํ•œ๋‹ค.

์ด๋ฅผ ์œ„ํ•ด SF-Slots๋ผ๋Š” ๊ตฌ์กฐ๋ฅผ ๋„์ž…ํ•˜์˜€๊ณ  ์ด ๊ตฌ์กฐ๋Š” ๋‘ ๊ฐ€์ง€ ๋ธŒ๋žœ์น˜๋กœ ๊ตฌ์„ฑ๋œ๋‹ค:

  • Slow-Slots: ๊ณ ํ•ด์ƒ๋„ ํ”„๋ ˆ์ž„์„ ๋‚ฎ์€ ์†๋„๋กœ ๋ฝ‘์•„, ์žฅ๋ฉด ์†์˜ ๊ฐ์ฒด ์ค‘์‹ฌ ์ •๋ณด (object-centric)๋ฅผ ์ถ”์ถœ 
    • High Spatial Resolution (๊ณต๊ฐ„ ํ•ด์ƒ๋„ ๋†’์Œ):
      ํ”„๋ ˆ์ž„ ํ•œ ์žฅ ํ•œ ์žฅ์„ ํฌ๊ณ  ์ž์„ธํ•˜๊ฒŒ(=H, W ํผ) ๋ณธ๋‹ค.
      ๊ฐ์ฒด(์‚ฌ๋žŒ, ์‚ฌ๋ฌผ ๋“ฑ)์˜ ๋ชจ์–‘์ด๋‚˜ ์œ„์น˜, ๊ตฌ์กฐ ๊ฐ™์€ ๊ณต๊ฐ„ ์ •๋ณด๋ฅผ ์ž˜ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ๋‹ค.
    • Low Frame Rate (ํ”„๋ ˆ์ž„ ์ˆ˜ ์ ์Œ):
      ๋Œ€์‹  ํ”„๋ ˆ์ž„์€ ์ ๊ฒŒ ๋ฝ‘๋Š”๋‹ค. ์˜ˆ: 1์ดˆ์— ํ•œ ์žฅ ์ •๋„๋งŒ ์‚ฌ์šฉ. ์™œ๋ƒ๋ฉด "๋ฌผ์ฒด"๋Š” ๋น ๋ฅด๊ฒŒ ๋ณ€ํ•˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ
  • Fast-Slot: ์ €ํ•ด์ƒ๋„์ง€๋งŒ ๋†’์€ ์†๋„๋กœ ํ”„๋ ˆ์ž„์„ ๋ฝ‘์•„, ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ์ด๋ฒคํŠธ ์ค‘์‹ฌ ์ •๋ณด (event-centric)๋ฅผ ์ถ”์ถœ
    • High Temporal Resolution (์‹œ๊ฐ„ ํ•ด์ƒ๋„ ๋†’์Œ):
      ํ”„๋ ˆ์ž„์„ ๋นฝ๋นฝํ•˜๊ฒŒ(=T ํผ) ๋ฝ‘๋Š”๋‹ค. ์˜ˆ: 30fps๋กœ ๋ฝ‘๊ธฐ. ์‹œ๊ฐ„์— ๋”ฐ๋ผ ์–ด๋–ป๊ฒŒ ์›€์ง์ž„์ด ๋ฐ”๋€Œ๋Š”์ง€ ์ž์„ธํžˆ ํŒŒ์•…
    • Low Spatial Resolution (๊ณต๊ฐ„ ํ•ด์ƒ๋„ ๋‚ฎ์Œ):
      ๋Œ€์‹  ํ”„๋ ˆ์ž„ ํ•œ ์žฅ ํ•œ ์žฅ์˜ ํฌ๊ธฐ๋Š” ์ค„์ž„ (H, W๋ฅผ ์ž‘๊ฒŒ). ๋น ๋ฅธ ์ฒ˜๋ฆฌ์™€ ์š”์•ฝ์„ ์œ„ํ•ด์„œ

์ด ๋‘˜์„ ํ•ฉ์ณ์„œ, ๊ฐ์ฒด์™€ ์ด๋ฒคํŠธ ๋ชจ๋‘๋ฅผ ์ž˜ ๋ฐ˜์˜ํ•œ ํ† ํฐ์„ ์ƒ์„ฑํ•˜๊ณ , ์ด๋ฅผ LLM์— ์ „๋‹ฌํ•ด ์˜์ƒ์— ๋Œ€ํ•ด ๋” ์ž˜ "์ดํ•ด"ํ•˜๊ณ  "๋Œ€๋‹ต"ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋งŒ๋“œ๋Š” ๊ฒƒ์ด๋‹ค.

์šฉ์–ด ์˜๋ฏธ ์˜ˆ์‹œ ์™œ ์“ฐ๋Š”๊ฐ€?
High Spatial Resolution ํ”„๋ ˆ์ž„ ํ•œ ์žฅ๋‹น ํ•ด์ƒ๋„๊ฐ€ ๋†’์Œ (H, W ํผ) 224×224 ์ด๋ฏธ์ง€ ์‚ฌ๋ฌผ, ๋ฌผ์ฒด๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ๋ณด๊ธฐ ์œ„ํ•ด
Low Frame Rate ํ”„๋ ˆ์ž„์„ ์ ๊ฒŒ ์‚ฌ์šฉํ•จ (T ์ž‘์Œ) 1fps ์ƒ˜ํ”Œ๋ง ํ”„๋ ˆ์ž„ ๊ฐ„ ๋ณ€ํ™”๊ฐ€ ์ ์€ ๊ฐ์ฒด ์ค‘์‹ฌ ๋ถ„์„
High Temporal Resolution ํ”„๋ ˆ์ž„์„ ๋งŽ์ด ์‚ฌ์šฉํ•จ (T ํผ) 30fps ์ƒ˜ํ”Œ๋ง ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋ณ€ํ•˜๋Š” ํ–‰๋™/์ด๋ฒคํŠธ ๋ถ„์„
Low Spatial Resolution ํ”„๋ ˆ์ž„ ํ•ด์ƒ๋„๊ฐ€ ๋‚ฎ์Œ (H, W ์ž‘์Œ) 32×32 ์ด๋ฏธ์ง€ ๋น ๋ฅด๊ฒŒ ์ฒ˜๋ฆฌํ•˜๊ณ  ๋ณ€ํ™” ํฌ์ฐฉ์šฉ

 

# Method