0. Abstract
— ํ์ต ์์ด๋ MLLM์ ์๊ฐ์ ์ง์๋ฅผ ๊ฐ๋ฅํ๊ฒ ๋ง๋ ControlMLLM
ControlMLLM์ ๋ฉํฐ๋ชจ๋ฌ ๋ํ ์ธ์ด ๋ชจ๋ธ(MLLM)์ ์ถ๊ฐ ํ์ต ์์ด ์๊ฐ์ ํ๋กฌํํธ(๋ฐ์ค, ๋ง์คํฌ, ์ ๋ฑ)๋ฅผ ์ฃผ์
ํ๋ ์๋ก์ด ๋ฐฉ๋ฒ์ด๋ค.
ํต์ฌ์ attention ๋ฉ์ปค๋์ฆ์ ํ์ฉํด, ํ
์คํธ ํ ํฐ์ด ์ฌ์ฉ์๊ฐ ์ง์ํ ์๊ฐ์ ์์ญ์ ์ฃผ๋ชฉํ๋๋ก ์๊ฐ ํ ํฐ์ ํ
์คํธ ์์ ์์๋ง ์ต์ ํํ๋ ๊ฒ์ด๋ค.
- ์ถ๊ฐ ํ์ต ๋ถํ์: ํ์ธํ๋ ์์ด ์ ์ฉ ๊ฐ๋ฅ
- ์ ํํ ์์ญ ์ง์: attention์ ์ ์ดํด referring ์ฑ๋ฅ ํฅ์
- ๋ฒ์ฉ์ฑ: ๋ค์ํ ์ ๋ ฅ ํ์ ์ง์ + ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ํ์ธ
1. Introduction
์ต๊ทผ Multimodal Large Language Models (MLLMs)์ ํ ์คํธ์ ์ด๋ฏธ์ง๋ฅผ ํจ๊ป ์ฒ๋ฆฌํ๋ฉฐ ๋ค์ํ ์์ฉ ๋ถ์ผ์์ ํ์ฝํ๊ณ ์๋ค. ๊ทธ๋ฌ๋ ๋๋ถ๋ถ์ ๊ธฐ์กด MLLM์ ์ด๋ฏธ์ง ์ ์ฒด ์์ค์์ ์ ๋ณด๋ฅผ ์ ๋ ฌํ๋ coarse image-level alignment ๋ฐฉ์์ ์์กดํ๋ค.
์ด๋ก ์ธํด ์ธ๋ฐํ ์์ญ ์ค๋ช
์ด๋ ์ถ๋ก ์ด ํ์ํ ๊ฒฝ์ฐ,
์ฌ์ฉ์ ์
๋ ฅ์ ํ
์คํธ ํ๋กฌํํธ์๋ง ์์กดํด์ผ ํ๊ณ , ์ด๋ ์ด๋ฏธ์ง ์ ๋ณต์กํ ์๊ฐ์ ๋์์ค(intricate visual nuance)๋ฅผ ์ถฉ๋ถํ ๋ฐ์ํ์ง ๋ชปํ๋ค.
์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํด, ์ต๊ทผ ์ฐ๊ตฌ๋ค์ ์ฌ์ฉ์๊ฐ ๋ฐ์ค, ํฌ์ธํธ, ๋ง์คํฌ ๋ฑ ์๊ฐ์ ์ง์(referring input)๋ฅผ ์ง์ ์ ๊ณตํ๋ ๋ฐฉ์์ ๋์ ํ๋ค. ์ด๋ฌํ ์ ๊ทผ์ ๋ณด๋ค ์ ๋ฐํ ์๊ฐ-์ธ์ด ์ ๋ ฌ์ ๊ฐ๋ฅํ๊ฒ ํ์ง๋ง, ๋ชจ๋ธ์ ๋ค์ ํ์ตํด์ผ ํ๋ค๋ ์ ์์ ์ ์ฐ์ฑ์ด ๋จ์ด์ง๊ณ , ๋๋ฉ์ธ์ด ๋ฐ๋๊ฑฐ๋ ๋ชจ๋ธ ๊ตฌ์กฐ๊ฐ ๋ฌ๋ผ์ง ๊ฒฝ์ฐ ๋ฐ๋ณต์ ์ธ ์ฌํ์ต์ด ํ์ํ๋ค๋ ํ๊ณ๊ฐ ์๋ค.
์ด ๋
ผ๋ฌธ์ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ถ๊ฐ ํ์ต ์์ด visual prompt๋ฅผ MLLM์ ์ฃผ์
ํ๋ ์๋ก์ด ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
ํต์ฌ ์์ด๋์ด๋, MLLM ๋์ฝ๋์ attention map์ด ํ
์คํธ ํ ํฐ๊ณผ ์๊ฐ ์ ๋ณด ๊ฐ์ ๊ด๊ณ๋ฅผ ์ธ๋ฐํ๊ฒ ๋ชจ๋ธ๋งํ๊ณ ์๋ค๋ ์ ์ ์ฐฉ์ํ๋ ๊ฒ์ด๋ค.
๊ธฐ์กด MLLM์์๋ visual encoder์์ ์ป์ feature๋ฅผ MLP๋ฅผ ํตํด ์ธ์ด ๊ณต๊ฐ์ผ๋ก ํฌ์ํ ํ, ํด๋น visual token์ ๋์ฝ๋์ attention์ ํ์ฉํ๋ค. ์ด๋ MLP์ ์ถ๋ ฅ์ text token์ด ์ด๋ค ์๊ฐ ์ ๋ณด์ ์ฃผ๋ชฉํ ์ง๋ฅผ ๊ฐ์ ์ ์ผ๋ก ์ ์ดํ๊ฒ ๋๋ค.
์ ์๋ค์ ์ด ๊ตฌ์กฐ์ ํน์ง์ ํ์ฉํด, visual token์ learnableํ latent variable์ ์ถ๊ฐํ๊ณ , ์ด๋ฅผ ํ ์คํธ ์์ ์์๋ง energy-based objective๋ฅผ ํตํด ์ต์ ํํจ์ผ๋ก์จ, attention map ๋ด์์ ์ฌ์ฉ์๊ฐ ์ง์ ํ ์๊ฐ์ ์์ญ์ผ๋ก ๋ชจ๋ธ์ ์ฃผ์๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ ๋ํ๋ค.
์ด ๋ฐฉ์์ ๋ณ๋์ fine-tuning์ด๋ ๊ตฌ์กฐ ๋ณ๊ฒฝ ์์ด๋, box, mask, scribble, point ๋ฑ ๋ค์ํ ํ์์ ์๊ฐ์ ์ ๋ ฅ์ ์ง์ํ๋ฉฐ, ๋๋ฉ์ธ ์ผ๋ฐํ ๋ฐ ํด์ ๊ฐ๋ฅ์ฑ ์ธก๋ฉด์์๋ ๊ธฐ์กด ๋ฐฉ์๊ณผ ๋น๊ตํด ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค.
2. Related Works
Visual Prompt
Hard Visual Prompt: ์ด๋ฏธ์ง๋ฅผ ์ง์ ์กฐ์ํ์ฌ ๋ชจ๋ธ์ ์ฃผ์๋ฅผ ํน์ ๋ถ๋ถ์ ์ง์ค์ํค๋ ๋ฐฉ์
ex) ์ด๋ฏธ์ง ๋ด ํน์ ์์ญ์ ์์ผ๋ก ๊ฐ์กฐ(color guidance) / ๋ง์ฐ์ค๋ก ํน์ ์์น๋ฅผ ํด๋ฆญํ๊ฑฐ๋, bounding box๋ฅผ ์ ๊ณต
์ฅ์ ) Training-Free: ๋ณ๋์ ํ์ต ์์ด ์ฌ์ฉ ๊ฐ๋ฅ
๋จ์ ) ์ด๋ฏธ์ง ๊ตฌ์กฐ๊ฐ ํผ์๋ ์ ์์ (ex. ์ ๋ณด์ ์ด ์๋ ์ ๋ณด๋ฅผ ์๊ณก) / ๋ชจ๋ธ์ด ํด๋น ์๊ฐ์ ์ง์๋ฅผ ์ดํดํ ์ ์์ด์ผ ํจ → ๊ธฐ์กด ๋ชจ๋ธ์ ์ดํด ๋ฅ๋ ฅ์ ์์กด
Soft Visual Prompt: ์ด๋ฏธ์ง๋ก๋ถํฐ ์ ๋๋, ํ์ต ๊ฐ๋ฅํ ๋ฒกํฐ๋ ํ ํฐ์ ํ๋กฌํํธ๋ก ์ฌ์ฉํ๋ ๋ฐฉ์
์ฅ์ ) ๋ชจ๋ธ์ ์ ์ฐํ๊ฒ ํตํฉ ๊ฐ๋ฅ / ๋ค์ํ downstream task์ ๋ง๊ฒ fine-tune ๊ฐ๋ฅ
๋จ์ ) fine-tuning์ด ํ์ํจ (downstream task ๋ฐ์ดํฐ ์๊ตฌ) / Hard prompt์ฒ๋ผ ๋ช ์์ ์ธ ์ง์ญ(region) ์ง์ ๋ถ๊ฐ๋ฅ
ํญ๋ชฉ | Hard Visual Prompt | Soft Visual Prompt | ๋ณธ ์ฐ๊ตฌ (Latent Prompt) |
์ ๋ ฅ ๋ฐฉ์ | ์ด๋ฏธ์ง ์ง์ ์กฐ์ | ํ์ต ๊ฐ๋ฅํ ์๊ฐ ํ ํฐ | Latent ๋ฒกํฐ ์ต์ ํ |
ํ์ต ํ์ ์ฌ๋ถ | X (Training-free) | O ํ์ํจ | X (Test-time๋ง ์ฌ์ฉ) |
์ง์ญ ์ ๋ (Region Guidance) | ๊ฐ๋ฅ | ์ด๋ ค์ | ๊ฐ๋ฅ |
๊ตฌ์กฐ ๋ณด์กด | ์์๋ ์ ์์ | ๋ณด์กด๋จ | ๋ณด์กด๋จ |
4. Method
4.1 Analysis of the Attention in LVLMs
" input๊ณผ output ์ฌ์ด์ ๊ด๊ณ์ ์ํฅ์ ๋ฏธ์น๋ ์์๊ฐ ๋ฌด์์ธ๊ฐ? " ์ด์ ๋ํด ๋ถ์ํ๋ค.
MLLM์ visual prompt์ text prompt ์ฌ์ด์์ ๊ฐ์ฅ ๊ฐ๋ฅ์ฑ ๋์ ์ถ๋ ฅ์ ์์ธกํ๋ ๋ชจ๋ธ์ด๋ค.
๋ชจ๋ธ์ ํ ์คํธ ํ๋กฌํํธ๋ฅผ ์กฐ๊ฑด(condition)์ผ๋ก ์ผ์, ์ด๋ฏธ์ง์ ์ด๋ค ๋ถ๋ถ์ด ์ถ๋ ฅ์ ์ค์ํ์ง๋ฅผ ํ๋จํ ์ ์๋ค.
Figure 2์ ๊ทธ๋ฆผ(top line)์์ ๋ณด๋ฉด, Attention Layer๋ง๋ค text token "hat"์ ๋ํด visual token์ด ์ด๋๊ฐ ๊ฐ์ฅ ๋ง์ด ํ์ฑํ๋๋์ง ๋ณด์ฌ์ฃผ๋ ๊ฒ์ผ๋ก๋ถํฐ ์ฆ๋ช ํ ์ ์๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, attention map์ (1) ๋ชจ๋ธ์ ์ถ๋ ฅ์ด ์ด๋ฏธ์ง์ ์ด๋ค ํฝ์ ๊ณผ ๊ด๋ จ ์๋์ง๋ฅผ ํด์ํ ์ ์๊ฒ ํด์ฃผ๊ณ , (2) ๋ ๋์๊ฐ ๋ชจ๋ธ์ด ์ถ๋ ฅํ ๋ด์ฉ์ ์ ๋ํ๋ ๋ฐ์๋ ํ์ฉ๋ ์ ์๋ค.
์์ด๋์ด๋, attention map์ ์์ ํจ์ผ๋ก์จ model์ output์ ๋ฐ๊ฟ ์ ์๋ค๋ ๊ฒ์ด๋ค.
๋ชจ๋ธ์ attention map์ ์ง์ ์ ์ผ๋ก ๊ฐ์ค์น๋ฅผ ์ถ๊ฐํ์ฌ ํน์ ์๊ฐ ์์ญ (visual token)์ ์ค์๋๋ฅผ ์๋์ ์ผ๋ก ๋์๋ค.
(2)๊ฐ ์๋ MLLM์ ์์์ด๊ณ , (4)๊ฐ ๋ณธ ๋ ผ๋ฌธ์ ์์์ด๋ค.
๊ด์ฌ ์๋ ์์ญ(r)์ ์ง์ ํ๊ณ , ๊ทธ ์์ญ์ attention score์ η๋งํผ boostํ๊ณ ๋๋จธ์ง๋ 0์ผ๋ก ์ฒ๋ฆฌํ๋ binary mask๋ฅผ ๋ํด์ค๋ค๊ณ ์๊ฐํ๋ฉด ๋๋ค.
์ด๋ ๋น์ฐํ๊ฒ๋ η๊ฐ์ ์ด๋ป๊ฒ ์ค์ ํด์ค์ง๊ฐ ์ค์ํ๋ค.
Figure 3์ ๊ฐ์ ๋ฐ๋ผ Attention์ ๋ณด์ฌ์ฃผ๊ณ ์๋๋ฐ
η์ด ๋๋ฌด ์์ผ๋ฉด Figure-3a์ฒ๋ผ ์๋ชป๋ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ํ๊ณ , ๋๋ฌด ํฌ๋ฉด Figure-3c์ฒ๋ผ LLM๋ชจ๋ธ ์์ฒด์ ์ฑ๋ฅ์ด ์ด์ํด์ง ์ ์๋ค.
์ถ๊ฐ๋ก, inference ์ค 0๋ฒ์งธ step(์ฒซ๋ฒ์งธ attention layer)์์ text token์ ์ํฅ์ด ์ ์ผ ํฌ๊ธฐ ๋๋ฌธ์ ์ด๋ attention map์ ์กฐ์ ํ๋๊ฒ ์ข๋ค๊ณ ํ๋ค.
step by step์ผ๋ก ์กฐ์ ํ๋ ๊ฒ(Figure-3d)๋ Figure-3c์ฒ๋ผ LLM๋ชจ๋ธ ์์ฒด์ ์ฑ๋ฅ์ด ์ด์ํด์ง๋ค.
๋๋ถ๋ถ์ MLLM์์๋ MLP layer๊ฐ image-text alignment๋ฅผ ํ์ตํ๋ค.
๋ค์ ๋งํด LLM์์ ๋ค์ด๊ฐ๋ visual token์ด attention map์ ๊ฐ์ ๊ฒฐ์ ํ๋ ๊ฒ์ด๋ค.
(๋ฌผ๋ก text token๋ ์ํฅ์ ๋ฏธ์น์ง๋ง, ์ด๋ฏธ์ง์ ์ถ๋ ฅ ์ฌ์ด์ ๊ด๊ณ์ฑ์ ๋ถ์ํ๊ณ ์ text token์ ์ํฅ์ ๊ณ ๋ ค ๋์์์ ์ ์ธ)
4.2 Manipulating Attention via Latent Variable Learning
4.1์ ๊ธฐ๋ฐํ์ฌ, energy function์ ํตํด learnable latent variable์ ์ต์ ํํ๋ ์์ด๋์ด๋ฅผ ์ธ์ ๋ค.
์ด์ ์ด๋ค attention map์ ์ฌ์ฉํ ์ง ๊ฒฐ์ ํด์ผ ํ๋ค.
์ฒซ ๋ฒ์งธ ์ ๊ทผ์, ๊ฐ๊ฐ์ text token๊ณผ ๋ชจ๋ visual token ๊ฐ์ attention map์ ์ฌ์ฉํ๋ ๊ฒ์ด๋ค.
๊ทธ๋ฌ๋ visual token์ ์์์ text prompt๋ง์ผ๋ก๋ ๊ฐํ ์ฐ๊ด์ฑ์ ๋ณด์ด๊ธฐ ๋๋ฌธ์, ๋ชจ๋ attention map์ ์ฌ์ฉํ๋ ๊ฒ์ ๊ณ์ฐ์ ์ผ๋ก ๋นํจ์จ์ ์ด๋ค.
๋ํ ์ด๋ฌํ ์์์ ์ค์ํ text token์ ์ฐพ๋ ๊ฒ์ ์ฝ์ง ์๋ค.
๋ฐ๋ผ์ ์ฐ๋ฆฌ๋ ๊ฐ text prompt์ ๋ํด ์์ฑ๋ attention map์ average poolingํ์ฌ global context token์ ๋ง๋ค์๋ค.
Figure 2์์ ๋ณผ ์ ์๋ฏ์ด, ์ด์ ๊ฐ์ ๋ฐฉ์์ผ๋ก ์์ฑ๋ context token์ ์ค์ํ text token์ธ "hat"๊ณผ ์ ์ฌํ attention ๋ถํฌ๋ฅผ ๋ณด์ธ๋ค.
๋ํ, ๋ณธ ๋ฐฉ๋ฒ์ 4๊ฐ์ง ์ข ๋ฅ์ referring shape(box, mask, scribble, point)๋ฅผ ์ง์ํ๋ค.
๋ ์ข ๋ฅ์ energy function์ ์ฌ์ฉํ๋๋ฐ box & mask์ ๋ํ hard masked-based energy function๊ณผ
scribble & point์ ๋ํ soft masked-based energy function์ด๋ค.
Hard Mask-based Energy Function (box, mask)
latent vector $p_v$์ $e_v$์ ๊ฐ์ ์ฐจ์์ ๋ง๋ค์ด 0์ผ๋ก ์ด๊ธฐํํ๊ณ , $e_v$์ concatํ๋ค.
context token๊ณผ ์๋ก์ด visual token์ฌ์ด์ $N$๊ฐ์ attention layer์ ๊ตฌํ๋ค.
box์ mask๋ binary mask๋ก ๋ง๋ ๋ค.
๊ทธ๋ฆฌ๊ณ $N$๊ฐ์ attention map์ average poolํ์ฌ ์ป์ด๋ธ attention map๊ณผ mask์ ๊ธฐ๋ฐํ mask-based energy function์ ๊ณ์ฐํ๋ค.
Soft Mask-based Energy Function (scribble, point)
SAM์ ์ด์ฉํด Hard Mask-based Energy function์ ์ฌ์ฉํ mask๋ฅผ ๊ตฌํ๋ค
์ด๊ฒ inference cost๋ฅผ ์ฆ๊ฐ์ํค๋ฏ๋ก, distance matrix $D$์ ์ํ optimal soft mask-based energy function์ ์ ์ํ๋ค.
$D$๋ scribble์ด๋ point์ ๋ํด OpenCV distanceTransform function์ ์ฌ์ฉํด์ ์ป๋๋ค.
5. Experiments
5.2 Applications
Referring with Different Visual Prompts. & Impact on Hallucinations.
๋ค์ ๋ฐฉ๋ฒ์ ์ ์ฉํ์ ๋ ๋๋ต์ ๋ ์ ํํ๊ฒ ํ๋ ๊ฒ์ ํ์ธํ ์ ์์๋ค.
Out-of-Domain Task.
5.3 Comparisons
Comparison on Referring Object Classification Task.
Comparison on Referring Text Classification Task.
+ Blur, + Color, + Edit Att ์ถ๊ฐํ ์ด์
LLaVA + Blur: Upper bound (์ต์ ์กฐ๊ฑด) ๋น๊ต
- ๋ฐฐ๊ฒฝ์ ํ๋ฆฌ๊ฒ ์ฒ๋ฆฌํด์ ๋ชจ๋ธ์ด ์์ฐ์ค๋ฝ๊ฒ ๊ด์ฌ ์์ญ์๋ง ์ง์คํ๋๋ก ์ ๋
- ์ฑ๋ฅ์ด ๋๊ฒ ๋์ด → LLaVA๊ฐ "๋ฌด์์ ๋ด์ผ ํ๋์ง"๋ง ์ ํํ ์๋ฉด ์ข์ ์ฑ๋ฅ์ ๋ธ๋ค๋ ์ ์ ๋ณด์ฌ์ค
- ํ์ง๋ง ์ด๊ฑด ํ์ค์ ์ธ ๋ฐฉ๋ฒ์ด ์๋๋ฉฐ, ์ค์ region์ด ๋ช ์๋์ง ์์ผ๋ฉด ๋ถ๊ฐ๋ฅํจ
--> “LLaVA๊ฐ ์๊ฐ์ ์ผ๋ก ๋์๋ง ๋ฐ์ผ๋ฉด ์ ์๋ํจ”์ด๋ผ๋ ์ํ์ ์ ์ ์
LLaVA + Color: ๋ค๋ฅธ hard visual prompt ๋ฐฉ์๊ณผ ๋น๊ต
- ๊ด์ฌ ์์ญ์ ์์ผ๋ก ๊ฐ์กฐ (์: ๋นจ๊ฐ์ box)
- ์๊ฐ์ ์ผ๋ก ๋จ์ํ์ง๋ง ๋ง์ ๊ธฐ์กด ์ฐ๊ตฌ์์ ์์ฃผ ์ฐ์ด๋ ๋ฐฉ์
- LLaVA์ ๊ธฐ๋ณธ ํํ๋ ฅ๊ณผ ๊ฒฐํฉํ ๋ ์ด๋ ์ ๋ ์ ํจํ์ง๋ง,
→ ๊ตฌ์กฐ ์ ๋ณด ์์ค, ํด์์ ๋ถ์์ ์ฑ ๋ฑ์ ํ๊ณ ์กด์ฌ
--> ์ฐ๋ฆฌ ๋ฐฉ์์ด color prompt๋ณด๋ค ๋ ์ ๊ตํ๊ณ ์์ ์ ์ธ attention ์ ๋ ๊ฐ๋ฅํจ์ ๋ณด์ด๊ธฐ ์ํจ
LLaVA + Edit Att: ์ด์ attention ์ง์ ์กฐ์ ๋ฐฉ์๊ณผ ๋น๊ต (baseline)
- Equation (4) ๋ฐ Figure-3b์ ๋ฐฉ๋ฒ
- attention score์ η๋ฅผ ๋ํด ์ง์ ์กฐ์
- ๋ณธ ๋
ผ๋ฌธ์ด ๋นํํ๋ ๋ฐฉ์:
- ์ง๋์น๊ฒ ๊ฐ์ ์ ์ด๋ฉฐ
- ํํ๋ ฅ ์์์ ์ ๋ฐ
- Figure 3(b, c, d)์์ ๋ถ์์ฉ์ด ๋๋ฌ๋จ
--> attention ์ง์ ์์ ๋ฐฉ์์ ํ๊ณ๋ฅผ ์คํ์ ์ผ๋ก ๋ณด์ฌ์ฃผ๊ธฐ ์ํด ํฌํจ
6. Limitations
1) inference overhead
: Ollama๊ฐ์ ํด์ด ํด๊ฒฐํด์ค ์ ์์ ๋ฏ
2) white-box model์๋ง ์ ์ฉ ๊ฐ๋ฅํ๊ณ ๋ชจ๋ธ ๊ทธ ์์ฒด์ ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์นจ
:์ด๊ฑด training-free๋ ์ด์ฉ ์ ์์ง๋ง ์ถํ์ ์ฌ๋ฌ foundation model์ ์ ์ฉ ๊ฐ๋ฅํจ
3) ํ๋์ region์ ๊ฐ๋ ๊ฒฝ์ฐ, single visual prompt์ ๋ํด์๋ง ๊ฐ๋ฅํจ
: multi๋ future work๋ก ํ์ฅํ ์ ์์
4) ๋จ์ํ ์ต์ ํ ์ ๋ต์ด๊ธฐ์, ํ ์คํธ ํ๋กฌํํธ ์ ํ์ด ๊ฒฐ๊ณผ์ ์ํฅ์ ์ฃผ๋๋ฐ ๊ทธ ๋ถ๋ถ์ ์ ๋๋ก ๋ค๋ฃจ์ง ๋ชปํ์.
: ์ถํ์ ์ด์ชฝ๋ ๋ถ์
๐ค
์ฌ์ค ์ด๋ป๊ฒ ๋ณด๋ฉด ๊ธฐ์กด์ ์ฐธ์ฌํ๋ t2i optimal transport๋ก attention map์ ์กฐ์ ํ๋ ๊ฒ๊ณผ ๋น์ทํ ์์ด๋์ด๊ฐ ๋ฑ์ฅํ์๋ค
diffusion์์๋ ์ ์๋์ ํ๋๋ฐ ์ฌ๊ธฐ์๋ ์ด๋ ค์ด๊ฑธ๊น ์๊ฐ์ด ๋ค์๋ค.. ๋ถํฌ ์กฐ์ ํด๋ณผ๊น ํ๋๋ฐ