[25โ ICLR] Decouple and Track: Benchmarking and Improving Video Diffusion Transformers For Motion Transfer
# Introduction

์ต์ ์ฐ๊ตฌ ์์ฝ: ํ ์คํธ ๊ธฐ๋ฐ ๋ชจ์ ์ ์ด(Text-to-Video Motion Transfer)์ ํ๊ณ์ ์๋ก์ด ์ ๊ทผ
์ต๊ทผ Diffusion Transformer(DiT) ๊ธฐ๋ฐ์ ํ ์คํธ-ํฌ-๋น๋์ค(Text-to-Video, T2V) ์์ฑ ๋ชจ๋ธ๋ค์ด ์ฃผ๋ชฉํ ๋งํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ํ์ง๋ง, ๋ณต์กํ ๋ชจ์ ์ ์ธ๋ฐํ๊ฒ ์ ์ดํ๋ ๊ฒ์ ์ฌ์ ํ ์ด๋ ค์ด ๊ณผ์ ์ด๋ค. ํนํ ํ ์คํธ ํ๋กฌํํธ๋ง์ผ๋ก๋ ์ฌ์ฉ์ ์๋๋ฅผ ์์ ํ ๋ฐ์ํ๊ธฐ ์ด๋ ต๋ค๋ ๋ฌธ์ ๊ฐ ์๋ค.
์ด์ ๋ํ ํด๊ฒฐ์ฑ ์ผ๋ก, ๋ชจ์ ์ ์ด(Motion Transfer) ์ฐ๊ตฌ๊ฐ ์ฃผ๋ชฉ๋ฐ๊ณ ์๋ค.
์ Motion Transfer๊ฐ ์ค์ํ๊ฐ?
๊ธฐ์กด์ T2V ์์ฑ์ ํ ์คํธ๋ง์ผ๋ก ๋น๋์ค ์ ์ฒด๋ฅผ ์์ฑํ๋ ค๋ ๋ฐฉ์์ด์ง๋ง,
- ํ ์คํธ๋ง์ผ๋ก๋ ์ ํํ ๋ชจ์ ๋ํ ์ผ์ ๋ฐ์ํ๊ธฐ ์ด๋ ค์
- ์ฌ์ฉ์ ์๊ตฌ(์: "๊ณ ์์ด๊ฐ ์ถค์ถ๋ฏ ๊ฑท๊ธฐ")์ ์ ํ๋ ํํ๋ ฅ
Motion Transfer๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ๋ณด์ํ๊ธฐ ์ํด ๋ฑ์ฅํ๋ค.
โ ๊ธฐ์กด์ ๋น๋์ค์์ ๋ชจ์
์ ์ถ์ถํ๊ณ , ์๋ก์ด ๋์๊ณผ ํ
์คํธ ํ๋กฌํํธ์ ๋ง๊ฒ ์ ์ดํ๋ ๋ฐฉ์
๊ธฐ์กด ๋ฐฉ๋ฒ์ ํ๊ณ์
๊ณผ๊ฑฐ์๋ ์ฃผ๋ก 3D U-Net ๊ตฌ์กฐ์์
- Temporal self-attention๊ณผ Spatial self-attention์ ๋ถ๋ฆฌํ๊ณ
- Spatial ๋ถ๋ถ์ ๊ณ ์ (freeze)์์ผ motion๊ณผ appearance๋ฅผ ๋ถ๋ฆฌํ๋ ค ํ๋ค.
ํ์ง๋ง ์ต์ ์ DiT ๊ธฐ๋ฐ ๋ชจ๋ธ(3D Full Attention ๊ตฌ์กฐ)์์๋
- ์๊ฐ๊ณผ ๊ณต๊ฐ ์ ๋ณด๊ฐ ํ๋์ attention์์ ๋์์ ๊ฒฐํฉ๋จ
- ์ด๋ก ์ธํด motion๊ณผ appearance๋ฅผ ๋ถ๋ฆฌ(de-couple)ํ๊ธฐ ๋งค์ฐ ์ด๋ ค์์ก๋ค
๋ํ ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ค์ ๋๋ถ๋ถ ์ง์ ์ด๋ ์์ค์ ๋จ์ํ ๋ชจ์
๋ง ํฌํจ๋์ด ์์ด
๋ณต์กํ๊ณ ํ์ค์ ์ธ ๋ชจ์
์ ์ด๋ฅผ ํ๊ฐํ๊ธฐ์๋ ๋ถ์กฑํ๋ค.
์ ์๋ ๋ฐฉ๋ฒ: Shared Temporal Kernel + Dense Point Tracking
์ฐ๊ตฌํ์ DiT ๋ชจ๋ธ ๊ธฐ๋ฐ์์ ๋์ํ๋ ์๋ก์ด ๋ชจ์ ์ ์ด ๊ธฐ๋ฒ์ ์ ์ํ๋ค:
ํต์ฌ ์์ด๋์ด
- Shared Temporal Kernel
- 3D attention map ๋ถ์ ๊ฒฐ๊ณผ, ์ธ์ ํ๋ ์ ์ฌ์ด์ attention์ด ๊ฐํจ
- ์ด๋ฅผ ์ด์ฉํด 1D temporal kernel์ ๋์ โ ์๊ฐ์ smoothing & motion ์ ํฉ์ฑ ํ๋ณด
- Dense Point Tracking Loss
- Latent feature ๊ณต๊ฐ์์ optical flow์ ์ ์ฌํ ๊ฐ๋ ์ ์ฉ
- Foreground์ trajectory alignment๋ฅผ ํตํด consistent motion ์ ๋
- Foreground vs Background ๋ถ๋ฆฌ
- Temporal smoothing์ ํตํด background appearance์ foreground motion์ ๋ ์ ๊ตฌ๋ถ
์๋ก์ด ๋ฒค์น๋งํฌ: MTBench
๋ณด๋ค ํ์ค์ ์ด๊ณ ์ด๋ ค์ด ํ๊ฐ๋ฅผ ์ํด MTBench๋ผ๋ ์๋ก์ด ๋ฒค์น๋งํฌ๋ ํจ๊ป ์ ์๋์๋ค.
- 100๊ฐ ๊ณ ํ์ง ๋น๋์ค๋ฅผ ๊ธฐ๋ฐ์ผ๋ก
- ์ต์ LLM๊ณผ tracking ๋ชจ๋ธ์ ํ์ฉํด ํ ์คํธ ํ๋กฌํํธ์ ๋ชจ์ trajectory ์์ฑ
- ๋์ด๋ ๋ถ๋ฅ๊น์ง ๋ฐ์๋ ์ธ๋ถํ๋ motion ํ๊ฐ ๊ธฐ์ค
์๋ก์ด ํ๊ฐ ์งํ: Hybrid Motion Fidelity Metric
- ๊ธฐ์กด์ local velocity similarity ์ธ์
- ์ ์ฒด trajectory์ ๋ชจ์ ์ฐจ์ด๋ฅผ ์ธก์ ํ๋ Freฬchet Distance ๋์
โ ๋ ์ ๋ฐํ๊ณ ํ์ค์ ์ธ ํ๊ฐ ๊ฐ๋ฅ