[25’ ICLR] Decouple and Track: Benchmarking and Improving Video Diffusion Transformers For Motion Transfer

윰갱 2025. 5. 30. 13:59

# Introduction

최신 연구 요약: 텍스트 기반 모션 전이(Text-to-Video Motion Transfer)의 한계와 새로운 접근

최근 Diffusion Transformer(DiT) 기반의 텍스트-투-비디오(Text-to-Video, T2V) 생성 모델들이 주목할만한 성능을 보여주고 있다. 하지만, 복잡한 모션을 세밀하게 제어하는 것은 여전히 어려운 과제이다. 특히 텍스트 프롬프트만으로는 사용자 의도를 완전히 반영하기 어렵다는 문제가 있다.

이에 대한 해결책으로, 모션 전이(Motion Transfer) 연구가 주목받고 있다.

왜 Motion Transfer가 중요한가?

기존의 T2V 생성은 텍스트만으로 비디오 전체를 생성하려는 방식이지만,

텍스트만으로는 정확한 모션 디테일을 반영하기 어려움
사용자 요구(예: "고양이가 춤추듯 걷기")에 제한된 표현력

Motion Transfer는 이러한 문제를 보완하기 위해 등장했다.
→ 기존의 비디오에서 모션을 추출하고, 새로운 대상과 텍스트 프롬프트에 맞게 전이하는 방식

기존 방법의 한계점

과거에는 주로 3D U-Net 구조에서

Temporal self-attention과 Spatial self-attention을 분리하고
Spatial 부분을 고정(freeze)시켜 motion과 appearance를 분리하려 했다.

하지만 최신의 DiT 기반 모델(3D Full Attention 구조)에서는

시간과 공간 정보가 하나의 attention에서 동시에 결합됨
이로 인해 motion과 appearance를 분리(de-couple)하기 매우 어려워졌다

또한 기존 벤치마크들은 대부분 직선 이동 수준의 단순한 모션만 포함되어 있어
복잡하고 현실적인 모션 전이를 평가하기에는 부족했다.

제안된 방법: Shared Temporal Kernel + Dense Point Tracking

연구팀은 DiT 모델 기반에서 동작하는 새로운 모션 전이 기법을 제안한다:

핵심 아이디어

Shared Temporal Kernel
- 3D attention map 분석 결과, 인접 프레임 사이의 attention이 강함
- 이를 이용해 1D temporal kernel을 도입 → 시간적 smoothing & motion 정합성 확보
Dense Point Tracking Loss
- Latent feature 공간에서 optical flow와 유사한 개념 적용
- Foreground의 trajectory alignment를 통해 consistent motion 유도
Foreground vs Background 분리
- Temporal smoothing을 통해 background appearance와 foreground motion을 더 잘 구분

새로운 벤치마크: MTBench

보다 현실적이고 어려운 평가를 위해 MTBench라는 새로운 벤치마크도 함께 제안되었다.

100개 고품질 비디오를 기반으로
최신 LLM과 tracking 모델을 활용해 텍스트 프롬프트와 모션 trajectory 생성
난이도 분류까지 반영된 세분화된 motion 평가 기준

새로운 평가 지표: Hybrid Motion Fidelity Metric

기존의 local velocity similarity 외에
전체 trajectory의 모양 차이를 측정하는 Fréchet Distance 도입
→ 더 정밀하고 현실적인 평가 가능