πŸ“š Study/Paper Review

[25' CVPR] DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation

윰갱 2025. 7. 9. 00:15

# Introduction

DiTCtrl: ν”„λ‘¬ν”„νŠΈλ§ˆλ‹€ μž₯면이 λ°”λ€ŒλŠ” μžμ—°μŠ€λŸ¬μš΄ μ˜μƒ 생성, ν›ˆλ ¨ 없이도 κ°€λŠ₯ν•˜λ‹€?

μ˜μƒ 생성 AIκ°€ 점점 더 λ˜‘λ˜‘ν•΄μ§€κ³  μžˆλ‹€. ν…μŠ€νŠΈλ₯Ό μž…λ ₯ν•˜λ©΄ μ˜μƒ 전체λ₯Ό λ§Œλ“€μ–΄μ£ΌλŠ” Text-to-Video(T2V) λͺ¨λΈμ€ Sora 같은 λͺ¨λΈμ„ 톡해 이미 큰 μ£Όλͺ©μ„ λ°›κ³  μžˆλ‹€. ν•˜μ§€λ§Œ 아직 ν•΄κ²°λ˜μ§€ μ•Šμ€ μ€‘μš”ν•œ λ¬Έμ œκ°€ ν•˜λ‚˜ μžˆλ‹€.

λ°”λ‘œ “λ‹€μ–‘ν•œ ν”„λ‘¬ν”„νŠΈμ— 따라 μž₯면이 λ°”λ€ŒλŠ” μžμ—°μŠ€λŸ¬μš΄ κΈ΄ μ˜μƒ”을 λ§Œλ“œλŠ” 것이닀.

μ™œ λ©€ν‹° ν”„λ‘¬ν”„νŠΈ μ˜μƒ 생성은 μ–΄λ €μšΈκΉŒ?

ν˜„μž¬ λŒ€λΆ€λΆ„μ˜ T2V λͺ¨λΈμ€ ν•˜λ‚˜μ˜ ν”„λ‘¬ν”„νŠΈμ— λŒ€ν•΄ ν•˜λ‚˜μ˜ 짧은 μ˜μƒμ„ μƒμ„±ν•˜λ„λ‘ ν›ˆλ ¨λ˜μ–΄ μžˆλ‹€. κ·Έλž˜μ„œ μ—¬λŸ¬ ν”„λ‘¬ν”„νŠΈλ₯Ό μˆœμ„œλŒ€λ‘œ λ„£μœΌλ©΄ μ˜μƒμ΄ 툭툭 λŠκΈ°λ“― 이어지지 μ•Šκ³ , ν”„λ‘¬ν”„νŠΈλ₯Ό ν•˜λ‚˜λ‘œ 합쳐도 각각의 μž₯λ©΄ μ „ν™˜μ΄ μžμ—°μŠ€λŸ½μ§€ μ•Šκ²Œ λ‚˜νƒ€λ‚œλ‹€.

예λ₯Ό λ“€μ–΄ “a man running → the man jumps → the man flies”와 같은 μ—¬λŸ¬ 개의 이벀트λ₯Ό 순차적으둜 ν‘œν˜„ν•˜λ € ν•˜λ©΄, 각각의 ν”„λ‘¬ν”„νŠΈμ— λ§žλŠ” μ˜μƒμ€ λ§Œλ“€μ–΄μ§€μ§€λ§Œ μ‚¬μ΄μ˜ 연결이 μ–΄μƒ‰ν•˜κ±°λ‚˜ λ‹¨μ ˆλ˜μ–΄ 버린닀.

κΈ°μ‘΄ μ‹œλ„λ“€μ€ 있긴 ν–ˆμ§€λ§Œ, λŒ€λΆ€λΆ„ UNet κΈ°λ°˜μ΄μ—ˆκ³  λͺ¨λΈμ„ μ²˜μŒλΆ€ν„° λ‹€μ‹œ ν›ˆλ ¨ν•΄μ•Ό ν–ˆλ‹€. μ΄λŠ” κ³„μ‚°λŸ‰λ„ 많고, 데이터도 많이 ν•„μš”ν–ˆλ‹€.

 

DiTCtrl: ν›ˆλ ¨ 없이 μžμ—°μŠ€λŸ¬μš΄ λ©€ν‹° ν”„λ‘¬ν”„νŠΈ μ˜μƒ λ§Œλ“€κΈ°

μ΄λ²ˆμ— μ†Œκ°œν•  DiTCtrl은 이런 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ μ œμ•ˆλœ μƒˆλ‘œμš΄ 방법이닀.

핡심 μ•„μ΄λ””μ–΄λŠ” κ°„λ‹¨ν•˜λ‹€:

λ©€ν‹° ν”„λ‘¬ν”„νŠΈ μ˜μƒ 생성 문제λ₯Ό "μ‹œκ°„μ— λ”°λ₯Έ νŽΈμ§‘ + μ „ν™˜" 두 λ‹¨κ³„λ‘œ λ‚˜λˆ  ν•΄κ²°ν•œλ‹€:

  1. Video Editing over Time: ν”„λ‘¬ν”„νŠΈκ°€ λ°”λ€” λ•Œ, κΈ°μ‘΄ μ˜μƒμ—μ„œ μžμ—°μŠ€λŸ½κ²Œ λ‚΄μš©μ„ λ°”κΎΈλŠ” νŽΈμ§‘.
  2. Video Transition over Time: ν”„λ‘¬ν”„νŠΈκ°€ λ°”λ€” λ•Œ, μž₯λ©΄ μ „ν™˜μ΄ λΆ€λ“œλŸ½κ²Œ 이어지도둝 λ§Œλ“€κΈ°.

 

 μ–΄λ–»κ²Œ ν•΄κ²°ν–ˆμ„κΉŒ?

DiTCtrl은 MM-DiTλΌλŠ” μƒˆλ‘œμš΄ ꡬ쑰λ₯Ό 기반으둜 ν•œλ‹€. 이 κ΅¬μ‘°λŠ” 이미지λ₯Ό λ§Œλ“œλŠ” Transformer λͺ¨λΈ(예: Stable Diffusion 3, FLUX)처럼, ν…μŠ€νŠΈμ™€ μ˜μƒμ„ ν•˜λ‚˜μ˜ μ‹œν€€μŠ€λ‘œ μ •λ ¬ν•˜μ—¬ μ²˜λ¦¬ν•˜λŠ” λ©€ν‹°λͺ¨λ‹¬ 디퓨전 νŠΈλžœμŠ€ν¬λ¨Έμ΄λ‹€.

DiTCtrlμ—μ„œλŠ” 이 ꡬ쑰의 attention module을 ν™œμš©ν•˜μ—¬ 두 κ°€μ§€λ₯Ό ν•œλ‹€:

  • KV-Sharing: μ„œλ‘œ λ‹€λ₯Έ ν”„λ‘¬ν”„νŠΈμ—μ„œ μƒμ„±λœ 클립 사이에 Key-Value 정보λ₯Ό κ³΅μœ ν•¨μœΌλ‘œμ¨, 객체의 정체성을 μœ μ§€ν•˜κ³  λ‚΄μš©μ˜ 일관성을 ν™•λ³΄ν•œλ‹€.
  • Latent Blending: 클립과 클립 사이λ₯Ό 잠재 κ³΅κ°„μ—μ„œ μžμ—°μŠ€λŸ½κ²Œ μ„žμ–΄μ„œ μ „ν™˜μ„ λΆ€λ“œλŸ½κ²Œ λ§Œλ“ λ‹€.

이 두 κ°€μ§€ μ‘°μž‘λ§ŒμœΌλ‘œλ„ 별도 ν›ˆλ ¨ 없이, κΈ°μ‘΄ λͺ¨λΈ κ·ΈλŒ€λ‘œ λ©€ν‹° ν”„λ‘¬ν”„νŠΈ μ˜μƒμ„ 생성할 수 있게 된 것이닀.

 

MPVBench: λ©€ν‹° ν”„λ‘¬ν”„νŠΈ μ„±λŠ₯ 평가도 μƒˆλ‘­κ²Œ

DiTCtrl은 μ„±λŠ₯을 κ²€μ¦ν•˜κΈ° μœ„ν•΄ μƒˆλ‘œμš΄ λ²€μΉ˜λ§ˆν¬λ„ μ œμ•ˆν–ˆλ‹€. 이름은 MPVBench (Multi-Prompt Video Benchmark).

이 λ²€μΉ˜λ§ˆν¬λŠ” λ‹€μŒκ³Ό 같은 νŠΉμ§•μ„ κ°–λŠ”λ‹€:

  • λ‹€μ–‘ν•œ μœ ν˜•μ˜ μ „ν™˜(예: 인물 μ „ν™˜, λ°°κ²½ λ³€ν™” λ“±)
  • λ©€ν‹° ν”„λ‘¬ν”„νŠΈ νŠΉν™” 평가 μ§€ν‘œ 제곡 (일관성, λΆ€λ“œλŸ¬μ›€, μ „ν™˜ ν’ˆμ§ˆ λ“±)

μ‹€ν—˜ κ²°κ³Ό, DiTCtrl은 κΈ°μ‘΄ 방식보닀 더 μžμ—°μŠ€λŸ½κ³  μΌκ΄€λœ μ˜μƒμ„ μƒμ„±ν•˜λ©΄μ„œλ„, μΆ”κ°€ ν›ˆλ ¨ 없이 효율적으둜 λ™μž‘ν–ˆλ‹€.


# Method