# Introduction
๋ค์ ๋ ผ๋ฌธ์ Action-Scene Hallucination ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋์๋ค.
์ด๋, ๋ชจ๋ธ์ด ์ฅ๋ฉด์ ์๋ชป ํด์ํ๊ฑฐ๋, ๊ด์ฐฐ๋ ํ๋์ ๊ธฐ๋ฐ์ผ๋ก scene์ ์๋ชป ์ถ๋ก ํ๋ ๊ฒฝ์ฐ๋ฅผ ์๋ฏธํ๋ค.
์๋ฅผ ๋ค์ด, ๋์๊ด์์ ๋ณต์ฑ์ ํ๋ ์์์ ๋ณด์ฌ์ฃผ๋ฉด, ๋ชจ๋ธ์ ์ด๋ฅผ ์ค์ ๋ณต์ฑ ๊ฒฝ๊ธฐ์ฅ(boxing ring)์ผ๋ก ์๋ชป ์ธ์ํ๋ค. ์ด๋ ‘๋ณต์ฑ’์ด๋ผ๋ ๋์๋ง ๋ณด๊ณ ๊ทธ์ ๋ง๋ ์ ํ์ ์ธ ์ฅ์๋ฅผ ์์ํด๋ฒ๋ฆฌ๋ ์ค๋ฅ์ด๋ค.
๋ ๋ค๋ฅธ ์๋ก, ๋ ๋ฎ์ธ ์ฐ์ ์๋ฌด๋ ๋ฑ์ฅํ์ง ์๋ ์์์ ์ ์ํ์ ๋, ๋ชจ๋ธ์ ์ค์ ๋ก ๋ณด์ด์ง๋ ์๋ ์คํค ํ๋ ์ฌ๋์ด๋ ์ค๋
ธ๋ณด๋๊ฐ ์๋ค๊ณ ์๋ชป ์์ธกํ๊ธฐ๋ ํ๋ค.
์ ์๋ค์ Video-LLM์์์ action-scene hallucination๋ฌธ์ ๊ฐ ์๋ ๋ ํ๊ณ ๋๋ฌธ์ด๋ผ๊ณ ๋ณด๊ณ ์๋ค.
์ฒซ๋ฒ์งธ ์์ธ์ sptial๊ณผ temporal feature์ ์ฝํ์ด๋ค.
๊ธฐ์กด Video-LLM๋ค์ spatial๊ณผ temporal ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋ถ๋ฆฌํ์ง ๋ชปํ๊ณ ์์ด์ ์ฒ๋ฆฌํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค.
์ด๋ฌํ ์ฝํ์ ์์ ์์์ ํ๋๊ณผ ์ฅ๋ฉด ๊ฐ์ ์ฐ์ฐํ ์๊ด๊ด๊ณ(spurious correlation)๋ฅผ ํ์ตํ๊ฒ ๋ง๋ค๊ณ , ์ด๋ ์๋ชป๋ ์ถ๋ก ์ผ๋ก ์ด์ด์ง๋ ๊ฒ์ด๋ค.
์ผ๋ถ ์ฐ๊ตฌ์์๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ ๋ ฅ ๋จ๊ณ์์ ๊ณต๊ฐ๊ณผ ์๊ฐ ํน์ง์ ๋ถ๋ฆฌ(disentangle)ํ๋ ค๋ ์๋๋ฅผ ํ๊ณ ์๋ค. ํ์ง๋ง ๋๋ถ๋ถ์ LLM์ ์ ๋ ฅ๋๊ธฐ ์ ์ ์ฒ๋ฆฌ ์์ค์๋ง ์ง์คํ๊ณ , LLM ๋ด๋ถ์์๋ ์ฌ์ ํ ์ด ๋ ์ ๋ณด๊ฐ attention ์ฐ์ฐ ๊ณผ์ ์์ ๋ค์ ์ฝํ๋ ํ์์ด ๋ฐ์ํ๋ค.
์ค์ ๋ก Figure 2 (a)์์ ํ์ธํ ์ ์๋ฏ์ด, ์ ๋ ฅ์์๋ ๋ถ๋ฆฌ๋ ์ ๋ณด๊ฐ ๋ชจ๋ธ ๋ด๋ถ์์ ์ฌ๊ฒฐํฉ(re-entangle)๋๋ฉฐ, ๊ฒฐ๊ตญ action-scene hallucination์ด ๋ฐ์ํ๊ฒ ๋๋ ๊ฒ์ด๋ค.
๋ ๋ฒ์งธ ์์ธ์ ๋๋ถ๋ถ์ LLM๋ค์ด ์์น ์ ๋ณด๋ฅผ ์ธ์ฝ๋ฉํ ๋ RoPE(Rotary Position Embedding)์ ์์กดํ๊ณ ์๋ค๋ ์ ์ด๋ค.
RoPE๋ ๋จ์ผ ๋ชจ๋ฌ๋ฆฌํฐ(single modality)์์๋ ํจ๊ณผ์ ์ผ๋ก ์์น ์ ๋ณด๋ฅผ ์ธ์ฝ๋ฉํ์ง๋ง, ๋ฉํฐ๋ชจ๋ฌ(multimodal) ํ๊ฒฝ์์๋ ํ๊ณ๊ฐ ์กด์ฌํ๋ค. RoPE๋ ์ ๋ ฅ ํ ํฐ์ 1์ฐจ์ ์์น ์ ๋ณด๋ฅผ ๋ถ์ฌํ๊ธฐ ๋๋ฌธ์, ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฅ์ ๊ทธ๋๋ก ์ ์ฉํ๋ฉด text token์ด ์๊ณต๊ฐ์ (spatial ๋๋ temporal) ํ ํฐ ์ค ์ด๋ ํ ์ชฝ์ ๊ณผ๋ํ๊ฒ ์ฃผ์๋ฅผ ๊ธฐ์ธ์ด๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์๋ค.
Figure 2(a)์์ ๋ณผ ์ ์๋ฏ์ด, ๋ง์ฝ spatial token์ด text token ๊ฐ๊น์ด์ ์์นํ๋ค๋ฉด, text token์ ์๊ฐ ์ ๋ณด๋ฅผ ๋ฌด์ํ๊ณ ๊ณต๊ฐ ์ ๋ณด์ ๊ณผ๋ํ๊ฒ ์ง์คํ ์ ์๋ค. ์ด๋ฌํ ๋ถ๊ท ํ์ ํน์ ํ ํฐ ํ์ ์ ํธํฅ๋ ์ฒ๋ฆฌ๋ฅผ ์ด๋ํ๋ฉฐ, ์ด๋ ๋์์ด๋ ์ฅ๋ฉด์ ๋ํ hallucination์ ์ ๋ฐํ ์ ์๋ค.
์ด ๋๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋ค์ MASH-VLM์ ์ ์ํ๋ค.
์ด ๋ฐฉ๋ฒ์ spatial๊ณผ temporal representation์ disentagleํจ์ผ๋ก์จ
Video Large Language Model์์์ Action-Scene Hallucination ๋ฌธ์ ๋ฅผ ์ํํ๋ค.
<1>
์ฒซ๋ฒ์งธ ๋ฐฉ๋ฒ์ ๋ฐ๋ก DST-attention์ด๋ค. ์ด๋ LLM ๋ด๋ถ์์ spatial๊ณผ temporal token์ ๋ถ๋ฆฌํ๋ค.
Figure 2(b)์์ ๋ณผ ์ ์๋ฏ์ด, masked attention์ ํตํด spatial๊ณผ temporal token ์ฌ์ด์์์ interaction์ ๋ง๋๋ค.
- temporal tokens ๊ฐ์ casual attention ์ฌ์ฉ >> ์์ฐจ์ ์์กด์ฑ์ ์๊ฐ์ ์์ ์ ์ง
- spatial tokens ๊ฐ์๋ bi-directional attention ์ฌ์ฉ >> ๊ณต๊ฐ ์ฐจ์์ ์๋ฐฉํฅ์ฑ์ ๊ฐ๊ธฐ ๋๋ฌธ์
- text token์ด spatial๊ณผ temporal ๋ชจ๋์๊ฒ attentionํ ์ ์๋๋ก >> ํ ์คํธ ํ ํฐ์ด ์๊ณต๊ฐ ์ ๋ณด ๊ณ ๋ฅด๊ฒ ํตํฉ
์ด๋ ๊ฒ attention ํ๋ฆ์ ๊ตฌ์กฐ์ ์ผ๋ก ์กฐ์ ํจ์ผ๋ก์จ, DST-attention์ ์๊ณต๊ฐ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋ถ๋ฆฌํ๊ณ , ๊ฒฐ๊ณผ์ ์ผ๋ก ํ๊ฐ์ ์ค์ด๋ฉฐ ๋น๋์ค ์ดํด ์ฑ๋ฅ์ ํฅ์์ํจ๋ค.
<2>
๋๋ฒ์งธ๋ก๋ ๊ธฐ์กด์ RoPE ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ Harmonic-RoPE์ด๋ค.
๊ธฐ์กด RoPE๋ spatial token๊ณผ temporal token์ ๋์ผํ๊ฑฐ๋ ๊ท ํ ์กํ positional ID๋ฅผ ์ ๊ณตํ์ง ์๊ธฐ ๋๋ฌธ์, ์์น ์ ๋ณด๊ฐ ์๊ณก๋ ์ ์๋ค.
์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋ค์ positional ID์ ์ฐจ์์ ํ์ฅํ์ฌ, ๊ฐ token ์ ํ์ด ํ ์คํธ ํ ํฐ ๊ธฐ์ค์ผ๋ก ๊ท ํ ์กํ positional ID๋ฅผ ๊ฐ์ง ์ ์๋๋ก ํ๋ค(Figure 2(b) ์ฐธ๊ณ ).
์ด๋ฌํ ๋ฐฉ์์ spatial๊ณผ temporal ์ ๋ณด์ ๊ท ํ ์๋ ํํ์ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ, ๋ชจ๋ธ์ด ์๊ณต๊ฐ ์ ๋ณด๋ฅผ ์กฐํ๋กญ๊ฒ ์ดํดํ ์ ์๋๋ก ๋๋๋ค.
Contribution์ ์ ๋ฆฌํ๋ฉด ์๋ ์ธ๊ฐ์ง์ ๊ฐ๋ค.
1. MASH-VLM ์ํคํ ์ฒ
DST-attention์ ํตํด spatial๊ณผ temporal token์ disentangle
Harmonic-RoPE๋ฅผ ํตํด spatial๊ณผ temporal token์ ๊ท ํ ๋ง์ถ relative position ID ๋ถ์ฌ
--> Video-LLM์์์ hallucination ๋ฌธ์ ๋ฅผ ์ํ
2. UNSCENE benchmark
1,320 video์ 4,078 QA pair๋ก ์ด๋ฃจ์ด์ง ๋ฒค์น๋งํฌ
: Unusual action-scene ์กฐํฉ์ ํฌํจํ ๋น๋์ค
: ์ฌ๋์ ํ๋์ด ํฌํจ๋์ง ์์ scene-only ๋น๋์ค
3. UNSCENE benchmark & ๊ธฐ์กด์ video QA benchmark์์ SOTA
# Related Works
Multimodal LLMs for Video Understanding.
MLLM (vision) ์์ Video-LLM (video)๋ก ํ์ฅ๋๋ ์ฐ๊ตฌ ์งํ ์ค์ด๋ค.
video-based MLLM์
(1) temporal dynamic์ ํ์ตํด์ผ ํ๊ณ (time์ถ)
(2) ์ฌ๋ฌ frame์ ๋ฐ๋ฅธ ๋ง์ ์์ visual token์ ํ์ตํด์ผ ํ๋ค.
์ด์ ๋ฐ๋ผ ์ต๊ทผ์ Video-LLM ๋ชจ๋ธ๋ค์
(1) visual token์ ์ค์ด๊ฑฐ๋
- Mvbench: A comprehensive multimodal video understanding benchmark. In CVPR, 2024.
- Video-llama: An instruction-tuned audio-visual language model for video understanding.
(2) visual token์ ํตํฉํ๊ฑฐ๋
- Chat-univi: Unified visual representation empowers large language models with image and video understanding. In CVPR, 2024.
(3) temporal dynamics๋ฅผ ๋ชจ๋ธ๋ง ํ๋ ๋ฐฉ๋ฒ์ผ๋ก ํด๊ฒฐํ๊ณ ๋ ธ๋ ฅ ์ค์ด๋ค.
- Video-llava: Learning united visual representation by alignment before projection. In EMNLP, 2024.
- Bt-adapter: Video conversation is feasible without video instruction tuning. In CVPR, 2024.
์ด ๋
ผ๋ฌธ๊ณผ ๊ฐ์ฅ ๊ด๋ จ์๋ Video-ChatGPT๋ pooling ๋ฐฉ๋ฒ์ ์ด์ฉํ์ฌ LLM์ ๋ค์ด๊ฐ๊ธฐ ์ ์ spatial๊ณผ temporal feature์ ๊ตฌ๋ถํ์๋ค.
๊ทธ๋ฌ๋ ์ด ๋ฐฉ๋ฒ์ LLM์ attention mechanism์ผ๋ก ์ธํด ๋ค์ entagle๋๊ธฐ๋ ํ๋ค.
๋ฐ๋ผ์ LLM ๋ด์์ ์กฐ์ํ๋๊ฒ ํ์ํ๋ค๋ ์๊ธฐ๋ฅผ ํ๊ณ ์๋ค.
# Method