# Introduction์์ฆ ChatGPT์ฒ๋ผ ๋๋ํ AI๋ค์ด ์ด๋ฏธ์ง๋ฅผ ์ดํดํ๋ ๋ฅ๋ ฅ๊น์ง ๊ฐ์ถ๋ฉด์, Large Vision-Language Models (LVLMs)๊ฐ ๋ฅ๋ฌ๋ ์ฐ๊ตฌ์ ํต์ฌ์ผ๋ก ๋ ์ค๋ฅด๊ณ ์๋ค. ์ด๋ฏธ์ง๋ ์์ ๊ธฐ๋ฐ์ ์ง๋ฌธ ์๋ต, ์ค๋ช ์์ฑ, ๋ฌธ์ ์ดํด ๋ฑ ๋ค์ํ ๋น์ -์ธ์ด ์์ ์์ ์์ฒญ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.๊ทธ๋ฐ๋ฐ ์ด๋ฐ LVLM๋ค์ด ํ์ค์ ๊ฐ๊น์์ง์๋ก ํฐ ๊ฑธ๋ฆผ๋์ด ํ๋ ์๊ธด๋ค.๋ฐ๋ก ๊ณ์ฐ ๋น์ฉ(computational cost)์ด ์์ฒญ๋๊ฒ ๋๋ค๋ ์ ์ด๋ค.์ด๋ฏธ์ง๋ ์์์ ํ ์คํธ๋ณด๋ค ํจ์ฌ ์ฐ์์ ์ด๊ณ ๊ณ ํด์๋์ด๋ฉฐ ์ ๋ณด ๋ฐ๋๋ ๋๋ค. ํ์ง๋ง ๋์์ ์ค๋ณต๋ ๋ง์์, ๋ชจ๋ ์ ๋ณด๋ฅผ ๋ค ์ฒ๋ฆฌํ๋ ๊ฑด ๋นํจ์จ์ ์ด๋ค.์๋ฅผ ๋ค์ด, ํด์๋๊ฐ ์กฐ๊ธ๋ง ์ฌ๋ผ๊ฐ๋ visual token ์๊ฐ ์์ฒ์์ ์๋ง ๊ฐ๋ก ๊ธ์ฆํ๊ณ ..