0. Abstract— 학습 없이도 MLLM에 시각적 지시를 가능하게 만든 ControlMLLMControlMLLM은 멀티모달 대형 언어 모델(MLLM)에 추가 학습 없이 시각적 프롬프트(박스, 마스크, 점 등)를 주입하는 새로운 방법이다.핵심은 attention 메커니즘을 활용해, 텍스트 토큰이 사용자가 지시한 시각적 영역에 주목하도록 시각 토큰을 테스트 시점에서만 최적화하는 것이다.추가 학습 불필요: 파인튜닝 없이 적용 가능정확한 영역 지시: attention을 제어해 referring 성능 향상범용성: 다양한 입력 형식 지원 + 일반화 가능성 확인1. Introduction최근 Multimodal Large Language Models (MLLMs)은 텍스트와 이미지를 함께 처리하며 다양한 응용 분..