0. Abstract기존의 visual recognition 연구는 딥 뉴럴 네트워크(DNN)를 각 visual recognition task 마다 별도로 학습시켜야 했다.--> 이는 대규모의 수작업 라벨 데이터에 의존하며 많은 시간과 인력 자원이 소모되는 구조이러한 문제를 해결하기 위해 최근 주목받고 있는 것이 바로 Vision-Language Models (VLMs)이다.VLM은 (1) 웹에서 거의 무한히 얻을 수 있는 대규모 이미지-텍스트 쌍을 활용하여 시각-언어 간의 풍부한 상관관계를 학습하며,(2) 단 하나의 모델로 다양한 visual recognition task에 대해 제로샷(Zero-Shot) 예측이 가능하다는 강점을 가진다.이 논문은 VLM을 기반으로 한 시각 인식 기술에 대해 다음과 같..