2025/05/08 2

[Paper Review] Vision-Language Models for Vision Tasks: A Survey

0. Abstract기존의 visual recognition 연구는 딥 뉴럴 네트워크(DNN)를 각 visual recognition task 마다 별도로 학습시켜야 했다.--> 이는 대규모의 수작업 라벨 데이터에 의존하며 많은 시간과 인력 자원이 소모되는 구조이러한 문제를 해결하기 위해 최근 주목받고 있는 것이 바로 Vision-Language Models (VLMs)이다.VLM은 (1) 웹에서 거의 무한히 얻을 수 있는 대규모 이미지-텍스트 쌍을 활용하여 시각-언어 간의 풍부한 상관관계를 학습하며,(2) 단 하나의 모델로 다양한 visual recognition task에 대해 제로샷(Zero-Shot) 예측이 가능하다는 강점을 가진다.이 논문은 VLM을 기반으로 한 시각 인식 기술에 대해 다음과 같..

[Silver II] 15787 - 기차가 어둠을 헤치고 은하수를

문제N개의 기차가 어둠을 헤치고 은하수를 건너려고 한다.기차는 20개의 일렬로 된 좌석이 있고, 한 개의 좌석에는 한 명의 사람이 탈 수 있다. 기차의 번호를 1번부터 N번으로 매길 때, 어떠한 기차에 대하여 M개의 명령이 주어진다.명령의 종류는 4가지로 다음과 같다.1 i x : i번째 기차에(1 ≤ i ≤ N) x번째 좌석에(1 ≤ x ≤ 20) 사람을 태워라. 이미 사람이 타있다면 , 아무런 행동을 하지 않는다.2 i x : i번째 기차에 x번째 좌석에 앉은 사람은 하차한다. 만약 아무도 그자리에 앉아있지 않았다면, 아무런 행동을 하지 않는다.3 i : i번째 기차에 앉아있는 승객들이 모두 한칸씩 뒤로간다. k번째 앉은 사람은 k+1번째로 이동하여 앉는다. 만약 20번째 자리에 사람이 앉아있었다면 ..

📚 Study/Baekjoon 2025.05.08