QLoRA: 16-bit의 성능을 유지하면서 65B개의 파라미터를 가진 모델을 Single 48GB GPU에 올려 finetuning 할 수 있게 한다.# ContributionQLoRA 방법론1. 4-bit NormalFloat(NF4): 정규분포된 가중치에 대해 정보 이론적으로 최적인 새로운 데이터 타입2. Double Quantization: 양자화 상수를 다시 양자화함으로써 평균 메모리 사용량 절감3. Paged Optimizers: 메모리 사용량이 급증하는 상황을 효과적으로 제어# IntroductionLLM을 Finetuning 하는건 특정 도메인에서의 성능을 향상시키기 위해 필요한 과정이다.기존에는 16-bit finetuning을 하기 위해서는 LLaMA 65B 기준으로, 780GB 크기의..