Optimal Brain Damage

왜 프루닝인가 — 모델 압축의 필요성과 프루닝의 위치 GPT-3의 175B 파라미터가 세상을 놀라게 한 것이 불과 몇 년 전인데, 이제는 LLaMA 70B를 “비교적 작은 모델"이라 부르는 시대가 되었습니다. 모델 크기가 폭증하면서 추론 비용, GPU 메모리, 응답 지연(latency) 문제는 더 이상 연구실만의 고민이 아니라 서비스 전체의 병목이 되고 있습니다. 개인적으로 70B 모델을 단일 A100 80GB에 올려보려 할 때마다 OOM(Out of Memory)을 마주치는데, 이럴 때 압축의 필요성을 절실히 느끼게 됩니다. 모델 압축 기법의 전체 지형도 이 문제를 해결하기 위한 대표적인 모델 압축(Model Compression) 기법은 다음과 같습니다. ...