
분산학습의 이해 Part 1 - GPU 메모리 분석: Parameter vs Activation
GPU 한 장으로 모델을 학습하다 보면 어김없이 만나는 에러가 있습니다. CUDA out of memory. 모델 파라미터 수만 보고 “이 정도면 들어가겠지” 싶었는데 실제로는 훨씬 더 많은 메모리를 요구합니다. Inference 때는 문제없이 돌아가던 모델이 Training에서는 메모리가 부족한 이유가 뭘까요? 이 글에서는 Neural Network 학습 루프의 각 단계를 따라가면서, GPU 메모리가 정확히 어디에 얼마나 쓰이는지를 수식과 함께 분석합니다. 1. Neural Network 학습 루프 한 iteration의 학습은 네 단계로 구성됩니다. Neural Network 학습 루프: Forward - Loss - Backward - Optimizer의 순환 구조 ...