분산학습 Part 4 - Tensor/Hybrid Parallelism과 MoE

분산학습의 이해 Part 4 - Tensor/Hybrid Parallelism과 MoE

이전 글에서 Pipeline Parallelism(PP)이 모델을 레이어 단위로 잘라 여러 GPU에 배치하는 방식을 분석했습니다. PP 덕분에 GPU 한 장에 들어가지 않는 모델도 학습할 수 있게 되었고, bubble을 줄이는 방향으로 GPipe, 1F1B, ZBH가 진화해왔습니다. 그런데 PP의 분할 단위는 레이어입니다. 레이어 하나가 GPU 메모리를 초과하면 어떻게 할까요? 또, 하나의 병렬화 기법만으로는 수천 개 GPU를 효율적으로 활용하기 어렵습니다. 모델 용량은 키우면서 연산량은 유지하고 싶다면요? 이 글에서는 이 세 가지 질문에 대한 답을 다룹니다. Tensor Parallelism, Hybrid Parallelism, 그리고 MoE + Expert Parallelism입니다. ...

2026년 4월 15일 · 8 분 · Jesam Kim
파이프라인 구조에서 데이터가 흐르는 모습을 시각화한 이미지

분산학습의 이해 Part 3 - Pipeline Parallelism: GPipe에서 Zero Bubble까지

이전 글에서 Data Parallelism(DP)의 한계를 짚었습니다. activation memory는 GPU 수에 비례해 줄어들지만, parameter memory는 그대로입니다. 모델이 GPU 한 장에 들어가지 않으면 DP만으로는 학습할 수 없습니다. Pipeline Parallelism(PP)은 이 문제에 대한 직접적 답입니다. 모델을 레이어 단위로 잘라서 여러 GPU에 배치합니다. GPU 0에 레이어 1–6, GPU 1에 레이어 7–12 식으로 분할하면, 각 GPU는 전체 모델이 아닌 일부분만 들고 있으면 됩니다. 문제는 효율입니다. 파이프라인 구조에서는 한 GPU가 연산하는 동안 다른 GPU들이 놀게 되는 pipeline bubble이 생깁니다. PP의 진화 역사는 곧 이 bubble을 줄여온 역사입니다. ...

2026년 4월 15일 · 5 분 · Jesam Kim
여러 GPU가 데이터를 병렬 처리하는 구조를 시각화한 이미지

분산학습의 이해 Part 2 - Data Parallelism: 데이터를 나눠 메모리를 줄이다

이전 글에서 GPU 메모리가 parameter memory와 activation memory로 나뉘고, 특히 activation memory가 batch size에 비례한다는 것을 분석했습니다. 큰 모델을 큰 batch size로 학습하려면 GPU 한 장으로는 메모리가 부족합니다. Data Parallelism(DP)은 이 문제에 대한 가장 직관적인 접근입니다. 데이터를 쪼개서 여러 GPU에 나눠주고, 각 GPU가 자기 몫의 데이터로 gradient를 계산한 뒤, 결과를 모아서 파라미터를 업데이트합니다. 이 글에서는 DP의 구체적인 동작 원리를 Parameter Server 아키텍처 기준으로 분석합니다. 1. Parameter Server 아키텍처 Parameter Server(PS) 아키텍처: PS가 파라미터를 관리하고, Worker GPU들이 gradient를 계산한다 ...

2026년 4월 15일 · 5 분 · Jesam Kim
GPU 메모리 구조를 시각화한 이미지

분산학습의 이해 Part 1 - GPU 메모리 분석: Parameter vs Activation

GPU 한 장으로 모델을 학습하다 보면 어김없이 만나는 에러가 있습니다. CUDA out of memory. 모델 파라미터 수만 보고 “이 정도면 들어가겠지” 싶었는데 실제로는 훨씬 더 많은 메모리를 요구합니다. Inference 때는 문제없이 돌아가던 모델이 Training에서는 메모리가 부족한 이유가 뭘까요? 이 글에서는 Neural Network 학습 루프의 각 단계를 따라가면서, GPU 메모리가 정확히 어디에 얼마나 쓰이는지를 수식과 함께 분석합니다. 1. Neural Network 학습 루프 한 iteration의 학습은 네 단계로 구성됩니다. Neural Network 학습 루프: Forward - Loss - Backward - Optimizer의 순환 구조 ...

2026년 4월 15일 · 5 분 · Jesam Kim
Transformer에서 BERT까지 커버 이미지

Transformer에서 BERT까지: Attention Is All You Need와 BERT 논문 핵심 분석

2017년 Google이 발표한 “Attention Is All You Need"와 2018년의 “BERT: Pre-training of Deep Bidirectional Transformers"는 자연어 처리(NLP)의 흐름을 완전히 바꿔놓은 논문입니다. 오늘날 Claude, GPT 계열, Gemini 같은 대규모 언어 모델(LLM)은 모두 이 두 논문의 아이디어 위에 세워져 있습니다. 🎧 🎧 이 글을 팟캐스트로 듣기 브라우저가 오디오 재생을 지원하지 않습니다. 이 글에서는 수식을 최소화하고, 두 논문의 핵심 아이디어를 직관적으로 풀어봅니다. ...

2026년 3월 31일 · 9 분 · Jesam Kim

Back to Basics: 딥러닝, 결국 뭘 하는 건가

🎧 이 글을 팟캐스트로 듣기 브라우저가 오디오 재생을 지원하지 않습니다. 다시 기본으로 새 학기가 시작됐습니다. “AI 분산 학습 및 추론” 수업을 듣는데, 첫 주차는 딥러닝 기초를 다시 복습하는 시간이었습니다. 솔직히 말하면, Solutions Architect로 4년 동안 일하면서 AI/ML 서비스를 수도 없이 다뤘지만, 수식 앞에서는 다시 겸손해지더군요. ...

2026년 3월 7일 · 8 분 · Jesam Kim
Some illustrations are generated using Amazon Bedrock image generation models (Nova 2 Omni, SD3.5 Large, Nova Canvas).