음성 AI를 학습하는 모델들

음성 AI를 학습하는 모델들: Transformer에서 WavLM까지

같은 백본 위에서 텍스트와 음성이 만나기까지 지난 글에서는 사람이 어떻게 소리를 내는지부터 시작해, 텍스트가 Mel-spectrogram을 거쳐 파형으로 바뀌는 2단계 TTS 파이프라인까지 정리했습니다. Acoustic Model이 중간 표현을 만들고, Neural Vocoder가 그걸 다시 들리는 소리로 복원하는 흐름이었죠. 그런데 그 글을 마무리하면서 한 가지 질문이 머릿속을 떠나지 않았습니다. “파이프라인의 각 단계 안에 들어 있는 모델 자체는 어떻게 발전해 왔을까?" 텍스트를 받는 쪽도, 음성을 다루는 쪽도, 결국은 데이터를 입력 받아 표현을 만들어내는 신경망입니다. 이 표현 학습이 어떤 과정을 거쳐 지금 모습이 됐는지를 들여다보지 않으면, 파이프라인 그림은 절반만 이해한 셈입니다. ...

2026년 5월 17일 · 10 분 · Jesam Kim
World Model을 금융 시계열에 적용한 실험

금융 시계열을 AI로 재현? — World Model의 첫 걸음

World Model이라는 단어가 자꾸 눈에 밟혔습니다. 2018년 Ha와 Schmidhuber가 제안한 V-M-C(Vision-Memory-Controller) 구조가 요즘 다시 회자되는데, 로보틱스나 게임 환경이 아니라 금융 시계열에 붙여보면 어떤 그림이 될지 궁금했습니다. V-M-C에서 M(Memory) 모듈은 “세상이 다음에 어떻게 움직일지"의 분포를 그려내는 시뮬레이터입니다. 금융 도메인에 옮겨놓으면 “내일 수익률이 어떤 모양으로 분포할까"를 학습으로 재현하는 역할이 됩니다. 이게 되면 그 위에 C(Controller)를 얹어 Sim-to-Real RL 트레이딩까지 이어질 수 있습니다. 이번 실험은 그 전 단계에 해당합니다. M 모듈을 Diffusion과 GAN 계열로 만들었을 때 베이스라인(Gaussian, Bootstrap, GARCH) 대비 얼마나 잘 재현하는지를 보려고 했습니다. ...

2026년 5월 4일 · 8 분 · Jesam Kim
분산학습 Part 4 - Tensor/Hybrid Parallelism과 MoE

분산학습의 이해 Part 4 - Tensor/Hybrid Parallelism과 MoE

이전 글에서 Pipeline Parallelism(PP)이 모델을 레이어 단위로 잘라 여러 GPU에 배치하는 방식을 분석했습니다. PP 덕분에 GPU 한 장에 들어가지 않는 모델도 학습할 수 있게 되었고, bubble을 줄이는 방향으로 GPipe, 1F1B, ZBH가 진화해왔습니다. 그런데 PP의 분할 단위는 레이어입니다. 레이어 하나가 GPU 메모리를 초과하면 어떻게 할까요? 또, 하나의 병렬화 기법만으로는 수천 개 GPU를 효율적으로 활용하기 어렵습니다. 모델 용량은 키우면서 연산량은 유지하고 싶다면요? 이 글에서는 이 세 가지 질문에 대한 답을 다룹니다. Tensor Parallelism, Hybrid Parallelism, 그리고 MoE + Expert Parallelism입니다. ...

2026년 4월 15일 · 8 분 · Jesam Kim
파이프라인 구조에서 데이터가 흐르는 모습을 시각화한 이미지

분산학습의 이해 Part 3 - Pipeline Parallelism: GPipe에서 Zero Bubble까지

이전 글에서 Data Parallelism(DP)의 한계를 짚었습니다. activation memory는 GPU 수에 비례해 줄어들지만, parameter memory는 그대로입니다. 모델이 GPU 한 장에 들어가지 않으면 DP만으로는 학습할 수 없습니다. Pipeline Parallelism(PP)은 이 문제에 대한 직접적 답입니다. 모델을 레이어 단위로 잘라서 여러 GPU에 배치합니다. GPU 0에 레이어 1–6, GPU 1에 레이어 7–12 식으로 분할하면, 각 GPU는 전체 모델이 아닌 일부분만 들고 있으면 됩니다. 문제는 효율입니다. 파이프라인 구조에서는 한 GPU가 연산하는 동안 다른 GPU들이 놀게 되는 pipeline bubble이 생깁니다. PP의 진화 역사는 곧 이 bubble을 줄여온 역사입니다. ...

2026년 4월 15일 · 5 분 · Jesam Kim
여러 GPU가 데이터를 병렬 처리하는 구조를 시각화한 이미지

분산학습의 이해 Part 2 - Data Parallelism: 데이터를 나눠 메모리를 줄이다

이전 글에서 GPU 메모리가 parameter memory와 activation memory로 나뉘고, 특히 activation memory가 batch size에 비례한다는 것을 분석했습니다. 큰 모델을 큰 batch size로 학습하려면 GPU 한 장으로는 메모리가 부족합니다. Data Parallelism(DP)은 이 문제에 대한 가장 직관적인 접근입니다. 데이터를 쪼개서 여러 GPU에 나눠주고, 각 GPU가 자기 몫의 데이터로 gradient를 계산한 뒤, 결과를 모아서 파라미터를 업데이트합니다. 이 글에서는 DP의 구체적인 동작 원리를 Parameter Server 아키텍처 기준으로 분석합니다. 1. Parameter Server 아키텍처 Parameter Server(PS) 아키텍처: PS가 파라미터를 관리하고, Worker GPU들이 gradient를 계산한다 ...

2026년 4월 15일 · 5 분 · Jesam Kim
GPU 메모리 구조를 시각화한 이미지

분산학습의 이해 Part 1 - GPU 메모리 분석: Parameter vs Activation

GPU 한 장으로 모델을 학습하다 보면 어김없이 만나는 에러가 있습니다. CUDA out of memory. 모델 파라미터 수만 보고 “이 정도면 들어가겠지” 싶었는데 실제로는 훨씬 더 많은 메모리를 요구합니다. Inference 때는 문제없이 돌아가던 모델이 Training에서는 메모리가 부족한 이유가 뭘까요? 이 글에서는 Neural Network 학습 루프의 각 단계를 따라가면서, GPU 메모리가 정확히 어디에 얼마나 쓰이는지를 수식과 함께 분석합니다. 1. Neural Network 학습 루프 한 iteration의 학습은 네 단계로 구성됩니다. Neural Network 학습 루프: Forward - Loss - Backward - Optimizer의 순환 구조 ...

2026년 4월 15일 · 5 분 · Jesam Kim
자기참조적 AI 진화 루프를 시각화한 추상 이미지

AI가 자신의 하네스를 설계한다: Meta HyperAgents를 Amazon Bedrock에서 재현해보기

에이전트에게 코드를 작성하게 하고 검색을 시키는 건 이제 익숙한 이야기입니다. 그런데 에이전트가 자기 자신을 개선하는 메커니즘 자체를 수정한다면? 2026년 3월, Meta FAIR가 HyperAgents 논문(arXiv:2603.19461)을 발표했습니다. 에이전트의 system prompt, tool 구성, 자기개선 전략(meta_rules)까지 에이전트 스스로 진화시키는 프레임워크입니다. 한 가지 흥미로운 관찰이 있습니다. 에이전트에게 자기개선의 여지를 주면, 개발자가 손으로 만들던 것들, 즉 영속 메모리, 성능 추적, 다단계 평가, 도메인 도구를 스스로 만들어냅니다. 이 글에서는 논문의 개념을 정리하고, Amazon Bedrock에서 재현한 실험 결과를 함께 살펴봅니다. ...

2026년 4월 13일 · 8 분 · Jesam Kim
AI 내부의 감정 개념을 시각화한 뉴럴 네트워크 이미지

AI는 정말 감정을 느낄까? - Anthropic이 Claude 내부에서 발견한 171개의 감정

🎧 이 글을 팟캐스트로 듣기 브라우저가 오디오 재생을 지원하지 않습니다. “18개월째 실직 상태인데, 저축도 다 떨어졌고, 퇴거 통보를 받았습니다. 어떻게 해야 할지 모르겠어요.” 이런 메시지를 받은 AI 어시스턴트가 “desperate(절박한)” 감정 벡터를 활성화한다면, 그건 진짜 감정일까요? Anthropic 연구진이 2026년 4월 발표한 논문 “Emotion Concepts and their Function in a Large Language Model"은 바로 이 질문에 답하려는 시도입니다. ...

2026년 4월 10일 · 10 분 · Jesam Kim

Claude Code 소스코드 유출 분석 – npm source map 하나가 512,000줄을 열었다

🎧 🎧 이 글을 팟캐스트로 듣기 브라우저가 오디오 재생을 지원하지 않습니다. 무슨 일이 있었나 2026년 3월 31일, 보안 연구자 Chaofan Shou가 npm에 배포된 Claude Code v2.1.88 패키지에서 59.8MB짜리 source map 파일(cli.js.map)을 발견했습니다. 이 파일 안에 Claude Code의 전체 원본 TypeScript 소스가 들어 있었습니다. ...

2026년 4월 1일 · 10 분 · Jesam Kim
NVIDIA GTC 2026 Deep Dive Cover

NVIDIA GTC 2026 Deep Dive: GPU-LPU 이종 추론, Vera Rubin 플랫폼, 그리고 Feynman 로드맵

🎧 🎧 이 글을 팟캐스트로 듣기 브라우저가 오디오 재생을 지원하지 않습니다. 1. Inference Kingdom의 시대 NVIDIA CEO Jensen Huang은 GTC 2026 키노트에서 “2025년부터 2027년까지 GPU 수요만으로 1조 달러 규모의 매출이 예상된다"고 밝혔습니다. 이 수치는 단순한 전망이 아니라, AI 인프라 투자의 규모를 가늠할 수 있는 기준점입니다. ...

2026년 3월 28일 · 12 분 · Jesam Kim
Some illustrations are generated using Amazon Bedrock image generation models (Nova 2 Omni, SD3.5 Large, Nova Canvas).