AI Tech Blog

From AI/ML fundamentals to deep dives: paper reviews, AWS architectures, and practical guides by Jesam Kim
Stanford AI Index 2026

Stanford AI Index 2026 심층 해부: 숫자로 읽는 2026년 AI 지형

Stanford HAI가 2017년부터 매년 발간하는 AI Index Report는 AI 분야의 현황을 수치로 고정시키는 몇 안 되는 기준점입니다. 기술 성능, 투자 흐름, 연구 출판, 일자리 변화, 대중 인식을 한 곳에서 다루는 보고서는 거의 없습니다. 올해로 아홉 번째를 맞은 2026년판은 4월 13일 공개되었습니다. 2026년 리포트는 성능 지표와 사회적 지표가 반대 방향으로 움직이는 한 해를 기록합니다. 2026년 리포트가 던지는 핵심 메시지는 세 방향으로 정리됩니다. 첫째, 성능의 폭발입니다. 지난 1년 사이 AI 에이전트가 소프트웨어 엔지니어링, 사이버보안, 수학 올림피아드 문제를 다루는 성공률이 10퍼센트대에서 90퍼센트대로 뛰었습니다. 벤치마크가 포화되는 속도가 너무 빠르다 보니 측정 도구 자체가 따라가지 못하는 상황이 되었습니다. 둘째, 미중 격차 소멸입니다. 2025년 2월 DeepSeek-R1이 미국 최상위 모델과 일시적으로 동률을 이뤘고, 2026년 3월 기준 Anthropic의 최상위 모델이 앞서는 폭은 단 2.7%입니다. 셋째, 투명성과 신뢰의 붕괴입니다. Foundation Model Transparency Index 평균 점수가 58점에서 40점으로 떨어졌고, 미국에서 AI 규제를 신뢰한다는 응답은 31%로 조사 대상국 중 최하를 기록했습니다. ...

2026년 4월 18일 · 9 분 · Jesam Kim
분산학습 Part 4 - Tensor/Hybrid Parallelism과 MoE

분산학습의 이해 Part 4 - Tensor/Hybrid Parallelism과 MoE

이전 글에서 Pipeline Parallelism(PP)이 모델을 레이어 단위로 잘라 여러 GPU에 배치하는 방식을 분석했습니다. PP 덕분에 GPU 한 장에 들어가지 않는 모델도 학습할 수 있게 되었고, bubble을 줄이는 방향으로 GPipe, 1F1B, ZBH가 진화해왔습니다. 그런데 PP의 분할 단위는 레이어입니다. 레이어 하나가 GPU 메모리를 초과하면 어떻게 할까요? 또, 하나의 병렬화 기법만으로는 수천 개 GPU를 효율적으로 활용하기 어렵습니다. 모델 용량은 키우면서 연산량은 유지하고 싶다면요? 이 글에서는 이 세 가지 질문에 대한 답을 다룹니다. Tensor Parallelism, Hybrid Parallelism, 그리고 MoE + Expert Parallelism입니다. ...

2026년 4월 15일 · 8 분 · Jesam Kim
파이프라인 구조에서 데이터가 흐르는 모습을 시각화한 이미지

분산학습의 이해 Part 3 - Pipeline Parallelism: GPipe에서 Zero Bubble까지

이전 글에서 Data Parallelism(DP)의 한계를 짚었습니다. activation memory는 GPU 수에 비례해 줄어들지만, parameter memory는 그대로입니다. 모델이 GPU 한 장에 들어가지 않으면 DP만으로는 학습할 수 없습니다. Pipeline Parallelism(PP)은 이 문제에 대한 직접적 답입니다. 모델을 레이어 단위로 잘라서 여러 GPU에 배치합니다. GPU 0에 레이어 1–6, GPU 1에 레이어 7–12 식으로 분할하면, 각 GPU는 전체 모델이 아닌 일부분만 들고 있으면 됩니다. 문제는 효율입니다. 파이프라인 구조에서는 한 GPU가 연산하는 동안 다른 GPU들이 놀게 되는 pipeline bubble이 생깁니다. PP의 진화 역사는 곧 이 bubble을 줄여온 역사입니다. ...

2026년 4월 15일 · 5 분 · Jesam Kim
여러 GPU가 데이터를 병렬 처리하는 구조를 시각화한 이미지

분산학습의 이해 Part 2 - Data Parallelism: 데이터를 나눠 메모리를 줄이다

이전 글에서 GPU 메모리가 parameter memory와 activation memory로 나뉘고, 특히 activation memory가 batch size에 비례한다는 것을 분석했습니다. 큰 모델을 큰 batch size로 학습하려면 GPU 한 장으로는 메모리가 부족합니다. Data Parallelism(DP)은 이 문제에 대한 가장 직관적인 접근입니다. 데이터를 쪼개서 여러 GPU에 나눠주고, 각 GPU가 자기 몫의 데이터로 gradient를 계산한 뒤, 결과를 모아서 파라미터를 업데이트합니다. 이 글에서는 DP의 구체적인 동작 원리를 Parameter Server 아키텍처 기준으로 분석합니다. 1. Parameter Server 아키텍처 Parameter Server(PS) 아키텍처: PS가 파라미터를 관리하고, Worker GPU들이 gradient를 계산한다 ...

2026년 4월 15일 · 5 분 · Jesam Kim
GPU 메모리 구조를 시각화한 이미지

분산학습의 이해 Part 1 - GPU 메모리 분석: Parameter vs Activation

GPU 한 장으로 모델을 학습하다 보면 어김없이 만나는 에러가 있습니다. CUDA out of memory. 모델 파라미터 수만 보고 “이 정도면 들어가겠지” 싶었는데 실제로는 훨씬 더 많은 메모리를 요구합니다. Inference 때는 문제없이 돌아가던 모델이 Training에서는 메모리가 부족한 이유가 뭘까요? 이 글에서는 Neural Network 학습 루프의 각 단계를 따라가면서, GPU 메모리가 정확히 어디에 얼마나 쓰이는지를 수식과 함께 분석합니다. 1. Neural Network 학습 루프 한 iteration의 학습은 네 단계로 구성됩니다. Neural Network 학습 루프: Forward - Loss - Backward - Optimizer의 순환 구조 ...

2026년 4월 15일 · 5 분 · Jesam Kim
자기참조적 AI 진화 루프를 시각화한 추상 이미지

AI가 자신의 하네스를 설계한다: Meta HyperAgents를 Amazon Bedrock에서 재현해보기

에이전트에게 코드를 작성하게 하고 검색을 시키는 건 이제 익숙한 이야기입니다. 그런데 에이전트가 자기 자신을 개선하는 메커니즘 자체를 수정한다면? 2026년 3월, Meta FAIR가 HyperAgents 논문(arXiv:2603.19461)을 발표했습니다. 에이전트의 system prompt, tool 구성, 자기개선 전략(meta_rules)까지 에이전트 스스로 진화시키는 프레임워크입니다. 한 가지 흥미로운 관찰이 있습니다. 에이전트에게 자기개선의 여지를 주면, 개발자가 손으로 만들던 것들, 즉 영속 메모리, 성능 추적, 다단계 평가, 도메인 도구를 스스로 만들어냅니다. 이 글에서는 논문의 개념을 정리하고, Amazon Bedrock에서 재현한 실험 결과를 함께 살펴봅니다. ...

2026년 4월 13일 · 8 분 · Jesam Kim
AI 내부의 감정 개념을 시각화한 뉴럴 네트워크 이미지

AI는 정말 감정을 느낄까? - Anthropic이 Claude 내부에서 발견한 171개의 감정

🎧 이 글을 팟캐스트로 듣기 브라우저가 오디오 재생을 지원하지 않습니다. “18개월째 실직 상태인데, 저축도 다 떨어졌고, 퇴거 통보를 받았습니다. 어떻게 해야 할지 모르겠어요.” 이런 메시지를 받은 AI 어시스턴트가 “desperate(절박한)” 감정 벡터를 활성화한다면, 그건 진짜 감정일까요? Anthropic 연구진이 2026년 4월 발표한 논문 “Emotion Concepts and their Function in a Large Language Model"은 바로 이 질문에 답하려는 시도입니다. ...

2026년 4월 10일 · 10 분 · Jesam Kim
자연어로 SQL을 쓴다: Text2SQL NL2SQL 최신 기법

자연어로 SQL을 쓴다: Text2SQL / NL2SQL 최신 기법 총정리 (2026)

“지난달 서울 지역 매출 상위 10개 제품 보여줘.” 이 한 문장을 SQL로 바꾸는 일, 예전에는 데이터 분석가에게 요청하고 하루를 기다려야 했습니다. 지금은 LLM이 몇 초 만에 해냅니다. Text2SQL(또는 NL2SQL)은 자연어 질문을 실행 가능한 SQL 쿼리로 변환하는 기술입니다. 규칙 기반 파서 시절부터 존재하던 오래된 문제지만, LLM 등장 이후 정확도가 급격히 올라가면서 실제 프로덕션에 투입되기 시작했습니다. 기업 입장에서 Text2SQL은 데이터 민주화의 핵심입니다. SQL을 모르는 마케터, 기획자, 경영진도 자연어로 데이터에 접근할 수 있게 되면, 데이터 팀의 병목이 사라집니다. 2025–2026년 사이에 쏟아진 연구 결과를 바탕으로, 현재 가장 효과적인 접근법들을 정리합니다. ...

2026년 4월 3일 · 10 분 · Jesam Kim

Claude Code 소스코드 유출 분석 – npm source map 하나가 512,000줄을 열었다

🎧 🎧 이 글을 팟캐스트로 듣기 브라우저가 오디오 재생을 지원하지 않습니다. 무슨 일이 있었나 2026년 3월 31일, 보안 연구자 Chaofan Shou가 npm에 배포된 Claude Code v2.1.88 패키지에서 59.8MB짜리 source map 파일(cli.js.map)을 발견했습니다. 이 파일 안에 Claude Code의 전체 원본 TypeScript 소스가 들어 있었습니다. ...

2026년 4월 1일 · 10 분 · Jesam Kim
Transformer에서 BERT까지 커버 이미지

Transformer에서 BERT까지: Attention Is All You Need와 BERT 논문 핵심 분석

2017년 Google이 발표한 “Attention Is All You Need"와 2018년의 “BERT: Pre-training of Deep Bidirectional Transformers"는 자연어 처리(NLP)의 흐름을 완전히 바꿔놓은 논문입니다. 오늘날 Claude, GPT 계열, Gemini 같은 대규모 언어 모델(LLM)은 모두 이 두 논문의 아이디어 위에 세워져 있습니다. 🎧 🎧 이 글을 팟캐스트로 듣기 브라우저가 오디오 재생을 지원하지 않습니다. 이 글에서는 수식을 최소화하고, 두 논문의 핵심 아이디어를 직관적으로 풀어봅니다. ...

2026년 3월 31일 · 9 분 · Jesam Kim
Some illustrations are generated using Amazon Bedrock image generation models (Nova 2 Omni, SD3.5 Large, Nova Canvas).