AI Tech Blog

From AI/ML fundamentals to deep dives: paper reviews, AWS architectures, and practical guides by Jesam Kim

Claude Code 생태계 정리 — 플러그인, 스킬, 그리고 누가 plan을 들고 있나

Claude Code 플러그인 마켓플레이스와 Agent Skills 생태계에서 GitHub star가 높은 도구들을 언제 쓰는지 정리하고, Superpowers/AI-DLC/Dynamic Workflows가 plan을 각각 어디에 두는지로 분류한 뒤, OpenAI가 경쟁사 Claude Code에 직접 낸 공식 Codex 플러그인(codex-plugin-cc)까지 짚습니다.

LLM Agent 메모리 아키텍처 — 단기/장기 메모리는 어떻게 관리되는가

컨텍스트 윈도우만 늘려서는 풀리지 않는 문제 2025년부터 2026년 사이 LLM 컨텍스트 윈도우는 200K에서 1M 토큰까지 늘어났습니다. 그런데 production에서 에이전트를 운영해본 팀들은 비슷한 결론에 도달하고 있습니다. “세션 길이가 길어지면 컨텍스트만 키워서는 풀리지 않는 문제가 생긴다”는 것이죠. 멀티턴 대화가 수십 턴을 넘어가면 latency가 급격히 늘어나고, 토큰 비용은 누적되며, 모델이 앞쪽 정보를 슬그머니 잊어버리는 lost-in-the-middle 현상이 따라옵니다. 그래서 2026년 들어 에이전트 메모리 아키텍처가 본격적으로 production 관심사로 올라왔습니다. ACL 2026 Findings에 채택된 From Storage to Experience 서베이는 이 흐름을 명시적으로 정리했고, ECAI 2025의 Mem0는 production 최적화 수치를 처음으로 공개했으며, AWS는 Bedrock AgentCore Memory를 GA로 풀었습니다. 이 글은 학계의 분류 체계, 두 편의 대표 논문, 그리고 매니지드 서비스가 메모리를 어떻게 다루는지를 한 번에 묶어 정리합니다. ...

GPT-5.5가 Bedrock에 온다 — Mantle 엔드포인트로 OpenAI SDK 그대로 쓰기

들어가며 2026년 4월 28일, AWS와 OpenAI는 확장 파트너십을 발표했습니다. 처음엔 preview로 공개됐고, 2026년 6월 1일 AWS는 OpenAI GPT-5.5·GPT-5.4 모델과 Codex의 Amazon Bedrock 정식 출시(GA)를 발표했습니다. OpenAI 최신 모델이 Amazon Bedrock에서 사용 가능해졌고, OpenAI 코딩 에이전트 Codex가 Bedrock 위에 올라왔으며, OpenAI 모델로 동작하는 Amazon Bedrock Managed Agents가 추가됐습니다. 같은 주 OpenAI는 GPT-5.5 Instant를 ChatGPT 기본 모델로 전환했습니다. 엔지니어 입장에서 의미는 단순합니다. OpenAI SDK로 짜둔 코드를 거의 손대지 않고 AWS 인프라 위에서 돌릴 수 있는 통로가 열렸다는 점입니다. 그 통로의 이름이 Mantle입니다. ...

음성 AI를 학습하는 모델들: Transformer에서 WavLM까지

같은 백본 위에서 텍스트와 음성이 만나기까지 지난 글에서는 사람이 어떻게 소리를 내는지부터 시작해, 텍스트가 Mel-spectrogram을 거쳐 파형으로 바뀌는 2단계 TTS 파이프라인까지 정리했습니다. Acoustic Model이 중간 표현을 만들고, Neural Vocoder가 그걸 다시 들리는 소리로 복원하는 흐름이었죠. 그런데 그 글을 마무리하면서 한 가지 질문이 머릿속을 떠나지 않았습니다. “파이프라인의 각 단계 안에 들어 있는 모델 자체는 어떻게 발전해 왔을까?" 텍스트를 받는 쪽도, 음성을 다루는 쪽도, 결국은 데이터를 입력 받아 표현을 만들어내는 신경망입니다. 이 표현 학습이 어떤 과정을 거쳐 지금 모습이 됐는지를 들여다보지 않으면, 파이프라인 그림은 절반만 이해한 셈입니다. ...

RLVR과 Agentic RL: LLM 에이전트를 다시 점령한 강화학습

1. Introduction: 왜 지금 RL이 다시 뜨는가 2022년 ChatGPT 공개 이후 LLM 포스트 트레이닝의 중심은 RLHF(Reinforcement Learning from Human Feedback)였습니다. 그런데 RLHF는 까다로운 작업이었습니다. reward model을 따로 학습해야 했고, PPO 같은 RL 알고리즘은 하이퍼파라미터에 민감했으며, 분산 학습 인프라까지 필요했습니다. 2023~2024년에 DPO(Direct Preference Optimization)가 빠르게 확산된 것도 이런 이유였습니다. RL을 우회해서 선호 학습을 reward model 없이 직접 풀자는 접근이 매력적이었던 거죠. 흐름이 바뀐 시점은 2025년 1월입니다. DeepSeek-AI가 DeepSeek-R1을 공개하면서, “복잡한 RLHF 없이도, 규칙 기반 verifiable reward만으로 LLM의 추론 능력을 학습시킬 수 있다"는 것을 실증해버렸습니다. R1-Zero는 SFT(Supervised Fine-Tuning)도 거치지 않고 베이스 모델에 곧바로 RL만 적용했는데, AIME 같은 수학 벤치마크에서 reasoning 능력이 저절로 나타났습니다. 이 논문은 2025년 9월에 Nature에도 게재되며 학계에서 자주 인용됐습니다. ...

AgentCore Managed Harness & Payments: 에이전트가 스스로 결제하는 시대

🎧 🎧 이 글을 팟캐스트로 듣기 (8분 36초) 브라우저가 오디오 재생을 지원하지 않습니다. 2026년 봄, AWS는 Amazon Bedrock AgentCore에 두 가지 큰 기능을 추가했습니다. 4월 22일 Managed Harness 프리뷰, 그리고 5월 7일 AgentCore Payments 프리뷰입니다. 발표 간격은 보름 정도지만 두 기능을 떨어뜨려 보면 의미가 잘 안 잡힙니다. 하나는 에이전트를 어떻게 배포할지, 다른 하나는 에이전트가 일하면서 어떻게 돈을 낼지에 관한 이야기인데, 결국 같은 그림의 두 면이기 때문입니다. ...

금융 시계열을 AI로 재현? — World Model의 첫 걸음

World Model이라는 단어가 자꾸 눈에 밟혔습니다. 2018년 Ha와 Schmidhuber가 제안한 V-M-C(Vision-Memory-Controller) 구조가 요즘 다시 회자되는데, 로보틱스나 게임 환경이 아니라 금융 시계열에 붙여보면 어떤 그림이 될지 궁금했습니다. V-M-C에서 M(Memory) 모듈은 “세상이 다음에 어떻게 움직일지"의 분포를 그려내는 시뮬레이터입니다. 금융 도메인에 옮겨놓으면 “내일 수익률이 어떤 모양으로 분포할까"를 학습으로 재현하는 역할이 됩니다. 이게 되면 그 위에 C(Controller)를 얹어 Sim-to-Real RL 트레이딩까지 이어질 수 있습니다. 이번 실험은 그 전 단계에 해당합니다. M 모듈을 Diffusion과 GAN 계열로 만들었을 때 베이스라인(Gaussian, Bootstrap, GARCH) 대비 얼마나 잘 재현하는지를 보려고 했습니다. ...

Claude Opus 4.7 들여다보기 — 새 capabilities가 만드는 차이

2026년 4월 16일, Anthropic이 Claude Opus 4.7을 공개했습니다. 같은 날 GitHub Copilot, Cursor, Claude Code가 일제히 지원을 시작했습니다. 가격은 Opus 4.6과 동일한 입력 $5 / MTok, 출력 $25 / MTok이고 모델 ID는 claude-opus-4-7입니다. 1M 컨텍스트와 128k max output은 유지됐습니다. 가격이 그대로면 보통은 숫자만 바뀐 업데이트로 흘려보내기 쉽습니다. 그런데 이번 릴리즈는 숫자보다 파라미터의 문법 자체가 바뀐 편입니다. thinking 인터페이스가 바뀌었고, 새 파라미터 두 개가 추가됐고, 비전 해상도가 3.3배가 됐습니다. 프로덕션에서 Opus 4.6을 쓰고 있었다면 코드 몇 군데는 반드시 손봐야 합니다. ...

Bedrock AgentCore Managed Harness 심층 해부: 3번의 API 호출로 끝나는 에이전트 배포

AWS가 2026년 4월 22일 Amazon Bedrock AgentCore Managed Harness를 프리뷰로 공개했습니다. 같은 날 AgentCore CLI와 AgentCore Skills도 함께 발표되었고, 세 컴포넌트는 하나의 패키지로 움직입니다. 공식 발표는 AWS Machine Learning Blog와 What’s New 공지에서 확인할 수 있습니다. 핵심 주장은 단순합니다. 에이전트를 배포하려면 model, systemPrompt, tools 세 가지만 선언하면 된다는 것입니다. 나머지 세션 관리, 실행 환경 격리, 상태 영속화, 관측성, 인증은 AWS가 관리합니다. 이 글은 Solutions Architect 관점에서 Managed Harness를 해부합니다. 어떤 설계가 담겨 있는지, 어떤 경우에 선택해야 하는지, 프리뷰 단계에서 무엇을 조심해야 하는지를 다룹니다. ...

Stanford AI Index 2026 심층 해부: 숫자로 읽는 2026년 AI 지형

Stanford HAI가 2017년부터 매년 발간하는 AI Index Report는 AI 분야의 현황을 수치로 고정시키는 몇 안 되는 기준점입니다. 기술 성능, 투자 흐름, 연구 출판, 일자리 변화, 대중 인식을 한 곳에서 다루는 보고서는 거의 없습니다. 올해로 아홉 번째를 맞은 2026년판은 4월 13일 공개되었습니다. 2026년 리포트는 성능 지표와 사회적 지표가 반대 방향으로 움직이는 한 해를 기록합니다. 2026년 리포트가 던지는 핵심 메시지는 세 방향으로 정리됩니다. 첫째, 성능의 폭발입니다. 지난 1년 사이 AI 에이전트가 소프트웨어 엔지니어링, 사이버보안, 수학 올림피아드 문제를 다루는 성공률이 10퍼센트대에서 90퍼센트대로 뛰었습니다. 벤치마크가 포화되는 속도가 너무 빠르다 보니 측정 도구 자체가 따라가지 못하는 상황이 되었습니다. 둘째, 미중 격차 소멸입니다. 2025년 2월 DeepSeek-R1이 미국 최상위 모델과 일시적으로 동률을 이뤘고, 2026년 3월 기준 Anthropic의 최상위 모델이 앞서는 폭은 단 2.7%입니다. 셋째, 투명성과 신뢰의 붕괴입니다. Foundation Model Transparency Index 평균 점수가 58점에서 40점으로 떨어졌고, 미국에서 AI 규제를 신뢰한다는 응답은 31%로 조사 대상국 중 최하를 기록했습니다. ...