RLVR과 Agentic RL

RLVR과 Agentic RL: LLM 에이전트를 다시 점령한 강화학습

1. Introduction: 왜 지금 RL이 다시 뜨는가 2022년 ChatGPT 공개 이후 LLM 포스트 트레이닝의 중심은 RLHF(Reinforcement Learning from Human Feedback)였습니다. 그런데 RLHF는 까다로운 작업이었습니다. reward model을 따로 학습해야 했고, PPO 같은 RL 알고리즘은 하이퍼파라미터에 민감했으며, 분산 학습 인프라까지 필요했습니다. 2023~2024년에 DPO(Direct Preference Optimization)가 빠르게 확산된 것도 이런 이유였습니다. RL을 우회해서 선호 학습을 reward model 없이 직접 풀자는 접근이 매력적이었던 거죠. 흐름이 바뀐 시점은 2025년 1월입니다. DeepSeek-AI가 DeepSeek-R1을 공개하면서, “복잡한 RLHF 없이도, 규칙 기반 verifiable reward만으로 LLM의 추론 능력을 학습시킬 수 있다"는 것을 실증해버렸습니다. R1-Zero는 SFT(Supervised Fine-Tuning)도 거치지 않고 베이스 모델에 곧바로 RL만 적용했는데, AIME 같은 수학 벤치마크에서 reasoning 능력이 저절로 나타났습니다. 이 논문은 2025년 9월에 Nature에도 게재되며 학계에서 자주 인용됐습니다. ...

2026년 5월 10일 · 13 분 · Jesam Kim
Stanford AI Index 2026

Stanford AI Index 2026 심층 해부: 숫자로 읽는 2026년 AI 지형

Stanford HAI가 2017년부터 매년 발간하는 AI Index Report는 AI 분야의 현황을 수치로 고정시키는 몇 안 되는 기준점입니다. 기술 성능, 투자 흐름, 연구 출판, 일자리 변화, 대중 인식을 한 곳에서 다루는 보고서는 거의 없습니다. 올해로 아홉 번째를 맞은 2026년판은 4월 13일 공개되었습니다. 2026년 리포트는 성능 지표와 사회적 지표가 반대 방향으로 움직이는 한 해를 기록합니다. 2026년 리포트가 던지는 핵심 메시지는 세 방향으로 정리됩니다. 첫째, 성능의 폭발입니다. 지난 1년 사이 AI 에이전트가 소프트웨어 엔지니어링, 사이버보안, 수학 올림피아드 문제를 다루는 성공률이 10퍼센트대에서 90퍼센트대로 뛰었습니다. 벤치마크가 포화되는 속도가 너무 빠르다 보니 측정 도구 자체가 따라가지 못하는 상황이 되었습니다. 둘째, 미중 격차 소멸입니다. 2025년 2월 DeepSeek-R1이 미국 최상위 모델과 일시적으로 동률을 이뤘고, 2026년 3월 기준 Anthropic의 최상위 모델이 앞서는 폭은 단 2.7%입니다. 셋째, 투명성과 신뢰의 붕괴입니다. Foundation Model Transparency Index 평균 점수가 58점에서 40점으로 떨어졌고, 미국에서 AI 규제를 신뢰한다는 응답은 31%로 조사 대상국 중 최하를 기록했습니다. ...

2026년 4월 18일 · 9 분 · Jesam Kim

팔란티어 온톨로지에서 GraphRAG까지: 엔터프라이즈 지식 그래프와 LLM의 결합

1. 왜 엔터프라이즈 지식 그래프인가 — Palantir Ontology가 보여준 것 최근 RAG(Retrieval-Augmented Generation) 파이프라인이 사실상 표준으로 자리 잡으면서, 많은 팀이 “벡터 검색만으로 충분한가?“라는 질문에 부딪히고 있습니다. 이 질문에 가장 설득력 있는 답을 내놓은 사례가 바로 Palantir의 Ontology입니다. Palantir Ontology 핵심 요소 Palantir Foundry 플랫폼은 엔터프라이즈 데이터를 세 가지 축으로 구조화합니다. Object Type: 도메인의 핵심 엔티티를 정의합니다. 고객, 장비, 계약 등 비즈니스가 관심을 두는 대상 그 자체입니다. Link (Relationship): 객체 간 관계를 명시적으로 연결합니다. 고객 → 보유 → 장비, 계약 → 포함 → 서비스 항목처럼 멀티홉 탐색이 가능한 그래프 구조를 만듭니다. Action: 온톨로지 위에서 실행 가능한 비즈니스 로직을 정의합니다. 단순 조회가 아니라 “이 장비의 유지보수 일정을 재배치하라” 같은 의사결정과 실행까지 이어집니다. ...

2026년 2월 15일 · 6 분 · Jesam Kim

건설 도메인에서의 강화학습 활용: 빌딩 HVAC 에너지 최적화를 중심으로 — 5편 논문 리뷰

1. 왜 HVAC 제어에 강화학습인가 — RL 기초와 HVAC 문제의 궁합 건물 에너지 소비에서 HVAC(Heating, Ventilation, and Air Conditioning) 시스템이 차지하는 비중은 상당합니다. 그렇다면 이 시스템을 어떻게 하면 더 똑똑하게 제어할 수 있을까요? 이번 포스트에서는 강화학습(Reinforcement Learning, RL)이 HVAC 최적화에 왜 주목받고 있는지, 핵심 논문 다섯 편을 중심으로 살펴보겠습니다. RL 핵심 개념을 HVAC에 매핑하기 RL은 마르코프 결정 과정(MDP)으로 정의됩니다. HVAC 제어에 매핑하면 다음과 같습니다. MDP 구성요소 HVAC 제어에서의 의미 상태(State) 실내 온도, 습도, 재실자 수, 외기 온도·일사량, 현재 시각 등 행동(Action) 냉난방 설정 온도, 팬 속도, 밸브 개도율 조절 보상(Reward) 에너지 절감량 ↑, 쾌적 범위 이탈 패널티 ↓ 의 가중합 전이(Transition) 현재 제어 입력 후 건물 열역학에 의해 변화하는 다음 상태 에이전트(Agent)는 이 MDP 위에서 정책(Policy), 즉 “이 상태에서 어떤 행동을 선택할지"의 전략을 학습합니다. 가치함수(Value Function)를 통해 장기적 누적 보상을 추정하는 구조입니다. 간단한 보상함수 예시를 코드로 표현하면 아래와 같습니다. ...

2026년 2월 13일 · 7 분 · Jesam Kim
Some illustrations are generated using Amazon Bedrock image generation models (Nova 2 Omni, SD3.5 Large, Nova Canvas).