논문 리뷰

Hybrid Thinking은 왜 갈라섰나 — Reasoning에서 Agentic Thinking으로

2026년 상반기 AI reasoning 담론에는 한 가지 방향 전환이 있었습니다. o1과 DeepSeek-R1이 연 “긴 사고 사슬(long chain-of-thought)“의 시대에서, 사고 자체를 행동의 도구로 재정의하는 흐름으로의 이동입니다. 이 전환을 비교적 명료하게 정리한 사람이 Alibaba Qwen 프로젝트의 前 테크리드 Junyang Lin입니다. 그는 2026년 3월 3일 Qwen 테크리드에서 사임했고, 현재는 독립연구자로서 “training models에서 training agents로"라는 명제를 이야기하고 있습니다. Lin의 자리 이동 자체가 담론의 방향을 보여주는 신호이기도 합니다. 프론티어 모델 하나를 여러 해 이끌던 사람이 조직을 떠나 에이전트 학습을 이야기한다는 것은, 모델 가중치를 키우는 경쟁의 한 사이클이 일단락됐다는 인식과 무관하지 않습니다. 당시 보도도 이 사임을 큰 AI 드라이브가 지나간 뒤의 매듭으로 읽었습니다. ...

AI가 생각하는 과정을 읽는다는 것 — reasoning trace 논문 4편

1. reasoning trace를 ‘읽는다’는 말은 하나가 아닙니다 최근 reasoning model에서는 긴 reasoning trace가 예전보다 자주 노출됩니다. DeepSeek-R1이 <think> 블록 안에 사고 과정처럼 보이는 중간 추론을 드러낸 이후, 수천 토큰짜리 추론을 사용자에게 보여주는 구성이 흔해졌습니다. 그러면서 “trace를 읽고 해석한다"는 말이 자연스럽게 따라붙었습니다. 그런데 이 말은 생각보다 여러 뜻을 담고 있습니다. 사람이 trace를 읽고 이해할 수 있다는 뜻인지(가독성), trace를 어떤 인지적 단위로 쪼개고 분류할 수 있다는 뜻인지(구조화), 아니면 trace라는 산출물 밖에서 모델 내부 신호를 읽어낸다는 뜻인지(내부 진단)에 따라 이야기가 달라집니다. 같은 “해석가능성"이라는 단어가 문맥마다 다른 것을 가리킵니다. ...

RLVR과 Agentic RL: LLM 에이전트를 다시 점령한 강화학습

1. Introduction: 왜 지금 RL이 다시 뜨는가 2022년 ChatGPT 공개 이후 LLM 포스트 트레이닝의 중심은 RLHF(Reinforcement Learning from Human Feedback)였습니다. 그런데 RLHF는 까다로운 작업이었습니다. reward model을 따로 학습해야 했고, PPO 같은 RL 알고리즘은 하이퍼파라미터에 민감했으며, 분산 학습 인프라까지 필요했습니다. 2023~2024년에 DPO(Direct Preference Optimization)가 빠르게 확산된 것도 이런 이유였습니다. RL을 우회해서 선호 학습을 reward model 없이 직접 풀자는 접근이 매력적이었던 거죠. 흐름이 바뀐 시점은 2025년 1월입니다. DeepSeek-AI가 DeepSeek-R1을 공개하면서, “복잡한 RLHF 없이도, 규칙 기반 verifiable reward만으로 LLM의 추론 능력을 학습시킬 수 있다"는 것을 실증해버렸습니다. R1-Zero는 SFT(Supervised Fine-Tuning)도 거치지 않고 베이스 모델에 곧바로 RL만 적용했는데, AIME 같은 수학 벤치마크에서 reasoning 능력이 저절로 나타났습니다. 이 논문은 2025년 9월에 Nature에도 게재되며 학계에서 자주 인용됐습니다. ...

Stanford AI Index 2026 심층 해부: 숫자로 읽는 2026년 AI 지형

Stanford HAI가 2017년부터 매년 발간하는 AI Index Report는 AI 분야의 현황을 수치로 고정시키는 몇 안 되는 기준점입니다. 기술 성능, 투자 흐름, 연구 출판, 일자리 변화, 대중 인식을 한 곳에서 다루는 보고서는 거의 없습니다. 올해로 아홉 번째를 맞은 2026년판은 4월 13일 공개되었습니다. 2026년 리포트는 성능 지표와 사회적 지표가 반대 방향으로 움직이는 한 해를 기록합니다. 2026년 리포트가 던지는 핵심 메시지는 세 방향으로 정리됩니다. 첫째, 성능의 폭발입니다. 지난 1년 사이 AI 에이전트가 소프트웨어 엔지니어링, 사이버보안, 수학 올림피아드 문제를 다루는 성공률이 10퍼센트대에서 90퍼센트대로 뛰었습니다. 벤치마크가 포화되는 속도가 너무 빠르다 보니 측정 도구 자체가 따라가지 못하는 상황이 되었습니다. 둘째, 미중 격차 소멸입니다. 2025년 2월 DeepSeek-R1이 미국 최상위 모델과 일시적으로 동률을 이뤘고, 2026년 3월 기준 Anthropic의 최상위 모델이 앞서는 폭은 단 2.7%입니다. 셋째, 투명성과 신뢰의 붕괴입니다. Foundation Model Transparency Index 평균 점수가 58점에서 40점으로 떨어졌고, 미국에서 AI 규제를 신뢰한다는 응답은 31%로 조사 대상국 중 최하를 기록했습니다. ...

팔란티어 온톨로지에서 GraphRAG까지: 엔터프라이즈 지식 그래프와 LLM의 결합

1. 왜 엔터프라이즈 지식 그래프인가 — Palantir Ontology가 보여준 것 최근 RAG(Retrieval-Augmented Generation) 파이프라인이 사실상 표준으로 자리 잡으면서, 많은 팀이 “벡터 검색만으로 충분한가?“라는 질문에 부딪히고 있습니다. 이 질문에 가장 설득력 있는 답을 내놓은 사례가 바로 Palantir의 Ontology입니다. Palantir Ontology 핵심 요소 Palantir Foundry 플랫폼은 엔터프라이즈 데이터를 세 가지 축으로 구조화합니다. Object Type: 도메인의 핵심 엔티티를 정의합니다. 고객, 장비, 계약 등 비즈니스가 관심을 두는 대상 그 자체입니다. Link (Relationship): 객체 간 관계를 명시적으로 연결합니다. 고객 → 보유 → 장비, 계약 → 포함 → 서비스 항목처럼 멀티홉 탐색이 가능한 그래프 구조를 만듭니다. Action: 온톨로지 위에서 실행 가능한 비즈니스 로직을 정의합니다. 단순 조회가 아니라 “이 장비의 유지보수 일정을 재배치하라” 같은 의사결정과 실행까지 이어집니다. ...

건설 도메인에서의 강화학습 활용: 빌딩 HVAC 에너지 최적화를 중심으로 — 5편 논문 리뷰

1. 왜 HVAC 제어에 강화학습인가 — RL 기초와 HVAC 문제의 궁합 건물 에너지 소비에서 HVAC(Heating, Ventilation, and Air Conditioning) 시스템이 차지하는 비중은 상당합니다. 그렇다면 이 시스템을 어떻게 하면 더 똑똑하게 제어할 수 있을까요? 이번 포스트에서는 강화학습(Reinforcement Learning, RL)이 HVAC 최적화에 왜 주목받고 있는지, 핵심 논문 다섯 편을 중심으로 살펴보겠습니다. RL 핵심 개념을 HVAC에 매핑하기 RL은 마르코프 결정 과정(MDP)으로 정의됩니다. HVAC 제어에 매핑하면 다음과 같습니다. MDP 구성요소 HVAC 제어에서의 의미 상태(State) 실내 온도, 습도, 재실자 수, 외기 온도·일사량, 현재 시각 등 행동(Action) 냉난방 설정 온도, 팬 속도, 밸브 개도율 조절 보상(Reward) 에너지 절감량 ↑, 쾌적 범위 이탈 패널티 ↓ 의 가중합 전이(Transition) 현재 제어 입력 후 건물 열역학에 의해 변화하는 다음 상태 에이전트(Agent)는 이 MDP 위에서 정책(Policy), 즉 “이 상태에서 어떤 행동을 선택할지"의 전략을 학습합니다. 가치함수(Value Function)를 통해 장기적 누적 보상을 추정하는 구조입니다. 간단한 보상함수 예시를 코드로 표현하면 아래와 같습니다. ...