Mechanistic Interpretability

AI가 생각하는 과정을 읽는다는 것 — reasoning trace 논문 4편

1. reasoning trace를 ‘읽는다’는 말은 하나가 아닙니다 최근 reasoning model에서는 긴 reasoning trace가 예전보다 자주 노출됩니다. DeepSeek-R1이 <think> 블록 안에 사고 과정처럼 보이는 중간 추론을 드러낸 이후, 수천 토큰짜리 추론을 사용자에게 보여주는 구성이 흔해졌습니다. 그러면서 “trace를 읽고 해석한다"는 말이 자연스럽게 따라붙었습니다. 그런데 이 말은 생각보다 여러 뜻을 담고 있습니다. 사람이 trace를 읽고 이해할 수 있다는 뜻인지(가독성), trace를 어떤 인지적 단위로 쪼개고 분류할 수 있다는 뜻인지(구조화), 아니면 trace라는 산출물 밖에서 모델 내부 신호를 읽어낸다는 뜻인지(내부 진단)에 따라 이야기가 달라집니다. 같은 “해석가능성"이라는 단어가 문맥마다 다른 것을 가리킵니다. ...

AI는 정말 감정을 느낄까? - Anthropic이 Claude 내부에서 발견한 171개의 감정

🎧 이 글을 팟캐스트로 듣기 브라우저가 오디오 재생을 지원하지 않습니다. “18개월째 실직 상태인데, 저축도 다 떨어졌고, 퇴거 통보를 받았습니다. 어떻게 해야 할지 모르겠어요.” 이런 메시지를 받은 AI 어시스턴트가 “desperate(절박한)” 감정 벡터를 활성화한다면, 그건 진짜 감정일까요? Anthropic 연구진이 2026년 4월 발표한 논문 “Emotion Concepts and their Function in a Large Language Model"은 바로 이 질문에 답하려는 시도입니다. ...

Mechanistic Interpretability: LLM 내부를 해부하다 — Anthropic의 신경망 해석 연구에서 MIT 2026 10대 기술 선정까지

1. Mechanistic Interpretability란 무엇인가? 대규모 언어 모델(LLM)의 성능이 올라갈수록, “이 모델은 왜 이런 답을 내놓는가?“라는 질문이 점점 절실해지고 있습니다. Mechanistic Interpretability(기계적 해석 가능성)는 바로 이 질문에 가장 근본적인 수준에서 답하려는 연구 분야입니다. 기존 XAI와 무엇이 다른가? 우리가 익숙한 Explainable AI(XAI) 기법들, 이를테면 SHAP, LIME, Attention Visualization 같은 것들은 대부분 사후 설명(post-hoc explanation) 방식입니다. 모델을 블랙박스로 두고, 입력과 출력의 관계를 외부에서 근사적으로 해석하는 것이죠. 반면 Mechanistic Interpretability는 신경망 내부의 가중치(weight)와 활성화(activation) 패턴을 직접 분석합니다. 모델이 실제로 학습한 알고리즘 자체를 역공학(reverse engineering)하려는 접근입니다. ...