World Model

금융 시계열을 AI로 재현? — World Model의 첫 걸음

World Model이라는 단어가 자꾸 눈에 밟혔습니다. 2018년 Ha와 Schmidhuber가 제안한 V-M-C(Vision-Memory-Controller) 구조가 요즘 다시 회자되는데, 로보틱스나 게임 환경이 아니라 금융 시계열에 붙여보면 어떤 그림이 될지 궁금했습니다. V-M-C에서 M(Memory) 모듈은 “세상이 다음에 어떻게 움직일지"의 분포를 그려내는 시뮬레이터입니다. 금융 도메인에 옮겨놓으면 “내일 수익률이 어떤 모양으로 분포할까"를 학습으로 재현하는 역할이 됩니다. 이게 되면 그 위에 C(Controller)를 얹어 Sim-to-Real RL 트레이딩까지 이어질 수 있습니다. 이번 실험은 그 전 단계에 해당합니다. M 모듈을 Diffusion과 GAN 계열로 만들었을 때 베이스라인(Gaussian, Bootstrap, GARCH) 대비 얼마나 잘 재현하는지를 보려고 했습니다. ...

Physical AI 완전 정복: VLM에서 VLA, World Model까지

🎧 이 글을 팟캐스트로 듣기 브라우저가 오디오 재생을 지원하지 않습니다. 1. 왜 지금 Physical AI인가 ChatGPT가 세상에 나온 지 3년이 조금 넘었습니다. 그 사이 LLM은 코딩, 번역, 요약 등 텍스트 기반 작업에서 인간 수준의 성능을 보여주었습니다. 하지만 한 가지 분명한 한계가 있습니다. LLM은 말하는 AI이지, 행동하는 AI가 아닙니다. ...

AWS로 구현하는 Physical AI: 제조 현장의 VLM, 디지털 트윈, 로봇 조립

비전 언어 모델(VLM)은 이미지와 텍스트를 동시에 이해하는 AI 모델입니다. 하지만 제조 현장에서 실제 가치를 만들려면 이미지를 해석하는 것만으로는 부족합니다. 물리 법칙을 예측하고 로봇을 직접 제어해야 합니다. 이 글에서는 VLM이 World Model과 VLA(Vision-Language-Action)로 확장되며 제조 산업을 바꾸는 과정과, AWS 기반 구현 방법을 다룹니다. 1. VLM의 진화: 텍스트를 넘어 시각 세계로 비전 언어 모델(VLM)은 이미지와 텍스트를 함께 처리하는 멀티모달 AI입니다. GPT-4o, Gemini 2.5 Pro, Claude Sonnet 4.6 Vision 같은 최신 VLM은 이미지 분류를 넘어 장면을 이해하고 질문에 답합니다. 추론도 수행합니다. ...