VLM에서 Physical AI까지 — 비전 언어 모델이 물리 세계를 이해하고 제조 현장을 바꾸는 방법

비전 언어 모델(VLM)은 이미지와 텍스트를 동시에 이해하는 AI 모델입니다. 하지만 제조 현장에서 실제 가치를 만들려면 이미지를 해석하는 것만으로는 부족합니다. 물리 법칙을 예측하고 로봇을 직접 제어해야 합니다. 이 글에서는 VLM이 World Model과 VLA(Vision-Language-Action)로 확장되며 제조 산업을 바꾸는 과정과, AWS 기반 구현 방법을 다룹니다. 1. VLM의 진화: 텍스트를 넘어 시각 세계로 비전 언어 모델(VLM)은 이미지와 텍스트를 함께 처리하는 멀티모달 AI입니다. GPT-4o, Gemini 2.5 Pro, Claude Sonnet 4.6 Vision 같은 최신 VLM은 이미지 분류를 넘어 장면을 이해하고 질문에 답합니다. 추론도 수행합니다. ...

2026년 3월 5일 · 7 분 · Jesam Kim

IoT × Generative AI: 시계열 Foundation Model과 AWS IoT+Bedrock 통합 설비 예방정비 아키텍처

1. 설비 예방정비(Predictive Maintenance)의 핵심 과제 제조·플랜트·테마파크 할 것 없이, 설비가 멈추는 순간 비용은 기하급수적으로 늘어납니다. 예방정비(Predictive Maintenance, PM)는 이 다운타임을 줄이기 위한 핵심 전략이며, 기술적으로는 크게 두 가지 축으로 나뉩니다. PM의 두 축: 이상탐지와 잔여수명 예측 과제 핵심 질문 비즈니스 임팩트 시계열 이상탐지 (Anomaly Detection) “지금 설비가 정상인가?” 돌발 고장 방지, 즉각 대응 잔여수명 예측 (Remaining Useful Life, RUL) “이 부품이 언제 교체 시점에 도달하는가?” 정비 일정 최적화, 부품 재고 관리 이상탐지는 실시간성이 생명이고, RUL 예측은 장기 트렌드를 읽어야 하므로 모델 설계 철학 자체가 다릅니다. 개인적으로 현장에서 느끼는 건, 이상탐지는 비교적 빠르게 도입할 수 있지만 RUL은 충분한 고장 이력 데이터가 확보되지 않으면 정확도를 담보하기 어렵다는 점입니다. ...

2026년 2월 16일 · 8 분 · Jesam Kim

AWS와 Physical AI: Amazon이 로봇과 물리 세계를 정복하는 법 — RoboMaker부터 100만 로봇 배치까지

Physical AI란 무엇인가 — 소프트웨어 AI에서 물리 세계로의 확장 ChatGPT가 텍스트를 생성하고, Midjourney가 이미지를 만들어도 AI는 여전히 스크린 안에 갇혀 있었습니다. Physical AI(Embodied AI)는 이 경계를 허뭅니다. AI가 물리 환경을 인식(Perceive)하고, 판단(Reason)하고, 실제로 조작(Manipulate)하는 기술 패러다임입니다. 소프트웨어 AI vs Physical AI 핵심 차이는 피드백 루프(Feedback Loop)에 있습니다. 소프트웨어 AI는 틀려도 텍스트를 다시 생성하면 그만입니다. 반면 Physical AI가 로봇 팔의 각도를 1도만 잘못 계산하면 물건이 깨지고, 사람이 다칩니다. 현실은 Undo가 없습니다. ...

2026년 2월 1일 · 10 분 · Jesam Kim