건설 도메인에서의 강화학습 활용: 빌딩 HVAC 에너지 최적화를 중심으로 — 5편 논문 리뷰
1. 왜 HVAC 제어에 강화학습인가 — RL 기초와 HVAC 문제의 궁합 건물 에너지 소비에서 HVAC(Heating, Ventilation, and Air Conditioning) 시스템이 차지하는 비중은 상당합니다. 그렇다면 이 시스템을 어떻게 하면 더 똑똑하게 제어할 수 있을까요? 이번 포스트에서는 강화학습(Reinforcement Learning, RL)이 HVAC 최적화에 왜 주목받고 있는지, 핵심 논문 다섯 편을 중심으로 살펴보겠습니다. RL 핵심 개념을 HVAC에 매핑하기 RL은 마르코프 결정 과정(MDP)으로 정의됩니다. HVAC 제어에 매핑하면 다음과 같습니다. MDP 구성요소 HVAC 제어에서의 의미 상태(State) 실내 온도, 습도, 재실자 수, 외기 온도·일사량, 현재 시각 등 행동(Action) 냉난방 설정 온도, 팬 속도, 밸브 개도율 조절 보상(Reward) 에너지 절감량 ↑, 쾌적 범위 이탈 패널티 ↓ 의 가중합 전이(Transition) 현재 제어 입력 후 건물 열역학에 의해 변화하는 다음 상태 에이전트(Agent)는 이 MDP 위에서 정책(Policy), 즉 “이 상태에서 어떤 행동을 선택할지"의 전략을 학습합니다. 가치함수(Value Function)를 통해 장기적 누적 보상을 추정하는 구조입니다. 간단한 보상함수 예시를 코드로 표현하면 아래와 같습니다. ...