강화 학습의 Plan과 Policy에 대한 이해
강화학습은 에이전트가 환경과 상호작용하며 보상을 최대화하는 방향으로 학습하는 방법이다.
이때 Plan과 Policy는 에이전트의 학습과 행동 결정에 중요한 역할을 한다.
Plan (계획)
계획 Plan은 에이전트가 목표를 달성하기 위해 미래를 예측하고 행동 순서를 계획하는 과정, 즉 미래의 행동을 미리 설계하는 과정을 의미한다.
일반적으로 환경의 모델(전이 확률과 보상 정보 등)을 알고 있을 때, 최적의 행동 경로를 계획하는 과정에서 사용된다.
모델 기반 강화학습에 주로 사용되며, 모델 기반 강화학습은 환경 모델을 이용하여 Plan을 수립하고, 이를 바탕으로 Policy를 학습하는 방법이다.
Policy (정책)
정책 Policy는 에이전트가 특정 상태에서 어떤 행동을 선택해야 할지 결정하는 규칙 또는 함수이다.
강화학습에서는 정책을 학습하는 것이 주된 목표이며, 이를 통해 에이전트가 최적의 활동을 수행할 수 있도록 한다.
Plan과 Policy의 관계
- Plan은 미래를 예측하고 행동 순서를 계획하는 반면, Policy는 현재 상태에서 어떤 행동을 선택할지 결정한다.
- Plan은 Policy 학습에 도움을 줄 수 있다. 예를 들어, 모델 기반 강화 학습에서는 Plan을 통해 얻은 정보를 바탕으로 Policy를 학습할 수 있다.
- Policy는 Plan 실행에 사용될 수 있다. 예를 들어, 로봇 청소기는 Plan에 따라 계획된 경로를 따라 이동하며 청소 작업을 수행한다.
Plan과 Policy의 차이
개념 | Plan (계획) | Policy (정책) |
정의 | 미래의 행동을 미리 설계하는 과정 | 주어진 상태에서 어떤 행동을 선택할지 결정하는 규칙 |
사용 방식 | 환경 모델을 기반으로 최적 경로를 계산 | 환경과 상호작용하며 최적의 행동을 학습 |
적용 방법 | 동적 프로그래밍, 트리 탐색 등 | 강화학습 알고리즘 (예: Q-learning, PPO 등) |
학습 여부 | 사전 계산 (학습 X) | 데이터와 경험을 바탕으로 학습 (학습 O) |
결론
- Plan은 환경 모델을 활용하여 최적의 경로를 찾는 과정이며, 사전 계산 방식이다.
- Policy는 강화학습에서 에이전트가 행동을 결정하는 전략으로, 학습을 통해 개선된다.
- Plan을 기반으로 Policy를 만들 수도 있으며, Policy를 학습하면서 Plan을 수정할 수도 있다.
'AI > RL' 카테고리의 다른 글
시간적 차이 Temporal Difference (0) | 2025.02.18 |
---|---|
상태가치함수와 행동가치함수(Q함수) (0) | 2025.02.18 |
[RL] Living Penalty (1) | 2025.02.18 |
마르코프 의사결정 과정(MDP) (0) | 2025.02.17 |
벨만 방정식 (0) | 2025.02.17 |