강화학습 한 장 요약: MDP, Policy, Value/Q, On·Off-policy, 그리고 알고리즘 계보
MDP·Policy·Value/Q·On/Off-policy 핵심과 알고리즘 계보를 한 장으로 정리한 RL 개요
Posted
By okorion
강화학습 한 장 요약: MDP, Policy, Value/Q, On·Off-policy, 그리고 알고리즘 계보
이 글의 목적
핵심 요약
- 강화학습(RL)을 구성하는 최소 단위 개념을 한 장으로 정리한다.
- 알고리즘 암기보다 왜 이런 구조가 필요한지에 초점을 둔다.
- 이후 DQN, A3C, PPO/SAC를 볼 때 기준 좌표계로 재사용 가능하게 만든다.
- 실무에서 “문제에 맞는 알고리즘 선택”이 가능해지는 것이 목표다.
예시
- 게임 환경을 봤을 때: 상태/행동/보상을 즉시 정의
- 로보틱스 문제에서: 연속 행동 여부로 PPO/SAC 판단
- 추천 문제에서: Off-policy 필요성 즉시 판단
1. MDP: 강화학습 문제를 정의하는 최소 단위
정의
- 강화학습 문제는 MDP(Markov Decision Process) 로 표현된다.
- MDP는 환경과 에이전트의 상호작용을 수학적으로 고정하는 틀이다.
핵심 요약
- MDP는 “학습 알고리즘”이 아니라 문제 정의 방식이다.
- MDP가 명확하지 않으면 어떤 알고리즘을 써도 실패한다.
- 실무에서 RL 실패의 70%는 MDP 정의 오류다.
MDP 구성 요소와 실전 의미
| 요소 | 의미 | 실전에서의 해석 |
|---|---|---|
| S (State) | 상태 | 관측값 벡터, 이미지, 센서 값 |
| A (Action) | 행동 | 버튼 입력, 토크 값, 추천 아이템 |
| P (Transition) | 전이 확률 | 환경의 동역학(보통 모름) |
| R (Reward) | 보상 | KPI, 점수, 성공/실패 신호 |
| γ (Discount) | 할인율 | 미래 보상의 중요도 |
예시
자율주행
- S: 카메라 이미지 + 속도
- A: 조향각, 가속
- R: 차선 유지, 충돌 패널티
게임
- S: 화면 프레임
- A: 조작 입력
- R: 점수 변화
2. Policy, V(s), Q(s,a): 역할과 관계
정의
- Policy(π): 상태에서 어떤 행동을 할지 정하는 규칙
- V(s): 해당 상태가 얼마나 좋은지
- Q(s,a): 특정 상태에서 특정 행동이 얼마나 좋은지
핵심 요약
- Policy는 “행동 규칙”, Value는 “평가 함수”다.
- Q는 행동 선택까지 포함한 평가라서 실제 제어에 직접 쓰인다.
- 강화학습의 대부분 알고리즘은 이 셋 중 하나를 직접/간접적으로 학습한다.
텍스트 다이어그램으로 보는 관계
1
2
3
4
5
6
State (s)
├─ V(s): 이 상태 자체는 얼마나 좋은가?
└─ Q(s,a): 이 상태에서 이 행동을 하면 얼마나 좋은가?
Policy π(a|s)
└─ Q(s,a) 또는 V(s)를 참고해 행동을 선택
직관
- V(s)만 있으면 “어디가 좋은지”는 알지만 무엇을 할지는 모른다.
- Q(s,a)가 있어야 행동 간 비교가 가능하다.
3. 왜 V에서 Q로 넘어갔는가?
핵심 요약
- 초기 강화학습은 V(s) 중심이었지만, 행동 선택 문제가 남았다.
- Q(s,a)는 평가와 선택을 동시에 해결한다.
- 이 전환이 Q-learning → DQN으로 이어진다.
왜 필요했나
- 실제 문제는 항상 “다음에 뭘 할지”를 요구한다.
- V(s)만으로는 정책을 명확히 정의하기 어렵다.
예시
- 체스에서 “현재 판이 좋다”는 것만 알면 부족 → 어떤 수를 둬야 하는지가 핵심
4. 강화학습 알고리즘 계보 (한 눈에)
핵심 요약
- 알고리즘은 무작위로 늘어난 게 아니라 문제 해결 과정의 결과다.
핵심 분기점은 두 가지:
- 무엇을 직접 학습하는가? (Value vs Policy)
- 데이터를 어떻게 쓰는가? (On vs Off)
계보 흐름
1
2
3
4
5
6
7
8
Value-based
Q-learning → DQN
Policy-based
Policy Gradient
Actor-Critic
Actor-Critic → A3C → PPO / SAC
5. Value / Policy / Actor-Critic 비교
비교표 ①: 학습 대상 기준
| 구분 | 직접 학습 | 장점 | 단점 |
|---|---|---|---|
| Value-based | V(s), Q(s,a) | 안정적, 이해 쉬움 | 연속 행동 어려움 |
| Policy-based | π(a | s) | 직접 제어 가능 | 분산 큼 |
| Actor-Critic | π + V/Q | 안정성과 유연성 | 구조 복잡 |
구현 포인트
- Value-based: Q-table / Q-network
- Policy-based: log-prob 기반 업데이트
- Actor-Critic: 두 네트워크 동시 관리
6. On-policy vs Off-policy
정의
- On-policy: 현재 정책으로 모은 데이터만 사용
- Off-policy: 과거/다른 정책의 데이터도 사용
비교표 ②: 데이터 사용 기준
| 구분 | 대표 알고리즘 | 특징 | 실전 의미 |
|---|---|---|---|
| On-policy | PPO | 안정적 | 데이터 낭비 |
| Off-policy | DQN, SAC | 샘플 효율 높음 | 불안정 가능 |
직관
- On-policy: “지금의 나”로만 학습
- Off-policy: “과거의 나 기록”도 재사용
7. 실전 문제 유형별 알고리즘 매핑
핵심 요약
- 알고리즘 선택은 취향이 아니라 문제 구조의 결과다.
| 문제 유형 | 특징 | 적합 알고리즘 |
|---|---|---|
| 게임(이산 행동) | 상태 큼, 행동 적음 | DQN / DCQN |
| 로보틱스 | 연속 행동 | PPO / SAC |
| 추천/의사결정 | 로그 데이터 | Off-policy 계열 |
성공 기준
- 게임: 평균 reward 상승
- 로보틱스: 안정적 제어
- 추천: 장기 KPI 개선
8. 용어 정리 (필수)
| 용어 | 의미 |
|---|---|
| Episode | 시작~종료까지 한 시도 |
| Step | 한 번의 상태 전이 |
| Return | 누적 보상 |
| Terminal | 종료 상태 |
| Advantage | 행동의 상대적 이점 |
| Entropy | 정책의 불확실성 |
흔히 하는 오해 3가지와 교정
오해 1: “MDP는 이론용이다” → 교정: 실무 RL 문제 정의의 90%가 MDP 설계다.
오해 2: “DQN은 구식이다” → 교정: 개념적 기준점으로 여전히 필수다.
오해 3: “PPO/SAC는 그냥 더 좋은 알고리즘이다” → 교정: 문제 조건이 맞을 때만 강력하다.
핵심 체크리스트 (재학습용)
- 상태/행동/보상을 즉시 정의할 수 있는가
- V와 Q의 차이를 말로 설명할 수 있는가
- Q에서 Policy로 넘어간 이유를 이해했는가
- On/Off-policy 차이를 데이터 관점에서 설명 가능한가
- Actor와 Critic 역할을 구분하는가
- 문제 유형에 맞는 알고리즘을 고를 수 있는가
- 실패 원인을 알고리즘이 아닌 MDP에서 먼저 찾는가
한 줄 요약
강화학습은 알고리즘 공부가 아니라, MDP를 정확히 정의하고 그에 맞는 학습 대상을 고르는 문제다.
This post is licensed under CC BY 4.0 by the author.
