ReinforcementLearning 6
- 왜 실무는 PPO / SAC인가: 안정성, 연속 제어, 엔트로피, 그리고 튜닝 현실
- A3C의 핵심: Actor–Critic, Advantage, 비동기 학습, 멀티 환경, (선택) LSTM
- DCQN: CNN으로 ‘보는’ 강화학습 만들기 (Atari·팩맨 계열)
- DQN 실전 템플릿: Q-Network, Target Network, Replay Buffer, ε-greedy, Soft Update
- Q-Learning의 핵심 직관: Bellman, TD Error, Living Penalty, 탐험–활용, 그리고 V→Q 전환
- 강화학습 한 장 요약: MDP, Policy, Value/Q, On·Off-policy, 그리고 알고리즘 계보