๐ Reinforcement Learning & ANN 7
- ๊ฐํํ์ต ํ ์ฅ ์์ฝ: MDP, Policy, Value/Q, OnยทOff-policy, ๊ทธ๋ฆฌ๊ณ ์๊ณ ๋ฆฌ์ฆ ๊ณ๋ณด
- Q-Learning์ ํต์ฌ ์ง๊ด: Bellman, TD Error, Living Penalty, ํํโํ์ฉ, ๊ทธ๋ฆฌ๊ณ VโQ ์ ํ
- DQN ์ค์ ํ ํ๋ฆฟ: Q-Network, Target Network, Replay Buffer, ฮต-greedy, Soft Update
- DCQN: CNN์ผ๋ก โ๋ณด๋โ ๊ฐํํ์ต ๋ง๋ค๊ธฐ (Atariยทํฉ๋งจ ๊ณ์ด)
- A3C์ ํต์ฌ: ActorโCritic, Advantage, ๋น๋๊ธฐ ํ์ต, ๋ฉํฐ ํ๊ฒฝ, (์ ํ) LSTM
- ์ ์ค๋ฌด๋ PPO / SAC์ธ๊ฐ: ์์ ์ฑ, ์ฐ์ ์ ์ด, ์ํธ๋กํผ, ๊ทธ๋ฆฌ๊ณ ํ๋ ํ์ค
- LLM ๊ตฌํ ํต์ฌ๋ง ์ ๋ฆฌ: ํธ๋์คํฌ๋จธ โ SFT/LoRA/QLoRA โ ์๋ฃ ์ฑ๋ด โ RAG โ Agentic AI