기술 블로그

HOME
CATEGORIES
TAGS
ARCHIVES
ABOUT

Home Categories 🔁 Reinforcement Learning & ANN

Category

🔁 Reinforcement Learning & ANN 7

강화학습 한 장 요약: MDP, Policy, Value/Q, On·Off-policy, 그리고 알고리즘 계보 Dec 15, 2025
Q-Learning의 핵심 직관: Bellman, TD Error, Living Penalty, 탐험–활용, 그리고 V→Q 전환 Dec 15, 2025
DQN 실전 템플릿: Q-Network, Target Network, Replay Buffer, ε-greedy, Soft Update Dec 15, 2025
DCQN: CNN으로 ‘보는’ 강화학습 만들기 (Atari·팩맨 계열) Dec 15, 2025
A3C의 핵심: Actor–Critic, Advantage, 비동기 학습, 멀티 환경, (선택) LSTM Dec 15, 2025
왜 실무는 PPO / SAC인가: 안정성, 연속 제어, 엔트로피, 그리고 튜닝 현실 Dec 15, 2025
LLM 구현 핵심만 정리: 트랜스포머 → SFT/LoRA/QLoRA → 의료 챗봇 → RAG → Agentic AI Dec 15, 2025

Recently Updated

VirtualService & DestinationRule — 트래픽 관리의 최소 단위
메시지 큐·빅데이터·클라우드: 비동기/배치 사고의 설계 언어
인터뷰 전략: 말하는 순서가 점수다
6대 모의 인터뷰 완전 분석: 문제 → 설계 → 평가
캐싱·CDN·성능 설계: "빠르게 보이게" 만드는 법

Trending Tags

ReactNative CNN NextJS JavaScript Architecture Istio ReinforcementLearning Consistency Deployment Performance

© 2026 okorion. Some rights reserved.

Using the Chirpy theme for Jekyll.

Trending Tags

ReactNative CNN NextJS JavaScript Architecture Istio ReinforcementLearning Consistency Deployment Performance

A new version of content is available.