Post

LLM 구현 핵심만 정리: 트랜스포머 → SFT/LoRA/QLoRA → 의료 챗봇 → RAG → Agentic AI

트랜스포머부터 SFT·LoRA/QLoRA·RAG·Agentic AI까지 제품화 중심 LLM 구조를 한눈에 정리

LLM 구현 핵심만 정리: 트랜스포머 → SFT/LoRA/QLoRA → 의료 챗봇 → RAG → Agentic AI

이 글의 목적

핵심 요약

  • 이 파트의 목표는 “거대한 LLM 이론”이 아니라 작동하는 제품 구조다.
  • 트랜스포머는 다음 토큰 예측기, 나머지는 운영을 가능하게 하는 기술이다.
  • 미세조정(SFT)·RAG·RL은 서로 대체가 아니라 역할 분담이다.
  • 최종 그림은 LLM 단독이 아닌 Agent 시스템이다.

예시

  • 의료 챗봇: LLM + RAG + 출력 제한
  • 업무 자동화: LLM + 도구 호출 + RL 피드백

1. 트랜스포머 직관: 다음 토큰 예측 + 어텐션

정의

  • 트랜스포머는 “지금까지의 토큰을 보고 다음 토큰 확률 분포를 예측”하는 모델이다.

핵심 요약

  • LLM의 본질은 언어 이해가 아니라 확률 예측이다.
  • 어텐션은 “어디를 봐야 할지”를 결정하는 가중치다.
  • 복잡한 구조보다 동작 원리를 이해하는 게 중요하다.

직관

1
입력 문장 → 중요한 단어에 더 집중 → 다음 단어 확률 계산

구현 포인트

  • 모든 추론/학습은 “다음 토큰 예측”으로 환원된다.

2. 컨텍스트 윈도우: 제품 설계의 가장 큰 제약

정의

  • 컨텍스트 윈도우는 한 번에 모델이 볼 수 있는 토큰 길이다.

핵심 요약

  • 윈도우는 비용·지연·환각을 동시에 좌우한다.
  • 무조건 크게 넣는다고 품질이 오르지 않는다.
  • 이 한계 때문에 RAG와 요약 전략이 필수다.

실무 영향

항목영향
비용토큰 수에 비례
Latency길수록 느림
Hallucination관련 없는 토큰 많을수록 증가

예시

  • 긴 의료 기록을 그대로 넣으면 오히려 진단 품질 하락

3. SFTTrainer 흐름: 미세조정의 실제 과정

정의

  • SFT(Supervised Fine-Tuning) 는 지시–응답 데이터로 LLM을 재학습한다.

핵심 요약

  • 데이터 품질이 모델 크기보다 중요하다.
  • 파이프라인을 이해하지 못하면 디버깅이 불가능하다.
  • 대부분의 실패는 데이터/토크나이징 단계에서 발생한다.

SFTTrainer 파이프라인

1
2
3
4
5
데이터 준비
 → 토크나이징
 → 학습 인수 설정
 → 훈련
 → 추론 검증

SFT 파이프라인 체크리스트

단계입력출력성공 기준
데이터Q/A 텍스트정제된 샘플일관성
토크나이징텍스트토큰길이 분포 안정
학습토큰체크포인트loss 감소
추론프롬프트응답도메인 적합

4. LoRA / QLoRA: 미세조정의 현실적 선택

정의

  • LoRA: 일부 저차원 가중치만 학습
  • QLoRA: 가중치를 양자화하여 메모리 절감

핵심 요약

  • Full FT는 비용·메모리 측면에서 비현실적이다.
  • LoRA는 “충분히 좋은 품질 + 빠른 반복”을 제공한다.
  • QLoRA는 단일 GPU에서도 대형 모델을 가능하게 한다.

LoRA vs Full Fine-Tuning

항목Full FTLoRA/QLoRA
메모리매우 큼작음
학습 속도느림빠름
품질최고실무 충분
배포어려움용이

트레이드오프

  • 메모리 ↓ → 접근성 ↑ → 반복 속도 ↑

5. RAG: 지식 주입을 위한 구조적 해법

정의

  • RAG(Retrieval-Augmented Generation) 는 외부 지식을 검색해 LLM 입력에 주입한다.

핵심 요약

  • RAG는 “기억력 확장 장치”다.
  • 모델을 다시 학습시키지 않고 지식을 바꿀 수 있다.
  • 품질의 대부분은 검색과 분할(chunking) 에서 결정된다.

RAG 설계 파라미터

파라미터권장 범위의미
chunk size300–800의미 단위
overlap10–20%문맥 연결
top-k3–8검색 다양성
rerank사용 권장품질 향상

실패 케이스

  • 검색 결과 부정확 → 환각
  • chunk 너무 큼/작음 → 맥락 손실
  • 프롬프트가 검색 결과를 무시

6. 의료 챗봇: 안전·검증 관점

핵심 요약

  • 의료 도메인은 “정확성”보다 안전성이 우선이다.
  • LLM은 조언자가 아니라 정보 보조 도구여야 한다.

필수 안전 장치

항목내용
출력 제한진단/처방 금지
근거 제시출처 문서 인용
로그질문/응답 기록
에스컬레이션전문가 연결

성공 기준

  • 잘 모를 때 “모른다”고 말하는가
  • 근거 없는 단정이 없는가

7. RL + LLM = Agentic AI

정의

  • Agent 는 LLM이 계획을 세우고, 도구를 사용하며, 결과로부터 피드백을 받는 구조다.

핵심 요약

  • LLM은 두뇌, RL은 행동 평가 메커니즘이다.
  • 계획 → 실행 → 피드백 루프가 핵심이다.
  • 단순 챗봇과 Agent의 차이는 행동과 학습이다.

Agent 구조 (텍스트 다이어그램)

1
2
3
4
5
6
7
8
9
User Goal
  ↓
LLM (계획/추론)
  ↓
Tool/API/Env 실행
  ↓
결과 관측
  ↓
RL 기반 피드백/조정

어디에 쓰이나

  • 자동화 워크플로
  • 게임·시뮬레이션 에이전트
  • 운영 최적화

흔히 하는 오해 3가지와 교정

오해 1: “LLM은 크면 다 해결된다” → 교정: 구조 없이는 비용만 늘어난다.

오해 2: “RAG면 환각이 사라진다” → 교정: 검색 품질이 나쁘면 오히려 악화된다.

오해 3: “Agent는 프롬프트 기술이다” → 교정: 피드백 루프가 없는 Agent는 자동완성이다.


핵심 체크리스트 (재학습용)

  • 트랜스포머를 다음 토큰 예측기로 설명할 수 있는가
  • 컨텍스트 윈도우 제약을 제품 관점에서 이해했는가
  • SFT 파이프라인을 단계별로 설명할 수 있는가
  • LoRA/QLoRA의 트레이드오프를 아는가
  • RAG 설계 파라미터를 조정해본 적이 있는가
  • 의료 챗봇에서 안전 장치를 설계했는가
  • LLM과 RL의 역할 차이를 구분하는가

한 줄 요약

실무 LLM은 모델이 아니라, 미세조정·RAG·RL이 결합된 ‘구조물’이다.


This post is licensed under CC BY 4.0 by the author.