운영의 핵심 — Gateway · mTLS · 설치/업그레이드 전략
Istio 운영에서 경계 통제, mTLS 기본값, 업그레이드/프로파일 전략을 다루는 운영 가이드
결론 요약
Istio 운영의 리스크는 기능이 아니라 경계·기본값·변경 절차에서 터진다.
Gateway는 “외부 진입점”을 중앙 통제해 사고 반경을 줄인다.
mTLS는 선택 옵션이 아니라 내부 통신의 기본값으로 강제돼야 한다.
STRICT/PERMISSIVE는 보안 수준이 아니라 조직·레거시·전환 속도의 문제다.
프로파일 튜닝과 업그레이드 전략은 초기 설치보다 중요하다.
운영 관점에서 Istio는 “한 번 깔고 끝”이 아니라 계속 관리하는 인프라다.
Gateway: 외부 진입의 통제 모델
결론
Gateway는 외부 트래픽을 하나의 경계면에서 통제하기 위한 장치다.
왜 Ingress Gateway가 필요한가
- 경계 통제: 외부→내부 트래픽의 유일한 진입점
- 정책 집약: TLS, 인증, 라우팅 정책의 중앙화
- 관측 일관성: 외부 요청의 메트릭/트레이스 표준화
Edge proxy vs Gateway
- Edge proxy: CDN/WAF/LB(클러스터 외부, 범용)
- Ingress Gateway: 메시 진입 전용(클러스터 내부, 정책 집행)
Edge는 “앞단 보호”, Gateway는 “메시 입구 통제”다.
둘은 대체 관계가 아니라 역할 분담이다.
mTLS: 내부 통신의 기본값 만들기
결론
mTLS는 “켜면 좋은 옵션”이 아니라 안전이 기본이 되도록 강제하는 방식이다.
mTLS가 제공하는 것:
- 서비스 아이덴티티 기반 인증
- 전송 구간 암호화
- 서비스 간 접근 통제의 기준점
운영 관점의 핵심:
- 코드 변경 없이 적용
- 인증서 수명/회전 자동화
- 정책 위반 시 즉시 실패로 드러남
STRICT vs PERMISSIVE 비교 + 전환 전략
결론
선택 기준은 보안 수준이 아니라 마이그레이션 현실성이다.
| 구분 | PERMISSIVE | STRICT |
|---|---|---|
| 보안 강제 | 혼합 허용 | mTLS만 허용 |
| 레거시 공존 | 가능 | 불가 |
| 전환 난이도 | 낮음 | 높음 |
| 사고 노출 | 늦게 드러남 | 즉시 드러남 |
| 권장 시점 | 초기 전환 | 안정화 이후 |
전환 전략(현실적)
- PERMISSIVE로 시작
- 레거시/외부 호출 공존
- 통신 실패 지점 식별
- 서비스 단위로 STRICT 전환
- 핵심 경로부터 적용
- AuthorizationPolicy 병행
- 전체 STRICT
- 실패는 빠르게, 원인은 명확히
istioctl 프로파일 튜닝 기준 (리소스 / 목적)
결론
프로파일은 “설치 옵션”이 아니라 운영 목적 선언이다.
튜닝 기준:
- 리소스 제약: CPU/메모리 여유
- 필요 기능: 관측/보안/확장성
- 운영 성숙도: 디버깅 가능성
일반 가이드:
- dev/test: 최소 구성(리소스 절약)
- staging: 관측 강화
- prod: 안정성/보안 우선
기본값 그대로 쓰는 것은
“우리 운영 목적을 정의하지 않았다”는 신호다.
업그레이드 전략 비교 표 + 선택 기준
결론
업그레이드는 기능 추가가 아니라 리스크 관리 작업이다.
| 전략 | in-place 업그레이드 | 카나리 업그레이드 |
|---|---|---|
| 방식 | 기존 컨트롤플레인 교체 | 신규 버전 병행 |
| 리스크 | 높음 | 낮음 |
| 복잡도 | 낮음 | 높음 |
| 롤백 | 어려움 | 용이 |
| 권장 환경 | 비중요/소규모 | 프로덕션 |
공식 경로 대안의 위험성
- 수동 패치/비공식 스크립트
- 설정 불일치 누적
- 장애 시 지원 불가
대안은 “급할 때” 필요하지만
상시 전략이 되면 운영 부채다.
운영 체크리스트 (배포 / 변경 / 장애 시)
- Gateway 변경이 단일 경로에 국한되는가?
- mTLS 모드가 환경별로 명확한가?
- STRICT 전환 대상이 문서화됐는가?
- 프로파일 변경 이력이 관리되는가?
- 업그레이드 전후 관측 지표가 비교 가능한가?
- 롤백 절차가 실제로 작동하는가?
- Control Plane 장애 시 영향 범위를 아는가?
- 인증서 만료/회전 알람이 있는가?
흔한 오해 3개 + 교정
오해: Gateway는 Ingress와 같다
교정: Gateway는 메시 경계 통제다.오해: mTLS는 보안팀 일이다
교정: 운영 기본값이다.오해: 업그레이드는 버전만 올리면 끝
교정: 관측·롤백까지 포함한 절차다.
재학습 체크리스트
- 외부 진입점이 하나로 통제되는가?
- 내부 통신의 기본값이 mTLS인가?
- STRICT 전환 로드맵이 있는가?
- 프로파일 선택 이유를 설명할 수 있는가?
- 업그레이드 전략이 환경별로 다른가?
- 비공식 대안을 언제 쓰는지 기준이 있는가?
- 장애 시 첫 확인 지점이 명확한가?
- 운영 변경의 반경을 예측하는가?
