AI: 성능 모니터링

ㅁ 성능 모니터링

1. Shadow Deployment

ㅇ 정의:
운영 환경에서 새로운 버전을 실제 사용자 요청과 동일하게 처리하되, 결과는 사용자에게 노출하지 않고 내부적으로만 검증하는 배포 방식.

ㅇ 특징:
실사용 트래픽 기반 검증 가능, 사용자 영향 없음, 운영 환경 부하 증가 가능성.

ㅇ 적합한 경우:
대규모 트래픽 환경에서 신버전 안정성 검증, 위험 회피가 중요한 금융·의료 서비스.

ㅇ 시험 함정:
사용자에게 신버전 결과가 제공된다고 오해하는 경우(O). Shadow는 결과 미노출이 핵심.

ㅇ 시험 대비 “패턴 보기” 예시:
– “Shadow Deployment는 운영 트래픽을 복제하여 신버전을 검증한다” (O)
– “Shadow Deployment는 일부 사용자에게만 신버전 결과를 제공한다” (X)

================================

2. Canary Release

ㅇ 정의:
새로운 버전을 소수의 사용자 그룹에 먼저 배포하여 문제 여부를 확인한 뒤 점진적으로 전체에 확대하는 배포 방식.

ㅇ 특징:
위험 최소화, 점진적 확산, 사용자 피드백 반영 가능.

ㅇ 적합한 경우:
서비스 중단을 최소화하며 기능 업데이트를 검증해야 하는 경우.

ㅇ 시험 함정:
Canary Release는 항상 무작위 사용자에게 배포된다고 단정하는 경우(O). 실제로는 특정 그룹 지정 가능.

ㅇ 시험 대비 “패턴 보기” 예시:
– “Canary Release는 일부 사용자에게만 신버전을 배포하고 점차 확대한다” (O)
– “Canary Release는 운영 트래픽을 복제하여 신버전을 검증한다” (X)

================================

3. Continuous Profiling

ㅇ 정의:
애플리케이션의 CPU, 메모리, I/O 등 자원 사용 패턴을 지속적으로 수집·분석하여 성능 병목을 식별하는 기법.

ㅇ 특징:
실시간 또는 주기적 수집, 장기 추세 분석 가능, 운영 환경 최적화 지원.

ㅇ 적합한 경우:
장기간 운영 중 성능 저하 원인 파악, 클라우드 비용 최적화.

ㅇ 시험 함정:
Continuous Profiling은 단기 부하 테스트와 동일하다고 보는 경우(O). 실제로는 장기·지속적 관점.

ㅇ 시험 대비 “패턴 보기” 예시:
– “Continuous Profiling은 운영 중 성능 데이터를 지속적으로 수집한다” (O)
– “Continuous Profiling은 단기 부하 테스트를 의미한다” (X)

================================

4. Anomaly Detection with Explainability

ㅇ 정의:
성능 모니터링 데이터에서 이상 징후를 탐지하고, 탐지 결과에 대해 사람이 이해할 수 있는 설명을 제공하는 기법.

ㅇ 특징:
모델의 예측 이유 제공, 신뢰성 향상, 규제 준수 지원.

ㅇ 적합한 경우:
금융, 의료 등 이상 탐지 결과에 대한 설명 의무가 있는 산업.

ㅇ 시험 함정:
Explainability는 단순 시각화와 동일하다고 착각하는 경우(O). 실제로는 의사결정 근거를 해석 가능해야 함.

ㅇ 시험 대비 “패턴 보기” 예시:
– “Anomaly Detection with Explainability는 이상 탐지 결과와 그 이유를 함께 제공한다” (O)
– “Explainability는 단순히 데이터 차트를 보여주는 것을 의미한다” (X)

ㅁ 추가 학습 내용

Shadow Deployment vs Canary Release 비교

항목 / Shadow Deployment / Canary Release
트래픽 처리 방식 / 실제 운영 트래픽을 복제하여 새로운 버전에 전달, 결과는 사용자에게 노출하지 않음 / 운영 트래픽의 일부를 점진적으로 새로운 버전에 전달
사용자 영향 여부 / 없음, 결과는 내부에서만 검증 / 있음, 일부 사용자가 새로운 버전을 사용

Continuous Profiling
– 수집 주기: 초 단위, 분 단위 등 시스템 부하와 분석 목적에 따라 설정
– 오버헤드 관리: 샘플링 비율 조정, 경량화된 수집 도구 사용
– 주요 도구 예시: pprof(Go 언어 프로파일링), eBPF(커널 레벨 이벤트 추적)

Anomaly Detection with Explainability
– 설명 가능 AI 기법:
LIME(Local Interpretable Model-agnostic Explanations)
SHAP(SHapley Additive exPlanations)
Counterfactual Explanation(결과를 바꾸기 위해 필요한 최소한의 입력 변경 설명)
– 이상 탐지 모델 예시:
Isolation Forest
One-Class SVM
Autoencoder

성능 모니터링
– 주요 도구: Prometheus(메트릭 수집), Grafana(시각화), OpenTelemetry(표준화된 관측 데이터 수집)
– SLA(Service Level Agreement): 서비스 제공자와 고객 간 합의된 서비스 수준
– SLO(Service Level Objective): 내부적으로 설정한 서비스 수준 목표
– SLI(Service Level Indicator): 서비스 수준을 측정하는 지표
– 경보(Alerts) 설정 기준: SLO 위반 가능성, 임계치 초과, 이상 패턴 감지 시 알림

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*