AI 시스템 구축: AIOps
ㅁ AIOps
ㅇ 정의:
인공지능(AI)과 머신러닝(ML) 기술을 활용하여 IT 운영 데이터를 분석하고, 이상 징후를 탐지하며, 자동화된 대응을 수행하는 운영 방식.
ㅇ 특징:
– 로그, 메트릭, 이벤트 데이터를 통합 분석
– 실시간 모니터링 및 예측 기능 제공
– 반복적 운영 작업 자동화
ㅇ 적합한 경우:
– 대규모 IT 인프라 운영
– 복잡한 장애 원인 분석 및 신속 대응 필요 시
ㅇ 시험 함정:
– 단순 모니터링 도구와 혼동하기 쉬움
– AI 기반 분석과 단순 규칙 기반 경보를 구분해야 함
ㅇ 시험 대비 “패턴 보기” 예시:
O: “AIOps는 머신러닝 기반으로 IT 운영 데이터를 분석하여 이상 징후를 자동 탐지한다.”
X: “AIOps는 수동 분석을 통해만 이상을 발견한다.”
================================
1. 이상 탐지
ㅇ 정의:
시스템의 정상 상태와 비교하여 비정상적인 패턴이나 동작을 식별하는 기술.
ㅇ 특징:
– 통계 분석, 머신러닝 기반 모델 활용
– 실시간 또는 배치 분석 가능
– 임계값 기반보다 유연한 판단 가능
ㅇ 적합한 경우:
– 서비스 성능 저하 조기 발견
– 보안 침해 시도 탐지
ㅇ 시험 함정:
– 스파이크형 정상 트래픽을 이상으로 오인할 수 있음
– 단순 임계값 경보와 혼동
ㅇ 시험 대비 “패턴 보기” 예시:
O: “이상 탐지는 정상 패턴에서 벗어난 데이터를 식별한다.”
X: “이상 탐지는 항상 고정 임계값만 사용한다.”
================================
2. 자동 스케일링
ㅇ 정의:
시스템 부하나 트래픽 변화에 따라 자원(CPU, 메모리, 인스턴스 수)을 자동으로 확장 또는 축소하는 기술.
ㅇ 특징:
– 수요 기반 자원 최적화
– 클라우드 환경에서 주로 사용
– 정책 기반 또는 예측 기반 동작
ㅇ 적합한 경우:
– 트래픽 변동이 심한 서비스
– 비용 최적화 필요 시
ㅇ 시험 함정:
– 수동 확장과 혼동
– 예측 기반 스케일링과 반응형 스케일링 구분 필요
ㅇ 시험 대비 “패턴 보기” 예시:
O: “자동 스케일링은 부하 변화에 따라 인스턴스 수를 자동 조정한다.”
X: “자동 스케일링은 항상 최대 자원을 유지한다.”
================================
3. 자가 치유 시스템
ㅇ 정의:
장애나 오류 발생 시, 사람의 개입 없이 자동으로 복구하거나 우회하는 기능을 가진 시스템.
ㅇ 특징:
– 장애 감지 후 자동 복구 절차 실행
– 서비스 가용성 극대화
– 사전 정의된 정책 기반 동작
ㅇ 적합한 경우:
– 24/7 무중단 서비스 요구
– 인력 대응이 지연될 수 있는 환경
ㅇ 시험 함정:
– 단순 재시작 스크립트와 혼동
– 모든 장애를 자동 복구할 수 있다고 오해
ㅇ 시험 대비 “패턴 보기” 예시:
O: “자가 치유 시스템은 오류를 감지하면 자동으로 복구 절차를 수행한다.”
X: “자가 치유 시스템은 반드시 운영자가 승인해야만 복구를 시작한다.”
================================
4. Intelligent Alerting
ㅇ 정의:
단순 임계값 기반 경보가 아닌, AI/ML 분석을 통해 중요도, 맥락, 우선순위를 고려한 알림을 제공하는 기술.
ㅇ 특징:
– 경보 노이즈 감소
– 이벤트 상관 분석
– 우선순위 기반 알림 제공
ㅇ 적합한 경우:
– 경보 과다로 인한 대응 지연 문제 해결
– 복잡한 인프라 환경에서 중요 이벤트 선별 필요
ㅇ 시험 함정:
– 단순 알림 필터링과 혼동
– 모든 경보를 제거하는 기능으로 오해
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Intelligent Alerting은 중요도와 맥락을 고려해 경보를 제공한다.”
X: “Intelligent Alerting은 모든 경보를 차단한다.”
ㅁ 추가 학습 내용
AIOps 시험 대비 핵심 정리
1. 데이터 소스 다양성
– 로그, 메트릭, 트레이스 데이터를 통합 분석하는 기능 여부를 구분
– 단일 데이터 소스 분석과 다중 데이터 소스 통합 분석의 차이를 이해
2. 자동화 수준
– 단순 규칙 기반 자동화: 사전에 정의된 규칙에 따라 동작
– AI 기반 자동화: 머신러닝, 패턴 인식 등을 활용하여 동적으로 대응
3. 이상 탐지 기법
– 통계적 방법: Z-score, IQR 등 통계 지표를 활용한 이상 탐지
– 머신러닝 기반: 지도 학습, 비지도 학습을 이용한 이상 탐지
4. 자동 스케일링
– 예측 스케일링(Predictive): 미래 부하를 예측해 사전 자원 할당, 반응 속도 빠르지만 예측 오류 가능성 존재
– 반응형 스케일링(Reactive): 실제 부하 변화에 따라 자원 조정, 정확하지만 반응 지연 가능
– 자원 과할당 시 비용 증가, 자원 부족 시 성능 저하 발생
5. 자가 치유 시스템
– 헬스체크(Health Check): 주기적으로 상태를 확인하고 이상 시 복구 조치
– 워치독(Watchdog): 특정 프로세스나 서비스가 응답하지 않으면 재시작 등 즉각 조치
6. Intelligent Alerting
– 이벤트 상관 관계 분석(Correlation): 관련 이벤트를 묶어 원인 파악
– 경보 억제(Suppression): 중복되거나 불필요한 경보를 차단
– 집계(Aggregation): 다수의 경보를 하나로 묶어 관리 효율성 향상