AI 모델 개발: 성능 추적

ㅁ 성능 추적

ㅇ 정의:
AI 모델이 운영 환경에서 예측을 수행할 때, 해당 예측의 품질과 정확도를 지속적으로 측정하고 기록하는 활동.

ㅇ 특징:
– 실시간 또는 배치 단위로 성능 지표 수집
– 모델의 성능 저하를 조기에 발견 가능
– 다양한 데이터 소스와 연계 가능

ㅇ 적합한 경우:
– 모델이 장기간 운영되는 환경
– 데이터 특성이 시간에 따라 변하는 경우

ㅇ 시험 함정:
– 단순 정확도만 추적하는 경우, 클래스 불균형 문제를 간과할 수 있음

ㅇ 시험 대비 “패턴 보기” 예시:
O: “운영 환경에서 모델 예측 품질을 지속적으로 측정하는 활동이다.”
X: “모델 학습 단계에서만 성능을 기록하는 활동이다.”

================================

1. 성능 메트릭

ㅇ 정의:
모델의 예측 성능을 수치로 표현하는 지표로, 정확도, 정밀도, 재현율, F1 점수, AUC 등이 포함됨.

ㅇ 특징:
– 모델의 성능을 객관적으로 비교 가능
– 데이터 특성에 따라 적합한 지표 선택 필요

ㅇ 적합한 경우:
– 모델 개선 여부를 판단해야 하는 경우
– 다양한 모델 간 성능 비교가 필요한 경우

ㅇ 시험 함정:
– 클래스 불균형 상황에서 정확도만 높아도 좋은 모델이라고 판단하는 오류

ㅇ 시험 대비 “패턴 보기” 예시:
O: “F1 점수는 정밀도와 재현율의 조화평균이다.”
X: “정확도는 항상 모든 상황에서 최고의 지표이다.”

================================

2. 로그 수집

ㅇ 정의:
모델의 입력 데이터, 예측 결과, 시스템 상태 등을 기록하여 분석 및 문제 해결에 활용하는 과정.

ㅇ 특징:
– 장애 원인 분석 가능
– 추후 성능 분석 및 재현에 필수적

ㅇ 적합한 경우:
– 모델 예측 오류 원인을 추적해야 하는 경우
– 규제 준수를 위해 기록이 필요한 경우

ㅇ 시험 함정:
– 로그를 수집하지만 개인정보 보호 규정을 위반하는 경우

ㅇ 시험 대비 “패턴 보기” 예시:
O: “로그 수집은 장애 분석과 성능 모니터링에 활용된다.”
X: “로그 수집은 운영에 불필요한 부하만 준다.”

================================

3. 사용자 피드백

ㅇ 정의:
모델 예측 결과에 대한 최종 사용자 또는 도메인 전문가의 평가나 의견을 수집하는 과정.

ㅇ 특징:
– 모델 개선 방향을 직접적으로 제시 가능
– 정성적 데이터와 정량적 데이터 모두 포함 가능

ㅇ 적합한 경우:
– 모델의 예측 결과가 사용자 경험에 직접 영향을 미치는 경우
– 지속적인 모델 개선이 필요한 경우

ㅇ 시험 함정:
– 피드백이 주관적일 수 있음에도 이를 절대적인 성능 판단 근거로 사용하는 경우

ㅇ 시험 대비 “패턴 보기” 예시:
O: “사용자 피드백은 모델 개선에 중요한 데이터 소스이다.”
X: “사용자 피드백은 성능 추적에 전혀 도움이 되지 않는다.”

================================

4. 드리프트 모니터링

ㅇ 정의:
모델 학습 시 사용한 데이터 분포와 운영 환경의 입력 데이터 분포가 달라지는 현상을 감지하고 추적하는 과정.

ㅇ 특징:
– 데이터 드리프트, 개념 드리프트 등 유형 존재
– 성능 저하의 주요 원인 중 하나

ㅇ 적합한 경우:
– 데이터 특성이 시간에 따라 크게 변하는 환경
– 외부 요인에 의해 데이터 패턴이 변할 수 있는 경우

ㅇ 시험 함정:
– 드리프트를 무시하면 모델 예측 오류가 급격히 증가할 수 있음

ㅇ 시험 대비 “패턴 보기” 예시:
O: “드리프트 모니터링은 데이터 분포 변화 감지에 유용하다.”
X: “드리프트 모니터링은 모델 학습 시점에만 필요하다.”

ㅁ 추가 학습 내용

시험 대비 정리

1. 성능 메트릭 선택
– Precision-Recall 곡선: 클래스 불균형이 심할 때 유용, 특히 소수 클래스의 성능 평가에 적합
– ROC 곡선: 전체적인 분류 성능 평가, TPR(민감도)과 FPR(위양성률) 관계
– 활용 시나리오: 불균형 데이터셋 → Precision-Recall, 균형 데이터셋 → ROC

2. 로그 수집과 개인정보 보호
– 필수 메타데이터: 타임스탬프, 요청 ID, 모델 버전, 사용자 세션 ID(익명화), 처리 결과 상태 등
– GDPR/개인정보보호법 준수: 개인정보 최소 수집, 익명화/가명화, 저장 기간 제한, 암호화, 접근 통제

3. 사용자 피드백 정량화 및 재활용
– 정량화 방법: 만족도 점수(1~5), 랭킹, 선택지 기반 평가(예/아니오, 다중 선택)
– 학습 데이터 재활용 절차: 수집 → 검증/정제 → 라벨링 → 데이터셋 통합 → 재학습

4. 드리프트 모니터링
– 데이터 드리프트: 입력 데이터 분포 변화
– 개념 드리프트: 입력-출력 관계 변화
– 탐지 기법:
– 데이터 드리프트: KS-검정, PSI(Population Stability Index)
– 개념 드리프트: DDM(Drift Detection Method), EDDM 등

5. 운영 환경 성능 저하 대응
– 대응 전략: 재학습, 피처 엔지니어링 수정, 모델 교체
– 자동화 방법: MLOps 파이프라인에 성능 모니터링 → 임계치 초과 시 자동 재학습 또는 경고 발송 → 배포 자동화

시험 대비 체크리스트

[ ] Precision-Recall 곡선과 ROC 곡선의 정의와 차이 설명 가능
[ ] 데이터 불균형 상황에서 적합한 메트릭 선택 이유 설명 가능
[ ] 로그 수집 시 필수 메타데이터 항목 나열 가능
[ ] GDPR 및 개인정보보호법 준수 방법 설명 가능
[ ] 사용자 피드백을 수치화하는 방법 예시 제시 가능
[ ] 피드백 데이터를 학습 데이터로 재활용하는 절차 순서대로 설명 가능
[ ] 데이터 드리프트와 개념 드리프트의 차이 정의 가능
[ ] KS-검정, PSI, DDM의 개념과 적용 사례 설명 가능
[ ] 운영 환경에서 성능 저하 발생 시 대응 전략 나열 가능
[ ] MLOps 파이프라인 자동화 구성 흐름 설명 가능

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*