데이터: 해결 기법 – Threshold Tuning
ㅁ 해결 기법
1. Threshold Tuning
ㅇ 정의:
분류 모델에서 기본적으로 0.5로 설정된 결정 임계값(threshold)을 조정하여, 예측 클래스 비율을 변경하고 성능 지표(F1-score, Recall 등)를 최적화하는 기법.
ㅇ 특징:
– 모델의 학습 과정은 변경하지 않고, 예측 확률을 기반으로 최종 분류 기준만 변경.
– 클래스 불균형 상황에서 소수 클래스의 Recall을 높이는데 효과적.
– ROC Curve, Precision-Recall Curve를 활용하여 최적 threshold를 탐색.
– 과적합 위험이 없으나, 데이터 분포 변화에 민감.
ㅇ 적합한 경우:
– 모델 재학습이 어려운 경우.
– 소수 클래스의 탐지가 중요한 경우(예: 사기 탐지, 질병 진단).
– 예측 확률이 잘 보정(calibration)되어 있는 경우.
ㅇ 시험 함정:
– Threshold 조정만으로 데이터 불균형 자체가 해결되는 것은 아님.
– 예측 확률이 왜곡된 모델에서는 threshold 조정 효과가 제한적.
– Precision과 Recall의 trade-off를 무시하면 잘못된 해석 가능.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Threshold Tuning은 모델 학습을 변경하지 않고 분류 기준을 조정하는 방법이다.”
O: “Threshold Tuning은 ROC Curve 분석을 통해 최적 임계값을 찾을 수 있다.”
X: “Threshold Tuning은 데이터 샘플 수를 늘려 클래스 불균형을 해결한다.”
X: “Threshold Tuning은 모델의 가중치를 재학습하여 성능을 높인다.”
ㅁ 추가 학습 내용
Threshold Tuning 학습 시에는 Precision-Recall Curve의 특성을 이해하고, F1-score를 최적화하기 위한 threshold 선택 방법을 숙지해야 한다. ROC-AUC와 PR-AUC의 차이를 알고, 특히 불균형 데이터에서는 PR-AUC가 더 의미 있는 이유를 이해하는 것이 중요하다. Threshold 조정 시에는 비용 민감도(cost-sensitive) 분석과 함께 활용하면 실무 적용성을 높일 수 있다. 시험에서는 ‘threshold 조정 = 데이터 불균형 해소’라는 오답이 자주 나오므로, threshold는 분류 기준을 변경하는 것이지 데이터 분포 자체를 바꾸는 것이 아니라는 점을 명확히 기억해야 한다.