AI 모델 개발: Ensemble – Voting
ㅁ Ensemble
ㅇ 정의:
여러 개의 개별 모델 예측 결과를 결합하여 최종 예측을 수행하는 기법으로, 단일 모델보다 일반화 성능을 향상시키는 것을 목표로 함.
ㅇ 특징:
– 다양한 모델을 조합하여 편향과 분산을 줄임
– 과적합 위험을 감소시킴
– 계산 비용 증가 가능
ㅇ 적합한 경우:
– 단일 모델의 성능이 한계에 도달했을 때
– 데이터가 복잡하고 다양한 패턴을 내포할 때
ㅇ 시험 함정:
– 모든 모델이 동일하면 효과 없음
– 데이터 분할 방식이나 모델 다양성 부족 시 성능 향상 미미
ㅇ 시험 대비 “패턴 보기” 예시:
O: “여러 모델의 예측을 결합하여 일반화 성능을 향상시킨다.”
X: “단일 모델의 학습 속도를 무조건 향상시킨다.”
================================
1. Voting
ㅇ 정의:
여러 분류기의 예측 결과를 투표 방식으로 집계하여 최종 예측을 결정하는 앙상블 기법.
ㅇ 특징:
– Hard Voting: 각 모델의 최종 클래스 예측을 다수결로 결정
– Soft Voting: 각 모델의 클래스 확률을 평균내어 가장 높은 확률의 클래스를 선택
– 구현이 간단하고 직관적
ㅇ 적합한 경우:
– 서로 다른 알고리즘 기반의 분류기를 결합할 때
– 개별 모델의 성능이 비슷하고 독립적인 경우
ㅇ 시험 함정:
– Soft Voting은 확률 출력이 가능한 모델에서만 가능
– 클래스 불균형이 심한 경우 단순 다수결이 왜곡된 결과를 낼 수 있음
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Hard Voting은 각 모델의 최종 예측 클래스를 다수결로 결정한다.”
X: “Soft Voting은 클래스 확률을 무시하고 다수결로 결정한다.”
ㅁ 추가 학습 내용
Voting 기법에서는 모델 간 상관관계를 낮추는 것이 중요하다. 이를 위해 서로 다른 알고리즘, 하이퍼파라미터, 데이터 샘플링 방식을 활용하는 것이 효과적이다.
Hard Voting은 각 모델의 최종 예측 클래스에 대해 다수결로 결론을 내리는 방식이다.
Soft Voting은 각 모델이 예측한 클래스별 확률을 평균 내어 최종 예측을 결정하며, 확률 평균 방식에는 산술 평균과 가중 평균이 있다.
가중 평균에서는 성능이 좋은 모델에 더 높은 가중치를 부여할 수 있으며, 가중치는 검증 성능 등을 기준으로 설정한다.
회귀 문제에서는 Voting 대신 단순 평균이나 가중 평균을 사용하는 경우가 있다.
분류 문제에서 확률 기반 결합(Soft Voting)은 ROC AUC와 같은 확률 기반 평가 지표에서 Hard Voting보다 유리할 수 있다.