AI 모델 개발: Ensemble – Bagging

ㅁ Ensemble

ㅇ 정의:
여러 개의 개별 모델을 학습시킨 후, 그 예측 결과를 결합하여 최종 예측 성능을 향상시키는 기법.

ㅇ 특징:
– 모델 간 다양성을 확보하여 과적합을 방지하고 일반화 성능을 향상.
– 평균, 투표 등의 방법으로 결과를 결합.
– 개별 모델은 병렬로 학습 가능.

ㅇ 적합한 경우:
– 단일 모델의 성능이 불안정하거나 데이터의 노이즈가 많은 경우.
– 예측 안정성과 정확도를 동시에 높이고자 하는 경우.

ㅇ 시험 함정:
– Ensemble이 항상 성능을 향상시키는 것은 아님.
– 동일한 모델과 데이터로 학습하면 다양성이 부족해 효과가 미미.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “여러 모델의 예측을 결합하여 일반화 성능을 향상시킨다.”
X: “Ensemble은 항상 단일 모델보다 높은 정확도를 보장한다.”

================================

1. Bagging

ㅇ 정의:
Bootstrap Aggregating의 약자로, 원본 데이터에서 부트스트랩 샘플을 여러 번 추출하여 각기 다른 모델을 학습시키고, 그 결과를 평균(회귀) 또는 다수결(분류)로 결합하는 앙상블 기법.

ㅇ 특징:
– 데이터 샘플링 시 중복 허용(bootstrap sampling).
– 병렬 학습 가능.
– 개별 모델 간 상관관계를 줄여 분산을 감소시킴.
– 대표적인 알고리즘: Random Forest.

ㅇ 적합한 경우:
– 고분산(variance) 모델의 성능을 안정화시키고자 할 때.
– 데이터셋이 비교적 크고, 노이즈가 존재하는 경우.

ㅇ 시험 함정:
– Bagging은 분산 감소에 효과적이지만 편향(bias) 감소에는 한계가 있음.
– 모든 모델이 동일 데이터 분포를 학습하므로 다양성 확보 한계 존재.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Bagging은 부트스트랩 샘플링을 통해 모델의 분산을 줄인다.”
X: “Bagging은 데이터의 편향을 크게 줄이는 데 효과적이다.”

ㅁ 추가 학습 내용

Bagging과 Boosting의 차이점 정리

Bagging
– 병렬 학습 방식
– 부트스트랩 샘플링을 사용하여 여러 데이터 샘플 생성
– 각 모델을 독립적으로 학습
– 분산 감소에 효과적
– 과적합 방지에 도움
– 대표적 응용: Random Forest (각 트리에서 특징을 무작위로 선택하여 학습)
– 한계: 편향 감소 효과는 제한적, 데이터셋이 매우 작으면 성능 저하 가능
– 키워드: 부트스트랩 샘플링, 병렬 학습, 분산 감소

Boosting
– 순차 학습 방식
– 이전 모델의 오차를 보완하는 방식으로 다음 모델 학습
– 약한 학습기를 결합하여 강한 학습기 생성
– 편향 감소에 효과적

시험 포인트
– Bagging과 관련된 핵심 키워드: 부트스트랩 샘플링, 병렬 학습, 분산 감소
– Random Forest는 Bagging 기반이며, 특징 무작위 선택이 추가됨
– Bagging의 한계와 Boosting과의 차이점을 명확히 구분

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*