AI 모델 개발: 검증 기법 – Bootstrapping
ㅁ 검증 기법
ㅇ 정의:
통계학과 머신러닝에서 사용되는 재표본화(resampling) 기법으로, 주어진 데이터셋에서 복원 추출(sampling with replacement)을 통해 여러 개의 학습용/검증용 데이터셋을 생성하여 모델의 성능을 추정하는 방법.
ㅇ 특징:
– 데이터의 분포를 가정하지 않고 모델의 불확실성을 추정 가능
– 원본 데이터셋 크기와 동일한 크기로 복원 추출하여 샘플 생성
– 각 부트스트랩 샘플에서 약 63.2%의 고유 데이터가 포함되고 나머지는 중복
– 소규모 데이터셋에서도 안정적인 성능 추정 가능
ㅇ 적합한 경우:
– 데이터가 적어 홀드아웃 검증 시 데이터 손실이 큰 경우
– 모델의 분산(variance)과 편향(bias)을 동시에 추정하고 싶은 경우
– 분포 가정이 어려운 비모수(non-parametric) 상황
ㅇ 시험 함정:
– 부트스트래핑은 항상 편향을 줄이는 방법이라는 오해 (편향이 아니라 분산 추정에 강점)
– 교차검증과 혼동하여 비복원 추출로 설명하는 경우
– 모든 데이터가 동일 확률로 선택된다는 점을 빼먹는 경우
ㅇ 시험 대비 “패턴 보기” 예시:
O: “부트스트래핑은 복원 추출을 통해 원본 데이터와 동일 크기의 샘플을 여러 번 생성한다.”
X: “부트스트래핑은 데이터를 나누어 한 번만 학습과 검증에 사용한다.”
X: “부트스트래핑은 비복원 추출을 기반으로 한다.”
ㅁ 추가 학습 내용
부트스트래핑의 변형 기법으로 .632 부트스트랩과 .632+ 부트스트랩이 있으며, 이는 모델의 과적합을 보정하는 데 사용된다. 각 부트스트랩 샘플에 포함되지 않은 데이터를 OOB(Out-of-Bag)라고 하며, 이를 활용해 성능을 추정할 수 있다. 부트스트래핑은 회귀, 분류뿐 아니라 신뢰구간 추정, 변수 중요도 평가에도 활용된다. 교차검증과의 차이점으로는 복원 추출 여부와 데이터 사용 방식이 있으며, 부트스트랩에서 각 샘플이 평균적으로 약 63.2% 포함된다는 수치는 자주 출제되므로 반드시 기억해야 한다.