데이터: 데이터 편향 유형 – 생존자 편향
ㅁ 데이터 편향 유형
1. 생존자 편향
ㅇ 정의:
분석 대상에서 성공 사례 또는 생존한 사례만을 고려하고 실패하거나 탈락한 사례를 배제함으로써 잘못된 결론을 도출하는 오류.
ㅇ 특징:
– 데이터 수집 과정에서 실패 사례가 누락됨.
– 성공 사례의 공통점을 과대평가하는 경향.
– 역사적 사례나 비즈니스 분석에서 자주 발생.
ㅇ 적합한 경우:
– 실제로는 적합하지 않으며, 반드시 실패 사례를 포함하여 분석해야 함.
– 생존자 편향을 피하기 위한 교육 사례로 활용.
ㅇ 시험 함정:
– ‘성공한 기업들의 공통점’만을 분석하여 성공 법칙이라고 제시하는 경우.
– 실패 데이터를 제외한 통계 결과를 신뢰하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
O: 제2차 세계대전 당시 귀환한 전투기의 피탄 부위를 보강하는 것은 생존자 편향의 예이다.
X: 실패한 사례를 포함하여 분석하는 것은 생존자 편향이다.
ㅁ 추가 학습 내용
생존자 편향(Survivorship Bias)은 통계학, 데이터 과학, 머신러닝 모델링에서 나타나는 중요한 편향 유형으로, 훈련 데이터에 실패 사례가 포함되지 않을 경우 예측 성능이 왜곡되는 현상을 말한다. 시험에서는 전쟁, 경제 불황, 스타트업 성공 사례 등 역사적 사례와 연결하여 출제되거나, 샘플링 편향과 비교하는 문제가 자주 나온다. 생존자 편향은 선택 편향(selection bias)의 한 형태이며, 이를 방지하기 위해서는 전체 모집단을 대표하는 데이터 수집과 분석 설계가 필요하다.