데이터: 데이터 편향 유형 – 선택 편향
ㅁ 데이터 편향 유형
1. 선택 편향
ㅇ 정의:
표본을 선택하는 과정에서 모집단을 대표하지 못하는 데이터가 수집되어 분석 결과가 왜곡되는 현상.
ㅇ 특징:
– 표본이 특정 집단이나 특성을 과도하게 포함하거나 배제함.
– 데이터 수집 단계에서 발생하며 이후 분석 전 단계에서 이미 내재됨.
– 설문조사, 온라인 리뷰, 자발적 참여 데이터에서 빈번히 발생.
ㅇ 적합한 경우:
– 실제 분석에서는 적합하지 않으며, 오히려 피해야 하는 상황.
– 다만 특정 집단만을 대상으로 한 연구 목적일 경우 의도적으로 발생시킬 수 있음.
ㅇ 시험 함정:
– ‘데이터 전처리 단계에서만 발생한다’는 설명은 잘못임(데이터 수집 단계에서 주로 발생).
– ‘선택 편향은 표본이 모집단을 잘 대표하는 경우’라는 설명은 틀림.
– ‘선택 편향은 반드시 의도적 조작에 의해 발생한다’는 설명은 오답.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “자발적 설문 응답 데이터에서 특정 연령대 응답이 과다하여 분석 결과가 왜곡됨”
– O: “데이터 수집 과정에서 특정 지역 응답자만 포함되어 발생한 편향”
– X: “선택 편향은 데이터 분석 후 발생하는 오류이다”
– X: “선택 편향은 모집단의 특성을 정확히 반영하는 표본을 선택하는 과정에서 발생한다”
ㅁ 추가 학습 내용
선택 편향은 표본이 모집단을 대표하지 못하게 되는 현상으로, 여러 하위 유형이 존재한다. 대표적인 유형으로는 생존자 편향(survivorship bias), 비응답 편향(non-response bias), 자발적 응답 편향(voluntary response bias)이 있다.
생존자 편향은 관찰 대상에서 살아남은 사례만 고려하여 잘못된 결론을 내리는 경우를 말한다.
비응답 편향은 조사 대상 중 응답하지 않은 집단이 체계적으로 다른 특성을 가질 때 발생한다.
자발적 응답 편향은 응답 의지가 강한 특정 집단이 과도하게 표본에 포함되어 발생하는 편향이다.
선택 편향을 완화하는 방법으로는 층화추출(stratified sampling), 무작위 추출(random sampling), 가중치 보정(weighting) 기법이 있다. 층화추출은 모집단을 층으로 나눈 뒤 각 층에서 무작위로 표본을 추출하여 대표성을 높인다. 무작위 추출은 표본 선정 과정에서 모든 대상이 동일한 확률로 선택되도록 한다. 가중치 보정은 표본의 불균형을 보정하기 위해 각 관측값에 가중치를 부여하는 방법이다.
통계학에서는 선택 편향이 추정치의 불편성을 해치는 주요 원인으로 작용하며, 머신러닝에서는 모델의 일반화 성능을 저하시킬 수 있어 시험에서 자주 다뤄진다.