데이터: 데이터 편향 유형 – 확인 편향
ㅁ 데이터 편향 유형
ㅇ 정의:
특정 가설이나 기대에 부합하는 데이터나 해석만 선택하고, 반대되는 증거는 무시하는 경향에서 발생하는 편향.
ㅇ 특징:
– 데이터 수집 단계에서 자신이 원하는 결론을 뒷받침하는 사례만 선택하는 경우가 많음.
– 분석 과정에서 기존 신념을 강화하는 방향으로 통계나 시각화를 해석.
– 알고리즘 학습 시 특정 범주의 데이터가 과도하게 반영되어 예측 결과가 왜곡됨.
ㅇ 적합한 경우:
– 적합한 경우는 없음. 데이터 분석 및 모델링에서 반드시 피해야 할 편향.
– 단, 가설 검증 시 사전 가설 설정 과정에서 참고 사례로만 제한적으로 활용 가능.
ㅇ 시험 함정:
– ‘확인 편향’을 ‘선택 편향’이나 ‘표본 편향’과 혼동하는 문제.
– ‘확증 편향’이라는 표현이 동일 개념임을 모르는 경우.
– 긍정적인 데이터만 수집하는 행위가 항상 품질 향상으로 이어진다고 착각.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “연구자가 자신의 이론을 지지하는 데이터만 수집하여 분석 결과가 왜곡되었다.”
X: “모델이 무작위로 데이터 일부를 누락시켜 예측이 부정확해졌다.”
ㅁ 추가 학습 내용
확인 편향은 심리학, 사회과학뿐 아니라 데이터 과학에서도 중요한 개념으로, AI 모델 학습 시 훈련 데이터의 다양성이 부족하면 발생 가능성이 높다. 시험에서는 ‘확증 편향(confirmation bias)’이라는 동의어로 출제될 수 있다. 데이터 수집, 전처리, 특징 선택, 모델 해석 등 전 과정에서 발생할 수 있으며, 발생 시 모델의 일반화 성능이 저하되고 특정 그룹에 불리한 예측이 이루어질 수 있다. 이를 방지하기 위해 대조군 데이터 확보, 블라인드 분석, 교차검증, 외부 검증 데이터셋 활용 등의 방법이 사용된다.