데이터: 데이터 편향 유형 – 측정 편향
ㅁ 데이터 편향 유형
1. 측정 편향
ㅇ 정의:
데이터 수집 과정에서 측정 기기, 설문 문항, 기록 방식 등의 오류로 인해 실제 값과 다른 값이 기록되는 현상.
ㅇ 특징:
– 센서 오작동, 설문 응답자의 주관적 판단, 기록자의 실수 등으로 발생
– 데이터 전처리 시 발견이 어려울 수 있음
– 지속적으로 같은 방향으로 오차가 발생하는 경향이 있음
ㅇ 적합한 경우:
– 해당 편향을 줄이기 위해 표준화된 측정 도구 사용
– 반복 측정 및 교차 검증 필요
ㅇ 시험 함정:
– 표본 추출 편향과 혼동하기 쉬움
– 무작위 오차와 구분해야 함(측정 편향은 체계적 오차)
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “센서의 지속적인 오작동으로 동일 방향의 오차가 발생하는 경우”
– O: “설문 문항의 모호함으로 응답이 실제와 다르게 기록되는 경우”
– X: “무작위로 발생하는 측정값의 변동”
– X: “특정 집단만 표본으로 선택하는 경우”
ㅁ 추가 학습 내용
측정 편향은 통계학과 머신러닝 모델링에서 중요한 데이터 품질 문제이며, 체계적 오차와 밀접한 관련이 있다. 체계적 오차는 일정한 방향으로 발생하는 오차로, 무작위 오차와 달리 평균적으로 상쇄되지 않는다. 무작위 오차는 예측 불가능하게 변동하며 평균적으로 0에 가까워지는 특성이 있다.
측정 편향은 주로 데이터 수집 단계에서 발생하므로, 사후에 보정하기 어렵다. 이를 줄이기 위해 캘리브레이션, 블라인드 측정, 측정 장비의 정기 점검 등의 절차가 활용된다.
머신러닝에서는 잘못된 라벨링(라벨 노이즈)도 측정 편향의 한 형태로 간주될 수 있다. 이러한 경우 이상치 탐지 기법이나 데이터 검증 절차를 통해 문제를 발견하고 개선할 수 있다.