데이터: 고급 편향 유형
ㅁ 고급 편향 유형
1. Proxy Bias
ㅇ 정의:
– 모델이 직접적으로 사용할 수 없는 민감 속성(예: 인종, 성별)을 대리하는 다른 변수를 사용함으로써 발생하는 편향.
ㅇ 특징:
– 대리 변수는 표면적으로는 무해해 보이지만, 실제로는 민감 속성과 높은 상관관계를 가짐.
– 데이터 전처리 단계에서 발견하기 어려움.
ㅇ 적합한 경우:
– 의도적으로 사용하는 경우는 드물며, 민감 속성을 직접 수집할 수 없는 상황에서 대리 변수를 활용해야 하는 경우.
ㅇ 시험 함정:
– ‘대리 변수는 항상 안전하다’라는 문장은 X.
– ‘대리 변수는 민감 속성을 우회적으로 반영할 수 있다’는 O.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “우편번호 변수가 인종 정보를 간접적으로 반영하여 차별을 유발할 수 있다.”
– X: “대리 변수는 민감 속성과 무관하다.”
2. Measurement Error
ㅇ 정의:
– 데이터 수집 과정에서 측정 값이 실제 값과 차이가 나는 오류.
ㅇ 특징:
– 기계적 오차, 사람의 기록 실수, 측정 도구의 한계 등에서 발생.
– 체계적 오차(Systematic)와 무작위 오차(Random)로 구분 가능.
ㅇ 적합한 경우:
– 의도적인 사용 사례는 없으며, 데이터 품질 관리 시 반드시 최소화해야 함.
ㅇ 시험 함정:
– ‘측정 오류는 항상 무작위적이다’는 X.
– ‘측정 오류는 편향을 유발할 수 있다’는 O.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “센서의 보정 불량으로 특정 값이 지속적으로 높게 측정되는 경우.”
– X: “측정 오류는 분석 결과에 영향을 주지 않는다.”
3. Sampling Frame Bias
ㅇ 정의:
– 표본 추출 틀(Sampling Frame)이 모집단을 정확히 반영하지 못해 발생하는 편향.
ㅇ 특징:
– 모집단 일부가 표본 추출 대상에서 아예 제외되거나, 과대/과소 대표됨.
– 온라인 설문, 전화 조사 등에서 빈번히 발생.
ㅇ 적합한 경우:
– 의도적으로 발생시키는 경우는 없으며, 표본 설계 시 주의해야 함.
ㅇ 시험 함정:
– ‘표본 추출 틀은 모집단과 동일해야 한다’는 O.
– ‘표본 추출 틀에 포함되지 않은 집단은 분석에 영향을 주지 않는다’는 X.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “전화번호부를 표본 틀로 사용하면 휴대전화만 사용하는 사람은 제외될 수 있다.”
– X: “표본 틀에 포함되지 않은 집단은 결과 해석에 중요하지 않다.”
ㅁ 추가 학습 내용
Proxy Bias
– 대리 변수 탐지 기법: 상관분석, 주성분분석(PCA), 상호정보량(Mutual Information) 등을 활용하여 변수 간 관계를 분석하고, 민감 정보와 높은 상관을 가지는 변수를 식별
– 법적 이슈: GDPR 등 개인정보 보호 규제에서 대리 변수 사용 시 발생할 수 있는 법적 문제와 규제 준수 방안 이해
Measurement Error
– 오차 모델링 기법:
• Classical Measurement Error Model – 관측값이 실제값에 무작위 오차가 더해진 형태로 나타나는 모델
• Berkson Error Model – 실제값이 관측값에 무작위 오차가 더해진 형태로 나타나는 모델
– 보정 방법: 측정 장비나 절차의 정확도를 높이는 캘리브레이션, 동일 대상을 반복 측정하여 평균값을 사용하거나 오차 특성을 추정하는 방법
Sampling Frame Bias
– 표본 설계와의 관계:
• 층화추출(Stratified Sampling) – 모집단을 동질적인 층으로 나누어 표본 추출
• 가중치 부여(Weighting) – 표본과 모집단의 분포 차이를 보정
• 사후층화(Post-stratification) – 조사 후 표본을 층으로 나누고 가중치를 조정
– 실제 조사 사례: 전화조사에서 유선전화만 사용하는 경우 휴대전화 사용자나 특정 연령층이 누락되어 발생하는 커버리지 문제