AI: 편향 및 공정성
ㅁ 편향 및 공정성
1. Proxy Bias
ㅇ 정의:
– 분석에 사용되는 변수가 실제로 측정하려는 개념을 직접적으로 나타내지 않고, 다른 변수(프록시)를 통해 간접적으로 나타내는 경우 발생하는 편향.
– 예: ‘우편번호’를 소득 수준의 대리 변수로 사용 시, 인종·지역적 편향이 내포될 수 있음.
ㅇ 특징:
– 프록시 변수는 측정이 용이하지만, 대상 개념과 완벽히 일치하지 않음.
– 숨겨진 사회적·문화적 불평등이 모델에 반영될 수 있음.
– 데이터 전처리 단계에서 발견이 어려움.
ㅇ 적합한 경우:
– 직접 측정이 불가능하거나 비용이 너무 높은 경우에만 제한적으로 사용.
ㅇ 시험 함정:
– 프록시 변수가 항상 나쁘다고 단정하는 것은 오답.
– 프록시 변수 사용 시, 편향 가능성과 영향 분석을 반드시 수행해야 함.
ㅇ 시험 대비 “패턴 보기” 예시:
– (O) 우편번호를 소득 수준의 대리 변수로 사용할 경우, 인종적 편향이 모델에 반영될 수 있다.
– (X) 프록시 변수는 편향을 유발하지 않는다.
================
2. Measurement Error
ㅇ 정의:
– 데이터 수집 과정에서 실제 값과 측정된 값 간의 차이로 인해 발생하는 오류.
– 예: 센서 오작동, 설문 응답자의 기억 오류 등.
ㅇ 특징:
– 체계적 오차(Systematic Error)와 무작위 오차(Random Error)로 구분됨.
– 체계적 오차는 편향을 유발, 무작위 오차는 분산을 증가시킴.
– 데이터 품질 저하의 주요 원인.
ㅇ 적합한 경우:
– 측정 오류 자체는 적합한 경우가 없으나, 허용 가능한 범위 내에서 분석 가능.
ㅇ 시험 함정:
– 무작위 오차는 편향을 유발하지 않는다는 점을 혼동하기 쉬움.
– 측정 오류가 항상 무작위라는 것은 오답.
ㅇ 시험 대비 “패턴 보기” 예시:
– (O) 체계적 측정 오류는 예측 모델에서 지속적인 편향을 발생시킬 수 있다.
– (X) 모든 측정 오류는 무작위적이다.
================
3. Sampling Frame Bias
ㅇ 정의:
– 표본 추출 시 모집단 전체를 대표하지 못하는 표본 틀(Sampling Frame) 사용으로 발생하는 편향.
– 예: 인터넷 설문조사에서 인터넷 사용자가 아닌 인구는 제외됨.
ㅇ 특징:
– 표본 틀과 모집단 간 불일치로 인해 특정 그룹이 과소·과대 대표됨.
– 비확률 표본 추출에서 빈번히 발생.
– 데이터 수집 설계 단계에서 방지해야 함.
ㅇ 적합한 경우:
– 특정 집단을 의도적으로 연구할 때만 제한적으로 허용.
ㅇ 시험 함정:
– 단순 표본 수 부족과 혼동하기 쉬움.
– 표본 틀 정의가 잘못되면 표본 수를 늘려도 편향이 해소되지 않음.
ㅇ 시험 대비 “패턴 보기” 예시:
– (O) 표본 틀에 포함되지 않은 모집단 구성원은 조사에서 제외된다.
– (X) 표본 수를 늘리면 Sampling Frame Bias는 자동으로 사라진다.
ㅁ 추가 학습 내용
Proxy Bias는 프록시 변수를 선정할 때 단순한 상관관계와 실제 인과관계를 구분하는 것이 중요하다. 특히 사회경제적 변수는 역사적 차별 구조를 반영할 수 있으므로 주의가 필요하다.
Measurement Error에서는 정밀도(Precision)와 정확도(Accuracy)의 차이를 이해해야 하며, 보정(calibration) 기법과 반복 측정을 통해 오차가 감소하는지 여부를 학습해야 한다.
Sampling Frame Bias는 커버리지 오류(coverage error)와의 관계를 파악하고, 무응답 편향(nonresponse bias)과 구분할 수 있어야 한다. 또한 표본 틀을 개선하는 방법으로 다중 프레임 샘플링 등의 기법을 이해하는 것이 필요하다.