편향 및 공정성: Proxy Bias
ㅁ 편향 및 공정성
ㅇ 정의:
– 편향 및 공정성은 데이터 또는 알고리즘이 특정 그룹에 대해 불공정하거나 왜곡된 결과를 초래하는 문제를 다루는 개념이다.
ㅇ 특징:
– 데이터 수집 및 처리 과정에서 발생할 수 있는 다양한 편향 유형을 포함한다.
– 공정성은 다양한 이해관계자의 관점에서 정의될 수 있다.
ㅇ 적합한 경우:
– 알고리즘의 공정성을 평가하거나 민감한 데이터 처리를 다룰 때.
ㅇ 시험 함정:
– 편향과 공정성을 혼용하여 정의하거나, 사례를 잘못 연결하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “데이터 편향은 알고리즘 성능에 영향을 미칠 수 있다.”
– X: “공정성은 항상 수학적으로 정의 가능하다.”
================================
1. Proxy Bias
ㅇ 정의:
– Proxy Bias는 모델이 명시적으로 사용되지 않은 민감한 특성을 암묵적으로 대리하는 변수(Proxy)를 통해 학습하여 편향된 결과를 초래하는 현상이다.
ㅇ 특징:
– 민감한 특성을 직접적으로 사용하지 않더라도, 관련된 변수들이 모델에 영향을 줄 수 있다.
– 데이터 전처리 과정에서 발견하기 어려운 경우가 많다.
ㅇ 적합한 경우:
– 민감한 속성을 제거했음에도 불구하고 공정성 문제를 발견한 경우.
ㅇ 시험 함정:
– Proxy 변수와 민감한 특성 간의 관계를 명확히 이해하지 못하거나, 잘못된 예시를 사용하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Proxy Bias는 민감한 특성을 직접 사용하지 않더라도 발생할 수 있다.”
– X: “Proxy Bias는 민감한 특성이 포함된 데이터에서만 발생한다.”
ㅁ 추가 학습 내용
Proxy Bias와 관련된 학습 내용을 정리하면 다음과 같습니다:
1. 대리 변수(Proxy Variable)의 정의와 식별 방법
– 대리 변수란 분석 대상이 되는 주요 변수 대신 이를 간접적으로 나타내는 데 사용되는 변수입니다.
– 식별 방법: 대리 변수가 주요 변수와 높은 상관관계를 가지면서도 주요 변수를 직접적으로 포함하지 않는지 확인합니다. 데이터 분석 과정에서 변수 간 연관성을 통계적으로 검토하거나, 도메인 지식을 활용하여 대리 변수를 식별할 수 있습니다.
2. Proxy Bias의 발생을 줄이기 위한 방법
– 데이터 전처리: 모델 학습 전에 데이터에서 민감한 특성과 관련된 대리 변수를 식별하고 제거하거나 조정합니다.
– 민감한 특성 제거: 모델 학습 시 성별, 인종, 나이 등 민감한 특성을 직접적으로 사용하지 않도록 합니다.
– 공정성 지표 활용: 모델의 결과가 특정 집단에 불리하지 않도록 공정성 지표를 사용하여 결과를 평가합니다.
3. 공정성 지표(Fairness Metrics)
– 공정성 지표는 모델이 특정 집단에 대해 공정하게 작동하는지 평가하는 기준입니다.
– 예시:
– Demographic Parity: 모든 집단에 대해 동일한 긍정 결과 비율을 보장.
– Equal Opportunity: 특정 집단에 대해 동일한 True Positive Rate을 보장.
– Equalized Odds: 모든 집단에 대해 동일한 False Positive Rate과 True Positive Rate을 보장.
4. Bias Mitigation Techniques(편향 완화 기법)
– 편향 완화 기법은 모델이 특정 집단에 대해 편향되지 않도록 설계하거나 조정하는 방법입니다.
– 데이터 수준에서의 기법:
– 데이터 균형화: 데이터셋에서 특정 집단의 비율을 조정하여 균형을 맞춤.
– 데이터 증강: 소수 집단 데이터를 증강하거나 추가하여 대표성을 높임.
– 알고리즘 수준에서의 기법:
– Regularization: 모델 학습 시 민감한 특성에 대한 편향을 줄이도록 제약을 추가.
– Adversarial Training: 민감한 특성을 예측하지 못하도록 모델을 훈련.
– 결과 수준에서의 기법:
– Post-processing: 모델의 예측 결과를 조정하여 공정성을 확보.
Proxy Bias와 관련된 개념과 이를 줄이기 위한 방법을 충분히 숙지하여 시험 대비에 활용하세요.