데이터 전처리: 데이터 편향 감소 방안
ㅁ 데이터 편향 감소 방안
1. 다양한 인구 집단
ㅇ 정의:
데이터 수집 시 연령, 성별, 인종, 지역, 사회경제적 배경 등 다양한 인구 통계학적 특성을 포함하도록 하는 방법.
ㅇ 특징:
모집단의 대표성을 높이고, 특정 집단에 대한 과대·과소 대표를 방지함.
ㅇ 적합한 경우:
예측 모델이 다양한 사용자 그룹에 적용되어야 하는 경우(예: 의료 진단, 공공 서비스).
ㅇ 시험 함정:
단순히 데이터 양을 늘리는 것이 아니라, 다양한 특성을 균형 있게 포함하는 것이 핵심임.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “연령, 성별, 지역 등 다양한 특성을 반영한 데이터 수집은 편향을 줄이는 데 도움이 된다.”
– X: “데이터 수집 시 특정 다수 집단만 포함해도 편향이 줄어든다.”
================================
2. 소수 그룹 재샘플링
ㅇ 정의:
데이터에서 소수 집단의 비율을 인위적으로 높이거나 낮춰 균형을 맞추는 기법(오버샘플링, 언더샘플링 등).
ㅇ 특징:
학습 데이터의 클래스 불균형을 완화해 모델이 소수 집단 패턴을 학습할 기회를 제공.
ㅇ 적합한 경우:
소수 집단 데이터가 부족해 모델이 해당 집단을 제대로 예측하지 못하는 경우.
ㅇ 시험 함정:
무분별한 오버샘플링은 과적합(overfitting)을 유발할 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “소수 집단의 데이터를 복제하여 학습 데이터의 균형을 맞출 수 있다.”
– X: “소수 집단의 데이터를 제거하면 예측 성능이 향상된다.”
================================
3. 도메인 전문가 의견
ㅇ 정의:
데이터 수집, 전처리, 라벨링 과정에서 해당 분야 전문가의 지식을 반영하여 편향을 줄이는 방법.
ㅇ 특징:
단순 통계적 접근이 아닌, 맥락적 이해를 기반으로 데이터 품질과 대표성을 높임.
ㅇ 적합한 경우:
복잡한 사회·문화적 맥락이 중요한 데이터셋(예: 법률, 의료, 사회 조사).
ㅇ 시험 함정:
전문가 의견이 항상 객관적이라는 보장은 없으므로, 다수 전문가의 교차 검증이 필요함.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “전문가의 피드백을 반영하여 데이터 라벨링 기준을 조정할 수 있다.”
– X: “전문가 의견은 데이터 편향과 무관하다.”
================================
4. 편향 감지 및 조정
ㅇ 정의:
데이터 또는 모델 예측 결과에서 편향을 측정하고, 이를 수정하는 알고리즘적 기법 적용.
ㅇ 특징:
사후 분석을 통해 편향을 수치화하고, 공정성 지표 기반 조정(Fairness metrics, reweighting 등)을 수행.
ㅇ 적합한 경우:
데이터 수집 단계에서 완벽한 대표성을 확보하기 어려운 경우.
ㅇ 시험 함정:
편향 감지는 단일 지표로 판단하기 어려우며, 여러 공정성 지표를 함께 고려해야 함.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “모델 예측 결과의 그룹별 정확도를 비교하여 편향을 감지할 수 있다.”
– X: “편향 조정은 데이터 수집 단계에서만 가능하다.”
ㅁ 추가 학습 내용
편향 감소 기법의 장단점과 적용 시 주의사항을 비교할 수 있어야 한다.
다양한 인구 집단 확보는 데이터 수집 단계에서 효과적이지만, 현실적으로 모든 집단을 균등하게 포함하기 어렵다.
소수 그룹 재샘플링은 데이터 불균형 해소에 유용하나 과적합 위험이 있으며, SMOTE와 같은 합성 데이터 생성 기법도 함께 학습해야 한다.
도메인 전문가 의견은 질적 편향 완화에 강점이 있지만, 전문가 간 의견 불일치 가능성을 고려해야 한다.
편향 감지 및 조정에서는 Demographic Parity, Equalized Odds, Disparate Impact 등 주요 공정성 지표와 이를 활용한 알고리즘적 조정 방법을 숙지해야 한다.
편향 감소와 정확도 향상의 관계를 혼동하지 않도록 주의해야 하며, 편향 감소가 반드시 전체 정확도 향상을 의미하지 않는다는 점을 명확히 이해해야 한다.