데이터: 결측치 및 이상치 – Inter-annotator agreement
ㅁ 결측치 및 이상치
ㅇ 정의:
여러 명의 주석자(annotator)가 동일한 데이터에 대해 라벨링 작업을 수행했을 때, 그 결과의 일관성을 수치로 나타낸 것. 주로 데이터 라벨링 품질 관리 및 신뢰성 검증에 사용됨.
ㅇ 특징:
– Cohen’s Kappa, Fleiss’ Kappa, Krippendorff’s Alpha 등의 지표 사용
– 1에 가까울수록 높은 합의, 0에 가까울수록 우연 수준의 일치
– 주관적 판단이 필요한 데이터셋에서 중요
– 라벨 불균형이 심하면 지표 해석에 주의 필요
ㅇ 적합한 경우:
– 감성 분석, 이미지 분류, 의학 영상 판독 등 주관적 판단이 개입되는 라벨링 작업
– 다수의 주석자가 동일 데이터셋을 라벨링한 경우 품질 점검
ㅇ 시험 함정:
– 단순 정확도(percentage agreement)와 혼동
– Kappa 계수 해석 시 0.8 이상이면 거의 완벽한 합의, 0.6~0.8은 상당한 합의, 0.4~0.6은 보통 수준
– 주석자 수에 따라 적용 가능한 지표가 다름 (예: Cohen’s Kappa는 2명, Fleiss’ Kappa는 3명 이상)
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Cohen’s Kappa는 두 명의 주석자 간 합의를 측정하는 데 사용된다.”
X: “Fleiss’ Kappa는 항상 두 명의 주석자만을 대상으로 한다.”
ㅁ 추가 학습 내용
Inter-annotator agreement 학습 정리
Cohen’s Kappa: κ = (Po – Pe) / (1 – Pe) 공식 사용. Po는 관측 일치율, Pe는 기대 일치율. 주석자 2명일 때 사용.
Fleiss’ Kappa: 주석자가 3명 이상일 때 사용. 각 항목별 평균 일치율을 기반으로 계산.
Krippendorff’s Alpha: 결측치가 있는 데이터나 명목, 서열, 구간, 비율 등 다양한 척도에 적용 가능.
높은 agreement가 항상 좋은 것은 아니며, 낮은 경우 원인으로 주석자 교육 부족, 라벨 정의 모호성 등이 있음.
데이터 라벨링 품질 관리 프로세스: 주석자 교육 → 시범 라벨링 → 합의율 측정 → 기준 미달 시 재교육.
시험에서는 agreement 지표의 종류, 적용 조건, 해석 기준을 비교하는 문제가 자주 출제됨.