데이터 전처리: 라벨링 기술 – 데이터 검수
ㅁ 라벨링 기술
ㅇ 정의:
데이터 검수는 라벨링이 완료된 데이터셋의 품질을 보장하기 위해 오류, 불일치, 누락 등을 점검하고 수정하는 절차를 의미한다.
ㅇ 특징:
– 라벨링 품질을 높이기 위해 다수의 검수자 또는 자동화 검수 도구를 활용
– 샘플링 검수, 전수 검수, 교차 검수 등 다양한 방식 존재
– 검수 기준(정확도, 일관성, 완전성 등)을 사전에 정의
– 도메인 지식이 있는 검수자가 필요할 수 있음
ㅇ 적합한 경우:
– 대규모 라벨링 프로젝트에서 데이터 품질 확보가 중요한 경우
– 머신러닝 모델 학습 전 데이터셋의 신뢰성을 높이고자 하는 경우
– 외부 라벨링 업체나 크라우드소싱 작업물의 품질을 검증해야 하는 경우
ㅇ 시험 함정:
– 검수는 라벨링과 동일한 과정이 아님 (라벨링은 데이터에 태그를 부여, 검수는 품질 확인)
– 무조건 전수검수가 효율적이라는 오답 유도 가능 (실제는 비용/시간 고려 필요)
– 자동화 검수만으로 모든 오류를 잡을 수 있다는 표현은 틀림
ㅇ 시험 대비 “패턴 보기” 예시:
O: 데이터 검수는 라벨링 데이터의 정확성과 일관성을 확인하는 절차이다.
X: 데이터 검수는 라벨링 작업과 동일한 의미를 가진다.
X: 데이터 검수는 항상 전수 검수를 통해서만 진행해야 한다.
O: 데이터 검수에는 샘플링 검수 방식이 포함될 수 있다.
ㅁ 추가 학습 내용
데이터 검수 관련 시험 대비 정리
1. 검수 프로세스 단계
– 기준 수립 → 샘플링 또는 전수 검수 → 오류 기록 → 수정 요청 및 재검수 → 최종 승인
2. 검수 품질 지표
– 정확도(Accuracy), 일관성(Consistency), 재현율(Recall), 정밀도(Precision) 등
– 모델 성능 지표 개념을 검수 품질 평가에도 적용 가능
3. 도구 활용
– 자동화 검수 도구: 스펠체크, 규칙 기반 검증, 이미지 라벨 좌표 검증 등
– 인공지능 기반 품질 검사 기술 활용 가능
4. 검수 인력 관리
– 다수 검수자 참여 시 인터레이터 일치도 측정 필요
– 대표 지표: Cohen’s Kappa
5. 품질 보증(QA)와의 차이
– QA: 전체 프로젝트의 품질 관리
– 검수: 데이터셋 품질 확인에 초점
6. 시험 출제 가능 포인트
– 샘플링 검수와 전수 검수 방식 비교 및 장단점
– 자동화 검수의 한계
– 도메인 전문가의 필요성