데이터 전처리: 라벨링 기술
ㅁ 라벨링 기술
1. 수동 레이블링
ㅇ 정의:
사람이 직접 데이터를 보고 라벨을 부여하는 방식.
ㅇ 특징:
정확도가 높지만 시간과 비용이 많이 소요됨. 대규모 데이터셋에는 비효율적.
ㅇ 적합한 경우:
데이터 양이 적거나 고도의 전문 지식이 필요한 경우.
ㅇ 시험 함정:
‘수동 레이블링은 항상 대규모 데이터에 적합하다’ → X, ‘전문가가 참여하면 정확도가 높아진다’ → O
ㅇ 시험 대비 “패턴 보기” 예시:
– “수동 레이블링은 데이터 품질 확보에 유리하다” (O)
– “수동 레이블링은 자동화된 기법보다 항상 빠르다” (X)
================
2. Active Learning
ㅇ 정의:
모델이 학습 중 불확실성이 높은 데이터를 선택하여 라벨링을 요청하는 기법.
ㅇ 특징:
라벨링 비용 절감 가능, 모델 성능을 빠르게 향상시킬 수 있음.
ㅇ 적합한 경우:
라벨링 비용이 높고 모든 데이터를 라벨링하기 어려운 경우.
ㅇ 시험 함정:
‘Active Learning은 모든 데이터를 무작위로 선택한다’ → X, ‘모델이 어려워하는 데이터를 우선 라벨링한다’ → O
ㅇ 시험 대비 “패턴 보기” 예시:
– “Active Learning은 불확실성이 높은 데이터를 우선 라벨링한다” (O)
– “Active Learning은 라벨링 비용을 증가시킨다” (X)
================
3. 크라우드소싱
ㅇ 정의:
온라인 플랫폼을 통해 다수의 비전문가가 라벨링 작업을 수행하는 방식.
ㅇ 특징:
빠른 처리 속도, 낮은 단가, 품질 관리 필요.
ㅇ 적합한 경우:
대규모 데이터셋, 단순한 라벨링 작업.
ㅇ 시험 함정:
‘크라우드소싱은 항상 데이터 품질이 높다’ → X, ‘품질 검수 절차가 필요하다’ → O
ㅇ 시험 대비 “패턴 보기” 예시:
– “크라우드소싱은 대규모 데이터 라벨링에 효율적이다” (O)
– “크라우드소싱은 품질 검수가 불필요하다” (X)
================
4. 데이터 검수
ㅇ 정의:
라벨링된 데이터의 품질을 검증하고 오류를 수정하는 과정.
ㅇ 특징:
데이터 품질 향상, 라벨링 오류 감소, 추가 비용 발생.
ㅇ 적합한 경우:
모델 학습 전에 데이터 정확성을 보장해야 하는 경우.
ㅇ 시험 함정:
‘데이터 검수는 라벨링 과정과 무관하다’ → X, ‘검수를 통해 라벨링 오류를 줄일 수 있다’ → O
ㅇ 시험 대비 “패턴 보기” 예시:
– “데이터 검수는 모델 성능 향상에 기여한다” (O)
– “데이터 검수는 불필요한 절차이다” (X)
ㅁ 추가 학습 내용
라벨링 기술별 장단점 비교
수동 레이블링
– 장점: 높은 정확도, 도메인 지식 반영 가능
– 단점: 비용과 시간 소요가 큼, 대규모 데이터셋에 비효율적
Active Learning
– 장점: 적은 데이터로도 효율적인 학습 가능, 필요한 데이터만 선택적으로 라벨링
– 단점: 초기 모델이 필요, 쿼리 전략 설계가 복잡할 수 있음
크라우드소싱
– 장점: 빠른 라벨링, 대규모 데이터 처리 가능
– 단점: 라벨 품질 변동이 큼, 작업자 관리 필요
데이터 검수
– 장점: 라벨 품질 향상, 오류 데이터 제거 가능
– 단점: 추가 인력과 시간 소요
라벨링 품질 관리 기법
– 다중 라벨링 후 합의: 동일 데이터에 대해 여러 작업자 라벨링 후 다수결 또는 합의 방식으로 최종 결정
– 골드 스탠다드 데이터 활용: 정답이 확실한 데이터를 포함시켜 작업자 정확도 평가 및 품질 관리
– 샘플 검수 비율 설정: 전체 데이터 중 일정 비율을 표본 검수하여 품질 유지
Active Learning 주요 쿼리 전략
– Uncertainty Sampling: 모델이 가장 확신이 낮은 샘플을 선택하여 라벨링
– Query-by-Committee: 서로 다른 모델들이 의견이 가장 불일치하는 샘플을 선택
– Expected Model Change: 해당 샘플을 학습했을 때 모델이 가장 크게 변할 것으로 예상되는 데이터를 선택