데이터 전처리: 라벨링 기술

ㅁ 라벨링 기술

ㅇ 정의:
데이터 라벨링 기술은 원본 데이터에 의미 있는 태그나 클래스를 부여하여 머신러닝 학습이 가능하도록 만드는 방법론을 의미함.

ㅇ 특징:
데이터 품질과 모델 성능에 직접적인 영향을 미치며, 다양한 방식(수동, 반자동, 자동, 크라우드소싱 등)이 존재함.

ㅇ 적합한 경우:
모델 학습용 데이터셋 제작, 데이터 정제, 품질 검증이 필요한 경우.

ㅇ 시험 함정:
라벨링 기술은 데이터 수집과 동일하다고 혼동하는 경우가 있음(수집은 데이터 확보, 라벨링은 의미 부여).

ㅇ 시험 대비 “패턴 보기” 예시:
O: “라벨링은 데이터에 의미 있는 태그를 부여하는 과정이다.”
X: “라벨링은 데이터 자체를 생성하는 과정이다.”

================================

1. 수동 레이블링

ㅇ 정의:
사람이 직접 데이터를 보고 적절한 라벨을 부여하는 방식.

ㅇ 특징:
정확도가 높으나 시간과 비용이 많이 소요됨. 전문 지식이 필요한 경우가 많음.

ㅇ 적합한 경우:
복잡하거나 모호한 데이터, 도메인 지식이 중요한 경우.

ㅇ 시험 함정:
수동 레이블링이 항상 최선이라고 착각하는 경우. 대규모 데이터에는 비효율적임.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “수동 레이블링은 정확하지만 비용이 많이 든다.”
X: “수동 레이블링은 항상 가장 효율적인 방법이다.”

================================

2. Active Learning

ㅇ 정의:
모델이 학습 중 불확실성이 높은 데이터를 선별하여 사람에게 라벨링을 요청하는 반자동 학습 기법.

ㅇ 특징:
라벨링 비용을 줄이고 학습 효율을 높임. 불확실성 샘플링, 위원회 쿼리 등 전략이 있음.

ㅇ 적합한 경우:
라벨링 비용이 높고 데이터가 방대할 때, 빠른 모델 개선이 필요할 때.

ㅇ 시험 함정:
Active Learning이 완전히 자동화된 라벨링이라고 오해하는 경우.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Active Learning은 불확실성이 높은 데이터를 우선 라벨링한다.”
X: “Active Learning은 사람이 전혀 개입하지 않는다.”

================================

3. 크라우드소싱

ㅇ 정의:
다수의 불특정 대중에게 온라인 플랫폼을 통해 라벨링 작업을 분산 수행시키는 방식.

ㅇ 특징:
빠른 라벨링 가능, 비용 절감 가능, 품질 편차가 발생할 수 있음.

ㅇ 적합한 경우:
대규모 데이터셋, 단순하고 명확한 라벨링 작업.

ㅇ 시험 함정:
크라우드소싱이 항상 품질이 높다고 착각하는 경우. 품질 관리 장치 필요.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “크라우드소싱은 대규모 데이터 라벨링에 유리하다.”
X: “크라우드소싱은 전문 지식이 필요한 데이터에도 항상 적합하다.”

================================

4. 데이터 검수

ㅇ 정의:
라벨링이 완료된 데이터의 품질을 검토하고 오류를 수정하는 과정.

ㅇ 특징:
데이터 일관성, 정확성을 확보. 샘플링 검수, 전수 검수 방식이 있음.

ㅇ 적합한 경우:
모델 학습 전 데이터 품질 보증이 필요한 경우.

ㅇ 시험 함정:
검수 과정을 생략해도 모델 성능에 영향이 없다고 생각하는 경우.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “데이터 검수는 라벨링 품질을 보장한다.”
X: “데이터 검수는 라벨링 과정과 동일하다.”

ㅁ 추가 학습 내용

[학습 정리]
1. 반자동 라벨링 기법
– Active Learning: 모델이 불확실성이 높은 데이터에 대해 라벨 요청
– Semi-supervised Learning: 일부 라벨 데이터와 대량의 비라벨 데이터를 함께 학습
– Transfer Learning 기반 라벨링: 사전 학습된 모델을 활용하여 라벨 예측 후 검수

2. 품질 관리 기법
– Inter-annotator agreement(IAA) 측정: 라벨러 간 일치도 평가 (예: Cohen’s Kappa)
– 다수결 투표: 여러 라벨러의 결과 중 다수 의견 채택
– 골든셋(Golden set) 활용: 정답이 확실한 데이터로 라벨링 품질 검증

3. 크라우드소싱 플랫폼 예시
– Amazon Mechanical Turk: 대규모 인력, 빠른 수행 가능 / 품질 편차 가능성
– CrowdFlower(현 Figure Eight): 품질 관리 기능 강화 / 비용이 상대적으로 높음

4. 데이터 검수 관련
– 통계적 샘플링 방법: 모집단에서 일부 샘플 추출해 품질 확인
– 허용 오차 개념: 샘플 결과와 모집단 실제 값의 차이를 허용하는 범위

5. 시험 출제 경향
– 라벨링 방식의 장단점 비교
– 각 방식의 적합한 적용 사례 제시
– 비용과 정확도의 트레이드오프 분석

[시험 대비 체크리스트]
□ Active Learning, Semi-supervised Learning, Transfer Learning 기반 라벨링의 정의와 차이점 설명 가능
□ IAA 측정 방법과 의미 이해
□ 다수결 투표와 골든셋 활용 목적과 절차 설명 가능
□ Amazon Mechanical Turk와 CrowdFlower의 특징, 장단점 비교 가능
□ 통계적 샘플링 방법의 종류와 절차 숙지
□ 허용 오차의 개념과 계산 예시 설명 가능
□ 라벨링 방식별 장단점과 적용 사례를 구체적으로 제시 가능
□ 비용-정확도 트레이드오프 개념과 예시 설명 가능

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*