데이터 전처리: 라벨링 방법
ㅁ 라벨링 방법
ㅇ 정의:
데이터에 의미 있는 태그나 클래스를 부여하는 절차로, 모델 학습을 위해 입력 데이터와 정답(label)을 매핑하는 과정.
ㅇ 특징:
데이터 품질과 모델 성능에 직접적인 영향을 미치며, 라벨링 방법에 따라 비용, 시간, 정확도가 달라짐.
ㅇ 적합한 경우:
데이터셋 구축 초기 단계, 모델 성능 향상을 위해 정확한 정답 데이터가 필요한 경우.
ㅇ 시험 함정:
라벨링 방법 선택 시 데이터 특성과 프로젝트 목적을 고려하지 않으면 오히려 모델 성능 저하.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “라벨링 방법은 데이터 특성과 예산에 따라 선택해야 한다.”
X: “라벨링 방법은 항상 자동화가 가장 좋다.”
================================
1. 수동 라벨링
ㅇ 정의:
사람이 직접 데이터를 보고 정답 라벨을 부여하는 방식.
ㅇ 특징:
높은 정확도, 시간이 오래 걸리고 비용이 높음, 도메인 전문가 필요.
ㅇ 적합한 경우:
데이터셋 규모가 작거나, 고도의 전문 지식이 필요한 경우.
ㅇ 시험 함정:
무조건 수동 라벨링이 최고라고 생각하면 오답. 대규모 데이터에는 비효율적.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “수동 라벨링은 전문 지식이 필요한 소규모 데이터셋에 적합하다.”
X: “수동 라벨링은 항상 대규모 데이터에 적합하다.”
================================
2. 액티브 러닝
ㅇ 정의:
모델이 학습 중 불확실성이 높은 데이터를 선택하여 사람이 라벨링하는 방식.
ㅇ 특징:
라벨링 효율성 향상, 필요한 데이터만 라벨링하여 비용 절감, 반복적 학습 과정.
ㅇ 적합한 경우:
라벨링 예산이 제한적이거나, 데이터가 방대하지만 일부만 라벨링해도 되는 경우.
ㅇ 시험 함정:
액티브 러닝은 항상 모델 성능을 보장하지 않음. 초기 모델 품질이 낮으면 선택 데이터 품질이 떨어질 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “액티브 러닝은 불확실성이 높은 샘플을 우선 라벨링한다.”
X: “액티브 러닝은 모든 데이터를 자동으로 라벨링한다.”
================================
3. 자기지도학습
ㅇ 정의:
라벨이 없는 데이터를 활용하여, 데이터 자체에서 생성한 의사 라벨을 기반으로 학습하는 방법.
ㅇ 특징:
대규모 비라벨 데이터 활용 가능, 라벨링 비용 절감, 사전학습(pretraining)에 활용.
ㅇ 적합한 경우:
라벨 데이터가 부족하고, 대량의 비라벨 데이터가 존재하는 경우.
ㅇ 시험 함정:
자기지도학습이 항상 지도학습보다 성능이 높다고 생각하면 오답. 데이터 품질에 따라 성능 변동.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “자기지도학습은 라벨이 없는 데이터에서 의사 라벨을 생성한다.”
X: “자기지도학습은 반드시 라벨이 있는 데이터로만 학습한다.”
================================
4. 크라우드소싱
ㅇ 정의:
온라인 플랫폼을 통해 다수의 비전문가가 라벨링에 참여하는 방식.
ㅇ 특징:
빠른 라벨링, 저비용, 품질 편차가 큼, 품질 관리 필요.
ㅇ 적합한 경우:
대규모 데이터셋 라벨링, 전문성이 낮은 태스크.
ㅇ 시험 함정:
크라우드소싱이 항상 저렴하고 품질이 좋은 것은 아님. 검증 절차 필수.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “크라우드소싱은 대규모 데이터 라벨링에 유리하지만 품질 관리가 필요하다.”
X: “크라우드소싱은 품질 관리가 필요 없다.”
ㅁ 추가 학습 내용
[정리]
시험 대비를 위해 다음 내용을 체계적으로 학습해야 함.
1. 라벨링 방법별 비교
– 항목: 정확도, 비용, 속도, 필요 전문성, 품질 변동성
– 각 라벨링 방법(전문가 라벨링, 크라우드소싱, 반자동 라벨링, 자기지도학습 등)의 장단점을 표로 정리
– 선택형 문제에서 헷갈리지 않도록 특징 키워드 숙지
2. 액티브 러닝의 불확실성 측정 방법
– 엔트로피(Entropy): 예측 확률 분포의 불확실성 측정
– 마진 샘플링(Margin Sampling): 가장 가능성 높은 두 클래스 확률 차이 기반
– 기타 불확실성 기반 샘플 선택 기법 이해
3. 자기지도학습(Self-supervised Learning) 대표 기법
– BERT: 마스크드 언어 모델, NLP 분야
– SimCLR: 대조 학습 기반, 이미지 분야
– 각각의 학습 방식과 특징, 적용 분야 구분
4. 크라우드소싱 품질 관리 기법
– 다수결(Majority Voting): 여러 작업자의 응답 중 다수 선택
– 골드 스탠다드 검증(Gold Standard Verification): 정답이 알려진 데이터로 작업자 품질 평가
– 품질 관리의 필요성과 한계 인식
[시험 대비 체크리스트]
– [ ] 라벨링 방법별 정확도, 비용, 속도, 필요 전문성, 품질 변동성 비교표 완성
– [ ] 각 라벨링 방법의 장점과 단점 키워드 암기
– [ ] 엔트로피와 마진 샘플링의 정의와 차이 설명 가능
– [ ] BERT와 SimCLR의 학습 방식과 적용 분야 구분 가능
– [ ] 다수결과 골드 스탠다드 검증의 원리와 장단점 숙지
– [ ] 각 개념에 대한 예시를 최소 1개씩 준비