데이터 전처리: 라벨링 방법
ㅁ 라벨링 방법
ㅇ 정의:
데이터에 의미 있는 태그나 클래스를 부여하는 다양한 방식으로, 모델 학습을 위한 정답 데이터를 생성하는 절차.
ㅇ 특징:
정확도, 비용, 속도, 확장성 측면에서 방식별로 차이가 있음.
ㅇ 적합한 경우:
데이터 특성, 예산, 인력, 프로젝트 기간에 따라 적절한 방법을 선택.
ㅇ 시험 함정:
라벨링 방법 간 장단점을 혼동하거나 특정 방법을 모든 상황에 적용 가능한 것으로 오해하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “대규모 데이터셋에 대해 비용 효율적으로 라벨링하려면 크라우드소싱이 적합하다.”
X: “수동 라벨링은 항상 가장 빠른 방법이다.”
================================
1. 수동 라벨링
ㅇ 정의:
사람이 직접 데이터를 보고 적절한 라벨을 부여하는 방식.
ㅇ 특징:
높은 정확도를 보장하지만 시간과 비용이 많이 소요됨.
ㅇ 적합한 경우:
데이터셋 규모가 작거나 높은 품질의 라벨이 필요한 경우.
ㅇ 시험 함정:
소규모 데이터에만 적합하다고 단정하거나, 대규모 데이터에 절대 사용 불가하다고 오해하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “수동 라벨링은 의료 영상과 같이 높은 정확도가 필요한 경우에 적합하다.”
X: “수동 라벨링은 항상 대규모 데이터셋에 적합하다.”
================================
2. 액티브 러닝
ㅇ 정의:
모델이 불확실성이 높은 샘플을 선택하여 사람에게 라벨링을 요청하는 학습 방식.
ㅇ 특징:
라벨링 비용을 줄이고 효율성을 높일 수 있음. 반복적인 학습과 라벨링 과정이 필요.
ㅇ 적합한 경우:
라벨링 비용이 높고 데이터가 방대하지만 일부만 라벨링해도 모델 성능을 높일 수 있는 경우.
ㅇ 시험 함정:
액티브 러닝이 항상 라벨링 품질을 높인다고 착각하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “액티브 러닝은 불확실성이 높은 데이터를 선별하여 라벨링하는 전략이다.”
X: “액티브 러닝은 모든 데이터를 무작위로 선택하여 라벨링한다.”
================================
3. 자기지도학습
ㅇ 정의:
라벨이 없는 데이터를 기반으로 사전학습(pretext task)을 수행한 후, 필요한 경우 소량의 라벨 데이터로 미세조정(fine-tuning)하는 방식.
ㅇ 특징:
대규모 비라벨 데이터 활용 가능, 라벨링 비용 절감, 사전학습 모델 재사용.
ㅇ 적합한 경우:
라벨 데이터가 부족하고 비라벨 데이터가 풍부한 경우.
ㅇ 시험 함정:
자기지도학습이 라벨링을 전혀 필요로 하지 않는다고 오해하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “자기지도학습은 비라벨 데이터에서 특징을 학습한 후 소량의 라벨 데이터로 모델을 조정한다.”
X: “자기지도학습은 라벨 데이터가 전혀 필요 없다.”
================================
4. 크라우드소싱
ㅇ 정의:
온라인 플랫폼을 통해 다수의 불특정 인원이 데이터를 라벨링하는 방식.
ㅇ 특징:
대규모 데이터 라벨링 가능, 비용 절감, 품질 관리 필요.
ㅇ 적합한 경우:
대규모 데이터셋, 비교적 단순한 라벨링 작업.
ㅇ 시험 함정:
크라우드소싱이 항상 고품질 라벨을 제공한다고 착각하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “크라우드소싱은 대규모 이미지 라벨링에 유용하다.”
X: “크라우드소싱은 품질 관리가 필요 없다.”
ㅁ 추가 학습 내용
하이브리드 라벨링
수동 라벨링, 자동 라벨링, 크라우드소싱을 혼합하여 효율성과 품질을 동시에 확보하는 방법을 의미한다. 수동 라벨링은 정확도가 높지만 시간이 많이 소요되며, 자동 라벨링은 속도는 빠르지만 오류 가능성이 있다. 크라우드소싱은 대규모 데이터 처리에 유리하나 품질 관리가 필요하다. 세 가지를 적절히 조합해 장점을 극대화하고 단점을 보완한다.
반지도학습과의 비교
반지도학습은 소량의 라벨 데이터와 대량의 비라벨 데이터를 함께 사용하는 학습 방식이다. 일부 데이터에 라벨을 부여해 모델을 학습시키고, 이를 통해 비라벨 데이터의 예측 라벨을 생성해 학습에 재활용한다. 자기지도학습은 데이터 자체의 구조나 특성을 활용해 학습 목표를 생성하는 방식으로, 라벨 없이 사전 학습을 수행하는 점이 다르다.
품질 관리 기법
크라우드소싱의 품질을 높이기 위해 다수결 투표를 사용하여 여러 작업자의 결과 중 가장 많이 선택된 라벨을 채택한다. 골든 세트는 정답이 이미 알려진 데이터 세트를 주기적으로 삽입해 작업자의 정확도를 평가하고 품질을 유지하는 방법이다.
라벨링 도구 및 플랫폼
Label Studio는 오픈소스 라벨링 툴로 다양한 데이터 형식을 지원한다. Amazon Mechanical Turk는 대규모 인력을 활용해 데이터 라벨링을 수행하는 대표적인 크라우드소싱 플랫폼이다. Figure Eight은 품질 관리 기능과 다양한 라벨링 워크플로를 제공하는 상용 플랫폼이다.
도메인 특화 라벨링 전략
의료 분야는 전문가의 참여와 높은 정확도가 필수이며, 개인정보 보호를 준수해야 한다. 자율주행 분야는 이미지와 센서 데이터를 정밀하게 라벨링해야 하며, 다양한 환경 조건을 반영해야 한다. 음성 인식 분야는 발음, 억양, 배경 소음 등 다양한 음성 특성을 고려한 라벨링이 필요하다.