데이터 전처리: 라벨링 방법 – 액티브 러닝
ㅁ 라벨링 방법
1. 액티브 러닝
ㅇ 정의:
– 머신러닝 모델이 학습 과정에서 스스로 가장 정보 가치가 높은 데이터를 선택하여 사람(전문가)에게 라벨링을 요청하는 방법.
– 전체 데이터 중 일부만 라벨링하여도 높은 성능을 목표로 함.
ㅇ 특징:
– 라벨링 비용 절감 가능.
– 모델이 불확실성이 높은 표본을 우선 선택.
– 반복적인 학습-선택-라벨링 과정으로 성능 향상.
– 초기 모델 성능이 낮으면 선택 데이터 품질이 떨어질 수 있음.
ㅇ 적합한 경우:
– 라벨링 비용이 높거나 시간이 많이 소요되는 경우.
– 데이터가 방대하나 전부 라벨링하기 어려운 경우.
– 전문가 라벨이 필요한 특수 도메인(의료 영상, 법률 문서 등).
ㅇ 시험 함정:
– 액티브 러닝은 ‘자동 라벨링’이 아님 → 사람이 라벨링 필요.
– 무작위 샘플링과 혼동 유발.
– ‘모델이 모든 데이터를 라벨링한다’는 설명은 틀림.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “액티브 러닝은 모델이 불확실성이 높은 데이터를 선택하여 사람에게 라벨링을 요청한다.”
– X: “액티브 러닝은 전 과정을 자동으로 라벨링하여 사람의 개입이 필요 없다.”
– X: “액티브 러닝은 무작위로 데이터를 선택하여 라벨링한다.”
ㅁ 추가 학습 내용
액티브 러닝의 주요 쿼리 전략
– Uncertainty Sampling: 모델이 가장 불확실하게 예측하는 샘플을 선택하여 라벨링
– Query-by-Committee: 서로 다른 모델(위원회)이 의견이 가장 불일치하는 샘플을 선택
– Expected Model Change: 특정 샘플을 라벨링했을 때 모델 파라미터 변화가 가장 큰 샘플 선택
액티브 러닝의 방식 차이
– 풀 기반(Pool-based): 대량의 비라벨 데이터 풀에서 선택적으로 샘플을 라벨링
– 스트림 기반(Stream-based): 데이터가 순차적으로 들어올 때, 각 샘플을 라벨링할지 즉시 결정
– 멀티플 인스턴스(Multi-instance): 인스턴스들이 묶인 ‘가방(bag)’ 단위로 라벨을 부여하며 학습
불확실성 측정 방법
– 엔트로피(Entropy): 예측 확률 분포의 불확실성 정도 측정
– 마진 샘플링(Margin Sampling): 가장 높은 예측 확률과 두 번째로 높은 확률의 차이가 작은 샘플 선택
실제 적용 사례
– 의료 영상 분류: 라벨링 비용이 높은 의료 이미지에서 효율적 데이터 선택
– 음성 인식 데이터셋 구축: 방대한 음성 데이터 중 학습 효과가 높은 샘플 우선 라벨링
준지도학습과의 비교
– 액티브 러닝: 어떤 데이터를 라벨링할지 선택하여 라벨 효율성 극대화
– 준지도학습: 라벨이 없는 데이터를 활용하여 모델 성능 향상
라벨링 효율성 평가 지표
– 학습 곡선(Learning Curve): 라벨 수에 따른 성능 변화 시각화
– 라벨당 성능 향상률: 추가된 라벨이 성능 향상에 기여한 정도를 수치화