데이터 전처리: 라벨링 기술 – Active Learning

ㅁ 라벨링 기술

ㅇ 정의:
기계 학습 모델이 학습할 데이터 중 불확실성이 높은 샘플을 우선적으로 선택하여 사람이 라벨링하는 기법으로, 라벨링 효율을 극대화하는 방법.

ㅇ 특징:
– 전체 데이터 중 일부만 라벨링하여도 모델 성능을 빠르게 향상 가능.
– 불확실성 측정(예: 예측 확률 분포의 엔트로피, 마진 샘플링)을 활용.
– 반복적 학습 주기를 통해 점진적 개선.

ㅇ 적합한 경우:
– 라벨링 비용이 매우 높은 경우(의료 영상, 법률 문서 등).
– 대규모 비라벨 데이터가 존재하나, 인력/시간이 제한적인 경우.

ㅇ 시험 함정:
– “Active Learning은 모든 데이터를 라벨링해야 한다” → X (일부만 라벨링)
– “Active Learning은 라벨링 순서를 무작위로 정한다” → X (불확실성 기반 선택)
– “Active Learning은 라벨링 비용 절감에 유리하다” → O

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “불확실성이 높은 데이터를 우선적으로 라벨링하여 효율성을 높인다.”
– X: “라벨링 순서는 무작위로 정하며, 모든 데이터를 반드시 라벨링한다.”

ㅁ 추가 학습 내용

Active Learning에서 자주 사용되는 샘플 선택 전략은 다음과 같다.
1. 불확실성 샘플링(Uncertainty Sampling): 모델이 가장 확신이 낮은 샘플을 선택하여 라벨링하는 방식. 불확실성 측정 방법으로 엔트로피, 마진(가장 가능성이 높은 두 클래스 간의 확률 차이), 최소 신뢰도(가장 높은 클래스 확률의 역수)가 있다.
2. 위원회 쿼리(Query-by-Committee): 서로 다른 모델들(위원회)이 동일 샘플에 대해 예측한 결과의 불일치를 측정하여 불일치가 큰 샘플을 선택한다.
3. 예상 모델 변화(Expected Model Change): 특정 샘플의 라벨을 알게 되었을 때 모델의 파라미터 변화가 클 것으로 예상되는 샘플을 선택한다.

Active Learning과 Semi-supervised Learning의 차이점은 다음과 같다.
– Active Learning은 학습 과정에서 주기적으로 사람(전문가)이 개입하여 선택된 샘플에 라벨을 부여한다.
– Semi-supervised Learning은 라벨이 없는 데이터와 있는 데이터를 함께 사용하여 모델이 스스로 학습하며, 사람의 개입이 필수적이지 않다.

Active Learning 구현 시 유의할 점은 다음과 같다.
– 모델의 예측 확률을 기반으로 불확실성을 계산하는 방법을 숙지해야 한다(엔트로피, 마진, 최소 신뢰도).
– 라벨링 반복 주기와 중단 조건을 명확히 설정해야 한다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*