라벨링 방법: 액티브 러닝
ㅁ 라벨링 방법
ㅇ 정의:
데이터 라벨링 과정에서 모델이 불확실성이 높은 데이터를 선별적으로 요청하여 라벨링을 수행하는 방법.
ㅇ 특징:
– 전체 데이터셋 중 일부만 라벨링하여 효율성을 높임.
– 모델 성능을 빠르게 개선할 수 있는 데이터에 집중.
– 라벨링 비용을 절감할 수 있음.
ㅇ 적합한 경우:
– 라벨링 비용이 높은 경우.
– 대량의 비라벨링 데이터가 존재하는 경우.
– 초기 모델의 성능을 빠르게 개선하고자 할 때.
ㅇ 시험 함정:
– 액티브 러닝이 항상 라벨링 비용을 절감하는 것은 아님.
– 모델의 불확실성 평가가 부정확하면 성능 개선이 어려움.
ㅇ 시험 대비 “패턴 보기” 예시:
1. 액티브 러닝은 모든 데이터를 라벨링해야 한다. (X)
2. 액티브 러닝은 모델의 불확실성을 기반으로 데이터를 선택한다. (O)
3. 액티브 러닝은 라벨링 비용과 무관하게 동작한다. (X)
ㅁ 추가 학습 내용
액티브 러닝은 학습 알고리즘이 학습 데이터 중에서 가장 유용한 데이터를 선택적으로 요청하여 성능을 개선하는 방법론입니다. 주요 전략과 실제 사례, 그리고 각 전략의 장단점을 아래와 같이 정리할 수 있습니다.
1. 주요 전략:
– 불확실성 샘플링: 모델이 가장 자신 없어 하는 데이터 포인트를 선택하여 라벨링 요청을 합니다. 예를 들어, 분류 문제에서 예측 확률이 가장 낮거나, 클래스 간 확률 차이가 작은 데이터를 선택합니다.
– 장점: 모델의 약점을 빠르게 보완할 수 있습니다.
– 단점: 데이터가 편향될 가능성이 있으며, 다양성이 부족할 수 있습니다.
– 다양성 샘플링: 데이터의 분포를 최대한 다양하게 포함하도록 샘플을 선택합니다. 클러스터링 기반 접근법이 자주 사용됩니다.
– 장점: 데이터의 대표성을 높여 모델의 일반화 성능을 향상시킬 수 있습니다.
– 단점: 모델의 현재 약점을 반영하지 못할 수 있습니다.
– 불확실성 샘플링과 다양성 샘플링의 조합: 두 가지 전략을 혼합하여 데이터의 다양성과 모델의 약점을 동시에 고려합니다.
– 장점: 두 전략의 장점을 모두 활용할 수 있습니다.
– 단점: 구현이 복잡하며 계산 비용이 증가할 수 있습니다.
2. 실제 사례:
– 의료 영상 분석: 의료 데이터를 라벨링하는 것은 비용이 많이 들고 전문 지식이 필요합니다. 액티브 러닝을 사용하여 병변이나 이상 징후가 있는 이미지 중 불확실한 사례를 선택해 라벨링 효율을 높일 수 있습니다. 예를 들어, 암 진단에서 불확실성 샘플링을 사용해 모델이 불확실한 병변 이미지를 우선적으로 라벨링합니다.
– 자율주행 데이터 라벨링: 자율주행 차량은 방대한 양의 데이터를 필요로 합니다. 액티브 러닝을 활용하여 도로 상황에서 드문 이벤트나 모델이 잘못 예측한 사례를 선택적으로 라벨링함으로써 라벨링 비용을 줄이고 성능을 향상시킬 수 있습니다. 다양성 샘플링은 다양한 주행 상황을 포함하도록 데이터를 선택하는 데 유용합니다.
3. 각 전략의 비교:
– 불확실성 샘플링은 모델의 약점을 빠르게 보완할 수 있지만, 데이터의 다양성이 부족할 경우 모델의 일반화 성능이 저하될 수 있습니다.
– 다양성 샘플링은 데이터의 대표성을 높이는 데 효과적이지만, 모델의 현재 약점에 대한 개선이 느릴 수 있습니다.
– 두 전략의 조합은 상호 보완적이지만, 구현과 계산이 복잡해질 수 있으므로 적절한 균형을 찾는 것이 중요합니다.