AI 모델 개발: 대표 기법 – Pseudo Labeling

ㅁ 대표 기법

ㅇ 정의:
– Pseudo Labeling은 라벨이 없는 데이터에 대해 현재 모델이 예측한 결과를 임시 라벨(가짜 라벨)로 부여하여 학습 데이터로 활용하는 준지도 학습 기법이다.

ㅇ 특징:
– 초기에는 소량의 라벨링된 데이터로 모델을 학습한 뒤, 라벨이 없는 데이터에 대해 예측을 수행하여 신뢰도가 높은 결과를 라벨로 채택한다.
– 라벨 없는 데이터의 활용도를 높여 데이터 부족 문제를 완화한다.
– 모델의 초기 성능이 낮으면 잘못된 라벨이 누적되어 성능 저하를 유발할 수 있다.

ㅇ 적합한 경우:
– 라벨링 비용이 높거나 라벨 데이터가 제한적인 경우.
– 비교적 간단한 분류 문제에서 라벨 없는 데이터가 풍부한 경우.

ㅇ 시험 함정:
– Pseudo Labeling은 항상 성능을 향상시킨다고 단정할 수 없다(O/X 문제에서 틀리기 쉬움).
– 모든 예측 결과를 라벨로 사용하는 것이 아니라, 일반적으로 신뢰도가 일정 기준 이상인 데이터만 사용한다.

ㅇ 시험 대비 “패턴 보기” 예시:
– “Pseudo Labeling은 라벨 없는 데이터에 모델이 예측한 값을 라벨로 사용한다” (O)
– “Pseudo Labeling은 반드시 모든 예측 결과를 라벨로 사용한다” (X)
– “Pseudo Labeling은 준지도 학습의 한 방법이다” (O)
– “Pseudo Labeling은 라벨 데이터가 충분할 때 주로 사용된다” (X)

ㅁ 추가 학습 내용

Pseudo Labeling은 라벨이 없는 데이터에 대해 모델의 예측값을 임시 라벨(pseudo label)로 사용하여 학습에 포함시키는 기법이다.
Self-training은 Pseudo Labeling의 일반화된 형태로, 모델을 반복적으로 재학습하면서 새로운 pseudo label을 생성하고 갱신하는 과정을 거친다.
Confidence Thresholding은 예측 확률이 특정 임계값 이상인 데이터만 pseudo label로 채택하여 신뢰도가 낮은 예측을 배제한다.

Pseudo Labeling 적용 시 주의해야 할 문제점은 다음과 같다.
– 데이터 불균형 문제: 특정 클래스 데이터가 적을 경우 pseudo label 생성 과정에서 불균형이 심화될 수 있다.
– 클래스별 신뢰도 차이로 인한 편향: 일부 클래스의 예측 신뢰도가 낮아 잘못된 pseudo label이 많이 생성될 수 있다.
– 노이즈 라벨 누적 문제: 잘못된 pseudo label이 학습에 반복적으로 사용되면서 성능 저하를 초래할 수 있다.

이러한 문제를 방지하기 위한 전략으로는 soft label 사용, temperature scaling 등이 있다. Soft label은 확률 분포 형태로 라벨을 표현하여 불확실성을 반영하고, temperature scaling은 확률 분포의 스무딩을 통해 모델이 과도하게 확신하는 것을 완화한다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*