AI: 학습 안정화 – Label Smoothing

ㅁ 학습 안정화

ㅇ 정의:
분류 문제에서 정답 레이블을 원-핫(one-hot) 벡터로 사용하지 않고, 정답 클래스의 확률을 1에서 조금 낮추고 나머지 클래스에 소량의 확률을 분배하는 기법. 예를 들어, 3개의 클래스 중 정답이 클래스 1일 경우 [1,0,0] 대신 [0.9, 0.05, 0.05]로 변환.

ㅇ 특징:
– 모델의 과도한 확신(overconfidence)을 줄여 일반화 성능을 향상시킴.
– 라벨 노이즈나 데이터 불확실성에 강건함.
– Cross-Entropy Loss 계산 시 적용 가능.

ㅇ 적합한 경우:
– 데이터 라벨에 오차나 주관적 판단이 개입될 수 있는 경우.
– 분류 클래스 수가 많아 오분류 비용이 큰 경우.
– overfitting 방지를 위해 예측 확률 분포를 부드럽게 하고자 하는 경우.

ㅇ 시험 함정:
– 정답 클래스 확률을 1에서 낮추는 것을 ‘정규화(normalization)’로 오해하는 경우.
– Softmax 자체의 확률 분포와 혼동하는 경우.
– Label Smoothing이 항상 정확도를 높인다고 단정하는 경우.

ㅇ 시험 대비 “패턴 보기” 예시:
O: Label Smoothing은 모델의 과도한 확신을 완화하여 일반화 성능 향상에 도움을 준다.
X: Label Smoothing은 모든 클래스의 확률을 동일하게 만든다.

ㅁ 추가 학습 내용

Label Smoothing은 원래 기계 번역(NMT) 모델의 성능 향상을 위해 제안되었으며, 특히 Transformer 기반 모델에서 자주 사용된다.
수식적으로는 정답 클래스의 확률을 1−ε로 하고, 나머지 클래스에 ε/(K−1)을 균등하게 분배하는 방식으로 표현된다(K는 클래스 수).
이 기법은 과적합 방지뿐 아니라, 모델이 잘못된 레이블에 과도하게 적응하는 것을 막아 불확실성 추정 품질을 높이는 데 기여한다.
또한 Knowledge Distillation에서 학생 모델의 학습 안정화를 위해 사용되기도 한다.
시험에서는 ε 값의 범위(예: 0.1~0.2가 흔함)와 적용 위치(손실 계산 시 레이블 변환)에 대한 이해를 묻는 경우가 많다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*