AI: 정규화 및 규제 – Layer Normalization
ㅁ 정규화 및 규제
ㅇ 정의:
입력 데이터나 은닉층의 출력을 각 샘플 단위로 정규화하는 기법으로, 배치 크기에 의존하지 않고 각 샘플 내의 feature dimension을 기준으로 평균과 분산을 계산하여 정규화함.
ㅇ 특징:
– 배치 크기에 영향을 받지 않음 → RNN, Transformer 등 시퀀스 모델에서 유리
– 각 샘플의 feature 축을 따라 평균/분산 계산
– 학습 안정성 향상, 수렴 속도 개선
– 학습 파라미터로 scale(γ), shift(β) 포함
ㅇ 적합한 경우:
– 배치 크기가 매우 작거나 1인 경우
– 시퀀스 데이터 처리(RNN, LSTM, Transformer)
– 온라인 학습 또는 실시간 추론 환경
ㅇ 시험 함정:
– Batch Normalization과 혼동: BN은 배치 차원 기준, LN은 feature 차원 기준
– Layer Normalization은 배치 크기에 의존하지 않는다는 점이 핵심
– Dropout, Weight Decay와 같은 규제 기법과 개념 혼동
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Layer Normalization은 각 샘플의 feature dimension을 기준으로 정규화한다.”
X: “Layer Normalization은 배치 전체의 평균과 분산을 사용한다.”
ㅁ 추가 학습 내용
Layer Normalization은 Transformer 구조에서 Self-Attention 직전과 Feed-Forward Network 직전에 주로 적용되며, Residual Connection과 함께 사용될 때 학습 안정성을 크게 향상시킨다. 수식은 x_hat = (x – μ) / sqrt(σ^2 + ε) 형태로, μ와 σ^2는 각 샘플의 feature dimension에서 계산된다. Batch Normalization과 달리 학습과 추론 시 동작 방식이 동일하여 추론 시에도 일관된 결과를 보장한다. 시험에서는 Layer Normalization과 Batch Normalization의 차이, 적용 위치, 배치 크기 변화에 따른 영향 여부, 그리고 RNN이나 Transformer에서 Layer Normalization이 선호되는 이유가 자주 출제된다.