AI: 정규화 및 규제 – Layer Normalization

ㅁ 정규화 및 규제

ㅇ 정의:
입력 데이터나 은닉층의 출력을 각 샘플 단위로 정규화하는 기법으로, 배치 크기에 의존하지 않고 각 샘플 내의 feature dimension을 기준으로 평균과 분산을 계산하여 정규화함.

ㅇ 특징:
– 배치 크기에 영향을 받지 않음 → RNN, Transformer 등 시퀀스 모델에서 유리
– 각 샘플의 feature 축을 따라 평균/분산 계산
– 학습 안정성 향상, 수렴 속도 개선
– 학습 파라미터로 scale(γ), shift(β) 포함

ㅇ 적합한 경우:
– 배치 크기가 매우 작거나 1인 경우
– 시퀀스 데이터 처리(RNN, LSTM, Transformer)
– 온라인 학습 또는 실시간 추론 환경

ㅇ 시험 함정:
– Batch Normalization과 혼동: BN은 배치 차원 기준, LN은 feature 차원 기준
– Layer Normalization은 배치 크기에 의존하지 않는다는 점이 핵심
– Dropout, Weight Decay와 같은 규제 기법과 개념 혼동

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Layer Normalization은 각 샘플의 feature dimension을 기준으로 정규화한다.”
X: “Layer Normalization은 배치 전체의 평균과 분산을 사용한다.”

ㅁ 추가 학습 내용

Layer Normalization은 Transformer 구조에서 Self-Attention 직전과 Feed-Forward Network 직전에 주로 적용되며, Residual Connection과 함께 사용될 때 학습 안정성을 크게 향상시킨다. 수식은 x_hat = (x – μ) / sqrt(σ^2 + ε) 형태로, μ와 σ^2는 각 샘플의 feature dimension에서 계산된다. Batch Normalization과 달리 학습과 추론 시 동작 방식이 동일하여 추론 시에도 일관된 결과를 보장한다. 시험에서는 Layer Normalization과 Batch Normalization의 차이, 적용 위치, 배치 크기 변화에 따른 영향 여부, 그리고 RNN이나 Transformer에서 Layer Normalization이 선호되는 이유가 자주 출제된다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*