AI: 정규화 및 규제 – DropConnect
ㅁ 정규화 및 규제
1. DropConnect
ㅇ 정의:
신경망 학습 시 가중치(weight) 자체를 무작위로 0으로 만드는 방식의 규제 기법으로, Dropout이 뉴런의 출력을 무작위로 제거하는 것과 달리 연결 가중치에 직접 적용함.
ㅇ 특징:
– 각 학습 스텝마다 일부 연결 가중치를 무작위로 비활성화하여 과적합을 방지.
– 가중치 행렬에 마스크를 곱해 적용.
– Dropout보다 더 강력한 규제 효과를 줄 수 있으나 학습 속도가 느려질 수 있음.
ㅇ 적합한 경우:
– 파라미터 수가 많고 과적합 위험이 높은 대규모 완전연결층(FC Layer) 모델.
– 데이터셋 크기가 상대적으로 작아 일반화가 중요한 경우.
ㅇ 시험 함정:
– Dropout과 혼동: Dropout은 뉴런 출력을, DropConnect는 가중치를 무작위로 제거함.
– 모든 연결을 동일 확률로 제거하는 것이 아님, 확률 p를 설정해야 함.
– 테스트 시에는 전체 가중치를 사용하되 학습 시 비활성화 비율을 반영해 스케일 조정.
ㅇ 시험 대비 “패턴 보기” 예시:
– (O) DropConnect는 학습 시 일부 가중치를 무작위로 0으로 만든다.
– (X) DropConnect는 뉴런의 출력을 무작위로 제거하는 기법이다.
– (O) DropConnect는 과적합 방지를 위한 규제 방법 중 하나이다.
– (X) DropConnect는 테스트 단계에서도 가중치를 무작위로 제거한다.
ㅁ 추가 학습 내용
DropConnect는 2013년 Wan et al.이 제안한 기법으로, Dropout의 일반화된 형태이다.
Dropout은 뉴런의 출력 값을 무작위로 0으로 만드는 방식이지만, DropConnect는 뉴런 간 연결 가중치 자체를 무작위로 0으로 만든다.
즉, Dropout은 출력에 마스크를 적용하고, DropConnect는 가중치에 마스크를 적용한다는 차이가 있다.
DropConnect는 주로 Fully Connected Layer에서 효과적이며, CNN에서는 상대적으로 덜 사용된다.
단점으로는 학습 속도가 느려지고 메모리 사용량이 증가한다는 점이 있다.
Bayesian 해석 관점에서 DropConnect는 확률적 가중치 모델로 볼 수 있으며, 이를 통해 모델의 불확실성 추정과 관련된 문제로 확장할 수 있다.