ㅁ 정규화 및 규제 ㅇ 정의: 입력 데이터나 은닉층의 출력을 각 샘플 단위로 정규화하는 기법으로, 배치 크기에 의존하지 않고 각 샘플 내의 feature dimension을 기준으로 평균과 분산을 계산하여 정규화함. ㅇ 특징: – 배치 크기에 영향을 받지 않음 → RNN, Transformer 등 시퀀스 모델에서 유리 – 각 샘플의 feature 축을 따라 평균/분산 계산 – 학습 안정성
ㅁ 학습 안정화 ㅇ 정의: 학습률을 점차 감소시키되, 코사인 함수를 이용해 학습률 변화를 부드럽게 조절하는 스케줄링 기법. 특정 주기마다 학습률을 초기값으로 재설정할 수도 있음. ㅇ 특징: – 학습 후반으로 갈수록 학습률이 서서히 낮아져 안정적인 수렴을 유도 – 코사인 곡선을 따라 감소하므로 급격한 변화 없이 부드러운 학습률 변동 – 주기적 리스타트(Cosine Annealing with Warm Restarts, SGDR)를
ㅁ 학습 안정화 ㅇ 정의: 학습 초기 단계에서 학습률(Learning Rate)을 매우 작게 시작하여 일정 스텝(step) 또는 에포크(epoch)에 걸쳐 점진적으로 목표 학습률까지 증가시키는 기법. ㅇ 특징: – 초기 가중치가 불안정한 상태에서 큰 학습률로 인한 발산을 방지. – 대규모 데이터셋 또는 대형 모델(예: Transformer) 학습 시 효과적. – 보통 선형 증가(linear warm-up) 방식이 많이 사용되며, 이후 cosine
ㅁ 학습 안정화 ㅇ 정의: 분류 문제에서 정답 레이블을 원-핫(one-hot) 벡터로 사용하지 않고, 정답 클래스의 확률을 1에서 조금 낮추고 나머지 클래스에 소량의 확률을 분배하는 기법. 예를 들어, 3개의 클래스 중 정답이 클래스 1일 경우 [1,0,0] 대신 [0.9, 0.05, 0.05]로 변환. ㅇ 특징: – 모델의 과도한 확신(overconfidence)을 줄여 일반화 성능을 향상시킴. – 라벨 노이즈나 데이터 불확실성에
ㅁ 학습 안정화 ㅇ 정의: 경사하강법(Gradient Descent) 기반 학습에서 기울기(gradient)의 크기가 비정상적으로 커져 학습이 불안정해지는 현상(gradient explosion)을 방지하기 위해 기울기의 최대 크기를 제한하는 기법. ㅇ 특징: – 기울기의 L2 노름(norm) 또는 각 요소별 절대값을 특정 임계값(threshold) 이하로 제한. – 주로 RNN, LSTM과 같이 장기 의존성을 학습하는 모델에서 발생하는 기울기 폭주 문제 완화. – 학습률 조정과
ㅁ 생성 모델 ㅇ 정의: – 생성 모델은 주어진 데이터 분포를 학습하여 새로운 데이터를 생성하는 모델로, 이미지, 오디오, 텍스트 등 다양한 형태의 데이터를 생성할 수 있음. ㅇ 특징: – 확률 분포 기반 학습 – 데이터와 유사한 새로운 샘플 생성 가능 – GAN, VAE, Diffusion Model 등 다양한 유형 존재 ㅇ 적합한 경우: – 데이터 증강이
ㅁ 생성 모델 ㅇ 정의: 데이터의 분포를 학습하여 새로운 데이터를 생성하는 모델로, 확률적 생성 과정 또는 매개변수화된 분포를 통해 샘플을 생성함. ㅇ 특징: – 입력 없이도 새로운 샘플 생성 가능 – 데이터의 잠재 분포를 명시적 혹은 암묵적으로 학습 – GAN, VAE, 확산 모델 등 다양한 접근 방식 존재 ㅇ 적합한 경우: – 이미지, 오디오, 텍스트
ㅁ 생성 모델 ㅇ 정의: 확률적 과정을 통해 데이터의 잠재 공간(latent space)에서 점진적으로 노이즈를 제거하며 새로운 데이터를 생성하는 모델로, 고차원 데이터 생성을 효율화하기 위해 잠재 표현을 활용하는 방식. ㅇ 특징: – 고해상도 이미지 생성에서 메모리와 연산 효율성이 높음 – 오토인코더를 사용하여 입력 데이터를 잠재 공간으로 압축 후, 확산(diffusion) 과정을 적용 – 학습 시 노이즈 주입과
ㅁ 생성 모델 1. Classifier-Free Guidance ㅇ 정의: 사전 학습된 분류기를 사용하지 않고, 조건부와 비조건부 생성 모델을 함께 학습하여 샘플 생성 시 조건의 영향을 조절하는 기법. ㅇ 특징: – 별도의 분류기 없이 하나의 모델로 조건부/비조건부 모두 학습. – 샘플 생성 시 guidance scale(스케일 파라미터)을 조절하여 조건 반영 정도를 제어. – 텍스트-투-이미지, 오디오 생성 등 다양한
ㅁ 패딩 및 배치 처리 ㅇ 정의: 시퀀스 데이터(문장, 시계열 등)의 길이가 제각각일 때, 불필요한 패딩 연산을 최소화하기 위해 실제 데이터 길이에 맞춰 배치 단위로 압축하여 처리하는 방식. 주로 RNN 계열 모델 학습 시 사용되며, PyTorch의 pack_padded_sequence 함수가 대표적 구현. ㅇ 특징: – 시퀀스 길이 정보를 함께 저장하여 연산 시 패딩 토큰을 무시함. – 메모리