AI: 기법 및 구성요소
ㅁ 기법 및 구성요소
1. SimCLR
ㅇ 정의:
– 대규모 비라벨 데이터에서 데이터 증강과 대조 학습(contrastive learning)을 통해 표현 학습을 수행하는 자기지도학습 기법.
ㅇ 특징:
– 같은 이미지의 서로 다른 증강본을 양성 쌍(positive pair)으로, 다른 이미지 증강본을 음성 쌍(negative pair)으로 사용.
– NT-Xent(temperature-scaled cross entropy) 손실 함수 사용.
– Projection Head(Multi-Layer Perceptron)를 통해 표현 공간 변환.
ㅇ 적합한 경우:
– 라벨이 부족한 상황에서 이미지 분류, 검색, 전이학습의 사전학습 단계.
ㅇ 시험 함정:
– SimCLR는 반드시 음성 샘플이 필요하다는 점을 BYOL과 혼동.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “SimCLR은 contrastive loss를 사용하며 negative samples가 필요하다.”
– X: “SimCLR은 negative sample 없이 학습한다.”
1.1 Projection Head
ㅇ 정의:
– 인코더 출력 벡터를 contrastive loss 계산에 적합한 표현 공간으로 변환하는 다층 퍼셉트론(MLP) 구조.
ㅇ 특징:
– 비선형 변환을 통해 표현의 품질을 높이고, 학습 안정성을 향상.
– 학습 후 downstream task에서는 projection head를 제거하고 인코더 출력만 사용.
ㅇ 적합한 경우:
– contrastive learning에서 인코더 표현의 품질을 향상시키고자 할 때.
ㅇ 시험 함정:
– Projection Head가 인코더의 일부로 항상 사용된다고 오해.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Projection Head는 contrastive loss 계산 시에만 사용된다.”
– X: “Projection Head는 downstream task에서도 필수적으로 사용된다.”
2. BYOL
ㅇ 정의:
– Bootstrap Your Own Latent의 약자로, negative sample 없이 두 네트워크(online, target)를 이용해 자기지도 학습을 수행하는 기법.
ㅇ 특징:
– online network와 EMA(Exponential Moving Average)로 업데이트되는 target network 사용.
– 같은 이미지의 서로 다른 증강본을 입력으로 사용.
– cosine similarity loss 기반.
ㅇ 적합한 경우:
– negative sample 구성이 어려운 환경에서의 표현 학습.
ㅇ 시험 함정:
– BYOL이 collapse(표현 다양성 상실) 문제를 해결하지 못한다고 착각.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “BYOL은 negative sample 없이도 안정적으로 학습할 수 있다.”
– X: “BYOL은 negative sample 없이는 학습이 불가능하다.”
2.1 EMA
ㅇ 정의:
– 모델 파라미터를 지수이동평균으로 업데이트하여 target network를 안정적으로 유지하는 기법.
ㅇ 특징:
– 학습 시 online network의 가중치를 EMA로 target network에 반영.
– 변동성을 줄이고 수렴 안정성 향상.
ㅇ 적합한 경우:
– teacher-student 구조에서 teacher의 안정적 학습 유지.
ㅇ 시험 함정:
– EMA가 gradient 업데이트를 직접 받는다고 착각.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “EMA는 online network의 파라미터를 지수이동평균하여 target network를 갱신한다.”
– X: “EMA는 target network를 gradient로 직접 학습시킨다.”
3. Jigsaw Puzzle
ㅇ 정의:
– 이미지를 여러 조각으로 나누고 섞은 후 원래 순서를 맞추는 pretext task 기반 자기지도학습 기법.
ㅇ 특징:
– 공간적 구조 이해와 지역적 특징 학습에 유리.
– 분류 문제로 변환하여 학습.
ㅇ 적합한 경우:
– 이미지의 공간적 관계 학습이 중요한 경우.
ㅇ 시험 함정:
– Jigsaw Puzzle이 global feature 학습에만 적합하다고 오해.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Jigsaw Puzzle은 이미지의 지역적 공간 구조 학습에 유용하다.”
– X: “Jigsaw Puzzle은 시간적 순서 학습에 특화되어 있다.”
4. MAE
ㅇ 정의:
– Masked Autoencoder의 약자로, 입력 이미지의 일부 패치를 마스킹하고 복원하는 자기지도학습 기법.
ㅇ 특징:
– Vision Transformer(ViT) 기반 구조에서 주로 사용.
– 입력의 75% 이상을 마스킹하는 경우도 효과적.
ㅇ 적합한 경우:
– 대규모 비라벨 이미지 데이터에서 효율적 사전학습.
ㅇ 시험 함정:
– MAE가 CNN 기반에서도 동일한 성능을 낸다고 일반화.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “MAE는 입력의 일부를 마스킹 후 복원하는 방식으로 학습한다.”
– X: “MAE는 입력 전체를 항상 사용하여 학습한다.”
5. RotNet
ㅇ 정의:
– 입력 이미지를 0°, 90°, 180°, 270° 회전시키고, 회전 각도를 예측하는 pretext task 기반 자기지도학습 기법.
ㅇ 특징:
– 이미지의 전역적 구조와 방향성 학습에 유리.
– 단순 구조로도 효과적인 표현 학습 가능.
ㅇ 적합한 경우:
– 물체의 방향성이 중요한 이미지 데이터.
ㅇ 시험 함정:
– RotNet이 회전 각도 외의 정보를 학습하지 않는다고 오해.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “RotNet은 이미지 회전 각도를 예측하는 pretext task를 사용한다.”
– X: “RotNet은 이미지의 위치 좌표를 예측하는 pretext task를 사용한다.”
ㅁ 추가 학습 내용
기법 비교 정리
SimCLR vs BYOL
– 공통점: 자기지도학습, representation 학습, 데이터 증강 활용
– 차이점: SimCLR은 negative sample 사용, BYOL은 negative sample 미사용
MAE vs Jigsaw Puzzle vs RotNet
– 공통점: pretext task 기반 자기지도학습
– 차이점:
MAE – 입력의 일부 패치를 마스킹 후 복원
Jigsaw Puzzle – 이미지 패치를 섞은 후 원래 순서로 재배치
RotNet – 이미지를 회전시키고 회전 각도를 예측
EMA(Exponential Moving Average)
– decay rate가 높을수록 target network의 파라미터 변화가 느려져 안정성이 증가
– decay rate가 너무 낮으면 target network의 변동성이 커져 학습 불안정 가능
Projection Head
– 비선형 활성함수(ReLU, GELU 등) 사용 이유: 표현력 향상, 복잡한 매핑 가능, 정보 손실 최소화
MAE 마스킹 비율과 성능
– 마스킹 비율이 너무 낮으면 학습 난이도 감소로 일반화 성능 저하
– 마스킹 비율이 너무 높으면 정보 부족으로 학습 어려움
– 적절한 비율 선택이 중요
RotNet 한계
– 회전 각도 예측 학습이 회전 불변성 학습 목표와 충돌 가능
Contrastive Learning vs Non-Contrastive Learning
– Contrastive Learning: positive/negative sample 비교를 통한 표현 학습 (예: SimCLR)
– Non-Contrastive Learning: negative sample 없이 representation 학습 (예: BYOL)
Pretext Task 설계 시 고려사항
– 난이도 조절: 너무 쉬우면 표현 학습 효과 감소, 너무 어려우면 학습 불안정
– 데이터 증강 다양성: 다양한 변형을 통해 일반화 성능 향상