알고리즘·논문: 대표 방법

ㅁ 대표 방법

ㅇ 정의:
자기지도학습에서 널리 사용되는 대표적인 학습 기법들을 의미하며, 라벨 없이 데이터의 내재적 구조를 학습하는데 활용됨.

ㅇ 특징:
데이터 증강, 인코더 구조, 사전학습-미세조정 패턴 등에서 차이를 보이며, 이미지·음성·텍스트 등 다양한 도메인에 적용 가능.

ㅇ 적합한 경우:
대규모 비라벨 데이터가 있고, 다운스트림 태스크에 맞춘 사전학습이 필요한 경우.

ㅇ 시험 함정:
각 방법의 차이를 단순히 암기하는 것이 아니라, 학습 목표와 손실함수, 구조적 특징을 구분해야 함.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) 자기지도학습의 대표 방법에는 Contrastive Learning, BYOL, SimCLR, MAE 등이 있다.
– (X) 자기지도학습은 항상 라벨이 필요하다.

================================

1. Contrastive Learning

ㅇ 정의:
서로 다른 데이터 표현을 비교하여 유사한 것은 가깝게, 다른 것은 멀리하도록 학습하는 방법.

ㅇ 특징:
양성(positive)·음성(negative) 샘플 쌍 생성, 대규모 배치 필요, InfoNCE 손실 자주 사용.

ㅇ 적합한 경우:
데이터 증강이 풍부하고, 표현 공간에서의 구분이 중요한 경우.

ㅇ 시험 함정:
음성 샘플 없이도 학습 가능하다는 BYOL과 혼동하기 쉬움.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) Contrastive Learning은 유사한 샘플을 임베딩 공간에서 가깝게 만든다.
– (X) Contrastive Learning은 항상 음성 샘플을 사용하지 않는다.

================================

2. BYOL

ㅇ 정의:
Bootstrap Your Own Latent의 약자로, 음성 샘플 없이 자기표현을 예측하는 자기지도학습 기법.

ㅇ 특징:
온라인 네트워크와 타겟 네트워크 구조, EMA(지수이동평균) 업데이트, 대조 손실 대신 예측 손실 사용.

ㅇ 적합한 경우:
음성 샘플 생성이 어려운 환경, 안정적인 표현 학습이 필요한 경우.

ㅇ 시험 함정:
Contrastive Learning과 달리 negative pair가 필요 없다는 점을 놓치기 쉬움.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) BYOL은 negative sample 없이도 학습이 가능하다.
– (X) BYOL은 InfoNCE 손실을 사용한다.

================================

3. SimCLR

ㅇ 정의:
구글에서 제안한 단순하고 효율적인 대조학습 프레임워크.

ㅇ 특징:
강력한 데이터 증강, 큰 배치 사이즈, 투영 헤드 사용, InfoNCE 손실 기반.

ㅇ 적합한 경우:
GPU 메모리가 충분하고, 대규모 데이터셋에서 높은 성능을 원할 때.

ㅇ 시험 함정:
SimCLR은 사전학습 후 다운스트림 태스크에 미세조정하는 구조임을 잊기 쉬움.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) SimCLR은 투영 헤드를 사용하여 표현 학습을 강화한다.
– (X) SimCLR은 작은 배치 사이즈에서도 동일 성능을 낸다.

================================

4. Masked Autoencoders (MAE)

ㅇ 정의:
입력 데이터의 일부를 마스킹하고, 이를 복원하는 과정을 통해 표현을 학습하는 자기지도학습 기법.

ㅇ 특징:
비대칭 인코더-디코더 구조, 입력의 대규모 마스킹(예: 75%), 복원 기반 학습.

ㅇ 적합한 경우:
이미지나 비디오 등에서 공간적 구조를 복원하는 능력이 중요한 경우.

ㅇ 시험 함정:
MAE는 대조학습이 아닌 재구성 기반 학습임을 혼동하기 쉬움.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) MAE는 입력의 일부를 마스킹하고 이를 복원하는 과정을 학습한다.
– (X) MAE는 항상 negative sample을 필요로 한다.

ㅁ 추가 학습 내용

[학습 정리]
1. Contrastive Learning과 SimCLR
– Contrastive Learning: 서로 다른 샘플 구분, 같은 샘플의 다른 뷰를 가깝게 하는 학습 방식
– SimCLR: Contrastive Learning의 구현체
• 강력한 데이터 증강 사용(색상 왜곡, 크롭, 블러 등)
• 투영 헤드(projection head) 사용: 인코더 출력 → 저차원 공간 매핑 후 contrastive loss 계산

2. BYOL (Bootstrap Your Own Latent)
– EMA(Exponential Moving Average) 업데이트 메커니즘: 타겟 네트워크 파라미터를 온라인 네트워크의 EMA로 업데이트
– 타겟 네트워크: 안정적인 학습을 유도, 직접적인 contrastive negative sample 사용 없이 표현 학습

3. MAE (Masked Autoencoder)
– 마스킹 비율이 성능에 영향: 너무 낮거나 높으면 성능 하락, 적정 비율(예: 75%)에서 최적 성능
– 입력 이미지 패치 일부를 마스킹하여 인코더에 입력, 디코더가 복원

4. MIM (Masked Image Modeling)과 MAE 차이
– MIM: 마스킹된 이미지 복원 전반을 아우르는 기법군
– MAE: MIM의 한 구현체, 비전 트랜스포머 기반, 비마스킹 패치만 인코더에 입력

5. ViT와 결합 사례
– MAE, MIM 등과 ViT 결합 시 효율적인 사전학습 가능
– 이미지 패치를 토큰으로 처리하는 ViT 구조가 마스킹 학습과 잘 맞음

6. 손실 함수와 학습 파이프라인
– 각 기법별 손실 함수 수식 숙지(NT-Xent loss, L2 loss 등)
– 학습 순서를 단계별로 정리하여 흐름 이해(데이터 증강 → 인코딩 → 투영/마스킹 → 손실 계산 → 업데이트)

[시험 대비 체크리스트]
□ Contrastive Learning의 개념과 목적 설명 가능
□ SimCLR의 주요 특징(데이터 증강, 투영 헤드) 암기
□ BYOL의 EMA 업데이트 방식과 타겟 네트워크 역할 이해
□ MAE의 마스킹 비율이 성능에 미치는 영향 설명 가능
□ MIM과 MAE의 관계 및 차이 구분 가능
□ ViT 구조와 MIM/MAE 결합 이유 설명
□ 각 기법별 손실 함수 수식 작성 가능
□ 각 기법의 학습 파이프라인 순서를 단계별로 말할 수 있음

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*