AI: Contrastive/Self-supervised 학습 – Masked Autoencoder(MAE)
ㅁ Contrastive/Self-supervised 학습
ㅇ 정의:
레이블이 없는 데이터에서 자기지도 학습을 통해 데이터의 표현을 학습하는 방법 중 하나로, 입력 데이터의 일부를 마스킹(masking)하고 이를 복원하는 과정을 통해 특징을 학습하는 방식.
ㅇ 특징:
– 입력 이미지나 시퀀스의 일부를 무작위로 가리고, 가려진 부분을 예측하도록 학습.
– 인코더-디코더 구조 사용, 인코더는 보이는 부분만 처리.
– 학습 효율이 높고, 대규모 비라벨 데이터에서 성능 우수.
– 전이학습(Transfer Learning)에 유리.
ㅇ 적합한 경우:
– 레이블 데이터가 부족한 경우.
– 사전학습(pre-training) 후 다운스트림 작업(분류, 검출 등)에 활용.
– 대규모 이미지나 비디오 데이터셋에서 효율적인 표현 학습 필요 시.
ㅇ 시험 함정:
– 마스킹 비율이 너무 높거나 낮을 때 성능 저하.
– Contrastive learning과 혼동: MAE는 reconstruction 기반, contrastive는 representation 간 거리 최소화/최대화 기반.
– 인코더와 디코더의 역할을 혼동하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “MAE는 입력의 일부를 가리고 복원하는 자기지도 학습 기법이다.”
X: “MAE는 레이블이 있는 데이터에서 지도학습으로만 동작한다.”
================================
1. Masked Autoencoder(MAE)
ㅇ 정의:
이미지나 시퀀스의 일부를 무작위로 마스킹한 뒤, 보이는 부분만 인코더에 입력하여 잠재 표현을 얻고, 디코더를 통해 마스킹된 부분을 복원하는 자기지도 학습 기법.
ㅇ 특징:
– 인코더는 입력의 일부(보이는 패치)만 처리하여 계산 효율성 향상.
– 디코더는 복원 작업에 특화되어 전체 입력 크기에 맞춰 설계.
– 마스킹 비율(예: 75%)이 높아도 학습 가능.
– 대규모 비전 트랜스포머(ViT)와 잘 결합.
ㅇ 적합한 경우:
– 대규모 이미지 데이터에서 사전학습.
– 레이블이 부족한 환경에서 강력한 feature extractor 필요 시.
– GPU 메모리 효율성을 고려하는 경우.
ㅇ 시험 함정:
– MAE는 contrastive loss를 사용하지 않는다.
– Reconstruction 대상은 마스킹된 부분 전체이며, 보이는 부분까지 복원하는 것이 아님.
– 인코더와 디코더의 파라미터 수와 역할을 혼동하지 말 것.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “MAE는 입력의 일부를 가리고 이를 복원하는 과정을 통해 표현을 학습한다.”
X: “MAE는 모든 입력을 인코더에 넣어야만 학습이 가능하다.”
ㅁ 추가 학습 내용
MAE는 주로 비전 트랜스포머(ViT) 기반으로 설계되며, 입력 이미지를 패치 단위로 나누어 마스킹을 수행한다. 마스킹 전략은 랜덤 방식과 구조적 방식이 있으며, 선택에 따라 학습 성능이 달라질 수 있다. MAE는 사전학습(pretraining) 후 파인튜닝(finetuning)을 거쳐 다양한 다운스트림 작업에서 우수한 성능을 발휘한다.
시험에서는 MAE와 BERT의 MLM(Masked Language Modeling) 간의 유사점과 차이점을 비교하는 문제가 출제될 수 있다. 두 방법 모두 입력 일부를 마스킹하고 이를 복원하는 자기지도 학습 방식을 사용하지만, MAE는 이미지 패치 복원에 초점을 맞추고, BERT의 MLM은 문장 내 토큰 복원에 초점을 둔다.
또한 reconstruction 기반 자기지도 학습과 contrastive 기반 자기지도 학습의 차이를 명확히 구분해야 한다. Reconstruction 방식은 손실된 입력을 복원하는 데 중점을 두고, contrastive 방식은 서로 다른 입력 간의 표현을 구분하는 데 초점을 둔다.
MAE의 효율성은 인코더에 입력되는 토큰 수가 줄어드는 데서 비롯되며, 이는 연산량 절감과 직결된다. 디코더는 학습 과정에서만 사용되고, 추론 시에는 제거되는 경우가 많다는 점도 중요한 시험 포인트이다.