알고리즘·논문: 대표 방법 – Masked Autoencoders (MAE)
ㅁ 대표 방법
ㅇ 정의:
– Masked Autoencoders(MAE)는 입력 데이터의 일부를 마스킹하여 제거한 뒤, 남은 부분으로부터 원래 데이터를 복원하도록 학습하는 자기지도학습 기법이다. 주로 이미지나 시계열 데이터에서 사용되며, Transformer 기반 인코더-디코더 구조를 활용한다.
ㅇ 특징:
– 입력의 상당 부분(예: 75% 이상)을 무작위 마스킹하여 효율적인 학습 가능
– 인코더는 마스킹되지 않은 토큰만 처리하여 계산량 감소
– 디코더는 마스킹된 부분을 복원하는 데 집중
– 사전학습(pre-training) 후 다운스트림 과제에 파인튜닝(fine-tuning) 가능
ㅇ 적합한 경우:
– 대규모 비라벨 데이터 활용이 필요한 경우
– 이미지 복원, 시계열 예측, 자연어 처리의 마스킹 복원 과제
– 연산 효율성과 일반화 성능을 동시에 확보해야 하는 경우
ㅇ 시험 함정:
– MAE는 전체 입력을 인코더에 넣는 것이 아니라, 마스킹되지 않은 부분만 인코더에 입력한다는 점을 혼동하기 쉬움 (X: 전체 입력을 인코더에 넣는다)
– 마스킹 비율이 낮을수록 항상 성능이 좋은 것은 아님 (X: 마스킹 비율은 낮을수록 좋다)
– MAE는 반드시 Transformer 구조만 사용해야 한다는 오해 (X: CNN 기반 구조에도 적용 가능)
ㅇ 시험 대비 “패턴 보기” 예시:
– O: MAE는 입력의 일부를 마스킹하고 남은 정보로 원본을 복원하는 자기지도학습 방법이다.
– X: MAE는 모든 입력을 인코더에 통과시킨 후 마스킹한다.
– O: MAE는 인코더-디코더 구조를 사용하며, 인코더는 마스킹되지 않은 입력만 처리한다.
– X: MAE는 마스킹 비율이 낮을수록 무조건 성능이 향상된다.
ㅁ 추가 학습 내용
MAE 추가 학습 정리
마스킹 전략
– 무작위 마스킹 외에 블록 마스킹, 중요도 기반 마스킹이 있으며 데이터 특성에 따라 성능 차이가 발생할 수 있음.
복원 손실 함수
– 주로 MSE(Mean Squared Error)를 사용하지만 perceptual loss나 cross-entropy loss를 적용하는 경우도 있음.
Vision Transformer(ViT) 기반 MAE 특징
– 인코더에 입력되는 토큰 개수가 줄어들어 연산량이 크게 감소함.
BERT와의 차이점
– BERT는 마스킹 후 전체 시퀀스를 인코더에 입력하지만, MAE는 마스킹된 토큰을 인코더 입력에서 제외함.
전이학습 효과
– 사전학습 후 데이터가 부족한 다운스트림 작업에서 성능 향상 효과가 큼.
마스킹 비율
– 실험적으로 약 75% 전후가 최적이라는 보고가 많으나, 데이터 도메인에 따라 최적 비율이 달라질 수 있음.