알고리즘·논문: 대표 방법 – BYOL

ㅁ 대표 방법

1. BYOL

ㅇ 정의:
Bootstrap Your Own Latent의 약자로, 자기지도학습(Self-Supervised Learning)에서 라벨 없이 데이터 표현을 학습하는 방법. 두 개의 신경망(온라인 네트워크, 타겟 네트워크)을 사용해 한쪽의 출력을 다른 쪽이 예측하도록 학습함.

ㅇ 특징:
– 음성 쌍(negative pairs) 없이도 표현 학습 가능.
– 타겟 네트워크는 온라인 네트워크의 지수이동평균(EMA)으로 업데이트.
– 데이터 증강(augmentation)을 강하게 적용해 서로 다른 뷰를 생성.
– SimCLR과 달리 contrastive loss를 사용하지 않음.

ㅇ 적합한 경우:
– 레이블이 거의 없는 대규모 이미지 데이터셋에서 사전학습.
– 음성 쌍 구성 비용이 크거나 부적합한 경우.
– 이미지, 영상, 음성 등 다양한 도메인의 표현 학습.

ㅇ 시험 함정:
– BYOL은 negative pairs를 사용한다(O/X) → X
– 타겟 네트워크 업데이트는 역전파로 학습한다(O/X) → X (EMA로만 업데이트)
– contrastive loss를 사용한다(O/X) → X

ㅇ 시험 대비 “패턴 보기” 예시:
– “BYOL은 SimCLR과 달리 음성 쌍이 필요 없다” → O
– “BYOL의 타겟 네트워크는 온라인 네트워크의 EMA로 갱신된다” → O
– “BYOL은 데이터 증강 없이도 잘 동작한다” → X

ㅁ 추가 학습 내용

BYOL은 자기지도학습 기법으로, 초기에는 모든 출력이 동일해지는 collapse 문제가 우려되었으나 EMA(Exponential Moving Average) 기반의 타겟 네트워크와 데이터 증강 기법의 조합으로 이를 방지할 수 있음이 알려졌다.
온라인 네트워크는 인코더, projector, predictor로 구성되며, 타겟 네트워크는 predictor가 없음.
학습 과정에서 predictor를 거친 온라인 네트워크의 출력이 타겟 네트워크의 출력과 유사해지도록 MSE loss를 최소화함.
BYOL은 negative pairs 없이도 학습이 가능하며, EMA는 타겟 네트워크의 파라미터를 안정적으로 업데이트하여 collapse를 방지하는 핵심 역할을 함.
시험에서는 BYOL이 negative pairs 없이 학습 가능한 이유, EMA의 역할, predictor의 존재 여부가 자주 출제될 수 있음.
또한 SimSiam, MoCo v2 등 다른 자기지도학습 기법과의 차이점 비교도 중요한 출제 포인트임.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*