데이터 전처리: 라벨링 방법 – 자기지도학습
ㅁ 라벨링 방법
ㅇ 정의:
라벨이 없는 데이터에서 데이터 자체의 구조나 패턴을 활용하여 학습 데이터를 생성하고 학습하는 방법. 사람이 직접 라벨을 부여하지 않고, 데이터의 일부를 가공하여 가짜 라벨(pseudo-label)을 생성함.
ㅇ 특징:
– 대량의 비라벨 데이터 활용 가능
– 라벨링 비용과 시간이 절감됨
– 사전 학습(pretraining) 후 지도학습에 활용되는 경우 많음
– 대표적으로 BERT의 마스크드 언어 모델(MLM), GPT의 다음 단어 예측 등이 있음
ㅇ 적합한 경우:
– 라벨링이 어려운 대규모 데이터셋을 사용할 때
– 도메인 특화 데이터에서 사전 학습 모델을 만들고자 할 때
– 지도학습 데이터가 제한적인 경우
ㅇ 시험 함정:
– 자기지도학습은 비지도학습과 혼동하기 쉬움 (라벨 없이 학습하지만, 인위적으로 생성한 라벨을 사용한다는 점이 다름)
– 준지도학습(semi-supervised)와의 차이 혼동: 자기지도학습은 라벨 생성과 학습 모두 비라벨 데이터 기반, 준지도학습은 일부 라벨 데이터 포함
ㅇ 시험 대비 “패턴 보기” 예시:
O: “자기지도학습은 데이터의 일부를 가리고 이를 예측하도록 학습한다.”
O: “자기지도학습은 대규모 비라벨 데이터에서 특징을 학습하는 데 적합하다.”
X: “자기지도학습은 반드시 사람이 직접 라벨을 부여한 데이터만 사용한다.”
X: “자기지도학습은 비지도학습과 동일하다.”
ㅁ 추가 학습 내용
자기지도학습은 최근 대규모 언어모델(LLM)과 컴퓨터 비전 분야에서 핵심적인 학습 방식으로 자리잡고 있다.
대표적인 기법에는 마스크드 언어 모델(MLM), 컨트라스티브 러닝(예: SimCLR, MoCo), 오토인코더(Autoencoder) 기반 학습이 있다.
비지도학습과의 차이점은, 비지도학습이 데이터의 잠재 구조를 직접 학습하는 데 비해 자기지도학습은 명시적인 예측 과제를 설정하여 학습한다는 점이다.
준지도학습과는 연계되어, 자기지도학습으로 사전 학습한 뒤 소량의 라벨 데이터로 파인튜닝하는 경우가 많다.
시험에서는 ‘라벨이 없는 데이터만 사용’이라는 표현이 나오면 자기지도학습이 아니라 비지도학습일 가능성이 높다는 함정이 자주 출제된다.