데이터 전처리: 라벨링 방법 – 자기지도학습

ㅁ 라벨링 방법

ㅇ 정의:
라벨이 없는 데이터에서 데이터 자체의 구조나 패턴을 활용하여 학습 데이터를 생성하고 학습하는 방법. 사람이 직접 라벨을 부여하지 않고, 데이터의 일부를 가공하여 가짜 라벨(pseudo-label)을 생성함.

ㅇ 특징:
– 대량의 비라벨 데이터 활용 가능
– 라벨링 비용과 시간이 절감됨
– 사전 학습(pretraining) 후 지도학습에 활용되는 경우 많음
– 대표적으로 BERT의 마스크드 언어 모델(MLM), GPT의 다음 단어 예측 등이 있음

ㅇ 적합한 경우:
– 라벨링이 어려운 대규모 데이터셋을 사용할 때
– 도메인 특화 데이터에서 사전 학습 모델을 만들고자 할 때
– 지도학습 데이터가 제한적인 경우

ㅇ 시험 함정:
– 자기지도학습은 비지도학습과 혼동하기 쉬움 (라벨 없이 학습하지만, 인위적으로 생성한 라벨을 사용한다는 점이 다름)
– 준지도학습(semi-supervised)와의 차이 혼동: 자기지도학습은 라벨 생성과 학습 모두 비라벨 데이터 기반, 준지도학습은 일부 라벨 데이터 포함

ㅇ 시험 대비 “패턴 보기” 예시:
O: “자기지도학습은 데이터의 일부를 가리고 이를 예측하도록 학습한다.”
O: “자기지도학습은 대규모 비라벨 데이터에서 특징을 학습하는 데 적합하다.”
X: “자기지도학습은 반드시 사람이 직접 라벨을 부여한 데이터만 사용한다.”
X: “자기지도학습은 비지도학습과 동일하다.”

ㅁ 추가 학습 내용

자기지도학습은 최근 대규모 언어모델(LLM)과 컴퓨터 비전 분야에서 핵심적인 학습 방식으로 자리잡고 있다.
대표적인 기법에는 마스크드 언어 모델(MLM), 컨트라스티브 러닝(예: SimCLR, MoCo), 오토인코더(Autoencoder) 기반 학습이 있다.
비지도학습과의 차이점은, 비지도학습이 데이터의 잠재 구조를 직접 학습하는 데 비해 자기지도학습은 명시적인 예측 과제를 설정하여 학습한다는 점이다.
준지도학습과는 연계되어, 자기지도학습으로 사전 학습한 뒤 소량의 라벨 데이터로 파인튜닝하는 경우가 많다.
시험에서는 ‘라벨이 없는 데이터만 사용’이라는 표현이 나오면 자기지도학습이 아니라 비지도학습일 가능성이 높다는 함정이 자주 출제된다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*