AI 모델 개발: 주요 기법 – t-SNE
ㅁ 주요 기법
1. t-SNE
ㅇ 정의:
고차원 데이터의 구조를 2~3차원으로 시각화하기 위해 확률적 이웃 임베딩을 사용하는 차원 축소 기법. 데이터 간 유사도를 확률 분포로 변환하여 저차원 공간에서 유사도 분포를 최대한 보존.
ㅇ 특징:
– 비선형 차원 축소 기법으로, 복잡한 데이터의 군집 구조를 잘 드러냄
– PCA와 달리 국소 구조(근접 데이터 관계) 보존에 강점
– perplexity, learning rate 등 하이퍼파라미터에 민감
– 결과가 실행마다 다를 수 있음(랜덤 초기화 영향)
ㅇ 적합한 경우:
– 고차원 데이터(이미지, 단어 임베딩 등)의 시각적 탐색
– 데이터의 군집 경향 파악
– 지도학습 전 데이터 분포 이해
ㅇ 시험 함정:
– t-SNE는 예측 모델링용이 아니라 시각화용임 → 분류/회귀 성능 향상 목적으로 직접 사용 X
– 전역 구조(거리 비율) 보존에는 약함 → PCA와 혼동 주의
– 대규모 데이터셋에는 계산량이 많아 비효율적
ㅇ 시험 대비 “패턴 보기” 예시:
O: “t-SNE는 고차원 데이터의 국소 구조를 보존하며 시각화에 주로 사용된다.”
X: “t-SNE는 대규모 데이터셋에서 전역 구조 보존에 최적화된 차원 축소 방법이다.”
ㅁ 추가 학습 내용
t-SNE의 perplexity는 데이터의 지역적-전역적 균형을 조절하는 핵심 파라미터이며, 일반적으로 5~50 범위에서 조정한다. 최적값은 데이터 크기에 따라 다르다. t-SNE는 거리 대신 확률 분포 간의 Kullback-Leibler divergence를 최소화하는 방식으로 동작한다. 초기 차원 축소 단계에서 PCA를 사용하면 속도와 안정성이 향상된다. 시험에서는 UMAP과 비교하여 속도와 전역 구조 보존 측면의 차이를 묻는 경우가 많으므로 이에 대한 대비가 필요하다.