주요 기법: t-SNE
ㅁ 주요 기법
ㅇ 정의:
비지도 학습에서 고차원의 데이터를 저차원으로 시각화하는 데 사용되는 기법으로, 데이터 간의 유사성을 보존하는 데 중점을 둔다.
ㅇ 특징:
– 고차원의 데이터 분포를 2차원 또는 3차원으로 표현 가능.
– 데이터 간 거리 및 관계를 시각적으로 이해하기 쉬움.
– 대규모 데이터셋에 적용하기에는 계산량이 많아 성능 저하 가능성 존재.
ㅇ 적합한 경우:
– 데이터의 군집 구조를 시각적으로 확인하고자 할 때.
– 데이터의 분포와 관계를 직관적으로 이해하고자 할 때.
ㅇ 시험 함정:
– PCA와 혼동하여 주성분 분석으로만 이해하는 경우.
– 데이터 크기가 클수록 성능이 떨어질 수 있다는 점을 간과하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
O: t-SNE는 고차원 데이터를 저차원으로 시각화하며 데이터의 군집 구조를 보존한다.
X: t-SNE는 주로 지도 학습에서 사용되며 데이터의 정확도를 높인다.
================================
1. t-SNE
ㅇ 정의:
고차원 데이터의 유사성을 저차원에서 보존하면서 시각화하는 비지도 학습 기법.
ㅇ 특징:
– 데이터 간의 관계를 시각적으로 표현.
– 계산량이 많아 대규모 데이터셋에 비효율적일 수 있음.
– 랜덤 초기화에 따라 결과가 달라질 수 있음.
ㅇ 적합한 경우:
– 데이터의 군집 구조를 이해하거나 시각화가 필요한 경우.
– 고차원 데이터의 패턴을 직관적으로 파악하고자 할 때.
ㅇ 시험 함정:
– 결과가 항상 동일하다고 생각하는 경우.
– PCA와의 차이를 명확히 구분하지 못하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
O: t-SNE는 고차원 데이터의 시각화를 통해 데이터 간의 유사성을 보존한다.
X: t-SNE는 지도 학습 기법으로 데이터의 정확도를 개선한다.
ㅁ 추가 학습 내용
t-SNE의 주요 하이퍼파라미터 중 하나인 perplexity는 데이터의 지역 구조를 결정하는 역할을 합니다. 이는 데이터 샘플 주변의 효과적인 이웃 수를 나타내며, 일반적으로 5에서 50 사이의 값으로 설정됩니다. perplexity 값이 너무 작으면 데이터의 전체적인 구조를 반영하지 못하고, 값이 너무 크면 지역적인 군집 구조가 왜곡될 수 있습니다. 따라서 적절한 perplexity 값을 선택하는 것이 중요하며, 데이터의 크기와 특성에 따라 최적의 값을 실험적으로 찾아야 합니다.
또 다른 중요한 하이퍼파라미터인 learning rate는 t-SNE 알고리즘의 최적화 과정에서 사용됩니다. 학습률이 너무 낮으면 알고리즘이 수렴하는 데 시간이 오래 걸릴 수 있고, 너무 높으면 결과가 불안정해질 수 있습니다. 일반적으로 학습률은 데이터 샘플 수의 1/12에서 1/4 사이로 설정하는 것이 권장되며, 필요에 따라 조정할 수 있습니다.
또한, t-SNE의 결과는 초기화에 따라 달라질 수 있습니다. t-SNE는 임의의 초기값을 사용하여 계산을 시작하므로, 동일한 데이터셋을 사용하더라도 실행할 때마다 결과가 다르게 나타날 수 있습니다. 따라서 t-SNE를 여러 번 실행하여 결과의 일관성을 확인하는 것이 중요합니다. 일관된 군집 구조가 반복적으로 나타난다면 결과를 신뢰할 수 있는 것으로 간주할 수 있습니다.