주요 기법: 클러스터링
ㅁ 주요 기법
ㅇ 정의:
비지도 학습의 한 기법으로, 데이터의 유사성을 기반으로 그룹을 형성하여 데이터의 구조를 파악하는 방법.
ㅇ 특징:
– 라벨이 없는 데이터에서 패턴을 찾음.
– 데이터의 분포 및 군집 구조를 시각적으로 이해 가능.
– 결과는 초기 조건과 알고리즘 선택에 따라 달라질 수 있음.
ㅇ 적합한 경우:
– 데이터의 숨겨진 패턴을 발견하고자 할 때.
– 데이터 라벨링이 불가능하거나 비용이 많이 드는 경우.
– 고객 세분화, 이미지 분류 등 다양한 도메인에서 활용 가능.
ㅇ 시험 함정:
– 클러스터 수를 잘못 설정하면 결과가 왜곡될 수 있음.
– 초기화 방법에 따라 결과가 달라질 수 있다는 점을 간과함.
– 클러스터링 결과를 평가할 때 사용되는 지표(Silhouette Score, Dunn Index 등)를 묻는 문제에서 헷갈릴 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: 클러스터링은 비지도 학습 기법 중 하나로, 데이터의 유사성을 기반으로 그룹을 형성한다.
– X: 클러스터링은 데이터의 라벨을 예측하기 위한 지도 학습 기법이다.
ㅁ 추가 학습 내용
클러스터링은 데이터 분석에서 데이터 포인트를 유사한 그룹으로 나누는 비지도 학습 기법입니다. 주요 클러스터링 알고리즘과 평가 지표를 정리하면 다음과 같습니다.
1. 주요 클러스터링 알고리즘:
– K-Means:
정의: 데이터 포인트를 K개의 군집으로 나누는 알고리즘으로, 각 군집의 중심(centroid)을 반복적으로 계산하여 군집을 형성합니다.
특징: 속도가 빠르고 대규모 데이터셋에 적합하지만, 군집 수(K)를 사전에 지정해야 하며, 구형 군집에 적합합니다.
적용 사례: 고객 세분화, 이미지 압축, 패턴 인식 등.
– DBSCAN (Density-Based Spatial Clustering of Applications with Noise):
정의: 밀도 기반 클러스터링 알고리즘으로, 데이터 포인트의 밀집도를 기준으로 군집을 형성하며 노이즈 데이터를 군집에서 제외합니다.
특징: 군집 수를 사전에 지정할 필요가 없으며, 다양한 형태의 군집을 탐지할 수 있지만, 파라미터(epsilon, min_samples) 설정이 민감합니다.
적용 사례: 이상치 탐지, 지리적 데이터 분석, 소셜 네트워크 분석 등.
– Hierarchical Clustering (계층적 클러스터링):
정의: 데이터 포인트 간의 계층적 관계를 기반으로 군집을 형성하며, 군집을 병합(agglomerative)하거나 분리(divisive)하는 방식으로 작동합니다.
특징: 군집 수를 사전에 지정하지 않아도 되고, 데이터 간의 관계를 시각적으로 표현할 수 있지만, 대규모 데이터셋에서는 계산 비용이 높습니다.
적용 사례: 유전자 데이터 분석, 문서 분류, 계층적 데이터 구조 분석 등.
2. 클러스터링 결과 평가 지표:
– Silhouette Score:
정의: 각 데이터 포인트가 자신의 군집에 얼마나 잘 속해 있는지와 다른 군집과 얼마나 구분되는지를 측정하는 지표입니다.
해석 방법: 값이 -1에 가까울수록 잘못된 군집화, 0에 가까울수록 군집 간의 경계에 위치, 1에 가까울수록 잘 형성된 군집을 의미합니다.
– Calinski-Harabasz Index (Variance Ratio Criterion):
정의: 군집 내 데이터의 분산과 군집 간 분산의 비율을 측정하는 지표입니다.
해석 방법: 값이 클수록 군집 내 데이터가 밀집되어 있고, 군집 간의 차이가 명확하다는 것을 의미합니다.
이 내용을 학습하면 클러스터링 알고리즘의 선택과 결과 평가를 보다 효과적으로 수행할 수 있습니다.