AI 모델 개발: 주요 기법 – 클러스터링

ㅁ 주요 기법

1. 클러스터링

ㅇ 정의:
주어진 데이터의 레이블 정보 없이 유사한 속성을 가진 데이터들을 그룹(클러스터)으로 묶는 비지도 학습 기법.

ㅇ 특징:
– 데이터 간 유사도(거리, 상관계수 등)를 기반으로 그룹화
– 대표적인 알고리즘: K-means, 계층적 클러스터링, DBSCAN 등
– 클러스터 수를 사전에 지정해야 하는 경우(K-means)와 그렇지 않은 경우(DBSCAN)가 존재
– 데이터 스케일에 민감하므로 전처리(정규화, 표준화)가 중요

ㅇ 적합한 경우:
– 데이터에 레이블이 없고, 패턴이나 그룹을 찾고자 할 때
– 고객 세분화, 문서 주제 분류, 이미지 유사도 기반 그룹화 등

ㅇ 시험 함정:
– K-means는 구형(球形) 클러스터에 적합하며, 밀도 기반 분류(DBSCAN)와 혼동하기 쉬움
– 계층적 클러스터링은 클러스터 수를 나중에 결정할 수 있음
– PCA와 혼동: PCA는 차원 축소, 클러스터링은 그룹화 목적

ㅇ 시험 대비 “패턴 보기” 예시:
O: “레이블 없이 데이터의 유사도를 기반으로 그룹화하는 기법이다.”
X: “사전에 정의된 레이블을 기반으로 그룹을 나눈다.”

1.1 K-means

ㅇ 정의:
사전에 지정한 K개의 중심점을 기준으로 데이터 포인트를 가장 가까운 중심에 할당하고, 중심을 반복적으로 갱신하여 클러스터를 형성하는 알고리즘.

ㅇ 특징:
– 거리 기반(유클리드 거리 등)으로 유사도 측정
– 초기 중심 설정에 따라 결과가 달라질 수 있음
– 구형 클러스터에 적합
– 빠른 계산 속도, 대규모 데이터에 적합

ㅇ 적합한 경우:
– 데이터가 비교적 균일하게 분포하고, 구형 클러스터 형태일 때
– 빠른 군집화가 필요한 경우

ㅇ 시험 함정:
– 클러스터 수 K를 사전에 지정해야 함
– 이상치에 민감
– 비구형 데이터에서는 성능 저하

ㅇ 시험 대비 “패턴 보기” 예시:
O: “K개의 중심을 기준으로 데이터를 반복적으로 재배치한다.”
X: “K-means는 클러스터 수를 자동으로 결정한다.”

1.2 DBSCAN

ㅇ 정의:
밀도 기반으로 데이터 포인트를 클러스터링하며, 밀집된 영역을 군집으로 정의하고 밀집되지 않은 포인트를 이상치로 분류하는 알고리즘.

ㅇ 특징:
– 클러스터 수를 사전에 지정할 필요 없음
– 비구형 클러스터 탐지 가능
– 이상치 탐지 기능 내장
– 주요 파라미터: ε(이웃 거리), MinPts(최소 포인트 수)

ㅇ 적합한 경우:
– 복잡한 형태의 클러스터를 찾고자 할 때
– 이상치가 포함된 데이터에서 군집화할 때

ㅇ 시험 함정:
– 파라미터 설정(ε, MinPts)에 따라 결과가 크게 달라짐
– 밀도가 크게 다른 클러스터를 동시에 찾기 어려움

ㅇ 시험 대비 “패턴 보기” 예시:
O: “밀집된 영역을 군집으로 정의하고 이상치를 식별할 수 있다.”
X: “DBSCAN은 구형 클러스터에만 적합하다.”

1.3 계층적 클러스터링

ㅇ 정의:
데이터 간 유사도를 기반으로 트리 구조(덴드로그램)를 생성하여 계층적으로 군집을 형성하는 알고리즘.

ㅇ 특징:
– 병합형(agglomerative)과 분할형(divisive) 방식 존재
– 클러스터 수를 사전에 지정할 필요 없음
– 덴드로그램을 통해 다양한 수준의 클러스터링 가능

ㅇ 적합한 경우:
– 데이터 구조를 시각적으로 분석하고 싶을 때
– 클러스터 수를 유연하게 결정하고자 할 때

ㅇ 시험 함정:
– 대규모 데이터에서는 계산 비용이 높음
– 거리 측정 방식(단일 연결, 완전 연결, 평균 연결)에 따라 결과가 달라짐

ㅇ 시험 대비 “패턴 보기” 예시:
O: “덴드로그램을 활용하여 다양한 수준의 군집을 확인할 수 있다.”
X: “계층적 클러스터링은 반드시 클러스터 수를 사전에 지정해야 한다.”

ㅁ 추가 학습 내용

클러스터링 시험 대비 보완 학습 정리

1. 클러스터 수 결정 기법
– 실루엣 계수(Silhouette Coefficient): 각 데이터가 속한 클러스터 내 응집도와 다른 클러스터와의 분리도를 동시에 고려하여 1에 가까울수록 좋은 군집 품질을 의미한다.
– 엘보우 방법(Elbow Method): 클러스터 수에 따른 SSE(Within-Cluster Sum of Squares) 변화를 관찰하여 감소 폭이 완만해지는 지점(팔꿈치 모양)을 최적 클러스터 수로 선택한다.

2. 거리 측정 방법
– 유클리드 거리(Euclidean): 두 점 사이의 직선 거리, 연속형 데이터에 적합.
– 맨해튼 거리(Manhattan): 축을 따라 이동하는 거리의 합, 절대값 차이의 합으로 계산.
– 코사인 유사도(Cosine Similarity): 두 벡터 간 방향의 유사성을 측정, 텍스트 데이터나 고차원 희소 벡터에 적합.

3. 표준화/정규화의 필요성과 영향
– 변수의 단위나 범위가 다를 경우 거리 계산에 왜곡이 발생하므로 표준화(Z-score) 또는 정규화(Min-Max scaling)를 적용하여 변수 간 영향력을 균등하게 만든다.

4. 차원 축소와 결합 활용 사례
– PCA: 주성분 분석으로 데이터의 분산을 최대 보존하며 차원을 축소, 시각화나 노이즈 제거에 활용.
– t-SNE: 비선형 차원 축소 기법으로 고차원 데이터의 군집 구조를 2~3차원에서 시각화하는 데 효과적.
– 클러스터링 전 차원 축소를 적용하면 계산 효율성과 시각화 용이성이 향상된다.

5. 알고리즘별 시간 복잡도
– K-means: O(n × k × t) (n: 데이터 수, k: 클러스터 수, t: 반복 횟수)
– 계층적 클러스터링: O(n²) 이상, 데이터 수가 많을수록 비효율적.
– DBSCAN: 평균 O(n log n), 밀도 기반 방식.

6. 이상치 처리 방식
– K-means는 이상치에 민감하여 평균이 왜곡될 수 있음.
– DBSCAN은 밀도 기반이므로 이상치를 별도 노이즈로 분류 가능.
– 사전 이상치 제거 또는 강건한 거리 척도 사용이 필요.

7. 고차원 데이터에서의 한계
– 거리 기반 유사도 측정 시 차원의 저주(Curse of Dimensionality)로 인해 거리 값이 균질화되어 군집 품질이 저하됨.
– 차원 축소 기법을 통한 사전 처리 필요.

8. 실제 비즈니스 적용 사례
– 고객 세분화: 구매 패턴, 인구통계 데이터를 기반으로 마케팅 전략 수립.
– 문서 토픽 분류: 뉴스 기사, 논문 등의 주제별 자동 분류.
– 이미지 검색 시스템: 이미지 특징 벡터를 클러스터링하여 유사 이미지 검색에 활용.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*