데이터 전처리: 이상치 탐지 기법 – DBSCAN 기반 탐지

ㅁ 이상치 탐지 기법

1. DBSCAN 기반 탐지

ㅇ 정의:
– 밀도 기반 군집화 알고리즘(DBSCAN)을 활용하여 데이터의 밀도가 낮은 영역에 위치한 점들을 이상치로 식별하는 기법.
– 데이터 포인트 주변의 이웃 개수를 기준으로 군집을 형성하고, 군집에 속하지 못한 점을 이상치로 간주.

ㅇ 특징:
– 사전에 군집 개수를 지정할 필요가 없음.
– 비선형 분포 및 임의 모양의 군집 탐지 가능.
– epsilon(반경)과 minPts(최소 이웃 수) 파라미터에 민감.
– 고차원 데이터에서는 거리 계산의 효율성과 정확도가 떨어질 수 있음.

ㅇ 적합한 경우:
– 군집의 개수가 명확하지 않은 데이터.
– 잡음이 포함된 데이터셋.
– 밀도 차이가 명확한 데이터 분포.

ㅇ 시험 함정:
– K-means와 달리 군집 개수를 지정하지 않는다는 점을 혼동할 수 있음.
– epsilon과 minPts 설정이 잘못되면 모든 점이 이상치 또는 하나의 군집으로 분류될 수 있음.
– DBSCAN은 스케일에 민감하므로 표준화/정규화 전처리 여부를 놓칠 수 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “DBSCAN은 군집 개수를 사전에 지정하지 않고, 밀도 기반으로 이상치를 탐지한다.”
– O: “DBSCAN에서 epsilon은 이웃을 탐색하는 반경을 의미한다.”
– X: “DBSCAN은 항상 구형(원형) 군집만 탐지 가능하다.”
– X: “DBSCAN은 파라미터 설정에 영향을 받지 않는다.”

ㅁ 추가 학습 내용

DBSCAN 기반 이상치 탐지에서는 epsilon(ε)과 minPts 값을 데이터 분포에 맞게 설정하는 것이 핵심이다. 적절한 epsilon 값을 찾기 위해 k-distance plot을 활용하는 방법이 자주 출제된다. DBSCAN은 선택한 거리 척도(metric)에 따라 결과가 달라지며, 고차원 데이터에서는 차원의 저주로 인해 거리 기반 밀도 측정이 어려워질 수 있다. 시험에서는 DBSCAN과 OPTICS, HDBSCAN의 차이점을 비교하는 문제가 나올 수 있으므로, 각 기법의 파라미터 민감도와 이상치 처리 방식의 차이를 정확히 이해해야 한다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*