데이터 전처리: 이상치 처리 – LOF
ㅁ 이상치 처리
ㅇ 정의:
데이터셋에서 정상 범위를 벗어난 값(이상치)을 탐지하고 처리하는 기법 중 하나로, LOF(Local Outlier Factor)는 데이터 포인트의 국소 밀도(local density)를 기반으로 이상치를 판단하는 비지도 학습 방법이다.
ㅇ 특징:
– 각 데이터 포인트 주변의 밀도를 계산하여, 이웃과 비교했을 때 밀도가 현저히 낮으면 이상치로 판단.
– 거리 기반 이상치 탐지 기법보다 군집 구조에 민감하게 반응.
– k-최근접 이웃(k-NN) 개념을 활용.
ㅇ 적합한 경우:
– 데이터가 비선형 구조를 가지거나, 전역적으로는 정상 범위지만 국소적으로는 특이한 패턴이 있는 경우.
– 라벨이 없는 이상치 탐지 상황.
ㅇ 시험 함정:
– LOF는 거리 기반 기법이지만 단순히 평균 거리로 이상치를 판단하지 않음(O)
– LOF는 국소 밀도 비교를 통해 이상치를 탐지하므로 전역 밀도 차이는 무시함(X)
– k 값이 너무 작으면 노이즈에 민감하고, 너무 크면 국소성(locality) 특성이 약화됨(O)
ㅇ 시험 대비 “패턴 보기” 예시:
– “LOF는 각 데이터 포인트의 국소 밀도를 이웃과 비교하여 이상치를 탐지한다” (O)
– “LOF는 모든 데이터의 전역 평균 거리만을 기준으로 이상치를 판단한다” (X)
– “LOF는 비지도 학습 기반 이상치 탐지 기법이다” (O)
================================
1. LOF
ㅇ 정의:
Local Outlier Factor는 각 데이터 포인트 주변의 밀도를 계산하고, 이를 이웃의 밀도와 비교하여 이상치 점수를 부여하는 알고리즘.
ㅇ 특징:
– 비모수적, 비지도 학습 방식.
– 데이터의 지역적 밀도 차이를 기반으로 이상치를 탐지.
– k-최근접 이웃 기반의 거리 계산.
ㅇ 적합한 경우:
– 데이터 분포가 균일하지 않고, 부분적으로 밀집/희박한 구역이 존재하는 경우.
– 라벨 정보 없이 이상치를 탐지해야 하는 경우.
ㅇ 시험 함정:
– LOF 점수가 1에 가까우면 정상치, 1보다 크면 이상치 경향(O)
– LOF는 군집 기반 이상치 탐지 기법이다(X) → 군집 기반이 아니라 밀도 기반.
– LOF는 모든 이상치를 동일한 기준으로 판단한다(X) → 국소 밀도에 따라 다름.
ㅇ 시험 대비 “패턴 보기” 예시:
– “LOF는 국소 밀도 기반 이상치 탐지 기법이다” (O)
– “LOF 점수가 1보다 크면 이상치 가능성이 높다” (O)
– “LOF는 k-means와 동일한 군집 기반 이상치 탐지 방법이다” (X)
ㅁ 추가 학습 내용
LOF(Local Outlier Factor)의 한계점과 개선 방안 정리
1. 차원의 저주 문제
고차원 데이터에서 거리 계산의 신뢰성이 떨어져 LOF 성능이 저하될 수 있음.
완화 방안: PCA 등 차원 축소 기법을 적용한 후 LOF를 수행.
2. k 값 선택의 민감성
LOF의 결과는 k 값(이웃 수)에 크게 의존함.
개선 방안: 교차 검증을 사용하거나 도메인 지식을 활용해 최적의 k 값을 선정.
3. LOF 점수 해석
LOF 점수는 1을 기준으로 해석하나, 실제 임계값 설정은 데이터 분포에 따라 조정해야 함.
4. 다른 이상치 탐지 기법과 비교
– DBSCAN: 밀도 기반 군집화로 이상치 탐지가 가능하며, 군집과 이상치를 동시에 파악.
– Isolation Forest: 트리 기반 모델로 고차원 데이터에도 비교적 강건하며, 대규모 데이터 처리에 유리.
– LOF: 국소 밀도 비율을 활용해 이상치를 탐지하므로, 데이터의 지역적 특성을 반영 가능.