이상치 처리: LOF
ㅁ 이상치 처리
ㅇ 정의:
데이터 분석 과정에서 비정상적인 값(이상치)을 식별하고 처리하는 방법.
ㅇ 특징:
– 이상치는 데이터의 분포에서 벗어난 값으로, 분석 결과에 큰 영향을 미칠 수 있음.
– 이상치 탐지는 통계적 방법, 기계 학습 기반 방법 등 다양한 접근법이 존재.
ㅇ 적합한 경우:
– 데이터의 분포를 왜곡시키는 이상치를 제거하거나 수정해야 할 때.
– 이상치 자체가 분석의 주요 대상이 되는 경우.
ㅇ 시험 함정:
– 이상치가 항상 제거되어야 한다는 오해.
– 이상치 처리 방법 선택 시 데이터의 특성과 분석 목적을 고려하지 않는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
1. 데이터 분석에서 이상치는 항상 제거해야 한다. (X)
2. 이상치는 데이터의 분포에서 벗어난 값을 의미한다. (O)
================================
1. LOF
ㅇ 정의:
LOF(Local Outlier Factor)는 데이터 포인트의 국지적 밀도를 비교하여 이상치를 탐지하는 비지도 학습 기법.
ㅇ 특징:
– 국지적 밀도를 기반으로 이상치를 탐지하므로 데이터의 밀도 차이를 반영 가능.
– k-최근접 이웃(k-NN) 알고리즘을 활용하여 계산.
ㅇ 적합한 경우:
– 데이터가 비선형 분포를 가지며 국지적 밀도 차이가 큰 경우.
– 이상치 탐지를 위해 비지도 학습 기법을 활용해야 할 때.
ㅇ 시험 함정:
– LOF는 모든 데이터 분포에서 효과적이라는 오해.
– k값 설정이 분석 결과에 미치는 영향을 간과하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
1. LOF는 국지적 밀도를 기반으로 이상치를 탐지한다. (O)
2. LOF는 지도 학습 기법이다. (X)
ㅁ 추가 학습 내용
LOF(Local Outlier Factor)의 주요 단점과 관련된 추가 학습 내용:
1. **계산 복잡성**:
– LOF는 이상치 탐지 시 각 데이터 포인트의 밀도 기반 점수를 계산하는 과정에서 계산량이 많아질 수 있음.
– 특히, 데이터셋의 크기가 커질수록 계산 복잡성이 증가하므로 대규모 데이터셋에서는 실행 시간이 길어질 수 있음.
– 이를 해결하기 위해 효율적인 알고리즘이나 샘플링 기법을 활용하는 방안에 대해 학습할 필요가 있음.
2. **k값 설정의 중요성**:
– LOF의 성능은 k값(이웃의 개수)에 크게 의존함. k값이 너무 작거나 너무 크면 이상치 탐지 결과가 왜곡될 수 있음.
– 적절한 k값을 설정하는 방법에 대해 학습하고, 데이터의 특성과 분포에 따라 k값을 조정하는 실험을 통해 최적의 값을 찾는 과정이 필요.
LOF와 유사한 이상치 탐지 기법과의 비교:
1. **DBSCAN(Density-Based Spatial Clustering of Applications with Noise)**:
– DBSCAN은 밀도 기반 클러스터링 알고리즘으로, 데이터 포인트를 클러스터에 할당하거나 이상치로 분류함.
– LOF와의 주요 차이점은 DBSCAN은 클러스터를 형성하는 데 초점을 맞추고, LOF는 각 데이터 포인트의 이상치 점수를 계산하는 데 초점을 맞춤.
– DBSCAN은 클러스터링 결과에서 이상치를 탐지하며, LOF는 이상치 점수를 통해 이상치의 정도를 정량적으로 평가 가능.
2. **차이점 요약**:
– DBSCAN은 이상치 탐지와 클러스터링을 동시에 수행하는 반면, LOF는 이상치 탐지에 특화됨.
– DBSCAN은 밀도 기반의 글로벌 접근 방식을 사용하지만, LOF는 지역 밀도 차이를 비교하여 이상치를 탐지함.
– DBSCAN은 특정 밀도 기준(e.g., ε-반경과 최소 포인트 수)을 설정해야 하지만, LOF는 k값을 설정하여 이웃 관계를 기반으로 계산함.
이와 관련된 학습을 통해 LOF의 한계와 다른 기법과의 차이점을 명확히 이해하고, 데이터 특성에 맞는 이상치 탐지 기법을 선택할 수 있는 능력을 키워야 함.