데이터 전처리: 이상치 탐지 기법
ㅁ 이상치 탐지 기법
ㅇ 정의:
데이터셋에서 정상 범위를 벗어난 관측값(이상치)을 식별하는 통계적·알고리즘적 방법.
ㅇ 특징:
– 데이터 품질 향상을 위해 필수적으로 수행
– 통계적 방법, 거리 기반 방법, 머신러닝 기반 방법 등 다양함
– 도메인 지식과 결합 시 정확도 향상
ㅇ 적합한 경우:
– 센서 데이터의 오류값 제거
– 금융 사기 탐지, 제조 불량 검출 등
ㅇ 시험 함정:
– 이상치와 노이즈를 혼동하는 경우
– 모든 이상치가 반드시 제거 대상이 아님
ㅇ 시험 대비 “패턴 보기” 예시:
O: “데이터의 정상 패턴에서 벗어난 값을 식별하는 과정이다.”
X: “이상치는 항상 잘못된 데이터이므로 무조건 제거해야 한다.”
================================
1. DBSCAN 기반 탐지
ㅇ 정의:
밀도 기반 클러스터링(DBSCAN)을 활용하여 저밀도 영역의 점들을 이상치로 분류하는 방법.
ㅇ 특징:
– 클러스터 밀도가 낮은 영역을 이상치로 간주
– 파라미터(Eps, MinPts)에 민감
– 비선형 패턴에도 적용 가능
ㅇ 적합한 경우:
– 군집 구조가 명확하지 않은 데이터셋
– 노이즈와 이상치를 동시에 식별해야 하는 경우
ㅇ 시험 함정:
– Eps와 MinPts 설정이 잘못되면 정상 데이터가 이상치로 분류될 수 있음
– 고차원 데이터에서는 거리 계산의 의미가 약해짐
ㅇ 시험 대비 “패턴 보기” 예시:
O: “DBSCAN은 저밀도 영역의 점을 이상치로 식별할 수 있다.”
X: “DBSCAN은 항상 고차원 데이터에서 효과적이다.”
================================
2. Mahalanobis Distance
ㅇ 정의:
데이터의 공분산 구조를 고려하여 점과 분포 중심 간의 거리를 측정하는 방법.
ㅇ 특징:
– 변수 간 상관관계를 반영
– 다변량 정규분포 가정하에 효과적
– 거리 제곱값이 카이제곱 분포를 따름
ㅇ 적합한 경우:
– 다변량 데이터에서의 이상치 탐지
– 변수 간 상관성이 높은 경우
ㅇ 시험 함정:
– 공분산 행렬이 특이하면 계산 불가
– 정규성 가정이 깨지면 성능 저하
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Mahalanobis Distance는 변수 간 상관관계를 반영한다.”
X: “Mahalanobis Distance는 유클리드 거리와 동일하다.”
================================
3. Hampel Filter
ㅇ 정의:
이동 윈도우 내 중앙값과 중앙절대편차(MAD)를 이용하여 이상치를 탐지하는 필터링 기법.
ㅇ 특징:
– 평균 대신 중앙값 사용으로 극단값에 강건
– 시계열 데이터에 적합
– 윈도우 크기와 임계값 설정 필요
ㅇ 적합한 경우:
– 센서 시계열 데이터의 이상치 제거
– 평균 기반 필터가 실패하는 경우
ㅇ 시험 함정:
– 윈도우 크기 설정이 잘못되면 정상값이 이상치로 분류 가능
– 비시계열 데이터에는 부적합
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Hampel Filter는 중앙값과 MAD를 이용한다.”
X: “Hampel Filter는 평균과 표준편차를 이용한다.”
================================
4. Isolation Forest
ㅇ 정의:
데이터 분할을 반복하여 이상치를 빠르게 격리하는 트리 기반 앙상블 기법.
ㅇ 특징:
– 이상치는 적은 분할로 격리 가능
– 고차원 데이터에서도 효율적
– 비모수적 방법
ㅇ 적합한 경우:
– 대규모 데이터셋
– 고차원 이상치 탐지
ㅇ 시험 함정:
– 데이터에 이상치가 거의 없으면 성능 저하
– 이상치 비율이 높으면 정상 데이터까지 격리될 수 있음
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Isolation Forest는 적은 분할로 이상치를 격리한다.”
X: “Isolation Forest는 거리 계산에 기반한다.”
ㅁ 추가 학습 내용
시험 대비 정리
1. 각 기법의 시간 복잡도와 공간 복잡도 숙지
– 알고리즘별 Big-O 표기법 이해
– 데이터 크기 증가 시 성능 변화 예상
2. 주요 파라미터 선택 방법
– DBSCAN: Eps, MinPts 설정 기준
– 임계값(Threshold) 설정 방법
– Isolation Forest: 이상치 점수(0~1)와 threshold 관계
3. 전처리 필요 여부
– 스케일링 필요성 여부 확인
– 각 기법별로 전처리의 성능 영향 이해
4. 알고리즘별 특이 사항
– DBSCAN: 밀도 기반 → 샘플 밀도가 불균일하면 성능 저하 가능
– Mahalanobis Distance: 다변량 정규성 검정과 함께 사용하는 것이 안전
– Hampel Filter: 실시간 스트리밍 데이터 적용 가능하나 latency 발생 가능
– Isolation Forest: 이상치 점수 범위와 threshold 설정 방식 숙지
5. 비교 정리
– 각 기법의 장단점, 적용 사례 표로 정리
– ‘옳지 않은 설명’ 유형 대비를 위해 특징 정확히 구분
시험 대비 체크리스트
[ ] 각 기법의 시간 복잡도, 공간 복잡도 암기
[ ] DBSCAN의 Eps, MinPts 설정 기준 이해
[ ] 임계값 설정 방법 숙지
[ ] Isolation Forest 이상치 점수 범위와 threshold 설정 방식 이해
[ ] 스케일링 전처리 필요 여부 확인
[ ] DBSCAN의 밀도 불균일 시 성능 저하 이유 설명 가능
[ ] Mahalanobis Distance와 다변량 정규성 검정 관계 이해
[ ] Hampel Filter의 실시간 적용 가능성과 latency 문제 설명 가능
[ ] 각 기법의 장단점과 적용 사례 표로 정리 완료
[ ] ‘옳지 않은 설명’ 유형 문제 대비하여 특징 비교 숙지