데이터 전처리: 이상치 처리 – Isolation Forest

ㅁ 이상치 처리

ㅇ 정의:
데이터셋 내에서 정상 범위를 벗어난 값(이상치)을 식별하고 처리하는 기법으로, 모델 성능 저하를 방지하고 데이터 품질을 높이기 위해 수행됨.

ㅇ 특징:
– 통계적 방법, 거리 기반, 밀도 기반, 트리 기반 등 다양한 접근 방식 존재
– 처리 방식에는 제거, 대체, 변환 등이 있음
– 이상치 정의 기준은 도메인 지식과 데이터 분포에 따라 다름

ㅇ 적합한 경우:
– 센서 오류나 데이터 입력 실수로 인한 비정상 값 존재 시
– 모델 학습에 방해가 되는 극단값이 포함된 경우

ㅇ 시험 함정:
– 모든 극단값이 이상치는 아님(실제 중요한 패턴일 수 있음)
– 이상치 처리 전후 모델 성능 비교 필요

ㅇ 시험 대비 “패턴 보기” 예시:
O: “이상치 처리는 모델 성능 향상과 데이터 품질 개선을 위해 필요하다.”
X: “이상치는 반드시 모두 제거해야 한다.”

================================

1. Isolation Forest

ㅇ 정의:
트리 기반의 이상치 탐지 알고리즘으로, 데이터 포인트를 무작위로 분할하여 격리(isolation)하는 데 필요한 분할 횟수를 기반으로 이상치를 판단함.

ㅇ 특징:
– 무작위 분할(Random Partitioning)을 통해 이상치를 빠르게 격리
– 이상치는 적은 분할로 격리되므로 평균 경로 길이가 짧음
– 대규모 데이터셋에도 효율적이며, 고차원 데이터에서도 사용 가능
– 비정상 데이터의 비율이 낮을수록 효과적

ㅇ 적합한 경우:
– 정상 데이터가 대부분이고 이상치 비율이 낮은 경우
– 데이터의 분포를 사전에 알기 어려운 경우
– 비선형 경계의 이상치 탐지가 필요한 경우

ㅇ 시험 함정:
– Isolation Forest는 이상치 비율이 높을 경우 성능 저하
– 분포 기반이 아니므로 평균, 표준편차 기반의 이상치 개념과 혼동 주의
– 이상치 점수 해석 시 threshold 설정이 중요

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Isolation Forest는 무작위 분할을 통해 이상치를 격리하는 트리 기반 알고리즘이다.”
X: “Isolation Forest는 거리를 계산하여 이상치를 탐지한다.”

ㅁ 추가 학습 내용

Isolation Forest의 주요 하이퍼파라미터 역할과 조정 방법
– n_estimators: 사용할 트리의 개수. 트리 개수가 많을수록 성능이 안정되지만 계산 비용이 증가함.
– max_samples: 각 트리를 학습할 때 사용할 샘플 수. 데이터 크기에 따라 적절히 조정하며, 너무 작으면 대표성이 떨어지고 너무 크면 계산량이 증가함.
– contamination: 데이터에서 예상되는 이상치 비율. 모델이 이상치 점수를 기준으로 정상/이상치를 구분할 때 임계값 설정에 활용됨.
– max_features: 각 트리를 학습할 때 사용할 특징 수. 일부 특징만 사용하면 다양성이 증가하여 성능 향상 가능.

평균 경로 길이(Average Path Length)와 이상치 점수 산출 방식
– 평균 경로 길이: 샘플이 Isolation Tree에서 분리되기까지 거치는 평균 노드 수를 의미하며, 데이터 크기에 따라 수학적으로 근사 계산 가능.
– 이상치 점수: 평균 경로 길이가 짧을수록 이상치로 판단하며, 경로 길이를 표준화하여 0~1 범위의 점수를 부여함.

다른 이상치 탐지 기법과의 비교
– Local Outlier Factor(LOF): 국소 밀도 기반으로 이상치를 탐지하며, 밀도가 주변보다 낮은 데이터를 이상치로 판단. 지역적 패턴에 민감.
– One-Class SVM: 초평면을 학습하여 정상 데이터를 분리하는 방식. 커널 선택과 파라미터 설정에 민감하며 계산 비용이 높을 수 있음.
– Isolation Forest: 데이터 분할을 통한 이상치 탐지. 대규모 데이터에서 빠르게 동작하며 고차원 데이터에도 적용 가능.

주의 사항
– Isolation Forest는 비지도 학습 기반 알고리즘임. 시험에서 지도학습처럼 오해하도록 유도하는 문장에 주의해야 함.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*