데이터 전처리: 스케일링 – Robust Scaling

ㅁ 스케일링 ㅇ 정의: 데이터의 특성 값들을 일정한 범위나 분포로 변환하여 모델 학습 시 특정 변수의 크기 차이로 인한 영향력을 줄이는 전처리 기법. ㅇ 특징: – 모든 특성(feature)의 단위를 맞추어 모델 학습 안정성을 높임. – 이상치(outlier)에 민감한 기법과 그렇지 않은 기법이 존재. – 회귀, 분류, 거리 기반 알고리즘(KNN, SVM, K-means 등)에 필수적으로 사용됨. ㅇ 적합한

데이터 전처리: 스케일링 – 정규화

ㅁ 스케일링 ㅇ 정의: 데이터의 값 범위를 일정한 구간으로 맞추어 모델 학습 시 변수 간 크기 차이로 인한 영향을 줄이는 전처리 기법. ㅇ 특징: – 변수 값의 스케일이 다를 경우 경사하강법 기반 알고리즘의 수렴 속도 향상. – 거리 기반 알고리즘(KNN, K-means 등)에서 변수 단위 차이로 인한 왜곡 방지. – 스케일링 방법에 따라 데이터 분포 특성이

데이터 전처리: 스케일링 – 표준화

ㅁ 스케일링 ㅇ 정의: 데이터의 범위나 분포를 조정하여 알고리즘의 학습 효율과 성능을 향상시키는 전처리 기법. ㅇ 특징: – 입력 변수들의 단위나 범위 차이를 줄여 모델이 특정 변수에 치우치지 않도록 함. – 거리 기반 알고리즘(KNN, SVM, PCA 등)에서 성능 향상에 필수적. – 스케일링 방법에는 표준화, 정규화 등이 있음. ㅇ 적합한 경우: – 변수들의 단위가 서로 다른

데이터 전처리: 이상치 처리 – LOF

ㅁ 이상치 처리 ㅇ 정의: 데이터셋에서 정상 범위를 벗어난 값(이상치)을 탐지하고 처리하는 기법 중 하나로, LOF(Local Outlier Factor)는 데이터 포인트의 국소 밀도(local density)를 기반으로 이상치를 판단하는 비지도 학습 방법이다. ㅇ 특징: – 각 데이터 포인트 주변의 밀도를 계산하여, 이웃과 비교했을 때 밀도가 현저히 낮으면 이상치로 판단. – 거리 기반 이상치 탐지 기법보다 군집 구조에 민감하게

데이터 전처리: 이상치 처리 – Isolation Forest

ㅁ 이상치 처리 ㅇ 정의: 데이터셋 내에서 정상 범위를 벗어난 값(이상치)을 식별하고 처리하는 기법으로, 모델 성능 저하를 방지하고 데이터 품질을 높이기 위해 수행됨. ㅇ 특징: – 통계적 방법, 거리 기반, 밀도 기반, 트리 기반 등 다양한 접근 방식 존재 – 처리 방식에는 제거, 대체, 변환 등이 있음 – 이상치 정의 기준은 도메인 지식과 데이터 분포에

데이터 전처리: 이상치 처리 – Z-Score

ㅁ 이상치 처리 ㅇ 정의: 데이터셋에서 다른 값들과 비교하여 현저히 벗어난 값을 식별하고 처리하는 과정으로, 분석 결과의 왜곡을 방지하기 위함. ㅇ 특징: – 통계적 방법, 시각화, 규칙 기반 탐지 등 다양한 기법 사용 – 처리 방식은 제거, 대체, 변환 등으로 나뉨 – 도메인 지식과 결합하여 판단 필요 ㅇ 적합한 경우: – 센서 오류, 입력 실수,

데이터 전처리: 이상치 처리 – IQR

ㅁ 이상치 처리 ㅇ 정의: 데이터셋에서 다른 값들과 비교해 극단적으로 크거나 작은 값을 식별하고 처리하는 과정. ㅇ 특징: – 평균, 표준편차 기반보다 분포의 왜곡에 덜 민감함 – 대표적으로 사분위 범위(IQR)를 이용한 방법이 사용됨 – 통계적 기준을 적용하여 일관성 있는 이상치 탐지 가능 ㅇ 적합한 경우: – 수치형 데이터에서 분포가 비정규적이거나 치우침이 있는 경우 – 데이터에

데이터 전처리: 결측치 처리 – KNN Imputer

ㅁ 결측치 처리 ㅇ 정의: 데이터셋 내에서 일부 관측값이 누락된 경우, 이를 보완하여 분석이나 모델링에 사용할 수 있도록 만드는 과정. ㅇ 특징: – 결측치는 분석 결과의 왜곡을 초래할 수 있음. – 처리 방법에는 삭제, 대체, 예측 기반 대체 등이 있음. – 데이터 특성과 결측 패턴에 따라 적합한 방법을 선택해야 함. ㅇ 적합한 경우: – 결측치

데이터 전처리: 결측치 처리 – 회귀/모델 기반 대체

ㅁ 결측치 처리 ㅇ 정의: 데이터셋 내에서 일부 값이 누락된 경우, 이를 통계적 기법이나 알고리즘을 통해 채우는 과정. 회귀/모델 기반 대체는 결측치를 예측 모델을 사용하여 추정하는 방법. ㅇ 특징: – 단순 평균/중앙값 대체보다 정확도가 높을 수 있음 – 결측치 예측을 위해 다른 변수와의 상관관계를 활용 – 회귀, 랜덤포레스트, KNN, XGBoost 등 다양한 모델 사용 가능

데이터 전처리: 결측치 처리 – 평균/중앙값 대체

ㅁ 결측치 처리 ㅇ 정의: 데이터셋 내에서 누락된 값을 통계적 방법 또는 예측 기법을 사용하여 채우는 과정. ㅇ 특징: 데이터 손실을 최소화하고 분석 모델의 성능 저하를 방지하며, 단순 대체는 계산이 빠르지만 데이터 분포 왜곡 가능성이 있음. ㅇ 적합한 경우: 결측치 비율이 낮고, 데이터가 정규분포 또는 대칭 분포를 따르는 경우. ㅇ 시험 함정: 결측치 비율이 높거나