스케일링: Robust Scaling

ㅁ 스케일링 ㅇ 정의: 데이터의 범위를 조정하여 특정 알고리즘이 더 잘 작동하도록 만드는 과정. ㅇ 특징: – 데이터의 크기 차이를 줄여 모델 학습이 원활하도록 함. – 이상치에 민감한 경우, 적절한 방법을 선택해야 함. ㅇ 적합한 경우: – 데이터의 값이 서로 다른 범위를 가질 때. – 학습 알고리즘이 거리 기반으로 작동할 때. ㅇ 시험 함정: –

스케일링: 정규화

ㅁ 스케일링 ㅇ 정의: 데이터의 크기나 범위를 일정한 기준으로 변환하여 분석 결과에 영향을 미치지 않도록 조정하는 과정. ㅇ 특징: – 데이터의 단위 차이로 인해 발생할 수 있는 문제를 방지. – 머신러닝 모델에서 가중치 계산의 왜곡을 줄임. ㅇ 적합한 경우: – 변수 간의 단위가 다를 때. – 거리 기반 알고리즘(예: KNN, K-Means)에서. ㅇ 시험 함정: –

스케일링: 표준화

ㅁ 스케일링 ㅇ 정의: 데이터의 범위를 조정하여 모델 학습에 적합하도록 만드는 과정. ㅇ 특징: – 데이터의 단위 차이로 인한 모델 성능 저하 방지. – 주요 방법으로 표준화와 정규화가 있음. ㅇ 적합한 경우: – 데이터의 값 범위가 매우 클 때. – 머신러닝 알고리즘(예: SVM, 로지스틱 회귀 등)이 데이터 크기에 민감할 때. ㅇ 시험 함정: – 스케일링이

이상치 처리: LOF

ㅁ 이상치 처리 ㅇ 정의: 데이터 분석 과정에서 비정상적인 값(이상치)을 식별하고 처리하는 방법. ㅇ 특징: – 이상치는 데이터의 분포에서 벗어난 값으로, 분석 결과에 큰 영향을 미칠 수 있음. – 이상치 탐지는 통계적 방법, 기계 학습 기반 방법 등 다양한 접근법이 존재. ㅇ 적합한 경우: – 데이터의 분포를 왜곡시키는 이상치를 제거하거나 수정해야 할 때. – 이상치

이상치 처리: Isolation Forest

ㅁ 이상치 처리 ㅇ 정의: 데이터셋에서 정상적인 패턴을 따르지 않는 데이터를 식별하고 처리하는 과정. ㅇ 특징: – 이상치는 데이터 분석 결과를 왜곡시킬 수 있음. – 다양한 기법을 사용하여 이상치를 탐지하고 제거하거나 수정함. ㅇ 적합한 경우: – 데이터셋에 극단적인 값이 포함되어 있는 경우. – 이상치로 인해 분석 결과의 신뢰도가 낮아질 때. ㅇ 시험 함정: – 이상치와

이상치 처리: Z-Score

ㅁ 이상치 처리 ㅇ 정의: 데이터셋에서 통계적으로 정상 범위를 벗어난 값을 식별하고 처리하는 과정. ㅇ 특징: – 이상치는 분석 결과에 큰 영향을 미칠 수 있음. – 이상치 처리 방법에는 제거, 대체, 변환 등이 있음. ㅇ 적합한 경우: – 데이터의 분포를 왜곡시키는 극단값이 존재할 때. – 모델 성능을 저하시킬 수 있는 이상값을 처리해야 할 때. ㅇ

이상치 처리: IQR

ㅁ 이상치 처리 ㅇ 정의: 데이터셋에서 다른 관측값과 극단적으로 차이가 나는 값을 식별하고 처리하는 과정. ㅇ 특징: – 이상치는 데이터 분석 및 모델링 결과에 큰 영향을 미칠 수 있음. – 이상치를 처리하지 않으면 분석 결과가 왜곡될 가능성이 높음. – 처리 방법으로는 제거, 대체, 변환 등이 있음. ㅇ 적합한 경우: – 데이터 분포가 비정상적으로 치우친 경우.

결측치 처리: KNN Imputer

ㅁ 결측치 처리 ㅇ 정의: 데이터셋에서 누락된 값을 처리하여 분석이 가능하도록 만드는 과정. ㅇ 특징: – 결측치는 데이터 분석의 정확도를 저하시킬 수 있음. – 처리 방법에 따라 분석 결과가 크게 달라질 수 있음. ㅇ 적합한 경우: – 데이터셋에 결측치가 다수 포함된 경우. – 결측치가 특정 패턴을 따르지 않고 무작위로 분포하는 경우. ㅇ 시험 함정: –

결측치 처리: KNN Imputer

ㅁ 결측치 처리 ㅇ 정의: 데이터셋에서 누락된 값을 처리하여 분석에 적합하도록 만드는 과정. ㅇ 특징: 결측치가 존재하면 데이터 분석의 정확도가 떨어지므로 반드시 처리해야 함. 다양한 처리 방법이 존재하며, 데이터의 특성과 분석 목적에 따라 선택. ㅇ 적합한 경우: 데이터셋 내 결측치가 분석 결과에 영향을 미칠 수 있는 경우. ㅇ 시험 함정: 결측치 처리 방법을 잘못 선택하면