데이터 전처리: 스케일링
ㅁ 스케일링
ㅇ 정의:
데이터의 값 범위를 일정한 기준으로 맞추는 전처리 기법으로, 모델 학습 시 특정 변수의 값 크기로 인한 가중치 왜곡을 방지하기 위함.
ㅇ 특징:
– 모든 피처를 동일한 스케일로 변환하여 모델의 수렴 속도와 예측 성능 향상
– 거리 기반 알고리즘(KNN, SVM, K-means 등)에 필수적으로 적용됨
– 스케일링 방법에 따라 평균과 표준편차, 최소·최대값, 사분위수 등을 활용
ㅇ 적합한 경우:
– 변수 단위가 서로 다른 경우
– 기계학습 모델이 거리나 크기 차이에 민감한 경우
– 경사하강법 기반 알고리즘의 학습 속도 개선 필요 시
ㅇ 시험 함정:
– 표준화와 정규화를 혼동하여 정의를 바꾸어 출제
– Min-Max Scaling과 정규화(Normalization)의 용어 혼용
– Robust Scaling은 이상치 영향 최소화를 목적으로 함을 놓치기 쉬움
ㅇ 시험 대비 “패턴 보기” 예시:
O: “KNN, SVM과 같이 거리 기반 알고리즘에서는 스케일링이 중요하다.”
X: “트리 기반 모델(Random Forest, Decision Tree)에서는 스케일링이 성능에 큰 영향을 준다.”
================================
1. 표준화
ㅇ 정의:
데이터의 평균을 0, 표준편차를 1로 맞추는 스케일링 기법. Z-score 정규화라고도 함.
ㅇ 특징:
– 평균과 표준편차를 활용하여 변환
– 이상치 영향 다소 있음
– 데이터가 정규분포를 따른다고 가정하는 경우 효과적
ㅇ 적합한 경우:
– 정규분포 형태의 데이터
– 회귀, PCA, 로지스틱 회귀, SVM 등
ㅇ 시험 함정:
– 표준화는 최소값과 최대값을 0~1로 변환하는 것이 아님
– 정규분포가 아닌 데이터에도 적용 가능하지만 효과가 제한될 수 있음
ㅇ 시험 대비 “패턴 보기” 예시:
O: “표준화는 평균을 0, 표준편차를 1로 변환한다.”
X: “표준화는 최소값을 0, 최대값을 1로 변환한다.”
================================
2. 정규화
ㅇ 정의:
데이터의 값을 0~1 범위(혹은 -1~1)로 맞추는 스케일링 기법. 주로 Min-Max Scaling과 혼용되기도 함.
ㅇ 특징:
– 최소값과 최대값을 기준으로 비율 변환
– 이상치에 민감
– 데이터의 분포 형태 변화 없이 범위만 조정
ㅇ 적합한 경우:
– 값의 범위가 제한적인 모델 입력
– 이미지 처리, 신경망 입력값 전처리
ㅇ 시험 함정:
– 정규화와 표준화를 혼동
– 정규화가 항상 Min-Max Scaling을 의미하는 것은 아님(L1, L2 정규화와 혼동 주의)
ㅇ 시험 대비 “패턴 보기” 예시:
O: “정규화는 데이터 범위를 0과 1 사이로 변환한다.”
X: “정규화는 평균과 표준편차를 사용하여 변환한다.”
================================
3. Robust Scaling
ㅇ 정의:
중앙값(median)과 IQR(사분위 범위)을 사용하여 스케일링하는 기법으로, 이상치의 영향을 최소화함.
ㅇ 특징:
– 이상치(outlier)에 강건함
– 중앙값을 0, IQR을 1로 변환
– 데이터의 분포 형태를 보존
ㅇ 적합한 경우:
– 이상치가 포함된 데이터
– 금융 거래, 센서 데이터 등 극단값이 자주 발생하는 경우
ㅇ 시험 함정:
– 평균과 표준편차를 사용한다고 잘못 기술할 수 있음
– 이상치가 없는 경우, 표준화보다 장점이 크지 않음
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Robust Scaling은 중앙값과 IQR을 사용한다.”
X: “Robust Scaling은 평균과 표준편차를 사용한다.”
================================
4. Min-Max Scaling
ㅇ 정의:
데이터의 최소값을 0, 최대값을 1로 변환하는 스케일링 기법. 정규화의 한 방법.
ㅇ 특징:
– 각 값에서 최소값을 빼고, 최대값과 최소값 차이로 나눔
– 이상치에 민감
– 데이터 범위를 명확히 지정 가능(0~1 외에도 가능)
ㅇ 적합한 경우:
– 값의 범위를 명확히 제한해야 하는 경우
– 신경망, 이미지 픽셀 데이터 전처리
ㅇ 시험 함정:
– 표준화와 혼동
– 이상치 존재 시 전체 데이터 스케일이 왜곡될 수 있음
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Min-Max Scaling은 최소값을 0, 최대값을 1로 변환한다.”
X: “Min-Max Scaling은 데이터의 평균을 0, 표준편차를 1로 변환한다.”
================================