스케일링: 강건한 변환 – Z-score(Standardization)

ㅁ 강건한 변환

ㅇ 정의:
데이터의 평균과 표준편차를 사용하여 각 값을 표준 정규분포 형태로 변환하는 방법. 평균을 0, 표준편차를 1로 맞추어 스케일을 조정.

ㅇ 특징:
이상치에 민감하며, 데이터가 정규분포를 따른다는 가정하에 효과적임. 모든 특성의 단위를 동일하게 맞춰 회귀, 분류 모델의 수렴 속도를 높임.

ㅇ 적합한 경우:
데이터가 대체로 정규분포를 따르고 이상치의 영향이 크지 않은 경우. 특히 거리 기반 알고리즘(KNN, SVM, PCA 등)에서 성능 향상에 유리.

ㅇ 시험 함정:
‘강건한 변환’이라는 용어와 혼동 가능. Z-score는 이상치에 강건하지 않음. RobustScaler와 혼동 유발 문제에 주의.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “평균과 표준편차를 사용하여 데이터를 표준화하는 기법이다.”
– X: “중앙값과 IQR을 사용하여 이상치에 강건하게 변환한다.”

================================

1. Z-score(Standardization)

ㅇ 정의:
각 데이터에서 평균을 빼고 표준편차로 나누어 변환하는 표준화 기법. 변환 후 평균은 0, 표준편차는 1이 됨.

ㅇ 특징:
데이터의 분포 형태를 유지하면서 스케일만 조정. 이상치가 평균과 표준편차 계산에 큰 영향을 미침.

ㅇ 적합한 경우:
변수의 단위가 다르고, 모델이 각 변수의 스케일에 민감한 경우(예: 로지스틱 회귀, SVM, KNN, PCA).

ㅇ 시험 함정:
이름에 ‘Standardization’이 포함되어 있어 RobustScaler와 혼동. Min-Max Scaling과 차이점(최솟값, 최댓값 사용 여부) 구분 필요.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “데이터를 평균 0, 표준편차 1로 변환한다.”
– X: “이상치의 영향을 받지 않는다.”

ㅁ 추가 학습 내용

Z-score 표준화는 데이터가 정규분포를 따른다는 가정하에 평균을 0, 표준편차를 1로 변환하는 방법이다. 그러나 실제 데이터에서는 이상치가 평균과 표준편차를 왜곡시켜 표준화 결과에 영향을 줄 수 있다. 이 경우 RobustScaler가 이상치에 덜 민감하므로 적합하다. 시험에서는 Z-score 표준화와 RobustScaler의 차이, 이상치가 많은 데이터셋에서 어떤 방법이 적절한지 판단하는 문제가 자주 출제된다. 또한 표준화(Standardization)와 정규화(Min-Max Scaling)의 차이를 비교하는 문제도 빈출하며, PCA 수행 전에는 변수의 단위 차이를 제거하기 위해 표준화가 필요하다는 점이 중요하다. 표준화를 한다고 해서 데이터 분포가 정규분포로 변하는 것은 아니라는 점도 명확히 이해해야 한다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*