스케일링: 표준화
ㅁ 스케일링
ㅇ 정의:
데이터의 범위를 조정하여 모델 학습에 적합하도록 만드는 과정.
ㅇ 특징:
– 데이터의 단위 차이로 인한 모델 성능 저하 방지.
– 주요 방법으로 표준화와 정규화가 있음.
ㅇ 적합한 경우:
– 데이터의 값 범위가 매우 클 때.
– 머신러닝 알고리즘(예: SVM, 로지스틱 회귀 등)이 데이터 크기에 민감할 때.
ㅇ 시험 함정:
– 스케일링이 항상 필요한 것은 아님. 트리 기반 모델(예: 랜덤 포레스트)은 스케일링 없이도 잘 작동함.
– 표준화와 정규화를 혼동하지 않도록 주의.
ㅇ 시험 대비 “패턴 보기” 예시:
1. 스케일링은 모든 머신러닝 모델에서 필수적으로 적용해야 한다. (X)
2. 스케일링은 데이터의 단위 차이를 조정하여 모델 학습을 돕는다. (O)
================================
1. 표준화
ㅇ 정의:
데이터의 평균을 0, 표준편차를 1로 변환하여 정규분포를 따르도록 만드는 과정.
ㅇ 특징:
– 데이터의 평균과 분산을 기준으로 변환.
– 이상치의 영향을 받을 수 있음.
ㅇ 적합한 경우:
– 데이터가 정규분포를 따르지 않을 때.
– SVM, 로지스틱 회귀 등 거리 기반 알고리즘에 적합.
ㅇ 시험 함정:
– 표준화가 항상 정규분포를 보장하는 것은 아님.
– 정규화와 표준화를 동일시하면 안 됨.
ㅇ 시험 대비 “패턴 보기” 예시:
1. 표준화는 데이터의 평균을 0, 표준편차를 1로 변환한다. (O)
2. 표준화는 모든 데이터에서 이상치의 영향을 제거한다. (X)
ㅁ 추가 학습 내용
표준화와 정규화의 차이를 명확히 이해하기 위해 다음 내용을 학습합니다:
1. **표준화(Standardization)**:
– 정의: 데이터의 평균을 0으로 만들고, 분산을 1로 조정하여 데이터의 분포를 표준 정규 분포로 변환하는 과정.
– 수식: (X – μ) / σ
– X: 원본 데이터 값
– μ: 데이터의 평균
– σ: 데이터의 표준편차
– 특징: 데이터의 상대적인 위치를 유지하면서, 값의 크기를 조정하여 다양한 분포의 데이터를 비교 가능하게 만듦.
2. **정규화(Normalization)**:
– 정의: 데이터 값을 특정 범위(보통 0과 1)로 조정하여 데이터의 크기를 통일하는 과정.
– 수식: (X – X_min) / (X_max – X_min)
– X: 원본 데이터 값
– X_min: 데이터의 최소값
– X_max: 데이터의 최대값
– 특징: 데이터의 범위를 제한하여 값의 크기를 일정하게 조정함으로써 계산 효율성을 높임.
3. **스케일링이 필요한 알고리즘**:
– 스케일링이 필요한 알고리즘은 데이터의 크기나 분포에 민감한 알고리즘입니다. 예를 들어:
– 선형 회귀(Linear Regression)
– 서포트 벡터 머신(SVM)
– K-최근접 이웃(K-Nearest Neighbors, KNN)
– 주성분 분석(Principal Component Analysis, PCA)
– 신경망(Neural Networks)
4. **스케일링이 필요하지 않은 알고리즘**:
– 트리 기반 모델은 데이터의 크기나 분포에 영향을 받지 않습니다. 예를 들어:
– 의사결정트리(Decision Tree)
– 랜덤 포레스트(Random Forest)
– 그래디언트 부스팅(Gradient Boosting)
트리 기반 모델은 스케일링의 영향을 받지 않는다는 점을 기억하며, 알고리즘의 특성을 고려하여 적절한 스케일링 방법을 선택하는 연습을 진행합니다.