스케일링: 표준화

ㅁ 스케일링

ㅇ 정의:
데이터의 범위를 조정하여 모델 학습에 적합하도록 만드는 과정.

ㅇ 특징:
– 데이터의 단위 차이로 인한 모델 성능 저하 방지.
– 주요 방법으로 표준화와 정규화가 있음.

ㅇ 적합한 경우:
– 데이터의 값 범위가 매우 클 때.
– 머신러닝 알고리즘(예: SVM, 로지스틱 회귀 등)이 데이터 크기에 민감할 때.

ㅇ 시험 함정:
– 스케일링이 항상 필요한 것은 아님. 트리 기반 모델(예: 랜덤 포레스트)은 스케일링 없이도 잘 작동함.
– 표준화와 정규화를 혼동하지 않도록 주의.

ㅇ 시험 대비 “패턴 보기” 예시:
1. 스케일링은 모든 머신러닝 모델에서 필수적으로 적용해야 한다. (X)
2. 스케일링은 데이터의 단위 차이를 조정하여 모델 학습을 돕는다. (O)

================================

1. 표준화

ㅇ 정의:
데이터의 평균을 0, 표준편차를 1로 변환하여 정규분포를 따르도록 만드는 과정.

ㅇ 특징:
– 데이터의 평균과 분산을 기준으로 변환.
– 이상치의 영향을 받을 수 있음.

ㅇ 적합한 경우:
– 데이터가 정규분포를 따르지 않을 때.
– SVM, 로지스틱 회귀 등 거리 기반 알고리즘에 적합.

ㅇ 시험 함정:
– 표준화가 항상 정규분포를 보장하는 것은 아님.
– 정규화와 표준화를 동일시하면 안 됨.

ㅇ 시험 대비 “패턴 보기” 예시:
1. 표준화는 데이터의 평균을 0, 표준편차를 1로 변환한다. (O)
2. 표준화는 모든 데이터에서 이상치의 영향을 제거한다. (X)

ㅁ 추가 학습 내용

표준화와 정규화의 차이를 명확히 이해하기 위해 다음 내용을 학습합니다:

1. **표준화(Standardization)**:
– 정의: 데이터의 평균을 0으로 만들고, 분산을 1로 조정하여 데이터의 분포를 표준 정규 분포로 변환하는 과정.
– 수식: (X – μ) / σ
– X: 원본 데이터 값
– μ: 데이터의 평균
– σ: 데이터의 표준편차
– 특징: 데이터의 상대적인 위치를 유지하면서, 값의 크기를 조정하여 다양한 분포의 데이터를 비교 가능하게 만듦.

2. **정규화(Normalization)**:
– 정의: 데이터 값을 특정 범위(보통 0과 1)로 조정하여 데이터의 크기를 통일하는 과정.
– 수식: (X – X_min) / (X_max – X_min)
– X: 원본 데이터 값
– X_min: 데이터의 최소값
– X_max: 데이터의 최대값
– 특징: 데이터의 범위를 제한하여 값의 크기를 일정하게 조정함으로써 계산 효율성을 높임.

3. **스케일링이 필요한 알고리즘**:
– 스케일링이 필요한 알고리즘은 데이터의 크기나 분포에 민감한 알고리즘입니다. 예를 들어:
– 선형 회귀(Linear Regression)
– 서포트 벡터 머신(SVM)
– K-최근접 이웃(K-Nearest Neighbors, KNN)
– 주성분 분석(Principal Component Analysis, PCA)
– 신경망(Neural Networks)

4. **스케일링이 필요하지 않은 알고리즘**:
– 트리 기반 모델은 데이터의 크기나 분포에 영향을 받지 않습니다. 예를 들어:
– 의사결정트리(Decision Tree)
– 랜덤 포레스트(Random Forest)
– 그래디언트 부스팅(Gradient Boosting)

트리 기반 모델은 스케일링의 영향을 받지 않는다는 점을 기억하며, 알고리즘의 특성을 고려하여 적절한 스케일링 방법을 선택하는 연습을 진행합니다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*