스케일링: Min-Max Scaling

ㅁ 스케일링

ㅇ 정의:
데이터의 범위를 특정 구간으로 변환하여 분석 및 모델링에 적합하도록 만드는 과정.

ㅇ 특징:
– 데이터의 크기를 표준화하여 알고리즘의 성능을 향상시킴.
– 이상치(outlier)에 민감할 수 있음.

ㅇ 적합한 경우:
– 데이터의 값들이 서로 다른 범위를 가지는 경우.
– 머신러닝 알고리즘에서 입력값의 크기가 성능에 영향을 미치는 경우.

ㅇ 시험 함정:
– 스케일링이 항상 필요한 것은 아님에도 모든 데이터에 적용해야 한다고 생각하는 경우.
– 이상치에 민감한 스케일링 방법을 적합하지 않은 데이터에 사용하는 경우.

ㅇ 시험 대비 “패턴 보기” 예시:
O: 스케일링은 데이터의 범위를 조정하여 모델 성능을 향상시킬 수 있다.
X: 스케일링은 모든 데이터에서 반드시 수행되어야 한다.

================================

1. Min-Max Scaling

ㅇ 정의:
데이터의 값을 최소값과 최대값을 기준으로 0과 1 사이의 값으로 변환하는 스케일링 방법.

ㅇ 특징:
– 데이터의 분포를 유지하면서 값의 범위를 변환함.
– 이상치가 있는 경우 변환된 값이 왜곡될 수 있음.

ㅇ 적합한 경우:
– 데이터의 값이 특정 범위 내에 있어야 하는 경우.
– 분포가 균일하고 이상치가 적은 데이터셋.

ㅇ 시험 함정:
– Min-Max Scaling이 항상 이상치에 강건하다고 오해하는 경우.
– 데이터의 단위가 중요한 경우에도 스케일링을 적용해야 한다고 생각하는 경우.

ㅇ 시험 대비 “패턴 보기” 예시:
O: Min-Max Scaling은 데이터의 최소값과 최대값을 기준으로 값을 변환한다.
X: Min-Max Scaling은 이상치에 강건하여 모든 데이터에 적합하다.

ㅁ 추가 학습 내용

Min-Max Scaling은 데이터를 특정 범위로 조정하는 기법으로, 데이터의 최소값과 최대값을 기준으로 계산됩니다. 이때 데이터의 최소값과 최대값이 변화하면 스케일링 결과도 달라질 수 있습니다. 따라서 데이터의 범위가 변동성이 크거나 새로운 데이터가 추가될 가능성이 있는 경우에는 Min-Max Scaling 사용에 주의가 필요합니다.

또한, Min-Max Scaling은 이상치(outlier)에 민감하다는 단점이 있습니다. 이상치가 포함된 데이터에서는 스케일링 결과가 왜곡될 수 있으므로, 이러한 경우 Robust Scaling과 같은 대안적인 방법을 고려하는 것이 중요합니다. Robust Scaling은 데이터의 중앙값(median)과 사분위수(quartile)을 기준으로 스케일링을 수행하므로 이상치의 영향을 최소화할 수 있습니다.

따라서 데이터의 특성과 이상치의 존재 여부를 파악한 후 적절한 스케일링 방법을 선택하는 것이 중요합니다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*