스케일링: Robust Scaling

ㅁ 스케일링

ㅇ 정의:
데이터의 범위를 조정하여 특정 알고리즘이 더 잘 작동하도록 만드는 과정.

ㅇ 특징:
– 데이터의 크기 차이를 줄여 모델 학습이 원활하도록 함.
– 이상치에 민감한 경우, 적절한 방법을 선택해야 함.

ㅇ 적합한 경우:
– 데이터의 값이 서로 다른 범위를 가질 때.
– 학습 알고리즘이 거리 기반으로 작동할 때.

ㅇ 시험 함정:
– 스케일링 방법을 잘못 선택하면 모델 성능이 저하될 수 있음.
– 모든 데이터에 동일한 스케일링을 적용해야 한다는 점을 간과할 수 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
O: 스케일링은 데이터의 범위를 조정하여 알고리즘 성능을 높이는 과정이다.
X: 스케일링은 데이터의 이상치를 제거하는 과정이다.

================================

1. Robust Scaling

ㅇ 정의:
데이터의 중앙값과 IQR(Interquartile Range)을 기준으로 스케일링하는 방법.

ㅇ 특징:
– 이상치(outlier)에 강건함.
– 중앙값을 기준으로 데이터를 정규화하므로 평균과 표준편차를 사용하지 않음.

ㅇ 적합한 경우:
– 데이터에 이상치가 포함되어 있을 때.
– 데이터의 분포가 비대칭적일 때.

ㅇ 시험 함정:
– 이상치가 없는 데이터에서도 Robust Scaling을 무조건 사용하는 경우.
– 데이터의 중앙값과 IQR 계산이 정확하지 않으면 잘못된 결과를 초래할 수 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
O: Robust Scaling은 중앙값과 IQR을 기준으로 데이터를 변환한다.
X: Robust Scaling은 평균과 표준편차를 기준으로 데이터를 정규화한다.

ㅁ 추가 학습 내용

Robust Scaling은 데이터의 중앙값과 IQR(Interquartile Range)을 사용하여 스케일링을 수행하는 방법입니다. 이를 통해 극단값(Outliers)의 영향을 최소화할 수 있습니다.

1. **중앙값과 IQR 계산 방법 및 의미**:
– **중앙값(Median)**: 데이터의 값들을 크기 순서대로 정렬했을 때, 중앙에 위치한 값을 의미합니다. 중앙값은 데이터의 중심을 나타내며, 평균과 달리 극단값에 영향을 받지 않습니다.
– **IQR(Interquartile Range)**: 데이터의 1사분위수(Q1)와 3사분위수(Q3) 간의 차이를 계산한 값입니다. IQR = Q3 – Q1로 정의되며, 데이터의 중간 50% 범위를 나타냅니다. IQR은 데이터의 분포를 설명하는 데 유용하며, 극단값의 영향을 받지 않는 안정적인 척도입니다.

2. **Robust Scaling의 계산 과정**:
– 각 데이터 포인트에서 중앙값을 뺍니다.
– 그 결과를 IQR로 나누어 스케일링합니다.
– 공식: X_scaled = (X – Median) / IQR

3. **Robust Scaling이 적합하지 않은 경우**:
– 데이터가 이미 정규분포를 따르는 경우: Robust Scaling은 데이터의 중앙값과 IQR을 기준으로 스케일링하기 때문에 데이터가 정규분포를 따르는 경우에는 불필요하거나 부적합할 수 있습니다. 정규분포를 따르는 데이터는 평균과 표준편차를 활용하는 Standard Scaling이 더 적합합니다.
– 데이터의 극단값이 중요한 의미를 가지는 경우: Robust Scaling은 극단값을 무시하는 경향이 있으므로, 극단값이 중요한 정보를 포함하고 있다면 다른 스케일링 방법을 고려해야 합니다.

4. **다른 스케일링 방법과의 차이점**:
– **Standard Scaling**:
– 평균을 0으로, 표준편차를 1로 조정합니다.
– 공식: X_scaled = (X – Mean) / Std
– 극단값의 영향을 받을 수 있습니다.
– **Min-Max Scaling**:
– 데이터를 최소값과 최대값 사이의 범위(보통 0과 1)로 조정합니다.
– 공식: X_scaled = (X – Min) / (Max – Min)
– 극단값이 스케일링 결과에 큰 영향을 미칠 수 있습니다.
– **Robust Scaling**:
– 중앙값과 IQR을 활용하여 극단값의 영향을 최소화합니다.
– 극단값이 많은 데이터에 적합합니다.

시험 대비로는 각 스케일링 방법의 계산 과정과 특징을 비교하는 문제를 연습하며, 데이터의 분포와 특성에 따라 적합한 스케일링 방법을 선택하는 이유를 설명할 수 있어야 합니다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*