스케일링: 정규화

ㅁ 스케일링

ㅇ 정의:
데이터의 크기나 범위를 일정한 기준으로 변환하여 분석 결과에 영향을 미치지 않도록 조정하는 과정.

ㅇ 특징:
– 데이터의 단위 차이로 인해 발생할 수 있는 문제를 방지.
– 머신러닝 모델에서 가중치 계산의 왜곡을 줄임.

ㅇ 적합한 경우:
– 변수 간의 단위가 다를 때.
– 거리 기반 알고리즘(예: KNN, K-Means)에서.

ㅇ 시험 함정:
– 스케일링이 항상 필요한 것은 아님. 일부 모델(예: 트리 기반 모델)은 영향을 받지 않음.
– 정규화와 표준화의 차이를 혼동하지 않도록 주의.

ㅇ 시험 대비 “패턴 보기” 예시:
O: 스케일링은 데이터의 단위를 일관되게 만들어 분석에 활용한다.
X: 스케일링은 모든 머신러닝 모델에서 필수적으로 사용된다.

================================

1. 정규화

ㅇ 정의:
데이터의 값을 0과 1 사이의 범위로 변환하는 기법.

ㅇ 특징:
– 최소값과 최대값을 기준으로 데이터를 변환.
– 이상치에 민감하여 데이터 분포가 왜곡될 수 있음.

ㅇ 적합한 경우:
– 데이터의 범위가 큰 경우.
– 값의 상대적 크기가 중요한 경우.

ㅇ 시험 함정:
– 정규화는 항상 0과 1 사이로 변환된다고 생각하기 쉬움. 하지만 특정 범위(예: -1~1)로도 변환 가능.
– 이상치가 있는 경우 정규화보다 다른 기법(예: 로그 변환)이 적합할 수 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
O: 정규화는 데이터를 0과 1 사이로 변환하여 분석에 적합하게 만든다.
X: 정규화는 이상치가 있는 데이터에도 항상 효과적이다.

ㅁ 추가 학습 내용

정규화와 표준화는 데이터 전처리 단계에서 자주 사용되는 기법으로, 각각의 목적과 결과가 다릅니다.

1. **정규화**:
– 데이터를 특정 범위(예: 0~1)로 변환하는 과정입니다.
– 각 데이터 값이 전체 데이터에서 차지하는 상대적인 위치를 나타낼 수 있도록 조정합니다.
– 계산 방식은 일반적으로 Min-Max Scaling을 사용하며, 공식은 다음과 같습니다:
(x – min(x)) / (max(x) – min(x)).
– 주로 머신러닝 알고리즘에서 데이터의 크기를 균일하게 맞추기 위해 사용됩니다.

2. **표준화**:
– 데이터를 평균이 0, 표준편차가 1이 되도록 변환하는 과정입니다.
– 데이터의 분포를 표준 정규 분포로 맞추는 것이 목적입니다.
– 공식은 다음과 같습니다: (x – 평균) / 표준편차.
– 주로 데이터의 분포가 다른 경우, 분석이나 학습 모델의 성능을 높이기 위해 사용됩니다.

3. **이상치 처리 기법과의 비교**:
– 이상치 처리 기법은 데이터에 존재하는 극단값(Outliers)을 처리하는 데 사용됩니다.
– **로그 변환**: 데이터 값을 로그 스케일로 변환하여 이상치의 영향을 줄이고 분포를 정규화합니다.
– **클리핑**: 특정 임계값을 초과하거나 미달하는 값을 잘라내거나 제한하여 이상치를 제거하거나 감소시킵니다.
– 정규화와 표준화는 데이터의 스케일을 조정하는 데 초점을 맞추지만, 이상치 처리 기법은 데이터의 품질을 개선하는 데 초점이 있습니다.

시험 대비를 위해 각 기법의 정의, 목적, 계산 방식, 사용 사례를 명확히 이해하고, 차이점과 적합한 상황을 파악하는 것이 중요합니다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*