인코딩: Label

ㅁ 인코딩

ㅇ 정의:
데이터를 컴퓨터가 처리할 수 있는 형식으로 변환하는 과정으로, 특히 범주형 데이터를 수치형 데이터로 변환하는 것을 의미함.

ㅇ 특징:
– 머신러닝 모델에 입력하기 위해 필수적인 과정임.
– 데이터의 의미를 유지하면서도 모델이 이해할 수 있는 형태로 변환됨.
– 다양한 인코딩 기법이 존재하며, 데이터와 모델의 특성에 따라 적합한 방법을 선택해야 함.

ㅇ 적합한 경우:
– 범주형 데이터가 존재하며, 이를 수치형 데이터로 변환해야 하는 경우.
– 머신러닝 모델이 범주형 데이터를 직접 처리하지 못하는 경우.

ㅇ 시험 함정:
– 원-핫 인코딩과 라벨 인코딩의 차이를 혼동하는 경우.
– 인코딩 과정에서 데이터의 순서 정보가 왜곡될 수 있는 점을 간과하는 경우.

ㅇ 시험 대비 “패턴 보기” 예시:
1. O: 범주형 데이터를 모델이 처리할 수 있도록 수치형으로 변환하는 과정을 인코딩이라고 한다.
2. X: 인코딩은 수치형 데이터를 범주형 데이터로 변환하는 과정이다.

================================

1. Label

ㅇ 정의:
범주형 데이터를 정수(숫자)로 매핑하는 기법으로, 각 범주에 고유한 숫자를 부여함.

ㅇ 특징:
– 간단하고 빠르게 적용 가능함.
– 데이터의 순서를 고려하지 않음.
– 모델에 따라 잘못된 순서 정보로 해석될 가능성이 있음.

ㅇ 적합한 경우:
– 범주형 데이터에 순서나 관계가 없는 경우.
– 데이터셋이 작고 간단한 경우.

ㅇ 시험 함정:
– 라벨 인코딩이 각 범주 간의 순서를 암시한다고 잘못 이해하는 경우.
– 고유한 숫자가 범주의 크기를 나타낸다고 오해하는 경우.

ㅇ 시험 대비 “패턴 보기” 예시:
1. O: 라벨 인코딩은 범주형 데이터를 고유한 숫자로 변환하며, 순서를 암시하지 않는다.
2. X: 라벨 인코딩은 범주형 데이터의 순서를 나타내기 위한 방법이다.

ㅁ 추가 학습 내용

라벨 인코딩과 원-핫 인코딩은 범주형 데이터를 숫자로 변환하는 데 사용되는 두 가지 주요 방법입니다. 이 두 방법을 비교하며 각각의 장단점을 이해하는 것은 데이터 전처리 과정에서 올바른 선택을 하는 데 매우 중요합니다.

1. **라벨 인코딩**:
– **방식**: 범주형 데이터를 고유한 숫자로 매핑합니다. 예를 들어, ‘사과’, ‘바나나’, ‘체리’라는 범주가 있다면 이를 0, 1, 2로 변환합니다.
– **장점**:
– 간단하고 메모리 효율적입니다.
– 데이터 크기가 증가해도 추가적인 메모리 부담이 적습니다.
– **단점**:
– 숫자 간의 순서 정보가 암시적으로 포함될 수 있습니다. 예를 들어, ‘사과’=0, ‘바나나’=1, ‘체리’=2로 인코딩되었을 때 모델이 이 숫자들 간의 관계를 순서로 잘못 해석할 가능성이 있습니다.
– 특히 선형 모델이나 거리 기반 알고리즘(예: KNN)에서는 이러한 순서 왜곡이 문제를 일으킬 수 있습니다.
– **적용 시 주의사항**:
– 순서 정보가 없는 범주형 데이터에 라벨 인코딩을 사용할 경우, 모델이 숫자를 순서로 잘못 해석하지 않도록 모델의 특성을 고려해야 합니다.

2. **원-핫 인코딩**:
– **방식**: 범주형 데이터를 이진 벡터로 변환합니다. 각 범주는 벡터의 하나의 차원을 차지하며, 해당 범주에만 1을 할당하고 나머지에는 0을 할당합니다. 예를 들어, ‘사과’, ‘바나나’, ‘체리’라는 범주가 있다면 이를 각각 [1, 0, 0], [0, 1, 0], [0, 0, 1]로 변환합니다.
– **장점**:
– 범주 간의 순서 정보가 암시되지 않습니다. 따라서 순서 왜곡 문제가 발생하지 않습니다.
– 대부분의 머신러닝 모델에서 범주형 데이터를 처리하기에 적합한 방식입니다.
– **단점**:
– 데이터의 차원이 증가합니다. 범주의 개수가 많을수록 메모리 사용량이 늘어나며, 고차원 데이터로 인해 계산 비용이 증가할 수 있습니다.
– 데이터가 희소(sparse)해질 수 있습니다.
– **적용 시 주의사항**:
– 범주형 데이터의 종류가 많을 경우, 메모리 및 계산 비용을 고려하여 효율적인 처리를 위한 추가적인 방법(예: 임베딩)을 검토해야 합니다.

결론적으로, 라벨 인코딩은 간단하고 메모리 효율적이지만 순서 정보 왜곡 위험이 있으며, 원-핫 인코딩은 순서 왜곡이 없지만 차원이 증가할 수 있다는 점에서 각각의 특성을 이해하고 데이터와 모델에 적합한 방법을 선택하는 것이 중요합니다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*