데이터 전처리: 개념 및 실천 – Feature Engineering
ㅁ 개념 및 실천
ㅇ 정의:
데이터의 특성을 잘 반영하도록 원본 데이터를 변환, 생성, 선택하는 과정으로, 모델의 성능을 높이기 위해 도메인 지식을 활용하여 새로운 피처를 만드는 작업.
ㅇ 특징:
– 모델링 이전 단계에서 수행되며, 데이터 품질과 모델의 예측력을 크게 좌우함.
– 결측치 처리, 스케일링, 인코딩, 파생 변수 생성 등이 포함됨.
– 도메인 특화 지식을 활용하면 단순 알고리즘 변경보다 성능 향상 효과가 큼.
ㅇ 적합한 경우:
– 원본 데이터만으로 모델 성능이 낮을 때.
– 데이터의 의미를 알고 있는 경우.
– 데이터에 비선형적 관계나 복잡한 패턴이 존재할 때.
ㅇ 시험 함정:
– Feature Engineering은 단순히 변수 선택만을 의미하지 않음(X).
– 모든 Feature Engineering이 자동화 가능하다고 보는 것은 오답(O).
– 모델 학습 이후에 수행하는 과정이라고 하는 경우는 틀림(X).
ㅇ 시험 대비 “패턴 보기” 예시:
– “Feature Engineering은 모델 성능 향상을 위해 새로운 변수를 생성하는 과정이다.” (O)
– “Feature Engineering은 데이터 수집 이후 모델 학습이 끝난 후에 수행한다.” (X)
– “Feature Engineering에는 결측치 처리, 스케일링, 인코딩 등이 포함될 수 있다.” (O)
– “Feature Engineering은 변수 선택만을 의미한다.” (X)
ㅁ 추가 학습 내용
Feature Engineering에서 자주 사용되는 기법은 다음과 같다.
원-핫 인코딩(One-Hot Encoding), 레이블 인코딩(Label Encoding), 표준화(Standardization), 정규화(Normalization), 로그 변환(Log Transformation), 다항식 피처 생성(Polynomial Features).
시계열 데이터에서는 시차(lag) 변수 생성과 이동평균(rolling mean) 생성이 중요하다.
텍스트 데이터에서는 TF-IDF와 워드 임베딩(Word Embedding) 기법이 자주 활용된다.
시험에서는 Feature Engineering과 Feature Selection의 차이를 구분하는 문제가 자주 출제된다.
Feature Selection은 기존 변수 중 중요한 것을 선택하는 과정이고,
Feature Engineering은 새로운 변수를 생성하거나 기존 변수를 변환하는 과정이다.