데이터 전처리: 생성 기법 – Tabular Synth
ㅁ 생성 기법
1. Tabular Synth
ㅇ 정의:
실제 테이블 형태의 데이터를 기반으로 통계적 특성과 분포를 유지하면서 새로운 가상의 표 데이터를 생성하는 기법.
ㅇ 특징:
– 원본 데이터의 컬럼 간 상관관계를 최대한 보존.
– 민감정보를 직접 포함하지 않으면서 분석·모델링에 활용 가능.
– GAN, VAE, Copula 등 다양한 생성 모델 활용 가능.
– 데이터 불균형 해소, 희귀 이벤트 생성 등에 유리.
ㅇ 적합한 경우:
– 개인정보 보호가 필요한 환경에서 분석용 데이터 제공 시.
– 원본 데이터가 부족하여 학습 데이터 확장이 필요한 경우.
– 특정 클래스의 샘플 수를 늘려 모델의 분류 성능을 개선하려는 경우.
ㅇ 시험 함정:
– 단순 무작위 샘플링과 혼동하는 경우가 있음.
– 통계량은 유사하지만 개별 레코드는 원본과 다름을 간과.
– 합성 데이터가 항상 원본 데이터 품질을 보장한다고 착각.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “원본 데이터의 통계적 특성을 유지하면서 개인정보를 보호할 수 있다.”
X: “합성 데이터는 원본 데이터의 모든 레코드를 그대로 복사한다.”
ㅁ 추가 학습 내용
Tabular Synth에서 생성 모델 선택은 성능과 품질에 큰 영향을 준다.
GAN 기반 모델은 복잡한 비선형 관계 학습에 강점이 있지만 모드 붕괴(mode collapse) 문제가 발생할 수 있다.
Copula 기반 접근은 통계적 상관관계 보존에 유리하나 고차원 데이터에서는 한계가 있다.
시험에서는 합성 데이터의 한계와 평가 방법이 자주 출제된다.
합성 데이터 품질 평가는 다음 지표를 중심으로 한다.
– Fidelity: 원본 데이터와의 유사성
– Utility: 실제 분석·모델링에 활용 가능한 정도
– Privacy risk: 개인정보 유출 가능성
측정 방법에는 TSTR(Test on Synthetic, Test on Real), Kolmogorov-Smirnov test, PCA 시각화 등이 있다.
또한 합성 데이터 생성 시 법적·윤리적 고려사항이 출제될 수 있으며, 예로 GDPR과 개인정보 비식별화 가이드라인이 있다.