데이터 전처리: 보안 전략 – Differential Privacy

ㅁ 보안 전략

ㅇ 정의:
개인의 데이터가 포함된 통계나 분석 결과를 공개할 때, 개별 데이터가 노출되지 않도록 수학적으로 보장하는 프라이버시 보호 기법. 주로 데이터에 의도적으로 노이즈를 추가하여 개별 레코드의 영향력을 희석시킨다.

ㅇ 특징:
– ε(epsilon) 값으로 프라이버시 보호 수준을 수치화하여 조절 가능.
– 노이즈 추가로 인해 데이터 분석의 정확도가 다소 감소할 수 있음.
– 중앙집중형(Central DP)과 로컬(Local DP) 방식으로 구현 가능.
– GDPR, CCPA 등 개인정보 보호 규제 준수를 지원.

ㅇ 적합한 경우:
– 통계 데이터, 머신러닝 모델 학습 데이터 등에서 개인 식별 위험을 최소화해야 할 때.
– 정부 통계, 의료 데이터, 위치 정보 서비스 등 민감 데이터 공개 시.

ㅇ 시험 함정:
– ε 값이 작을수록 보안이 강하다는 점을 반대로 출제하는 경우.
– Differential Privacy가 데이터 암호화를 포함한다고 오해 유도.
– 로컬 DP와 중앙 DP의 적용 주체를 바꿔서 묻는 문제.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) ε 값이 작을수록 프라이버시 보호 수준이 높다.
– (X) Differential Privacy는 데이터 전송 시 암호화를 필수적으로 포함한다.
– (O) Differential Privacy는 노이즈를 추가하여 개별 데이터의 영향력을 줄인다.
– (X) 로컬 Differential Privacy는 중앙 서버에서 노이즈를 추가한다.

ㅁ 추가 학습 내용

ε 값은 차등프라이버시(Differential Privacy)에서 개인정보 보호 강도를 나타내는 지표로, ε가 0에 가까울수록 강한 보호를 의미하고, ε가 클수록 보호 수준이 약해진다.
Laplace Mechanism은 라플라스 분포를 이용해 노이즈를 추가하는 방식으로, 주로 순수 차등프라이버시(ε-DP)에 사용된다. Gaussian Mechanism은 가우시안(정규) 분포를 사용하며, (ε, δ)-DP와 같이 약간의 확률적 예외를 허용하는 경우에 적용된다.
중앙집중형 DP(Centralized DP)는 데이터가 서버로 수집된 후 서버에서 노이즈를 추가하는 방식이며, 로컬 DP(Local DP)는 각 클라이언트가 데이터 전송 전에 노이즈를 추가하는 방식이다.
시험에서는 차등프라이버시와 k-익명성, l-다양성, t-근접성의 차이를 비교하는 문제가 자주 출제된다. k-익명성은 동일한 식별 속성을 가진 데이터가 최소 k개 이상 존재하도록 하는 기법이며, l-다양성은 각 그룹 내 민감 속성 값의 다양성을 확보한다. t-근접성은 민감 속성의 분포가 전체 데이터 분포와 유사하도록 제한한다. 각 기법의 장단점과 적용 사례를 함께 숙지하는 것이 중요하다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*