데이터 전처리: 보안 전략

By - meet
Posted on 2025년 08월 28일
Posted in AI 이론

데이터 전처리: 보안 전략

ㅁ 보안 전략

ㅇ 정의:
데이터 전처리 과정에서 민감 정보의 유출을 방지하고 무단 접근을 차단하기 위한 일련의 기술적·관리적 조치.

ㅇ 특징:
데이터 암호화, 접근 제어, 개인정보 비식별화 등 다양한 보안 기술을 결합하여 사용.

ㅇ 적합한 경우:
개인정보, 금융정보, 의료정보 등 민감 데이터 처리 시.

ㅇ 시험 함정:
단일 기술만으로 보안 전략이 완성된다고 착각하는 경우.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “데이터 전처리 단계에서 암호화와 권한관리를 병행하여 보안을 강화한다.”
X: “암호화만 적용하면 모든 보안 위협을 제거할 수 있다.”

================================

1. 암호화

ㅇ 정의:
데이터를 인가받지 않은 사용자가 이해할 수 없도록 변환하는 기술.

ㅇ 특징:
대칭키, 비대칭키 방식이 있으며, 저장 데이터(At-Rest)와 전송 데이터(In-Transit)에 모두 적용 가능.

ㅇ 적합한 경우:
외부 네트워크 전송, 클라우드 저장, 백업 데이터 보관 시.

ㅇ 시험 함정:
암호화 키 관리의 중요성을 간과하거나, 암호화가 성능에 미치는 영향을 무시하는 경우.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “비대칭키 암호화는 공개키로 암호화하고 개인키로 복호화한다.”
X: “대칭키 암호화는 공개키와 개인키를 사용한다.”

================================

2. 권한관리

ㅇ 정의:
데이터와 시스템 자원에 대한 접근 권한을 사용자별로 부여·제한하는 보안 기법.

ㅇ 특징:
최소 권한 원칙(Principle of Least Privilege), 역할 기반 접근 제어(RBAC) 등이 대표적.

ㅇ 적합한 경우:
다수의 사용자가 동일한 시스템을 이용하는 환경.

ㅇ 시험 함정:
권한 회수 절차를 누락하거나, 권한 부여를 일괄적으로 하는 경우.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “RBAC는 역할 단위로 권한을 부여하여 관리 효율성을 높인다.”
X: “최소 권한 원칙은 필요한 권한보다 넓게 부여하는 것을 의미한다.”

================================

3. Differential Privacy

ㅇ 정의:
개별 데이터의 기여 여부를 숨기면서 통계 분석 결과를 제공하는 개인정보 보호 기법.

ㅇ 특징:
노이즈를 데이터나 쿼리 결과에 주입하여 재식별 위험을 최소화.

ㅇ 적합한 경우:
대규모 데이터셋에서 통계 분석을 수행하면서 개인정보 보호가 필요한 경우.

ㅇ 시험 함정:
노이즈 주입이 데이터 분석의 정확도에 미치는 영향 간과.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Differential Privacy는 개별 레코드의 포함 여부를 숨긴다.”
X: “Differential Privacy는 원본 데이터를 완전히 삭제한다.”

================================

4. 익명화

ㅇ 정의:
데이터에서 개인을 식별할 수 있는 정보를 제거하거나 변형하여 비식별 상태로 만드는 기법.

ㅇ 특징:
가명처리, 데이터 마스킹, 범주화, 일반화 등의 방법 포함.

ㅇ 적합한 경우:
데이터 분석이나 공유가 필요하지만 개인정보 보호 규제를 준수해야 하는 경우.

ㅇ 시험 함정:
익명화 후에도 다른 데이터와 결합 시 재식별 가능성을 간과.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “가명처리는 식별자를 다른 값으로 대체하여 식별 가능성을 줄인다.”
X: “익명화된 데이터는 절대 재식별이 불가능하다.”

ㅁ 추가 학습 내용

[정리]
보안 전략 학습 시에는 각 기술의 장점뿐 아니라 한계와 상호 보완 관계를 이해해야 한다.
– 암호화: 전송 중 및 저장 데이터 보호에 강력하나, 사용 중 데이터(In-Use)는 보호 불가 → 권한 관리와 병행 필요.
– Differential Privacy: 통계 분석 시 개인정보 보호 강화 가능. 분석 정확도와 개인정보 보호 사이에 트레이드오프 존재. 핵심은 노이즈 수준(ε 값) 설정.
– 익명화: 단순 식별자 제거만으로는 불충분. k-익명성, l-다양성, t-근접성 등의 모델로 재식별 위험 평가 가능.
시험에서는 ‘암호화=완전 보안’, ‘익명화=재식별 불가’처럼 절대적인 표현을 함정으로 낼 수 있으므로 주의 필요.

[시험 대비 체크리스트]
1. 암호화의 적용 범위와 한계(전송·저장 보호 vs. 사용 중 데이터 보호 불가) 구분 가능 여부
2. 권한 관리와 암호화의 상호 보완 필요성 설명 가능 여부
3. Differential Privacy의 목적, 장점, 한계(정확도와의 트레이드오프) 이해 여부
4. ε 값(프라이버시 예산)의 의미와 설정 중요성 숙지 여부
5. 익명화의 기본 개념과 한계 인식 여부
6. k-익명성, l-다양성, t-근접성의 정의와 차이점 설명 가능 여부
7. 재식별 위험의 존재와 이를 줄이기 위한 수학적 모델 활용 방법 이해 여부
8. 시험에서 절대적 표현(=완전 보안, =재식별 불가 등)에 대한 함정 구별 능력

Meet AI

최신 글

최신 댓글

보관함

카테고리

데이터 전처리: 보안 전략

Previous Article

Next Article

답글 남기기 응답 취소