데이터 전처리: 텍스트 증강 – 데이터 마스킹

ㅁ 텍스트 증강

ㅇ 정의:
원본 텍스트 데이터의 특정 단어나 구를 다른 문자, 기호, 또는 난수로 치환하여 민감한 정보를 보호하거나 데이터 다양성을 높이는 기법.

ㅇ 특징:
– 개인정보(이름, 주민번호, 전화번호 등)나 기밀 정보를 비식별화.
– 텍스트의 문맥 구조를 유지하면서 일부 토큰만 변경.
– 규칙 기반, 패턴 매칭, 또는 랜덤 치환 방식 사용.
– 데이터 보안과 학습 데이터 다양성 확보를 동시에 달성 가능.

ㅇ 적합한 경우:
– 민감 정보가 포함된 텍스트를 모델 학습에 활용해야 하는 경우.
– 데이터셋 크기가 제한적이어서 변형을 통한 데이터 확장이 필요한 경우.
– 규제 준수를 위해 개인정보를 비식별화해야 하는 경우.

ㅇ 시험 함정:
– 데이터 마스킹은 데이터 삭제가 아니라 치환임.
– 암호화와 다르게 복호화가 불가능하거나 필요 없는 경우가 많음.
– 마스킹 후에도 문맥이 깨지지 않도록 설계해야 함.

ㅇ 시험 대비 “패턴 보기” 예시:
O: 데이터 마스킹은 민감 정보를 다른 값으로 치환하여 비식별화하는 기법이다.
X: 데이터 마스킹은 원본 데이터를 완전히 삭제하여 보안을 강화한다.

ㅁ 추가 학습 내용

데이터 마스킹 기법은 다음과 같이 구분된다.
– 전면 마스킹: 모든 문자를 별표(*)로 치환
– 부분 마스킹: 일부만 가림
– 규칙 기반 치환: 특정 규칙에 따라 다른 값으로 대체
– 무작위 대체: 임의의 값으로 대체

마스킹과 암호화, 익명화의 차이
– 암호화: 복호화 키를 통해 원본 복원이 가능
– 마스킹: 일반적으로 원본 복원이 불가능
– 익명화: 개인을 식별할 수 없도록 처리

텍스트 증강 관점에서는 보안 목적 외에도 모델의 일반화 성능 향상을 위해 동의어 치환, 랜덤 삽입 등과 함께 마스킹 기법이 활용될 수 있다.

최신 글