텍스트 증강: 데이터 마스킹
ㅁ 텍스트 증강
ㅇ 정의:
텍스트 데이터를 변형하거나 변경하여 데이터셋을 확장하는 기법으로, 모델의 일반화 성능을 향상시키기 위함.
ㅇ 특징:
– 데이터의 다양성을 늘려 과적합 방지.
– 자연어 처리에서 주로 활용.
– 원본 데이터의 의미를 유지하면서 변형.
ㅇ 적합한 경우:
– 데이터셋이 작아 학습 데이터가 부족한 경우.
– 모델의 일반화 성능을 높이고자 하는 경우.
ㅇ 시험 함정:
– 증강된 데이터가 원본 데이터의 의미를 왜곡하는 경우.
– 불필요한 증강으로 인해 모델의 성능이 오히려 저하되는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: 텍스트 증강은 데이터셋의 다양성을 높여 모델의 일반화 성능을 향상시킬 수 있다.
– X: 텍스트 증강은 항상 데이터의 품질을 보장한다.
================================
1. 데이터 마스킹
ㅇ 정의:
민감한 정보를 대체하거나 숨기는 방식으로 텍스트 데이터를 변형하는 증강 기법.
ㅇ 특징:
– 개인정보 보호를 위해 주로 사용.
– 특정 단어를 다른 단어로 대체하거나 삭제.
– 데이터의 패턴을 유지하면서도 민감 정보를 감춤.
ㅇ 적합한 경우:
– 개인정보가 포함된 텍스트 데이터를 학습 데이터로 활용해야 하는 경우.
– 데이터 보안이 중요한 환경에서 증강이 필요한 경우.
ㅇ 시험 함정:
– 마스킹된 데이터가 원본 데이터의 패턴을 왜곡할 수 있음.
– 과도한 마스킹으로 데이터의 학습 효과가 떨어질 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: 데이터 마스킹은 민감 정보를 숨기면서도 데이터의 패턴을 유지할 수 있다.
– X: 데이터 마스킹은 모든 경우에 원본 데이터의 의미를 정확히 보존한다.
ㅁ 추가 학습 내용
데이터 마스킹의 주요 기법과 텍스트 증강 사례를 학습하기 위한 내용은 다음과 같습니다:
1. 데이터 마스킹 주요 기법:
– 랜덤 마스킹: 민감한 데이터를 무작위 값으로 대체하여 원본 데이터를 보호하는 방법. 예를 들어, 고객의 전화번호를 임의의 숫자로 바꾸는 방식.
– 규칙 기반 마스킹: 사전에 정의된 규칙에 따라 데이터를 변형하는 방법. 예를 들어, 이름의 첫 글자만 남기고 나머지를 별표(*)로 대체하는 방식.
– 통계적 대체 기법: 원본 데이터의 통계적 특성을 유지하면서 데이터를 변형하는 방법. 예를 들어, 평균과 분산을 유지하면서 데이터 값을 변경하는 방식.
2. 텍스트 증강 사례:
– 동의어 교체: 문장에서 특정 단어를 동의어로 바꾸어 표현을 다양화하는 방법. 예를 들어, “행복한 하루”를 “기쁜 하루”로 변경.
– 문장 순서 변경: 문장 내에서 단어의 순서를 바꾸거나 문단 내에서 문장의 순서를 변경하여 데이터 다양성을 높이는 방법.
– 문장 삽입: 기존 텍스트에 새로운 문장을 추가하여 문맥을 확장하는 방법. 예를 들어, “그는 책을 읽었다.”에 “그 책은 매우 흥미로웠다.”를 추가.
위 내용을 학습하면 데이터 마스킹과 텍스트 증강에 대한 이해를 높이고 시험 대비에 효과적으로 활용할 수 있습니다.