ㅁ 보안 전략 ㅇ 정의: 개인의 데이터가 포함된 통계나 분석 결과를 공개할 때, 개별 데이터가 노출되지 않도록 수학적으로 보장하는 프라이버시 보호 기법. 주로 데이터에 의도적으로 노이즈를 추가하여 개별 레코드의 영향력을 희석시킨다. ㅇ 특징: – ε(epsilon) 값으로 프라이버시 보호 수준을 수치화하여 조절 가능. – 노이즈 추가로 인해 데이터 분석의 정확도가 다소 감소할 수 있음. – 중앙집중형(Central
ㅁ 보안 전략 ㅇ 정의: 데이터 접근 권한을 사용자, 그룹, 역할 단위로 관리하여 민감 정보의 무단 접근을 방지하는 절차와 정책. ㅇ 특징: 최소 권한 원칙(Principle of Least Privilege), 역할 기반 접근 제어(RBAC), 정기적 권한 검토, 로그 기록 및 모니터링 포함. ㅇ 적합한 경우: 금융, 의료, 공공기관 등 민감 데이터 처리 환경에서 데이터 접근을 체계적으로 통제해야
ㅁ 보안 전략 ㅇ 정의: 데이터의 기밀성을 보장하기 위해 데이터를 인가되지 않은 사용자가 읽을 수 없도록 변환하는 기술 및 방법. ㅇ 특징: – 평문 데이터를 암호문으로 변환하여 저장 또는 전송. – 대칭키, 비대칭키, 해시 등 다양한 암호화 방식 존재. – 전송 중, 저장 중 데이터 보호 모두 가능. ㅇ 적합한 경우: – 개인정보, 금융정보, 기밀문서
ㅁ 동기화 기법 ㅇ 정의: 데이터 변경이 발생할 때마다 이벤트를 트리거로 하여 실시간 또는 준실시간으로 다른 시스템에 해당 변경 내용을 반영하는 방식. ㅇ 특징: – 변경 감지 후 즉시 전송하여 지연 시간이 짧음. – 이벤트 브로커(Kafka, RabbitMQ 등)나 Change Data Capture(CDC) 기술을 활용. – 네트워크 부하가 변경 건수에 비례. ㅇ 적합한 경우: – 재고 관리,
ㅁ 동기화 기법 ㅇ 정의: ㅇ 특징: ㅇ 적합한 경우: ㅇ 시험 함정: ㅇ 시험 대비 “패턴 보기” 예시: ================================ 1. 데이터 복제 ㅇ 정의: 동일하거나 유사한 데이터를 여러 시스템이나 저장소에 복사하여 보관하고, 필요 시 이를 동기화하는 기술. ㅇ 특징: – 실시간 또는 일정 주기마다 복제가 가능함 – 마스터-슬레이브 구조나 멀티마스터 구조로 구현 가능 –
ㅁ 동기화 기법 ㅇ 정의: 데이터베이스나 시스템 간의 데이터 변경 사항을 실시간 또는 근실시간으로 감지하여 다른 시스템에 반영하는 기술. ㅇ 특징: – 변경된 데이터만 전송하므로 전체 데이터 전송 대비 네트워크 부하와 처리 시간이 감소. – 로그 기반, 트리거 기반, 타임스탬프 기반 등 다양한 구현 방식 존재. – 실시간 분석, 데이터 웨어하우스 적재, 마이크로서비스 간 데이터
ㅁ 동기화 기법 ㅇ 정의: ㅇ 특징: ㅇ 적합한 경우: ㅇ 시험 함정: ㅇ 시험 대비 “패턴 보기” 예시: ================================ 1. 실시간 동기화 ㅇ 정의: – 데이터가 생성되거나 변경되는 즉시 네트워크를 통해 다른 시스템이나 저장소에 반영하는 방식의 동기화 기법. – 지연 없이 데이터 일관성을 유지하는 것을 목표로 함. ㅇ 특징: – 이벤트 기반 또는 스트리밍
ㅁ 라벨링 기술 ㅇ 정의: 데이터 검수는 라벨링이 완료된 데이터셋의 품질을 보장하기 위해 오류, 불일치, 누락 등을 점검하고 수정하는 절차를 의미한다. ㅇ 특징: – 라벨링 품질을 높이기 위해 다수의 검수자 또는 자동화 검수 도구를 활용 – 샘플링 검수, 전수 검수, 교차 검수 등 다양한 방식 존재 – 검수 기준(정확도, 일관성, 완전성 등)을 사전에 정의 –
ㅁ 라벨링 기술 1. 크라우드소싱 ㅇ 정의: 다수의 불특정 대중에게 온라인 플랫폼을 통해 데이터 라벨링 작업을 분산하여 수행하는 방식. ㅇ 특징: – 저비용으로 대량의 라벨링 가능 – 다양한 배경을 가진 참여자 확보 가능 – 품질 편차가 발생할 수 있어 검증 절차 필요 – 빠른 처리 속도 가능 ㅇ 적합한 경우: – 대규모 이미지, 텍스트, 음성
ㅁ 라벨링 기술 ㅇ 정의: 기계 학습 모델이 학습할 데이터 중 불확실성이 높은 샘플을 우선적으로 선택하여 사람이 라벨링하는 기법으로, 라벨링 효율을 극대화하는 방법. ㅇ 특징: – 전체 데이터 중 일부만 라벨링하여도 모델 성능을 빠르게 향상 가능. – 불확실성 측정(예: 예측 확률 분포의 엔트로피, 마진 샘플링)을 활용. – 반복적 학습 주기를 통해 점진적 개선. ㅇ 적합한