데이터 전처리: 동기화 기법 – 데이터 복제

ㅁ 동기화 기법

ㅇ 정의:

ㅇ 특징:

ㅇ 적합한 경우:

ㅇ 시험 함정:

ㅇ 시험 대비 “패턴 보기” 예시:

================================

1. 데이터 복제

ㅇ 정의:
동일하거나 유사한 데이터를 여러 시스템이나 저장소에 복사하여 보관하고, 필요 시 이를 동기화하는 기술.

ㅇ 특징:
– 실시간 또는 일정 주기마다 복제가 가능함
– 마스터-슬레이브 구조나 멀티마스터 구조로 구현 가능
– 네트워크 대역폭과 저장 공간을 추가로 소모함
– 장애 발생 시 복제본을 통해 빠른 복구 가능

ㅇ 적합한 경우:
– 재해 복구(Disaster Recovery) 목적
– 읽기 요청이 많은 시스템의 부하 분산
– 지리적으로 분산된 지점 간 데이터 일관성 유지 필요 시

ㅇ 시험 함정:
– ‘데이터 백업’과 혼동: 백업은 주기적 저장, 복제는 실시간/동기화 목적
– ‘동기화 지연’이 항상 없는 것으로 오해
– ‘멀티마스터’ 구조가 항상 안전하다고 착각

ㅇ 시험 대비 “패턴 보기” 예시:
O: “멀티마스터 데이터 복제는 지리적으로 떨어진 서버 간에도 데이터 변경 사항을 반영할 수 있다.”
X: “데이터 복제는 항상 즉시 동기화되므로 지연이 발생하지 않는다.”

ㅁ 추가 학습 내용

데이터 복제 유형은 크게 동기 복제와 비동기 복제로 나눌 수 있다.
동기 복제는 모든 복제 대상에 데이터가 동일하게 기록될 때까지 작업을 완료하지 않는 방식으로, 데이터 일관성을 보장하지만 네트워크 지연이나 장애 시 성능 저하가 발생할 수 있다.
비동기 복제는 먼저 원본에 데이터를 기록한 후 일정 시간 차이를 두고 다른 노드에 반영하는 방식으로, 성능이 우수하지만 장애 시 최신 데이터가 손실될 가능성이 있다.

충돌 해결 전략에는 최종 쓰기 우선(Last Write Wins), 버전 관리(Vector Clock), 수동 병합 등이 있으며, 분산 환경에서 동일 데이터에 대한 동시 수정이 발생했을 때 일관성을 유지하기 위해 사용된다.

네트워크 장애 시 처리 방식은 쓰기 중단, 읽기 전용 전환, 큐에 임시 저장 후 복구 시 반영 등 다양한 방법이 있다.

복제 지연(latency) 관리는 지연 모니터링, 네트워크 대역폭 최적화, 데이터 전송 압축, 우선순위 기반 전송 등을 통해 수행할 수 있다.

CAP 이론과의 연관성에서, 동기 복제는 일관성(Consistency)과 가용성(Availability) 사이에서 일관성을 우선하는 경향이 있고, 비동기 복제는 가용성을 우선하여 네트워크 분할 시에도 서비스 지속이 가능하지만 일관성이 희생될 수 있다.

클라우드 환경에서의 복제 서비스 예로는 AWS S3 Cross-Region Replication(다른 리전에 버킷 데이터를 자동 복제)과 GCP Cloud SQL Replication(읽기 전용 복제본 생성 및 장애 복구용 복제)이 있다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*