AI 시스템 구축: 연합학습
ㅁ 연합학습
ㅇ 정의:
여러 기관이나 장치에서 데이터를 로컬에 보관한 채 모델을 공동 학습하는 분산형 머신러닝 방식.
ㅇ 특징:
데이터 이동 없이 모델 파라미터만 공유, 개인정보 보호 강화, 네트워크 지연 및 통신량 최적화 필요.
ㅇ 적합한 경우:
의료, 금융 등 민감 데이터가 외부로 나갈 수 없는 환경에서 협력 학습이 필요한 경우.
ㅇ 시험 함정:
중앙 서버에 데이터가 모이는 방식과 혼동, 단순 분산 학습과의 차이 구분 필요.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “데이터를 로컬에 유지한 채 모델을 학습한다.”
X: “모든 데이터를 중앙 서버로 전송하여 학습한다.”
================================
1. Federated Learning
ㅇ 정의:
각 클라이언트가 로컬 데이터로 모델을 학습하고, 중앙 서버에 모델 업데이트(가중치, 그라디언트)를 전송해 집계하는 학습 방식.
ㅇ 특징:
데이터 프라이버시 유지, 통신량 최적화 필요, 클라이언트 환경 다양성(Non-IID 데이터) 고려.
ㅇ 적합한 경우:
스마트폰 키보드 추천, IoT 센서 네트워크 분석 등.
ㅇ 시험 함정:
모든 클라이언트가 동일 데이터 분포를 가진다고 가정하는 문제에 속기 쉬움.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “모델 파라미터만 중앙 서버로 전송한다.”
X: “로컬 데이터를 중앙 서버에 업로드한다.”
================================
2. Secure Aggregation
ㅇ 정의:
중앙 서버가 개별 클라이언트의 업데이트를 직접 볼 수 없도록 암호화된 상태에서 집계하는 기술.
ㅇ 특징:
개별 업데이트 노출 방지, 암호화 및 집계 프로토콜 필요, 약간의 계산 오버헤드.
ㅇ 적합한 경우:
민감한 업데이트 값이 포함된 연합학습 환경.
ㅇ 시험 함정:
단순 평균 연산과 동일시하는 오류.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “서버는 복호화 없이 전체 합을 계산한다.”
X: “서버가 각 클라이언트의 원본 업데이트를 확인한다.”
================================
3. Differential Privacy
ㅇ 정의:
개별 데이터의 기여도를 식별할 수 없도록 노이즈를 추가하여 프라이버시를 보장하는 기술.
ㅇ 특징:
ε(엡실론) 값으로 프라이버시-정확도 균형 조절, 통계적 프라이버시 보장.
ㅇ 적합한 경우:
데이터 분석, 모델 학습에서 개인 식별 가능성을 줄여야 하는 경우.
ㅇ 시험 함정:
노이즈 추가가 무조건 정확도를 높인다고 착각하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “ε 값이 작을수록 프라이버시 보호가 강하다.”
X: “ε 값이 작을수록 정확도가 무조건 높아진다.”
================================
4. Homomorphic Encryption
ㅇ 정의:
암호화된 데이터 상태에서 연산을 수행하고, 복호화 시 동일한 결과를 얻는 암호 기술.
ㅇ 특징:
데이터 노출 없이 연산 가능, 계산 복잡도와 시간 소요 큼.
ㅇ 적합한 경우:
클라우드 환경에서 민감 데이터 연산, 연합학습의 보안 강화.
ㅇ 시험 함정:
암호화된 데이터는 연산이 불가능하다고 단정하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “암호화된 데이터 상태에서 덧셈과 곱셈 연산이 가능하다.”
X: “암호화된 데이터는 연산할 수 없다.”
ㅁ 추가 학습 내용
연합학습에서는 클라이언트 간 데이터 분포가 서로 다른 Non-IID 문제가 자주 등장하며, 이를 해결하기 위해 FedProx, FedAvgM 등의 변형 알고리즘이 사용된다. 통신 효율성을 높이기 위해 모델 압축 기법인 Quantization과 Sparsification, 그리고 클라이언트 샘플링 전략에 대한 이해가 필요하다.
Secure Aggregation과 Homomorphic Encryption은 함께 사용될 수 있으며, 두 기술의 차이점과 결합 시 장단점을 구분할 수 있어야 한다. Differential Privacy에서는 ε 값의 의미, Laplace 메커니즘과 Gaussian 메커니즘의 차이, 합성 정리(Composition Theorem)가 중요한 학습 포인트이다.
시험에서는 보안과 프라이버시 관련 기술을 혼동시키는 문제가 많으므로, 각 기술의 목적과 적용 범위를 명확히 비교하고 구분하는 연습이 필요하다.