AI 시스템 구축: 연합학습
ㅁ 연합학습
ㅇ 정의:
여러 기관이나 디바이스가 데이터를 중앙 서버에 모으지 않고, 각자 모델을 학습한 후 파라미터만 공유하여 전체 모델을 개선하는 분산 학습 방식.
ㅇ 특징:
데이터 프라이버시 보호, 네트워크 대역폭 절감, 다양한 환경에서의 모델 일반화 가능.
ㅇ 적합한 경우:
의료, 금융 등 데이터 이동이 법적·윤리적으로 제한되는 환경.
ㅇ 시험 함정:
데이터 자체를 공유하지 않는다는 점과 모델 파라미터를 공유한다는 점을 혼동.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “데이터를 중앙에 모으지 않고 모델 업데이트만 전송한다.”
X: “연합학습은 모든 데이터를 중앙 서버에 모아 학습한다.”
================================
1. Federated Learning
ㅇ 정의:
각 참여 노드가 로컬 데이터를 기반으로 모델을 학습하고, 중앙 서버는 업데이트된 파라미터를 집계하여 전역 모델을 개선하는 방법.
ㅇ 특징:
데이터 비이동, 통신 효율성, 다양한 디바이스 환경 지원.
ㅇ 적합한 경우:
스마트폰 키보드 추천, IoT 센서 데이터 분석.
ㅇ 시험 함정:
파라미터 전송이 곧 데이터 유출이라고 착각하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “연합학습은 로컬 학습 후 모델 파라미터만 공유한다.”
X: “연합학습은 데이터 샘플을 서버로 전송한다.”
================================
2. Secure Aggregation
ㅇ 정의:
중앙 서버가 개별 클라이언트의 업데이트를 직접 알 수 없도록 암호화된 형태로 집계하는 프로토콜.
ㅇ 특징:
개별 업데이트 노출 방지, 집계 후 복호화.
ㅇ 적합한 경우:
참여자 수가 많고, 개별 기여도를 비공개해야 하는 환경.
ㅇ 시험 함정:
집계 과정에서 개별 데이터가 해독된다고 오해.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Secure Aggregation은 개별 파라미터를 알 수 없게 집계한다.”
X: “Secure Aggregation은 클라이언트의 원본 데이터를 서버로 전송한다.”
================================
3. Differential Privacy
ㅇ 정의:
데이터나 모델 업데이트에 노이즈를 추가하여 개별 데이터 포인트가 식별되지 않도록 하는 프라이버시 보호 기법.
ㅇ 특징:
수학적 프라이버시 보장, ε(엡실론) 값으로 프라이버시-정확도 트레이드오프 조절.
ㅇ 적합한 경우:
민감 데이터 분석, 통계 공개.
ㅇ 시험 함정:
노이즈 추가가 무조건 성능 저하로 이어진다고 단정.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Differential Privacy는 노이즈를 추가하여 개별 데이터 식별을 어렵게 한다.”
X: “Differential Privacy는 데이터에서 노이즈를 제거하여 정확도를 높인다.”
================================
4. Homomorphic Encryption
ㅇ 정의:
암호화된 데이터 상태에서 연산을 수행하고, 복호화 시 평문 연산 결과를 얻을 수 있는 암호 기법.
ㅇ 특징:
데이터 복호화 없이 연산 가능, 높은 보안성, 연산 비용이 큼.
ㅇ 적합한 경우:
클라우드 환경에서 민감 데이터 처리.
ㅇ 시험 함정:
암호화 상태에서 연산이 불가능하다고 착각.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Homomorphic Encryption은 암호화된 상태로 연산을 수행할 수 있다.”
X: “Homomorphic Encryption은 복호화 후에만 연산이 가능하다.”
================================
ㅁ 추가 학습 내용
연합학습 시험 대비 정리
1. Federated Averaging(FedAvg) 알고리즘
– 개념: 클라이언트별 로컬 모델 파라미터를 서버에서 집계할 때, 각 클라이언트의 데이터 샘플 수에 비례하여 가중 평균을 계산하는 방식
– 특징: 간단하고 구현 용이, 대부분의 연합학습 시스템에서 기본 집계 방법으로 사용
– 수식: w_global = Σ (n_k / N) * w_k
(n_k: k번째 클라이언트 데이터 수, N: 전체 데이터 수, w_k: k번째 클라이언트 모델 파라미터)
2. 클라이언트 드롭아웃 문제
– 정의: 학습 중 일부 클라이언트가 연결이 끊기거나 응답하지 않는 상황
– 처리 방법:
• 드롭아웃 허용 알고리즘 설계 (참여한 클라이언트만으로 집계)
• 예측 가능한 스케줄링 및 재전송 정책
• 클라이언트 수 감소에 따른 모델 성능 영향 최소화
3. Non-IID 데이터 문제
– 정의: 각 클라이언트의 데이터 분포가 서로 다른 경우
– 영향: 모델 수렴 속도 저하, 성능 하락
– 해결 방법:
• 데이터 샘플링 및 공유 전략
• 클러스터링 기반 집계
• 퍼스널라이즈드 연합학습(Personalized FL) 기법 적용
4. Secure Aggregation
– 목적: 서버가 개별 클라이언트의 업데이트를 알 수 없도록 집계값만 복호화 가능하게 함
– 키 관리:
• 다자간 키 교환 방식
• 세션 키 생성 및 주기적 갱신
– 통신 오버헤드 고려: 암호화·복호화 연산 비용, 메시지 크기 증가
5. Differential Privacy(DP)
– ε(엡실론): 프라이버시 손실 정도를 나타내는 매개변수 (작을수록 프라이버시 보호 강함)
– δ(델타): ε-차분 프라이버시가 깨질 확률
– 합성 정리(Composition Theorem): 여러 번 DP 메커니즘을 적용할 때 전체 ε, δ 값의 누적 계산 방식
6. Homomorphic Encryption(HE)
– 전동형(Full HE): 임의의 연산(덧셈, 곱셈 등) 무제한 수행 가능
– 부분동형(Partial HE): 특정 연산만 지원 (예: 덧셈 동형, 곱셈 동형)
– 적용 시 문제: 연산 속도 저하, 높은 계산 자원 요구
7. 연합학습 vs 중앙집중식 학습 비교
– 연합학습 장점: 데이터 로컬 보관으로 프라이버시 보호, 데이터 전송량 감소
– 연합학습 단점: 통신 지연, Non-IID 데이터 문제, 클라이언트 가용성 문제
– 중앙집중식 장점: 데이터 통합으로 학습 효율 및 성능 극대화 가능
– 중앙집중식 단점: 데이터 전송·저장에 따른 프라이버시 위험, 대규모 데이터 전송 비용
시험 대비 체크리스트
[ ] FedAvg 알고리즘의 개념과 수식 이해
[ ] 클라이언트 드롭아웃 발생 시 처리 방법 2가지 이상 설명 가능
[ ] Non-IID 데이터 문제의 정의와 해결 알고리즘 예시 제시 가능
[ ] Secure Aggregation에서 키 관리 방식과 통신 오버헤드 원인 설명 가능
[ ] Differential Privacy의 ε, δ 의미와 합성 정리 개념 숙지
[ ] Homomorphic Encryption의 전동형·부분동형 차이와 연산 지연 원인 설명 가능
[ ] 연합학습과 중앙집중식 학습의 장단점 표로 작성 가능