AI 시스템 구축: 기술
ㅁ 기술
1. Federated Learning
ㅇ 정의:
– 중앙 서버에 데이터를 모으지 않고, 각 클라이언트(디바이스, 기관)에서 모델을 학습하고 파라미터만 공유하여 전역 모델을 갱신하는 분산 학습 방식.
ㅇ 특징:
– 데이터 프라이버시 보호 강화.
– 네트워크 부하 감소(모델 파라미터만 전송).
– 클라이언트 환경 다양성(Non-IID 데이터)으로 인한 성능 편차 발생 가능.
ㅇ 적합한 경우:
– 의료, 금융 등 민감 데이터가 외부 전송이 어려운 환경.
– IoT 디바이스나 모바일 환경에서의 협력 학습.
ㅇ 시험 함정:
– 데이터가 중앙 서버로 전송되지 않는다는 점을 간과하고 ‘암호화된 데이터 전송 후 중앙 학습’과 혼동.
– 모든 클라이언트 데이터 분포가 동일하다고 가정하는 오류.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “각 디바이스에서 학습 후 모델 파라미터만 서버로 전송한다.”
– X: “모든 원본 데이터를 중앙 서버로 전송하여 학습한다.”
2. Split Learning
ㅇ 정의:
– 모델을 여러 부분으로 나누어, 앞부분은 클라이언트에서, 뒷부분은 서버에서 학습하는 방식.
ㅇ 특징:
– 중간 결과(activation)만 전송하여 데이터 프라이버시 보호.
– 서버와 클라이언트가 동시에 학습에 참여.
– 네트워크 지연과 동기화 비용 발생 가능.
ㅇ 적합한 경우:
– 연산 자원이 제한된 클라이언트 환경.
– 데이터 프라이버시가 중요한 환경에서 서버의 연산 능력을 활용하고자 할 때.
ㅇ 시험 함정:
– Federated Learning과 혼동하여 ‘전체 모델을 각 클라이언트에서 학습’한다고 오해.
– 중간 결과 전송이 데이터 노출로 이어질 수 있다는 점을 간과.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “모델을 분할하여 일부는 클라이언트, 일부는 서버에서 학습한다.”
– X: “모든 학습이 클라이언트에서만 이루어진다.”
3. Federated Analytics
ㅇ 정의:
– 분산 환경에서 원본 데이터를 공유하지 않고 통계 분석이나 지표 계산을 수행하는 기술.
ㅇ 특징:
– 데이터 프라이버시 보호.
– 통계치, 집계 결과만 중앙 서버에 전달.
– 데이터 소유자가 분석 목적에 따라 참여.
ㅇ 적합한 경우:
– 사용자 행동 분석, 서비스 품질 개선 등에서 개인정보 보호가 필요한 경우.
ㅇ 시험 함정:
– Federated Learning과 혼동하여 ‘모델 학습’을 수행한다고 오해.
– 원본 데이터 전송이 필요하다고 잘못 이해.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “원본 데이터 없이 분산 환경에서 통계 분석을 수행한다.”
– X: “모델 파라미터를 학습하여 전송한다.”
4. Homomorphic Encryption
ㅇ 정의:
– 암호화된 상태에서 연산이 가능하여 복호화 없이 데이터 처리가 가능한 암호화 기술.
ㅇ 특징:
– 데이터 보안과 프라이버시를 강력히 보장.
– 연산 속도가 느리고 자원 소모가 큼.
– 부분 동형암호(덧셈, 곱셈 중 하나 지원)와 완전 동형암호(덧셈, 곱셈 모두 지원)로 구분.
ㅇ 적합한 경우:
– 민감 데이터의 외부 위탁 처리.
– 클라우드 환경에서 데이터 노출 없이 연산 수행.
ㅇ 시험 함정:
– 암호화된 상태에서는 연산이 불가능하다고 잘못 이해.
– 단순 전송 암호화(TLS, SSL)와 혼동.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “암호화된 데이터에 대해 복호화 없이 연산이 가능하다.”
– X: “암호화된 데이터는 반드시 복호화 후 연산해야 한다.”
ㅁ 추가 학습 내용
학습 정리
1. Federated Learning
– Non-IID 데이터 처리 기법:
• FedAvg(Federated Averaging): 각 클라이언트가 로컬 데이터로 학습 후 모델 파라미터 평균화
• FedProx(Federated Proximal): FedAvg에 정규화 항을 추가하여 데이터 분포 불균형 완화
– 클라이언트 드롭아웃 문제 해결:
• 부분 참여(partial participation) 허용
• 비동기 업데이트(asynchronous update)
• 드롭아웃 예측 및 대체 데이터/모델 활용
2. Split Learning
– 중간 활성값 전송 시 정보 유출 가능성:
• 모델 반전 공격을 통해 원본 데이터 추정 가능
– 완화 기법:
• 암호화(secure aggregation, homomorphic encryption)
• 노이즈 추가(차등 프라이버시 적용)
• 중간 표현 난독화(obfuscation)
3. Federated Analytics
– 차등 프라이버시 적용 방법:
• ε-차등 프라이버시 기준 설정
• 로컬/글로벌 DP 적용 방식 구분
– 통계적 노이즈 주입 기법:
• Laplace 분포 노이즈
• Gaussian 분포 노이즈
4. Homomorphic Encryption
– 배치 처리(batch processing):
• 여러 연산을 한 번에 처리하여 성능 향상
– 주요 알고리즘 특성:
• CKKS: 근사 연산 지원, 실수 연산에 효율적
• BFV: 정수 연산에 적합, 정확한 계산 가능
5. 공통 보안 위협 및 대응 기술
– 모델 반전 공격:
• 출력/중간값으로 입력 데이터 역추정
• 대응: DP, 암호화, 출력 제한
– 데이터 중독 공격:
• 학습 데이터에 악의적 패턴 삽입
• 대응: 데이터 검증, 이상치 탐지, 로버스트 학습
시험 대비 체크리스트
[ ] FedAvg와 FedProx의 원리와 차이 설명 가능
[ ] Non-IID 데이터 문제의 정의와 해결 전략 제시 가능
[ ] 클라이언트 드롭아웃 문제 원인과 해결책 나열 가능
[ ] Split Learning에서 정보 유출 경로와 방지 기법 설명 가능
[ ] 차등 프라이버시의 ε 개념과 적용 방식 구분 가능
[ ] Laplace와 Gaussian 노이즈의 차이 이해
[ ] Homomorphic Encryption의 배치 처리 개념 이해
[ ] CKKS와 BFV 알고리즘의 특징 비교 가능
[ ] 모델 반전 공격과 데이터 중독 공격의 개념 및 대응책 나열 가능