AI 시스템 구축: 분산 전략

ㅁ 분산 전략

ㅇ 정의:
여러 대의 장치나 서버에서 데이터를 중앙에 모으지 않고 모델 학습을 수행하는 전략. 데이터 프라이버시, 네트워크 효율성, 연산 분산을 위해 사용됨.

ㅇ 특징:
– 데이터 이동 최소화
– 개인정보 보호 강화
– 네트워크 대역폭 절감
– 각 장치의 연산 자원 활용 가능

ㅇ 적합한 경우:
– 개인정보 보호 규제가 강한 환경
– 네트워크 연결이 제한적이거나 비용이 큰 경우
– 데이터가 물리적으로 분산되어 있는 경우

ㅇ 시험 함정:
– 분산 처리와 병렬 처리의 개념 혼동
– 단순 데이터 분할과 분산 학습의 차이 혼동

ㅇ 시험 대비 “패턴 보기” 예시:
O: “데이터를 로컬에서 학습하고 중앙 서버는 모델 파라미터만 집계한다.”
X: “모든 데이터를 중앙 서버로 전송하여 학습한다.”

================================

1. Federated Learning

ㅇ 정의:
여러 클라이언트(모바일, IoT 등)가 로컬 데이터를 이용해 모델을 학습하고, 중앙 서버는 각 클라이언트의 모델 파라미터를 집계하여 전역 모델을 업데이트하는 분산 학습 방식.

ㅇ 특징:
– 데이터는 로컬에 남기고 파라미터만 전송
– 중앙 서버가 모델 집계 역할 수행
– 통신 효율성을 위해 업데이트 주기와 압축 기법 사용

ㅇ 적합한 경우:
– 개인정보 보호가 중요한 모바일 환경
– 병원, 금융 등 데이터 공유가 어려운 산업

ㅇ 시험 함정:
– 데이터가 중앙 서버로 전송된다고 오해
– 모든 클라이언트가 동일 데이터 분포를 가진다고 가정하는 착각

ㅇ 시험 대비 “패턴 보기” 예시:
O: “로컬 데이터는 외부로 유출되지 않고, 모델 파라미터만 서버로 전송한다.”
X: “모든 로컬 데이터를 서버로 전송하여 학습한다.”

================================

2. Split Learning

ㅇ 정의:
모델을 여러 부분으로 나누어, 일부는 클라이언트에서, 나머지는 서버에서 학습하는 방식. 클라이언트는 전방 패스의 중간 활성값(activation)만 서버로 전송.

ㅇ 특징:
– 모델 구조를 분할하여 연산 부담 분산
– 클라이언트는 전체 모델을 알 필요 없음
– 데이터 프라이버시 강화(원본 데이터 미전송)

ㅇ 적합한 경우:
– 연산 자원이 제한된 엣지 디바이스
– 데이터 노출 위험을 최소화해야 하는 환경

ㅇ 시험 함정:
– 전송되는 것이 원본 데이터라고 착각
– 모델 전체가 클라이언트에 있다고 오해

ㅇ 시험 대비 “패턴 보기” 예시:
O: “클라이언트는 전방 패스의 중간 결과만 서버로 전송한다.”
X: “클라이언트는 전체 모델을 학습하고 결과를 서버로 전송한다.”

================================

3. Homomorphic Encryption

ㅇ 정의:
암호화된 상태에서 연산이 가능한 암호 기술. 복호화 없이 덧셈, 곱셈 등의 연산을 수행하여 개인정보 보호를 유지.

ㅇ 특징:
– 데이터 암호화 상태로 연산 가능
– 연산 후 결과를 복호화하면 평문 연산 결과와 동일
– 높은 연산 비용과 처리 시간 요구

ㅇ 적합한 경우:
– 민감 데이터의 외부 연산 위탁
– 클라우드 환경에서의 개인정보 보호 연산

ㅇ 시험 함정:
– 암호화된 데이터는 연산이 불가능하다고 오해
– 모든 연산이 효율적으로 가능하다고 착각

ㅇ 시험 대비 “패턴 보기” 예시:
O: “암호문 상태에서 덧셈, 곱셈 연산이 가능하다.”
X: “암호문은 반드시 복호화 후 연산해야 한다.”

ㅁ 추가 학습 내용

Federated Learning의 FedAvg(Federated Averaging) 알고리즘은 각 클라이언트가 로컬 데이터로 모델을 학습한 후, 서버가 이를 평균하여 글로벌 모델을 갱신하는 방식으로 동작한다. 통신 효율화를 위해 모델 압축과 희소화 기법이 사용되며, 이는 전송 데이터 크기를 줄여 통신 비용을 절감한다.

Split Learning의 SplitNN 학습 절차에서는 모델을 여러 부분으로 나누어 각 파티가 자신의 부분을 학습하고, 중간 활성값을 다른 파티로 전송한다. 이 과정에서 활성값 전송 시 원본 데이터에 대한 정보 유출 가능성이 존재하며, 이를 완화하기 위해 gradient pruning과 differential privacy 기법이 사용된다.

Homomorphic Encryption에서는 암호화된 상태에서 연산이 가능한 기술이 사용된다. 부분 동형암호(Partial Homomorphic Encryption)는 덧셈 또는 곱셈 중 하나만 지원하며, 전방위 동형암호(Fully Homomorphic Encryption)는 덧셈과 곱셈 모두를 지원한다. 대표 알고리즘으로는 CKKS, BFV, Paillier가 있으며, 각 알고리즘은 지원하는 연산 형태와 효율성에서 차이가 있다.

세 기술 모두 보안성과 성능 간의 트레이드오프가 존재하며, 네트워크 지연(latency)과 연산 복잡도에 대한 이해가 중요하다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*