AI 시스템 구축: 신뢰/위험 – Adversarial Attack Prevention
ㅁ 신뢰/위험
ㅇ 정의:
인공지능 모델에 대한 적대적 공격(Adversarial Attack)을 사전에 방지하거나 완화하기 위한 기술과 절차를 의미함. 이는 입력 데이터에 미세한 변화를 주어 모델의 오작동을 유도하는 공격을 차단하는 것을 목표로 함.
ㅇ 특징:
– 모델의 학습 단계, 추론 단계 모두에서 적용 가능
– 데이터 변조 탐지, 강건성(Robustness) 강화, 입력 검증(Input Validation) 등을 포함
– 보안, 프라이버시, 안전성 확보와 밀접한 관련
ㅇ 적합한 경우:
– 금융, 의료 등 오작동 시 피해가 큰 분야의 AI 시스템
– 자율주행차, 보안 감시 등 실시간 의사결정 시스템
ㅇ 시험 함정:
– Adversarial Attack과 일반적인 노이즈나 데이터 오류를 혼동하는 경우
– 방어 기법이 모델의 정확도를 반드시 높이는 것은 아님
ㅇ 시험 대비 “패턴 보기” 예시:
O: “입력 데이터에 대한 사전 검증은 적대적 공격 방지의 한 방법이다.”
X: “적대적 공격 방지는 데이터 증강과 동일한 개념이다.”
ㅁ 추가 학습 내용
Adversarial Attack Prevention 관련 시험 대비 정리
주요 공격 기법
– FGSM(Fast Gradient Sign Method): 모델의 손실 함수에 대한 입력의 그래디언트 부호를 이용해 적대적 예제를 빠르게 생성하는 방법
– PGD(Projected Gradient Descent): FGSM을 여러 번 반복하며 각 단계에서 허용된 범위 내로 투영하는 방식으로 더 강력한 공격을 수행
공격 기법의 차이
– FGSM은 단일 스텝으로 빠르지만 공격 강도가 제한적
– PGD는 다중 스텝으로 더 강력하고 다양한 적대적 예제를 생성 가능
방어 기법
– Adversarial Training: 학습 과정에 적대적 예제를 포함시켜 모델의 강건성을 높임
– Gradient Masking: 그래디언트 정보를 숨겨 공격자가 그래디언트를 활용하기 어렵게 함
– Defensive Distillation: 모델을 소프트 라벨로 재학습시켜 작은 입력 변화에 덜 민감하게 함
강건성 평가 지표
– Clean Accuracy: 정상 입력 데이터에 대한 정확도
– Robust Accuracy: 적대적 예제에 대한 정확도
기타 방어 방법
– 적대적 샘플 탐지 기법
– 입력 전처리 기반 방어: JPEG 압축, 랜덤 크롭 등으로 입력을 변형해 공격 효과를 감소
– 인증 및 접근 제어와 연계한 보안 아키텍처 설계
시험 유의 사항
– 방어의 주된 목적은 보안과 안정성 확보임
– ‘모델 성능 향상’과 같은 목적과 혼동하지 않도록 주의