AI 시스템 구축: 신뢰/위험 – Prompt Injection Detection
ㅁ 신뢰/위험
ㅇ 정의:
Prompt Injection Detection은 대규모 언어 모델(LLM)이나 AI 시스템이 입력 프롬프트를 통해 악의적인 명령이나 의도치 않은 행동을 수행하도록 유도되는 공격을 탐지하는 기술이다.
ㅇ 특징:
– 사용자가 입력한 프롬프트를 분석하여 악성 패턴, 의도 변경, 데이터 유출 시도 등을 식별
– 정규식, 키워드 매칭, ML 기반 분류기 등 다양한 탐지 방식 활용
– 실시간 모니터링 및 사전 차단 기능과 결합 가능
– 정상 대화와 공격 시도를 구분하는 것이 어려움
ㅇ 적합한 경우:
– LLM 기반 챗봇, 검색엔진, 고객지원 시스템 등 외부 입력을 직접 처리하는 서비스
– 민감 데이터 보호가 중요한 환경
– AI 응답의 무결성과 신뢰성이 필수적인 업무(법률, 의료, 금융)
ㅇ 시험 함정:
– Prompt Injection Detection은 모델의 학습 데이터 품질과 무관하게 동작하므로, ‘데이터 정제’와 혼동하면 안 됨 (X)
– 단순 금칙어 필터링만으로 완벽히 방어 가능하다고 보는 것은 오답 (X)
– 공격 탐지는 사후 대응이 아니라 사전 차단 전략의 일부라는 점을 기억 (O)
ㅇ 시험 대비 “패턴 보기” 예시:
– “Prompt Injection Detection은 사용자의 의도를 변경하는 악의적 입력을 탐지하는 기술이다.” (O)
– “Prompt Injection Detection은 모델 학습 단계에서만 적용된다.” (X)
– “Prompt Injection Detection은 민감 정보 유출 방지에도 기여할 수 있다.” (O)
ㅁ 추가 학습 내용
Prompt Injection 대응 기법에는 Prompt Sanitization(프롬프트 정화), Context Isolation(맥락 분리), Output Filtering(출력 필터링)이 있다.
시험에서는 Prompt Injection과 SQL Injection, XSS를 비교하는 문제가 나올 수 있으며, Prompt Injection은 자연어를 이용해 모델의 동작을 조작한다는 점에서 전통적인 코드 인젝션과 구별해야 한다.
탐지 정확도와 False Positive(오탐) 비율 관리가 중요한 평가 요소로 출제될 수 있다.
최신 연구에서는 LLM이 입력을 사전 평가하여 위험도를 점수화하는 Self-Guard 기법이 등장하고 있어, 이러한 발전 동향도 숙지해야 한다.