AI 모델 개발: 세부 이슈 – Hallucination Detection
ㅁ 세부 이슈
ㅇ 정의:
LLM이 실제 사실과 다른 내용을 자신있게 생성하는 현상(Hallucination)을 식별하고 판별하는 기법.
ㅇ 특징:
– 생성된 응답의 사실성 검증이 핵심
– 외부 지식베이스나 검색 시스템과 연계하여 진위 여부 확인 가능
– 자동화된 평가 지표(FactScore, TruthfulQA 등)와 휴먼 평가 병행
– 문맥 상 그럴듯하지만 실제로는 틀린 정보가 많아 탐지 난이도가 높음
ㅇ 적합한 경우:
– 법률, 의료 등 정확성이 필수적인 분야의 LLM 응답 검증
– 기업 내부 지식문서 기반 챗봇의 품질 관리
– 생성형 AI의 신뢰성 평가 및 개선 프로젝트
ㅇ 시험 함정:
– Hallucination은 의도적 거짓말이 아니라 모델의 한계에서 기인함
– 단순 오타나 문법 오류는 Hallucination이 아님
– ‘정확도’와 ‘Hallucination 발생률’은 동일 지표가 아님
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Hallucination Detection은 LLM이 생성한 내용이 사실과 일치하는지 검증하는 과정이다.”
– X: “Hallucination Detection은 LLM의 창의성을 높이는 과정이다.”
– X: “Hallucination Detection은 문법 오류를 찾아내는 기술이다.”
ㅁ 추가 학습 내용
학습 정리
1. Hallucination의 유형
– 추론 오류: 논리적 비약, 잘못된 결론 도출
– 사실 왜곡: 실제 사실을 변형하거나 잘못된 형태로 전달
– 정보 날조: 존재하지 않는 정보나 근거 없는 내용을 생성
2. 대표적인 탐지 기법
– Retrieval-Augmented Verification: 외부 검색 결과와 모델 응답 비교
– Cross-Checking: 동일 질문에 대한 여러 응답 비교 및 불일치 탐지
– External Fact-Checking API 활용: 외부 검증 서비스로 사실 여부 확인
3. 자동 평가 지표 예시
– FactCC: 생성 문장의 사실성 검증 지표
– QAGS: 요약문과 원문 간의 사실 일치도 평가
– TruthfulQA: 질문에 대한 진실성 평가
– GPTScore: 모델 생성물의 품질 및 사실성 평가
4. Hallucination 감소 기법
– 프롬프트 엔지니어링: 질문 설계 최적화로 오류 감소
– Chain-of-Thought: 단계별 추론 과정을 명시해 정확성 향상
– 외부 지식 연계: 신뢰할 수 있는 데이터베이스나 검색 시스템과 결합
5. 시험 출제 포인트
– Hallucination Detection 지표와 일반적인 모델 평가 지표(정확도, BLEU 등)의 차이 구분
6. 탐지 결과의 한계와 Human-in-the-loop 필요성
– 자동 탐지의 완전성 한계 존재
– 전문가 검증을 통한 최종 판단 필요