핵심 개념: Hallucination
ㅁ 핵심 개념
ㅇ 정의:
대규모 언어모델이 학습 데이터에 없는 정보를 생성하거나 잘못된 정보를 사실처럼 출력하는 현상.
ㅇ 특징:
– 학습 데이터에 기반하지 않은 응답 생성.
– 사용자에게 신뢰성이 낮은 정보를 제공할 위험이 있음.
– 맥락과 무관하거나 왜곡된 정보를 포함할 수 있음.
ㅇ 적합한 경우:
– 창의적인 텍스트 생성이 필요하지만 정확성이 크게 중요하지 않은 경우.
– 인간의 검토를 거쳐 활용 가능한 경우.
ㅇ 시험 함정:
– Hallucination을 단순히 모델의 오류로만 간주할 수 있음.
– 모든 Hallucination이 부정적이라는 오해.
ㅇ 시험 대비 “패턴 보기” 예시:
1. Hallucination은 언어모델의 학습 데이터에 기반한 정확한 정보만을 생성하는 현상이다. (X)
2. Hallucination은 대규모 언어모델이 맥락과 무관한 정보를 생성할 때 나타나는 문제이다. (O)
ㅁ 추가 학습 내용
Hallucination을 줄이기 위한 주요 기술적 접근 방식과 이를 발생시키는 주요 원인을 학습하기 위해 다음과 같이 정리할 수 있습니다.
1. Hallucination을 줄이기 위한 기술적 접근 방식:
– Reinforcement Learning with Human Feedback (RLHF): 인간의 피드백을 활용하여 모델의 출력을 강화 학습으로 조정하는 방법입니다. 이 접근법은 모델이 생성하는 텍스트의 품질을 개선하고, 현실과 동떨어진 내용을 줄이는 데 효과적입니다. 인간 평가자가 모델의 출력을 검토하고, 이에 따라 보상을 제공함으로써 모델이 더 신뢰할 수 있는 결과를 생성하도록 유도합니다.
– 데이터 정제(Data Cleaning): 학습 데이터에서 부정확하거나 잘못된 정보를 제거하거나 수정하는 과정입니다. 데이터 정제는 모델이 잘못된 정보를 학습하는 것을 방지하고, Hallucination 발생 가능성을 줄이는 데 중요한 역할을 합니다.
– 지식 기반 통합(Knowledge Integration): 외부 지식 그래프나 데이터베이스를 활용하여 모델의 응답을 검증하거나 보완하는 방법입니다. 이를 통해 모델이 더 신뢰할 수 있는 정보를 생성하도록 지원합니다.
– 컨텍스트 제약(Context Constraints): 모델의 출력이 주어진 질문이나 주제와 관련되도록 제약을 설정하는 방법입니다. 이를 통해 모델이 본문과 무관한 응답을 생성하는 것을 방지할 수 있습니다.
– 모델 구조 개선: Transformer 구조나 Attention 메커니즘을 개선하여 모델이 더 정확히 학습하고, 결과적으로 Hallucination을 줄이는 방식입니다.
2. Hallucination이 발생하는 주요 원인:
– 학습 데이터의 불균형: 학습 데이터에 포함된 정보가 특정 주제나 맥락에 편중되어 있으면, 모델이 잘못된 일반화를 학습하거나 특정 주제에서 Hallucination을 일으킬 가능성이 높아집니다.
– 모델의 일반화 능력 한계: 모델이 훈련 데이터에서 학습한 패턴을 새로운 상황에 일반화하는 데 실패할 경우, 없는 정보를 생성하거나 잘못된 내용을 생성할 수 있습니다.
– 정보 부족: 모델이 특정 질문에 대한 답을 학습 데이터에서 찾을 수 없는 경우, 임의로 생성한 내용을 포함하여 Hallucination이 발생할 수 있습니다.
– 과도한 생성 능력: 언어 생성 모델은 종종 자연스러운 텍스트를 생성하는 데 중점을 두기 때문에, 현실적인 제약 없이 문장을 만들어내는 경향이 있습니다. 이로 인해 실제 사실과 불일치하는 내용이 생성될 수 있습니다.
– 학습 데이터의 품질 문제: 학습 데이터 자체에 오류, 모호성, 또는 잘못된 정보가 포함되어 있으면, 모델이 이를 학습하여 Hallucination을 발생시킬 가능성이 있습니다.
이 내용을 바탕으로 Hallucination 문제를 이해하고, 이를 줄이기 위한 다양한 접근 방식을 학습할 수 있습니다.