AI 모델 개발: 세부 이슈

By - meet
Posted on 2025년 08월 28일
Posted in AI 이론

AI 모델 개발: 세부 이슈

ㅁ 세부 이슈

1. Instruction-tuning

ㅇ 정의:
사전 학습된 대규모 언어 모델(LLM)에 대해 사용자의 지시문(Instruction)에 맞춰 응답을 생성하도록 미세 조정하는 기법.

ㅇ 특징:
– 지도 학습(Supervised Fine-tuning, SFT) 방식으로 주로 수행
– 다양한 명령어-응답 쌍 데이터셋 필요
– 모델의 일반화된 지시 수행 능력 향상

ㅇ 적합한 경우:
– 특정 도메인 또는 형식의 응답을 정확히 수행해야 하는 경우
– 질의응답, 요약, 변환 등 다목적 작업 지원

ㅇ 시험 함정:
– Instruction-tuning과 Prompt Engineering 혼동
– SFT 데이터 품질이 낮으면 모델 성능 저하

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Instruction-tuning은 명령어-응답 데이터로 모델을 지도 학습하는 과정이다.”
X: “Instruction-tuning은 RLHF의 보상 모델 학습 과정이다.”

2. RLHF

ㅇ 정의:
Reinforcement Learning from Human Feedback. 인간 피드백을 기반으로 보상 모델을 학습하고 이를 통해 LLM을 강화학습으로 조정하는 기법.

ㅇ 특징:
– 3단계: SFT → 보상 모델 학습 → 정책 최적화(PPO 등)
– 모델의 응답 품질과 사용자 선호도 정렬

ㅇ 적합한 경우:
– 모델이 단순 정확성 외에 사용자 만족도나 안전성을 유지해야 하는 경우

ㅇ 시험 함정:
– RLHF를 SFT와 동일시하는 오류
– 보상 모델과 정책 모델을 혼동

ㅇ 시험 대비 “패턴 보기” 예시:
O: “RLHF는 인간 피드백을 기반으로 보상 모델을 학습한다.”
X: “RLHF는 지도 학습만을 사용하여 모델을 조정한다.”

3. Alignment

ㅇ 정의:
AI 모델의 목표와 행동이 인간의 의도, 가치, 윤리와 일치하도록 만드는 과정.

ㅇ 특징:
– 기술적 접근: RLHF, Constitutional AI 등
– 사회적 가치 및 안전성 고려

ㅇ 적합한 경우:
– 안전성, 신뢰성, 윤리적 이슈가 중요한 AI 서비스

ㅇ 시험 함정:
– Alignment를 단순히 정확도 향상으로 오해
– 기술적 정렬과 가치 정렬의 차이를 간과

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Alignment는 모델의 행동을 인간 가치와 일치시키는 것을 목표로 한다.”
X: “Alignment는 모델의 파라미터 수를 줄이는 과정이다.”

4. Hallucination Detection

ㅇ 정의:
LLM이 사실과 다른 정보나 근거 없는 내용을 생성하는 현상(Hallucination)을 탐지하는 기술.

ㅇ 특징:
– 사실 검증(Fact-checking), 외부 지식베이스 참조
– 확률 기반 불확실성 측정 활용 가능

ㅇ 적합한 경우:
– 의료, 법률, 금융 등 사실 정확성이 중요한 분야

ㅇ 시험 함정:
– Hallucination을 단순 오타나 문법 오류로 오해
– Detection과 Prevention의 개념 혼동

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Hallucination Detection은 모델 출력의 사실 여부를 검증하는 과정이다.”
X: “Hallucination Detection은 모델이 창의적인 답변을 하도록 하는 과정이다.”

ㅁ 추가 학습 내용

[학습 정리]

1. Instruction-tuning vs Zero-shot/Few-shot Prompting
– Instruction-tuning: 사전 학습된 모델을 지시문(Instruction)에 맞춰 미세 조정하는 방법. 데이터셋에 다양한 명령과 응답 예시를 포함하여 모델이 지시를 이해하고 따르도록 함.
– Zero-shot Prompting: 사전 학습된 모델에 추가 학습 없이 바로 지시문을 주고 답변을 얻는 방식.
– Few-shot Prompting: 지시문과 함께 몇 개의 예시를 제공하여 모델이 패턴을 학습하도록 유도.
– 상호 보완 관계: Instruction-tuning은 모델의 전반적 지시 이해 능력을 높여 Zero/Few-shot 성능을 향상시킴. Zero/Few-shot은 추가 학습 없이 유연하게 적용 가능.

2. RLHF 단계별 세부 알고리즘과 편향
– 단계: (1) Supervised Fine-tuning(SFT) (2) Reward Model 학습 (3) 정책 최적화(PPO, DPO 등)
– PPO(Proximal Policy Optimization): 정책 변화 폭을 제한하여 안정적으로 학습.
– DPO(Direct Preference Optimization): 선호 데이터로 직접 정책을 최적화.
– 편향 문제: 데이터 편향, 보상 모델 편향, 인간 평가자의 주관성, 특정 문화·가치관 반영 문제.

3. Alignment 하위 개념과 Constitutional AI
– Technical Alignment: 모델이 의도한 목표를 기술적으로 정확히 수행하도록 하는 것.
– Value Alignment: 모델의 행동이 인간의 가치와 윤리 기준에 부합하도록 하는 것.
– Constitutional AI: 사전에 정의된 헌법(규칙·원칙)에 따라 모델이 자기 검열 및 자기 수정.
– 장점: 일관된 원칙 적용, 인간 개입 최소화 가능.
– 단점: 헌법 규칙의 불완전성, 규칙 해석의 모호성, 문화적 다양성 반영 한계.

4. Hallucination Detection 기법 비교
– 지식그래프 기반: 구조화된 지식과 답변 비교. 장점: 정확성 높음, 단점: 지식그래프의 범위 한정.
– Retrieval-Augmented Generation(RAG) 기반: 검색 결과를 활용해 답변 검증. 장점: 최신 정보 반영, 단점: 검색 품질 의존.
– 불확실성 추정 기반: 모델의 출력 확률 분포 분석. 장점: 모델 내부 신뢰도 반영, 단점: 확률과 실제 정답률 불일치 가능.

5. LLM 평가 지표와 적용 사례
– BLEU: 기계 번역 품질 평가, n-gram 일치율 기반.
– ROUGE: 요약 품질 평가, n-gram recall 기반.
– METEOR: 의미적 유사성과 어휘 다양성 반영.
– TruthfulQA: 사실성 검증을 위한 질문-응답 테스트.
– 적용 사례: 번역, 요약, 질의응답, 대화 품질 평가 등.

6. 모델 안전성 평가
– Red Teaming: 의도적으로 취약점·문제 상황을 유발해 테스트.
– Adversarial Prompting: 모델의 취약한 응답을 유도하는 공격적 프롬프트 설계.

[시험 대비 체크리스트]
– Instruction-tuning과 Zero/Few-shot Prompting 정의와 차이점, 상호 보완성 설명 가능 여부
– RLHF의 단계별 절차와 PPO, DPO 특징 및 편향 사례 설명 가능 여부
– Technical Alignment와 Value Alignment의 정의와 차이 구분 가능 여부
– Constitutional AI의 원리, 장점, 단점 서술 가능 여부
– Hallucination Detection 각 기법의 원리와 장단점 비교 가능 여부
– BLEU, ROUGE, METEOR, TruthfulQA의 목적과 적용 사례 설명 가능 여부
– Red Teaming과 Adversarial Prompting의 개념과 목적 설명 가능 여부

Meet AI

최신 글

최신 댓글

보관함

카테고리

AI 모델 개발: 세부 이슈

Previous Article

Next Article

답글 남기기 응답 취소