AI 모델 개발: 대규모 언어모델 세부
ㅁ 대규모 언어모델 세부
1. Instruction-tuning
ㅇ 정의:
대규모 언어모델이 사용자의 지시문(Instruction)에 맞춰 응답을 생성하도록 대규모 지시-응답 데이터셋으로 미세조정하는 과정.
ㅇ 특징:
– 지도학습(Supervised Fine-tuning) 기반
– 다양한 도메인과 문체에 대응 가능
– 모델의 일반화 능력 향상
ㅇ 적합한 경우:
– 범용 대화형 AI 개발 시
– 특정 작업 지시문에 최적화된 모델 생성 시
ㅇ 시험 함정:
– Instruction-tuning은 RLHF와 혼동하기 쉬움 (RLHF는 보상 기반 강화학습 단계)
– 프롬프트 엔지니어링과는 다른 개념임
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Instruction-tuning은 지도학습 기반으로 지시문-응답 쌍 데이터로 미세조정한다.”
X: “Instruction-tuning은 강화학습을 통해 사용자 피드백을 반영한다.”
2. Alignment
ㅇ 정의:
모델의 출력이 인간의 의도, 가치, 윤리 기준에 맞도록 조정하는 과정.
ㅇ 특징:
– 안전성(Safety) 확보 목적
– 편향(Bias) 및 유해 콘텐츠 최소화
– Instruction-tuning, RLHF, 규칙 기반 필터링 등을 포함
ㅇ 적합한 경우:
– 상용 서비스 출시 전 안전성 검증 단계
– 규제 준수 및 사회적 책임이 중요한 프로젝트
ㅇ 시험 함정:
– Alignment는 단일 기술이 아니라 여러 접근법의 총칭임
– 단순한 정확도 향상과 동일시하면 오답
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Alignment는 모델 출력을 인간의 가치와 의도에 맞추는 과정이다.”
X: “Alignment는 모델의 파라미터 수를 늘려 정확도를 높이는 과정이다.”
3. RLHF
ㅇ 정의:
Reinforcement Learning from Human Feedback, 인간 피드백을 활용한 강화학습으로 모델의 응답 품질을 개선하는 기법.
ㅇ 특징:
– 보상 모델(Reward Model) 학습 후 정책 최적화(PPO 등)
– 인간 평가자의 선호도 반영
– Instruction-tuning 이후 단계로 주로 적용
ㅇ 적합한 경우:
– 모델의 응답 품질과 사용자 만족도를 높이려는 경우
– 단순 정확도보다 대화 품질이 중요한 경우
ㅇ 시험 함정:
– RLHF는 지도학습이 아님
– 보상 모델 학습과 정책 업데이트를 혼동할 수 있음
ㅇ 시험 대비 “패턴 보기” 예시:
O: “RLHF는 인간 피드백을 바탕으로 보상 모델을 학습하고 강화학습을 적용한다.”
X: “RLHF는 지시문-응답 쌍 데이터로 지도학습을 수행한다.”
4. RAG
ㅇ 정의:
Retrieval-Augmented Generation, 외부 지식베이스에서 관련 문서를 검색하여 생성 모델의 입력에 포함시켜 더 정확하고 최신의 응답을 생성하는 기법.
ㅇ 특징:
– 검색(Retrieval) + 생성(Generation) 결합
– 최신 정보 반영 가능
– 파라미터에 저장되지 않은 지식 보완
ㅇ 적합한 경우:
– 최신 데이터나 특정 도메인 지식이 필요한 경우
– 모델 파라미터 업데이트 없이 지식 확장 필요 시
ㅇ 시험 함정:
– RAG는 모델 파라미터 자체를 변경하지 않음
– 단순 검색 시스템과 동일시하면 오답
ㅇ 시험 대비 “패턴 보기” 예시:
O: “RAG는 검색된 문서를 생성 모델 입력에 포함시켜 응답 품질을 높인다.”
X: “RAG는 모델 파라미터를 재학습하여 최신 정보를 반영한다.”
ㅁ 추가 학습 내용
학습 정리
1. Instruction-tuning과 Prompt Engineering
– Instruction-tuning: 대규모 언어모델을 특정 지시문(instruction)에 잘 반응하도록 데이터셋 기반으로 파인튜닝하는 과정. 모델 파라미터를 실제로 업데이트함.
– Prompt Engineering: 모델 파라미터 변경 없이 입력 프롬프트 설계로 원하는 응답을 유도하는 기법.
– 상호 보완 관계: Instruction-tuning은 전반적인 응답 경향을 개선하고, Prompt Engineering은 상황별 세부 제어를 가능하게 함.
2. Alignment 과정의 안전성 검증 벤치마크
– TruthfulQA: 모델이 사실에 맞는 답변을 하는지 평가.
– RealToxicityPrompts: 모델이 유해하거나 공격적인 출력을 생성하는지 평가.
– 목적: 모델의 출력이 안전하고 신뢰 가능한지 검증.
3. RLHF에서의 강화학습 알고리즘과 보상 모델 설계
– PPO(Proximal Policy Optimization): 정책 업데이트 시 변화 폭을 제한해 안정성 확보.
– DPO(Direct Preference Optimization): 선호 데이터로 직접 정책을 최적화.
– 보상 모델 설계 고려사항: 인간 피드백 품질, 편향 최소화, 다양한 상황 커버리지, 보상 신호의 일관성.
4. RAG 검색 단계의 밀집 검색과 희소 검색
– 밀집 검색(Dense Retrieval): 임베딩 기반 벡터 유사도 검색. 의미적 유사도에 강점.
– 희소 검색(Sparse Retrieval): 키워드 기반(BM25 등) 검색. 정확한 키워드 매칭에 강점.
– 차이점: 표현 방식(밀집 vs 희소), 검색 속도, 의미적/정확 매칭 성능.
5. 대규모 언어모델 파이프라인 통합 적용 사례
– Instruction-tuning → RLHF → Alignment → RAG 순서로 적용.
– 예: 기본 모델 학습 → 지시문 파인튜닝 → 인간 피드백 기반 강화학습 → 안전성 검증 및 조정 → 외부 지식 검색 결합.
6. RLHF 한계와 AI Feedback 기법
– 한계: 인간 피드백 비용 높음, 대규모 데이터 수집 어려움, 스케일 확장성 문제.
– AI Feedback: 다른 모델을 활용해 피드백 생성, 자동화된 평가 지표 적용, 비용 절감 및 확장성 개선.
7. RAG 적용 시 Latency와 검색 품질 트레이드오프
– Latency: 검색 속도 향상을 위해 인덱스 최적화, 캐싱 적용 가능.
– 검색 품질: 더 많은 후보 문서 검색, 정교한 재순위화로 품질 향상 가능.
– 트레이드오프: 속도를 높이면 품질 저하 가능, 품질을 높이면 응답 지연 가능.
시험 대비 체크리스트
[ ] Instruction-tuning과 Prompt Engineering의 정의와 차이 설명 가능
[ ] 두 기법의 상호 보완 관계 예시 제시 가능
[ ] TruthfulQA와 RealToxicityPrompts의 목적과 특징 설명 가능
[ ] PPO와 DPO의 개념과 차이 설명 가능
[ ] 보상 모델 설계 시 고려해야 할 요소 나열 가능
[ ] 밀집 검색과 희소 검색의 원리와 장단점 비교 가능
[ ] Instruction-tuning → RLHF → Alignment → RAG 순서의 적용 흐름 설명 가능
[ ] RLHF의 한계와 AI Feedback의 보완 방법 설명 가능
[ ] RAG에서 Latency와 검색 품질 간 트레이드오프 사례 설명 가능