AI 모델 개발: 세부 이슈
ㅁ 세부 이슈
1. Instruction-tuning
ㅇ 정의:
– 대규모 언어모델(LLM)에 특정 지시문 형식의 데이터셋을 학습시켜 사용자의 명령을 더 잘 따르도록 하는 미세조정 기법.
ㅇ 특징:
– 지도학습 기반, 대규모 지시문-응답 쌍 데이터 필요.
– Zero-shot, Few-shot 성능 향상.
– 모델이 다양한 형태의 질문에 일관된 포맷으로 답변.
ㅇ 적합한 경우:
– 범용 질의응답, 고객지원 챗봇, 작업 자동화.
ㅇ 시험 함정:
– Instruction-tuning은 RLHF와 동일하다고 혼동.
– 단순 파인튜닝과의 차이(목표 데이터 형식, 학습 목적) 구분 필요.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “사용자 지시문에 맞춘 응답 생성을 위해 지도학습 기반으로 파인튜닝하는 방법이다.”
– X: “강화학습을 사용하여 보상모델을 학습하는 과정이다.”
================================
2. RLHF
ㅇ 정의:
– Reinforcement Learning from Human Feedback. 사람의 피드백을 반영하여 보상모델을 학습하고 이를 통해 LLM을 강화학습으로 조정하는 기법.
ㅇ 특징:
– 보상모델(Reward Model) 학습 후 PPO(Proximal Policy Optimization) 등 강화학습 알고리즘 활용.
– 모델의 응답 품질과 안전성 개선.
ㅇ 적합한 경우:
– 윤리적 기준 준수, 유해 발언 억제, 사용자 만족도 향상.
ㅇ 시험 함정:
– RLHF를 지도학습 기반 Instruction-tuning과 혼동.
– 보상모델 없이도 RLHF가 가능하다고 오해.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “사람의 선호를 반영한 보상모델을 기반으로 LLM을 강화학습하는 방법이다.”
– X: “사람의 피드백을 데이터셋으로 직접 지도학습하는 방법이다.”
================================
3. Alignment
ㅇ 정의:
– AI 모델의 출력이 인간의 의도, 가치, 윤리 기준에 부합하도록 조정하는 과정.
ㅇ 특징:
– Instruction-tuning, RLHF, 안전 필터링 등 다양한 접근 포함.
– 기술적 조정뿐만 아니라 정책적/윤리적 고려 필요.
ㅇ 적합한 경우:
– 사회적으로 민감한 주제 대응, 법규 준수, 브랜드 이미지 보호.
ㅇ 시험 함정:
– Alignment를 단순히 정확도 향상으로 오해.
– 특정 기법 하나만으로 Alignment가 완성된다고 착각.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “AI의 행동과 출력이 인간 가치와 일치하도록 조정하는 개념이다.”
– X: “모델의 연산 속도를 높이는 최적화 기법이다.”
================================
4. Hallucination Detection
ㅇ 정의:
– LLM이 사실과 다른 내용(환각, Hallucination)을 생성하는 경우를 탐지하는 기술.
ㅇ 특징:
– 외부 지식베이스 검증, 응답 신뢰도 점수화, 사실성 평가 모델 활용.
– 사전 예방형(출력 전 검증)과 사후 감지형(출력 후 검증) 존재.
ㅇ 적합한 경우:
– 법률, 의료, 과학 분야 등 사실성 검증이 중요한 서비스.
ㅇ 시험 함정:
– Hallucination Detection을 완벽히 수행하면 환각이 0%가 된다고 오해.
– 단순 오타 교정과 혼동.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “모델이 생성한 응답의 사실 여부를 검증하는 절차이다.”
– X: “모델의 파라미터 수를 줄여 환각을 방지하는 방법이다.”
ㅁ 추가 학습 내용
Instruction-tuning과 RLHF의 차이 정리 표
구분 / Instruction-tuning / RLHF
목적 / 주어진 지시문에 맞춰 모델이 응답하도록 지도학습 / 사람의 선호나 가치에 맞춰 모델 출력을 최적화
학습 방식 / 대규모 지시문-응답 데이터로 지도학습 / 보상모델을 학습한 뒤 강화학습(PPO 등)으로 파인튜닝
데이터 / 인스트럭션-응답 쌍 / 사람의 응답 선호 비교 데이터
보상 신호 / 없음(손실함수는 지도학습 기반) / 보상모델이 산출한 점수
장점 / 구현과 데이터 준비가 비교적 간단 / 사람의 가치와 선호를 더 잘 반영 가능
단점 / 사람 선호 반영 한계 / 데이터 수집과 학습 과정 복잡, 계산 비용 높음
RLHF 보상모델 학습 절차
1. 데이터 수집: 모델이 생성한 여러 응답 후보를 준비하고 사람 평가자가 선호도를 표시
2. 선호 비교: 각 질문에 대해 두 개 이상의 응답을 비교하여 어떤 응답이 더 나은지 선택
3. 보상모델 학습: 선호 데이터를 기반으로 응답 품질을 점수화하는 보상모델을 학습
4. 강화학습 적용: 보상모델이 산출한 점수를 보상 신호로 사용하여 정책 최적화(PPO 등) 진행
Alignment 관련 최신 접근법
– Constitutional AI: 미리 정의한 헌법(원칙) 규칙에 따라 스스로 응답을 수정·개선하는 방식
– Red-teaming: 모델의 취약점과 위험 응답을 유도하는 공격적 테스트를 통해 안전성 개선
– Safety Layer: 모델 출력 전 필터링·검열 계층을 두어 유해하거나 위험한 응답을 차단
Hallucination Detection 관련 내용
– Retrieval-Augmented Generation(RAG)와의 관계: 외부 지식베이스에서 검색한 정보를 바탕으로 응답 생성 → 환각 가능성 감소
– Fact-checking 알고리즘 예시
• BERTScore: 생성된 응답과 참조 문서 간 의미적 유사도를 측정
• NLI 기반 검증: Natural Language Inference 모델을 활용해 응답이 사실과 일치(entailment)하는지 판별