AI 모델 개발: 핵심 개념
ㅁ 핵심 개념
1. GPT
ㅇ 정의:
– Generative Pre-trained Transformer의 약자로, 대규모 텍스트 데이터로 사전 학습(Pre-training) 후 특정 작업에 맞게 미세 조정(Fine-tuning)하는 언어 모델.
ㅇ 특징:
– Transformer 아키텍처 기반.
– 문맥 이해와 생성에 강점.
– 사전 학습과 후속 미세 조정 구조.
ㅇ 적합한 경우:
– 자연어 생성, 요약, 번역, 질의응답 등 다양한 NLP 업무.
ㅇ 시험 함정:
– GPT는 특정 제품명이 아니라 모델 계열명임.
– 사전 학습 데이터가 고정되어 실시간 정보 반영 어려움.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: GPT는 Transformer 기반의 사전학습 언어모델이다.
– X: GPT는 RNN 기반의 실시간 학습 모델이다.
1.1 GPT-3
ㅇ 정의:
– 1750억 매개변수를 가진 OpenAI의 GPT 시리즈 3세대 모델.
ㅇ 특징:
– Few-shot, Zero-shot 학습 가능.
– 대규모 파라미터로 높은 생성 품질.
ㅇ 적합한 경우:
– 프롬프트 기반 다양한 생성 작업.
ㅇ 시험 함정:
– GPT-3는 항상 정확한 정보를 제공하지 않음.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: GPT-3는 Zero-shot 학습을 지원한다.
– X: GPT-3는 파라미터 수가 수백만 개 수준이다.
================================
2. LLM
ㅇ 정의:
– Large Language Model의 약자로, 수십억~수천억 개 이상의 매개변수를 가진 대규모 언어 모델.
ㅇ 특징:
– 방대한 데이터 학습으로 범용 언어 이해/생성 가능.
– 연산 자원과 데이터 요구량이 매우 큼.
ㅇ 적합한 경우:
– 다양한 도메인의 언어 처리 작업.
ㅇ 시험 함정:
– LLM은 특정 모델명이 아니라 범주 개념.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: LLM은 대규모 파라미터를 가진 언어 모델을 지칭한다.
– X: LLM은 특정 회사의 독점 모델 이름이다.
================================
3. 파운데이션 모델
ㅇ 정의:
– 대규모 데이터로 범용 학습된 후 다양한 다운스트림 작업에 활용되는 기반 모델.
ㅇ 특징:
– 범용성, 전이 학습 용이.
– 다양한 데이터 모달리티에 적용 가능.
ㅇ 적합한 경우:
– 여러 응용 분야에 공통 기반 모델로 활용.
ㅇ 시험 함정:
– 파운데이션 모델은 항상 언어 모델만을 의미하지 않음.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: 파운데이션 모델은 다양한 작업에 재활용 가능하다.
– X: 파운데이션 모델은 특정 태스크 전용으로만 학습된다.
================================
4. Instruction-tuning
ㅇ 정의:
– 모델이 주어진 지시문(Instruction)에 따라 응답하도록 미세 조정하는 기법.
ㅇ 특징:
– 사용자 프롬프트 이해도 향상.
– Supervised Fine-tuning 및 Human Feedback과 결합 가능.
ㅇ 적합한 경우:
– 대화형 에이전트, 질의응답 시스템.
ㅇ 시험 함정:
– Instruction-tuning은 사전 학습을 대체하는 것이 아님.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: Instruction-tuning은 모델이 지시문을 잘 따르도록 조정한다.
– X: Instruction-tuning은 모델의 파라미터 수를 줄이는 과정이다.
================================
5. Hallucination
ㅇ 정의:
– 언어 모델이 사실과 다른 내용을 그럴듯하게 생성하는 현상.
ㅇ 특징:
– 데이터 부족, 학습 한계, 확률적 생성 특성에서 기인.
– 신뢰성 저하 요인.
ㅇ 적합한 경우:
– 의도적으로 창의적 생성이 필요한 경우(소설, 대사 등).
ㅇ 시험 함정:
– Hallucination은 항상 부정적인 결과만 있는 것은 아님.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: Hallucination은 모델이 실제와 다른 출력을 생성하는 것이다.
– X: Hallucination은 모델이 메모리 부족으로 멈추는 현상이다.
ㅁ 추가 학습 내용
학습 정리
1. GPT와 LLM의 차이점
– GPT: Transformer 기반의 특정 아키텍처 계열 모델, 주로 언어 생성에 특화.
– LLM(Large Language Model): 대규모 파라미터를 가진 언어 모델 전반을 지칭하는 범주적 개념. GPT는 LLM의 한 예시.
2. 파운데이션 모델의 주요 사례
– BERT: 양방향 Transformer 기반, 주로 이해(분류, 질의응답)에 강점.
– CLIP: 이미지와 텍스트를 함께 학습하는 멀티모달 모델.
– GPT 시리즈: 대규모 언어 생성 모델, 다양한 자연어 처리 작업에 활용.
3. Instruction-tuning과 RLHF의 관계
– Instruction-tuning: 모델이 자연어 지시문을 이해하고 따르도록 지도 학습하는 과정.
– RLHF: 사람의 피드백을 보상 신호로 활용하여 모델 출력을 개선하는 강화학습 기반 기법.
– 관계: Instruction-tuning으로 기본 지시 수행 능력을 학습시키고, RLHF로 그 결과를 인간 선호에 맞게 세밀 조정.
4. Hallucination 방지 기법
– Retrieval-Augmented Generation(RAG): 외부 지식 검색 결과를 모델 입력에 포함시켜 정확한 정보 제공.
– 사실 검증 모듈: 생성된 응답의 사실 여부를 후처리로 검증.
5. LLM 학습 시 데이터 전처리와 필터링의 중요성
– 품질 낮은 데이터 제거, 중복 제거, 불필요한 정보 필터링을 통해 모델의 품질과 신뢰성 향상.
6. 파운데이션 모델의 멀티모달 확장 사례
– Vision-Language 모델: 이미지와 텍스트를 동시에 처리(예: CLIP, Flamingo).
– 입력·출력 모달리티 다양화로 활용 범위 확대.
시험 대비 체크리스트
– GPT와 LLM의 정의와 차이를 명확히 설명할 수 있는가?
– BERT, CLIP, GPT의 특징과 용도를 구분할 수 있는가?
– Instruction-tuning과 RLHF의 개념과 절차를 설명할 수 있는가?
– RAG와 사실 검증 모듈의 목적과 작동 방식을 이해하고 있는가?
– 데이터 전처리 및 필터링이 모델 성능에 미치는 영향을 설명할 수 있는가?
– 멀티모달 파운데이션 모델의 개념과 사례를 제시할 수 있는가?