AI 트렌드: 대규모 언어모델 – GPT
ㅁ 대규모 언어모델
ㅇ 정의:
대규모 언어모델(LLM, Large Language Model)은 대량의 텍스트 데이터를 학습하여 자연어 이해와 생성을 수행하는 인공지능 모델로, 수십억~수천억 개의 파라미터를 가진 딥러닝 기반 언어모델을 의미함.
ㅇ 특징:
– 방대한 데이터셋으로 사전학습(Pre-training) 후 특정 작업에 맞게 미세조정(Fine-tuning) 가능
– 문맥 이해와 생성 능력이 뛰어나 다양한 자연어 처리(NLP) 과제에 적용 가능
– 연산량과 메모리 요구량이 매우 높아 고성능 GPU/TPU 필요
– 프롬프트 설계(Prompt Engineering)에 따라 성능이 크게 달라짐
ㅇ 적합한 경우:
– 챗봇, 문서 요약, 번역, 질의응답, 코드 생성 등 범용 언어 작업
– 다국어 지원이 필요한 서비스
– 비정형 텍스트 데이터 분석
ㅇ 시험 함정:
– LLM이 반드시 최신 지식을 포함하는 것은 아님 (학습 시점 이후 정보 반영 불가)
– LLM = 생성형 AI 라고 단정하면 오답 (LLM은 생성형 AI의 한 유형)
– 단순히 파라미터 수가 많다고 항상 성능이 좋은 것은 아님
ㅇ 시험 대비 “패턴 보기” 예시:
O: “대규모 언어모델은 대량의 텍스트 데이터를 기반으로 사전학습을 거친 후 다양한 NLP 작업에 활용된다.”
X: “대규모 언어모델은 항상 최신 정보를 제공한다.”
================================
1. GPT
ㅇ 정의:
GPT(Generative Pre-trained Transformer)는 OpenAI에서 개발한 대규모 언어모델 시리즈로, Transformer 아키텍처 기반의 사전학습-미세조정 방식을 통해 자연어 생성 및 이해를 수행함.
ㅇ 특징:
– 사전학습(Pre-training) 후 특정 작업에 맞게 미세조정(Fine-tuning) 가능
– 주어진 프롬프트에 따라 문맥적으로 자연스러운 텍스트 생성
– GPT-3, GPT-4 등 버전별로 파라미터 수와 성능이 크게 향상
– API 형태로 제공되어 다양한 애플리케이션에 통합 가능
ㅇ 적합한 경우:
– 대화형 AI 서비스 개발
– 콘텐츠 생성(문서, 기사, 마케팅 문구 등)
– 코드 생성 및 디버깅 지원
– 비정형 데이터 분석 자동화
ㅇ 시험 함정:
– GPT는 특정 기업(OpenAI)에서 개발한 모델 시리즈임을 간과
– GPT가 항상 사실만을 생성한다고 생각하는 오류
– GPT와 BERT 등 다른 Transformer 기반 모델의 학습 방식 차이를 혼동
ㅇ 시험 대비 “패턴 보기” 예시:
O: “GPT는 Transformer 아키텍처 기반의 사전학습 언어모델로, 프롬프트에 따라 자연스러운 텍스트를 생성한다.”
X: “GPT는 모든 분야에서 인간보다 높은 정확도로 판단을 내린다.”
ㅁ 추가 학습 내용
GPT 학습 방식과 관련 개념 정리
1. 학습 방식의 핵심 차이
– Autoregressive (GPT): 이전 단어들을 기반으로 다음 단어를 예측하는 언어 모델링 방식. 문장을 순차적으로 생성하며, 다음 단어 확률을 최대화하는 방향으로 학습.
– Autoencoding (BERT): 입력 문장에서 일부 단어를 마스킹하고, 마스킹된 단어를 예측하는 방식(Masked Language Modeling). 문맥 이해와 양방향 정보 활용에 강점.
2. GPT 버전별 특징
– GPT-2: 대규모 파라미터와 성능 향상, 모델 가중치와 코드가 공개됨.
– GPT-3: 더 큰 규모(수백억~수천억 파라미터), 공개 대신 API 형태로 제공, 다양한 작업에 범용 적용 가능.
– GPT-4: 멀티모달 기능 지원(텍스트와 이미지 입력 처리 가능), 더 높은 정확도와 추론 능력.
3. 프롬프트 엔지니어링 기법
– Zero-shot: 예시 없이 지시문만으로 작업 수행.
– Few-shot: 몇 개의 예시를 함께 제공하여 모델이 패턴을 학습하도록 유도.
– Chain-of-thought: 중간 추론 과정을 단계별로 명시하여 복잡한 문제 해결 성능 향상.
4. 한계점
– 환각 현상(Hallucination): 실제와 다른 정보나 근거 없는 내용을 생성하는 문제.
– 편향성(Bias): 학습 데이터에 내재된 사회적·문화적 편향이 출력에 반영될 수 있음.
– 데이터 최신성 문제: 학습 시점 이후의 정보는 반영되지 않아 최신 정보 제공에 한계가 있음.