AI 모델 개발: 핵심 개념 – LLM
ㅁ 핵심 개념
1. LLM
ㅇ 정의:
대규모 언어모델(Large Language Model, LLM)은 대량의 텍스트 데이터를 학습하여 인간과 유사한 자연어 이해 및 생성 능력을 갖춘 인공지능 모델로, 주로 Transformer 아키텍처를 기반으로 한다.
ㅇ 특징:
– 수십억~수천억 개의 파라미터를 보유하여 복잡한 언어 패턴을 학습 가능
– 사전학습(Pre-training)과 미세조정(Fine-tuning) 과정을 거쳐 다양한 도메인에 적용 가능
– 질의응답, 번역, 요약, 코드 생성 등 범용적인 자연어 처리 작업 수행
– 대규모 연산 자원과 데이터셋이 필요하며, 학습 및 추론 비용이 높음
ㅇ 적합한 경우:
– 다중 도메인에서의 범용 자연어 처리 작업
– 대화형 AI, 챗봇, 문서 요약, 질의응답 시스템 개발
– 대규모 비정형 텍스트 데이터 활용이 가능한 환경
ㅇ 시험 함정:
– LLM이 반드시 항상 최신 지식을 반영하는 것은 아님 → 학습 데이터 시점에 따라 지식 한계 존재
– LLM과 일반적인 언어모델(N-gram 기반 등)의 차이를 구분하지 못하게 하는 문제 출제 가능
– 파라미터 수가 많다고 반드시 성능이 좋은 것은 아님 → 데이터 품질과 학습 전략도 중요
ㅇ 시험 대비 “패턴 보기” 예시:
O: “LLM은 Transformer 구조를 기반으로 하며, 다양한 NLP 작업에 활용 가능하다.”
X: “LLM은 항상 최신 정보를 반영하므로, 지식 업데이트가 필요 없다.”
ㅁ 추가 학습 내용
LLM 학습 과정에서 사전학습은 대규모 데이터셋을 사용해 언어 모델이 일반적인 언어 패턴과 지식을 학습하는 단계이며, 다양한 분야의 텍스트를 기반으로 광범위한 언어 이해 능력을 확보한다.
미세조정은 사전학습된 모델을 특정 작업이나 도메인에 맞게 추가 학습시키는 과정으로, 상대적으로 적은 양의 데이터로 모델을 세부 조정한다.
파인튜닝 과정에서 지식 편향 문제는 특정 데이터나 관점이 과도하게 반영되어 모델 출력이 왜곡되는 현상을 의미하며, 이를 방지하기 위해 데이터 다양성 확보와 편향 완화 기법이 필요하다.
프롬프트 엔지니어링은 모델이 원하는 출력을 생성하도록 입력 문장을 설계하는 기술로, 질문 방식, 맥락 제공, 예시 제시 등을 활용해 성능을 향상시킨다.
제로샷 학습은 예시 없이 작업을 수행하는 방식이며, 원샷 학습은 단 하나의 예시를 제공하는 방식, 퓨샷 학습은 소수의 예시를 제공해 모델이 작업 방식을 학습하도록 하는 방식이다.
LLM의 한계로는 환각 현상(사실이 아닌 내용을 그럴듯하게 생성)과 추론 오류가 있으며, 이를 완화하기 위해 RAG(Retrieval-Augmented Generation) 기법을 사용해 외부 지식을 검색·연동하거나, 지식 그래프를 활용해 구조화된 사실 기반 정보를 참조하는 방법이 있다.