트랜드: 최신 연구 주제 – Large Scale Pretraining
ㅁ 최신 연구 주제
1. Large Scale Pretraining
ㅇ 정의:
대규모 데이터셋과 연산 자원을 활용하여 사전 학습(pretraining)을 수행하는 기계학습 방법으로, 주로 언어모델(LLM)이나 비전 모델에서 사용됨.
ㅇ 특징:
– 수십억~수조 개의 파라미터를 가진 모델을 대규모 코퍼스에서 사전 학습.
– 전이학습(transfer learning) 기반으로 다양한 다운스트림 작업에 적용 가능.
– 학습에 막대한 GPU/TPU 자원과 시간 필요.
– 데이터 품질과 다양성이 모델 성능에 큰 영향.
ㅇ 적합한 경우:
– 다수의 다양한 태스크에 공통적으로 활용할 범용 모델을 구축할 때.
– 데이터가 풍부하고 고성능 하드웨어 인프라가 확보된 환경.
– 제로샷(zero-shot), 퓨샷(few-shot) 학습 성능이 중요한 경우.
ㅇ 시험 함정:
– 단순히 데이터 양을 늘리면 항상 성능이 향상된다고 착각하기 쉬움.
– 파라미터 수와 성능이 비례한다고 일반화하면 오답.
– 사전학습만으로 특정 도메인 특화 성능이 보장되지 않음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “대규모 사전학습은 다양한 다운스트림 태스크로 전이학습이 가능하다.”
O: “수조 개 파라미터를 가진 모델 학습에 수백~수천 GPU가 필요하다.”
X: “대규모 사전학습은 소량의 데이터로도 동일한 성능을 낼 수 있다.”
X: “사전학습 모델은 별도의 파인튜닝 없이 모든 도메인에서 완벽한 성능을 낸다.”
ㅁ 추가 학습 내용
Large Scale Pretraining 관련 핵심 개념 정리
1. Scaling Law
데이터 크기, 모델 크기, 학습 시간 사이의 관계를 수학적으로 설명하는 법칙으로, 성능 향상을 위해 어떤 요소를 늘려야 하는지 판단하는 기준이 된다.
2. Pretraining과 Fine-tuning
Pretraining은 대규모 데이터로 일반적인 언어 패턴을 학습하는 단계이며, Fine-tuning은 특정 작업에 맞게 모델을 추가로 학습시키는 단계이다.
Pretraining 장점: 다양한 작업에 전이 가능, 일반화 성능 우수. 단점: 높은 비용과 시간 소요.
Fine-tuning 장점: 특정 작업 성능 최적화, 비교적 적은 데이터와 자원으로 가능. 단점: 범용성 감소 가능.
3. Self-supervised Learning 기법 예시
BERT의 Masked Language Modeling: 문장에서 일부 단어를 마스킹하고 이를 예측하도록 학습.
GPT의 Autoregressive Language Modeling: 이전 단어들을 기반으로 다음 단어를 예측하도록 학습.
4. 데이터 필터링과 품질 관리
웹 크롤링 데이터에는 노이즈와 오류가 많기 때문에, 불필요하거나 품질이 낮은 데이터를 제거하고 정제하는 과정이 필수적이다.
5. 에너지 소비와 환경 영향, 효율적 학습 기법
대규모 모델 학습은 많은 에너지를 소비하고 환경에 영향을 미친다. 이를 줄이기 위해 LoRA, Parameter-efficient tuning과 같은 효율적 학습 기법이 사용된다.
6. 대규모 사전학습 모델의 편향과 윤리적 고려
학습 데이터의 편향이 모델에 반영될 수 있으며, 이는 차별적 결과나 부정적 사회적 영향을 초래할 수 있다. 따라서 데이터 선정, 모델 설계, 활용 단계에서 윤리적 고려가 필요하다.