ㅁ PEFT/Fine-tuning ㅇ 정의: 사전 학습된 대규모 언어 모델(LLM)이나 딥러닝 모델을 전체 파라미터가 아닌 일부만 조정하여 새로운 태스크에 맞게 적응시키는 기법. ㅇ 특징: 전체 파라미터 업데이트 대비 메모리와 연산량이 절감되며, 원본 모델의 성능을 유지하면서 빠른 학습이 가능함. ㅇ 적합한 경우: 리소스 제약 환경, 다수의 태스크에 대해 빠르게 모델을 맞춰야 하는 상황, 데이터가 제한적인 경우. ㅇ
ㅁ 사전학습/언어모델 기법/토큰/Task 1. Dynamic masking ㅇ 정의: – 사전학습 시 마스킹 위치를 고정하지 않고 학습 배치마다 무작위로 변경하는 기법. ㅇ 특징: – 동일한 문장이라도 학습 시마다 다른 토큰이 마스킹됨. – 데이터 다양성을 높여 모델의 일반화 성능 향상. ㅇ 적합한 경우: – 대규모 코퍼스에서 다양한 문맥 패턴 학습이 필요한 경우. ㅇ 시험 함정: – Static
ㅁ Contrastive/Self-supervised 학습 ㅇ 정의: – 레이블이 없는 데이터에서 데이터의 표현을 학습하는 방법으로, 데이터의 변환/증강을 통해 서로 다른 뷰를 생성하고, 유사한 것은 가깝게, 다른 것은 멀게 학습하는 방식. ㅇ 특징: – 대규모 비라벨 데이터 활용 가능 – 데이터 증강 기법이 성능에 큰 영향 – 사전학습(pretraining)과 전이학습(finetuning)을 분리 ㅇ 적합한 경우: – 라벨 데이터가 부족한 경우
ㅁ 적합성/장점 1. 실시간 생성 ㅇ 정의: – 입력 데이터나 조건이 주어졌을 때 지연 없이 즉시 결과를 생성하는 모델 특성. ㅇ 특징: – 낮은 추론 지연 시간(latency) – 경량화된 모델 구조나 효율적인 연산 최적화 필요 – 실시간 스트리밍, 대화형 인터페이스에 적합 ㅇ 적합한 경우: – 실시간 번역, 게임 NPC 대화, 라이브 영상 합성 등 ㅇ
ㅁ 핵심 원리 1. Reparameterization Trick ㅇ 정의: – 확률 분포에서 샘플링하는 과정을 미분 가능하게 만들기 위해 확률 변수 z를 평균과 표준편차, 그리고 표준 정규분포에서 뽑은 ε로 재표현하는 기법. ㅇ 특징: – z = μ + σ * ε 형태로 표현하여 역전파가 가능. – VAE 학습에서 잠재 변수 샘플링의 불연속성을 해결. ㅇ 적합한 경우: –
ㅁ 주요 문제 ㅇ 정의: GAN 학습 과정에서 자주 발생하는 대표적인 문제와 구성 요소를 의미하며, 생성 품질 저하나 학습 불안정성의 원인이 됨. ㅇ 특징: – 생성자와 판별자의 경쟁적 학습 구조에서 발생 – 데이터 다양성 감소, 학습 불안정, 과적합 등으로 이어질 수 있음 ㅇ 적합한 경우: – GAN 구조 및 동작 원리를 이해하고 문제 해결 방안을
ㅁ 핵심 개념 1. Forward Process ㅇ 정의: 데이터에 점진적으로 가우시안 노이즈를 추가하여 원본 데이터 분포를 점차 파괴하는 과정. ㅇ 특징: – 시간 스텝에 따라 노이즈 비율이 증가. – 최종적으로 데이터가 순수 노이즈에 가까워짐. – 마코프 체인 성질을 가짐. ㅇ 적합한 경우: – 확산 모델의 학습에서 데이터 분포를 잠재 공간으로 매핑할 때. ㅇ 시험 함정:
ㅁ 그래프 증강 기법 ㅇ 정의: 그래프 데이터의 구조나 속성을 변형하여 모델 학습 시 일반화 성능을 높이고 과적합을 방지하는 데이터 증강 기법. ㅇ 특징: – 노드, 엣지, 속성 등을 무작위로 제거, 변경, 마스킹, 재연결하여 다양한 학습 샘플 생성 – 원본 그래프의 전반적인 구조적 특성은 유지하면서 국소적 변화를 유도 – GNN(Graph Neural Network) 학습에서 데이터 다양성
ㅁ 의미론적 분할/증강 1. Random Erasing ㅇ 정의: – 학습 이미지의 임의 위치에 직사각형 영역을 선택하여 픽셀 값을 무작위로 지우거나 대체하는 데이터 증강 기법. ㅇ 특징: – 모델이 특정 위치나 패턴에 과적합되는 것을 방지. – 노이즈와 가려짐에 강인한 모델 학습 가능. ㅇ 적합한 경우: – 의료 영상에서 병변 일부가 가려지거나 누락될 수 있는 상황을 대비.
ㅁ 손실 마스킹 ㅇ 정의: 모델 학습 시 특정 토큰이나 위치의 손실(loss)을 계산에서 제외하여, 불필요하거나 의미 없는 부분이 학습에 영향을 주지 않도록 하는 기법. ㅇ 특징: – 패딩 토큰, 특수 토큰 등에 대해 손실을 무시함. – 마스킹된 위치는 역전파에 영향을 주지 않음. – 주로 시퀀스 길이가 다른 배치 데이터 처리 시 사용. ㅇ 적합한 경우: