AI: PEFT/Fine-tuning 초기화/설정 – 적용 layer 선택

By - meet
Posted on 2025년 09월 01일
Posted in AI 이론

AI: PEFT/Fine-tuning 초기화/설정 – 적용 layer 선택

ㅁ PEFT/Fine-tuning 초기화/설정

ㅇ 정의:
사전 학습된 모델의 일부 계층(layer)만 선택적으로 학습하거나 고정(freeze)하여 파라미터 효율적 미세 조정을 수행하는 과정에서, 어떤 layer에 적용할지를 결정하는 단계.

ㅇ 특징:
– 전체 모델이 아닌 특정 layer에만 학습을 적용하여 연산량과 메모리 사용량 절감
– 하위 layer는 일반적인 언어/패턴 이해를 담당, 상위 layer는 태스크 특화 패턴을 담당하는 경향
– Transformer 구조에서는 Encoder/Decoder 블록 단위, Attention/Feed-forward 모듈 단위로 선택 가능

ㅇ 적합한 경우:
– 데이터셋이 작아 과적합 위험이 높은 경우
– 특정 도메인 특화 어휘나 문체를 반영해야 하지만, 기존 언어 이해 능력은 유지하고 싶은 경우
– 하드웨어 리소스가 제한적인 경우

ㅇ 시험 함정:
– 모든 layer를 학습시키는 것이 항상 성능이 좋은 것은 아님(O)
– 하위 layer를 조정하면 주로 태스크 특화 성능이 향상된다(X) → 상위 layer 조정이 태스크 특화에 더 영향
– 적용 layer 선택은 파라미터 수와 메모리 사용량에 영향을 주지 않는다(X)

ㅇ 시험 대비 “패턴 보기” 예시:
– “적용 layer 선택은 파라미터 효율적 학습에 영향을 준다” → O
– “하위 layer는 주로 일반적 언어 패턴을 처리한다” → O
– “상위 layer 조정은 태스크 특화에 큰 영향을 주지 않는다” → X

ㅁ 추가 학습 내용

적용 layer 선택은 Gradient Flow와 학습 안정성에 직접적인 영향을 준다. 하위 layer를 너무 많이 고정하면 새로운 패턴을 학습할 수 있는 가용 파라미터가 줄어들어 모델 성능이 제한될 수 있다.
PEFT(LoRA, Prefix Tuning, Adapter 등) 기법에서는 적용 layer를 Attention 모듈에만 적용할지, FFN에도 적용할지에 따라 성능 차이가 발생한다.
시험에서는 ‘적용 layer 선택’과 ‘학습률 스케줄링’을 혼동하게 하는 함정 문제가 자주 출제되므로, layer별 학습률 차등 적용 여부와의 차이를 명확히 구분할 수 있어야 한다.

Meet AI

최신 글

최신 댓글

보관함

카테고리

AI: PEFT/Fine-tuning 초기화/설정 – 적용 layer 선택

Previous Article

Next Article

답글 남기기 응답 취소