PEFT/Fine-tuning 초기화/설정: 적용 layer 선택
ㅁ PEFT/Fine-tuning 초기화/설정
ㅇ 정의:
PEFT(Fine-tuning) 초기화/설정은 사전 학습된 모델을 특정 작업에 맞게 미세 조정하는 과정에서 모델 가중치의 일부를 선택적으로 수정하는 방법을 포함한다. 특히 적용 layer 선택은 모델의 특정 층을 선택하여 조정하는 전략을 말한다.
ㅇ 특징:
– 모델의 특정 층만 수정하므로 계산량이 줄어들고 학습 시간이 단축된다.
– 적용 층 선택에 따라 성능이 크게 달라질 수 있다.
– 사전 학습된 가중치를 최대한 활용할 수 있다.
ㅇ 적합한 경우:
– 대규모 모델을 처리하는 데 리소스가 제한적인 경우.
– 특정 작업에서 특정 층이 더 중요한 역할을 하는 경우.
– 빠른 프로토타이핑이 필요한 경우.
ㅇ 시험 함정:
– 모든 층을 수정하는 것이 항상 최적이라고 오해할 수 있음.
– 특정 층을 선택할 때 작업의 특성을 고려하지 않으면 성능이 저하될 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: 적용 layer 선택은 모델의 특정 층만 수정하여 효율성을 높인다.
X: 적용 layer 선택은 모델의 모든 층을 수정하는 방법이다.
================================
ㅁ 추가 학습 내용
적용 layer 선택과 관련하여 추가로 알아야 할 두 가지 주요 개념은 ‘Layer Freezing’과 ‘Gradient Accumulation’입니다.
1. Layer Freezing: Layer Freezing은 특정 신경망 층의 가중치를 학습 중에 고정하여 업데이트되지 않도록 설정하는 방법입니다. 이를 통해 모델의 일부 층은 기존의 학습된 상태를 유지하고, 나머지 층만 학습을 진행할 수 있습니다. 이는 Fine-tuning 과정에서 특히 유용하며, 사전 학습된 모델의 특정 특성을 보존하거나 새로운 데이터에 과적합(overfitting)을 방지하는 데 도움을 줍니다.
2. Gradient Accumulation: Gradient Accumulation은 메모리 사용량을 줄이기 위해 작은 배치 크기로 학습을 진행하면서 여러 번의 배치에 대한 그래디언트를 누적(accumulate)하여 업데이트를 수행하는 기법입니다. 이는 제한된 GPU 메모리에서도 큰 배치 크기의 효과를 얻을 수 있도록 도와줍니다. 즉, 여러 작은 배치의 그래디언트를 합산한 후에 한 번의 역전파(backpropagation)를 수행함으로써 학습을 효율적으로 진행할 수 있습니다.
이 두 가지 개념을 이해하면 PEFT(파라미터 효율적 미세 조정)나 Fine-tuning 초기화 및 설정 과정에서 더 나은 결정을 내릴 수 있으며, 모델 학습 과정에 대한 전반적인 이해도를 높일 수 있습니다.