AI: PEFT/Fine-tuning – BitFit
ㅁ PEFT/Fine-tuning
1. BitFit
ㅇ 정의:
사전 학습된 언어 모델에서 모든 가중치를 학습하지 않고, 각 층의 bias 파라미터만 미세 조정하는 경량 파인튜닝 기법.
ㅇ 특징:
– 전체 파라미터 대비 0.1~0.5% 정도만 업데이트하므로 메모리와 연산량이 매우 적음.
– bias 값만 조정해도 특정 다운스트림 태스크에서 성능 향상이 가능함.
– 기존 모델 구조를 변경하지 않음.
– 학습 속도가 빠르고, 과적합 위험이 낮음.
ㅇ 적합한 경우:
– 리소스가 제한된 환경에서 대규모 언어 모델을 특정 태스크에 맞게 조정해야 하는 경우.
– 파라미터 효율성과 빠른 튜닝이 중요한 경우.
– 사전 학습 모델의 대부분의 지식을 유지하면서 소폭 조정이 필요한 경우.
ㅇ 시험 함정:
– 모든 파라미터를 학습하는 Full Fine-tuning과 혼동하기 쉬움.
– Adapter, LoRA 등 다른 PEFT 기법과 차이점을 구분해야 함.
– bias만 조정한다고 해서 성능이 항상 유지되거나 향상되는 것은 아님.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “BitFit은 사전 학습 모델의 bias 파라미터만 업데이트하여 경량화된 파인튜닝을 수행한다.”
X: “BitFit은 모든 가중치를 동일하게 업데이트하는 파인튜닝 기법이다.”
ㅁ 추가 학습 내용
BitFit은 2021년경 제안된 Parameter-Efficient Fine-Tuning(PEFT)의 대표적인 방법 중 하나이다.
이 기법의 핵심은 bias 파라미터만 학습한다는 점이며, Adapter나 LoRA처럼 추가 모듈을 삽입하지 않는 것이 특징이다.
Bias 파라미터의 비율은 전체 파라미터 대비 약 0.1~0.5% 수준이며, 적은 파라미터만 업데이트해도 성능이 유지되는 이유는 사전 학습 모델의 표현력이 이미 충분히 높기 때문이다.
BitFit이 특히 효과적인 태스크로는 텍스트 분류, 감성 분석 등이 있으며, 복잡한 구조적 예측과 같은 태스크에서는 효과가 제한적이다.