AI: 멀티태스크 학습 – Task Balancing Techniques
ㅁ 멀티태스크 학습
ㅇ 정의:
– 하나의 모델이 여러 개의 관련된 작업(Task)을 동시에 학습하여 성능과 일반화 능력을 향상시키는 기법.
ㅇ 특징:
– 공유된 표현(Shared Representation)을 통해 데이터 효율성을 높임.
– 특정 작업의 데이터 부족 문제를 다른 작업의 데이터로 보완 가능.
– 작업 간 상호 간섭(Interference) 문제 발생 가능.
ㅇ 적합한 경우:
– 서로 관련성이 있는 작업들을 동시에 학습할 때.
– 공통된 입력 구조를 가진 다양한 출력이 필요한 경우.
ㅇ 시험 함정:
– 단순히 여러 작업을 학습한다고 항상 성능이 좋아지는 것은 아님.
– 작업 간 관계가 약하거나 상충하면 오히려 성능 저하 발생.
ㅇ 시험 대비 “패턴 보기” 예시:
O: 여러 관련 작업을 동시에 학습하여 데이터 효율성을 높인다.
X: 모든 작업이 관련성이 없어도 멀티태스크 학습이 항상 성능을 향상시킨다.
================================
1. Task Balancing Techniques
ㅇ 정의:
– 멀티태스크 학습에서 각 작업의 손실 기여도를 조정하여 학습 균형을 맞추는 방법.
ㅇ 특징:
– 특정 작업이 다른 작업보다 손실 값이 커서 학습을 지배하는 현상을 방지.
– 가중치 조정, 동적 스케일링, 불확실성 기반 조정 등의 방법 존재.
ㅇ 적합한 경우:
– 작업별 데이터 크기나 난이도가 크게 다른 경우.
– 특정 작업의 성능 저하 없이 전체 성능을 향상시키고자 할 때.
ㅇ 시험 함정:
– 가중치를 무작위로 조정하면 오히려 학습 불안정.
– 모든 작업에 동일 가중치 부여가 항상 최적은 아님.
ㅇ 시험 대비 “패턴 보기” 예시:
O: 작업별 손실 기여도를 조정하여 특정 작업이 학습을 지배하는 것을 방지한다.
X: 모든 작업에 동일한 가중치를 주는 것이 항상 최적의 방법이다.
ㅁ 추가 학습 내용
Task Balancing Techniques에서는 손실 가중치 조정뿐 아니라 GradNorm, Dynamic Weight Averaging(DWA), Uncertainty Weighting 등의 알고리즘의 원리와 수식 형태를 숙지해야 한다.
GradNorm은 각 작업의 그래디언트 크기를 균형 있게 맞추는 방식이며, DWA는 시간에 따른 작업별 손실 변화율을 기반으로 가중치를 동적으로 조정한다.
Uncertainty Weighting은 각 작업의 예측 불확실성을 추정하여 불확실성이 큰 작업에 적절한 가중치를 부여하는 방법이다.
시험에서는 각 기법의 수식이나 조정 기준을 묻는 경우가 많으므로, 알고리즘의 목적과 계산 절차를 정확히 이해해야 한다.
또한 작업 간 음의 전이(Negative Transfer)의 개념과 이를 완화하는 전략, 작업 간 상관관계 분석 방법을 숙지해야 한다.
멀티태스크 학습의 평가 지표로는 평균 성능, 최악 작업 성능 등이 있으며, 각각의 의미와 활용 상황을 이해하는 것이 중요하다.