AI: 멀티태스크 학습 – Task Balancing Techniques

ㅁ 멀티태스크 학습

ㅇ 정의:
– 하나의 모델이 여러 개의 관련된 작업(Task)을 동시에 학습하여 성능과 일반화 능력을 향상시키는 기법.

ㅇ 특징:
– 공유된 표현(Shared Representation)을 통해 데이터 효율성을 높임.
– 특정 작업의 데이터 부족 문제를 다른 작업의 데이터로 보완 가능.
– 작업 간 상호 간섭(Interference) 문제 발생 가능.

ㅇ 적합한 경우:
– 서로 관련성이 있는 작업들을 동시에 학습할 때.
– 공통된 입력 구조를 가진 다양한 출력이 필요한 경우.

ㅇ 시험 함정:
– 단순히 여러 작업을 학습한다고 항상 성능이 좋아지는 것은 아님.
– 작업 간 관계가 약하거나 상충하면 오히려 성능 저하 발생.

ㅇ 시험 대비 “패턴 보기” 예시:
O: 여러 관련 작업을 동시에 학습하여 데이터 효율성을 높인다.
X: 모든 작업이 관련성이 없어도 멀티태스크 학습이 항상 성능을 향상시킨다.

================================

1. Task Balancing Techniques

ㅇ 정의:
– 멀티태스크 학습에서 각 작업의 손실 기여도를 조정하여 학습 균형을 맞추는 방법.

ㅇ 특징:
– 특정 작업이 다른 작업보다 손실 값이 커서 학습을 지배하는 현상을 방지.
– 가중치 조정, 동적 스케일링, 불확실성 기반 조정 등의 방법 존재.

ㅇ 적합한 경우:
– 작업별 데이터 크기나 난이도가 크게 다른 경우.
– 특정 작업의 성능 저하 없이 전체 성능을 향상시키고자 할 때.

ㅇ 시험 함정:
– 가중치를 무작위로 조정하면 오히려 학습 불안정.
– 모든 작업에 동일 가중치 부여가 항상 최적은 아님.

ㅇ 시험 대비 “패턴 보기” 예시:
O: 작업별 손실 기여도를 조정하여 특정 작업이 학습을 지배하는 것을 방지한다.
X: 모든 작업에 동일한 가중치를 주는 것이 항상 최적의 방법이다.

ㅁ 추가 학습 내용

Task Balancing Techniques에서는 손실 가중치 조정뿐 아니라 GradNorm, Dynamic Weight Averaging(DWA), Uncertainty Weighting 등의 알고리즘의 원리와 수식 형태를 숙지해야 한다.
GradNorm은 각 작업의 그래디언트 크기를 균형 있게 맞추는 방식이며, DWA는 시간에 따른 작업별 손실 변화율을 기반으로 가중치를 동적으로 조정한다.
Uncertainty Weighting은 각 작업의 예측 불확실성을 추정하여 불확실성이 큰 작업에 적절한 가중치를 부여하는 방법이다.

시험에서는 각 기법의 수식이나 조정 기준을 묻는 경우가 많으므로, 알고리즘의 목적과 계산 절차를 정확히 이해해야 한다.
또한 작업 간 음의 전이(Negative Transfer)의 개념과 이를 완화하는 전략, 작업 간 상관관계 분석 방법을 숙지해야 한다.
멀티태스크 학습의 평가 지표로는 평균 성능, 최악 작업 성능 등이 있으며, 각각의 의미와 활용 상황을 이해하는 것이 중요하다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*