AI: 멀티태스크 학습 – Gradient Surgery

ㅁ 멀티태스크 학습

ㅇ 정의:
여러 개의 관련된 작업(Task)을 하나의 모델이 동시에 학습하도록 하여, 각 작업 간의 정보 공유를 통해 성능을 향상시키는 학습 방법.

ㅇ 특징:
– 파라미터 공유를 통해 데이터 효율성을 높임
– 작업 간의 상관관계 활용
– 특정 작업의 데이터가 부족해도 다른 작업의 데이터로 보완 가능

ㅇ 적합한 경우:
– 유사한 입력 구조를 가지는 여러 예측 문제를 동시에 해결할 때
– 데이터가 제한적이거나 레이블링 비용이 높은 경우

ㅇ 시험 함정:
– 모든 작업이 항상 성능 향상을 보장하는 것은 아님
– 상관관계가 낮은 작업을 함께 학습하면 오히려 성능 저하 가능

ㅇ 시험 대비 “패턴 보기” 예시:
O: “멀티태스크 학습은 관련성이 높은 여러 작업을 동시에 학습하여 데이터 효율성을 높인다.”
X: “멀티태스크 학습은 모든 작업의 성능을 무조건 향상시킨다.”

================================

1. Gradient Surgery

ㅇ 정의:
멀티태스크 학습에서 서로 다른 작업의 그래디언트가 충돌(conflict)할 때, 그래디언트를 조정하여 상호 간섭을 줄이고 학습 효율을 높이는 기법.

ㅇ 특징:
– 그래디언트 벡터 간의 내적을 계산하여 부정적인 영향을 주는 방향을 제거 또는 수정
– 대표적으로 PCGrad(Projected Conflicting Gradient) 방식이 사용됨
– 각 작업의 손실을 개별적으로 계산 후, 그래디언트를 조정하여 병합

ㅇ 적합한 경우:
– 멀티태스크 학습에서 특정 작업이 다른 작업의 학습을 방해하는 경우
– 작업 간 목표가 상충되는 경우

ㅇ 시험 함정:
– Gradient Surgery가 항상 성능을 개선하는 것은 아님
– 그래디언트 조정 과정에서 일부 작업의 학습 속도가 느려질 수 있음

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Gradient Surgery는 멀티태스크 학습에서 그래디언트 충돌을 완화하기 위해 사용된다.”
X: “Gradient Surgery는 모든 멀티태스크 학습에서 필요하다.”

ㅁ 추가 학습 내용

Gradient Surgery 관련 추가 학습 정리

1. 다양한 그래디언트 조정 기법
– PCGrad 외에도 GradNorm, MGDA(Multi-Gradient Descent Algorithm) 등이 존재
– 각 기법의 수학적 원리와 적용 상황을 비교할 수 있어야 함
– 예: GradNorm은 작업별 손실 스케일을 조정, MGDA는 다중 작업 그래디언트의 공통 하강 방향을 탐색

2. 그래디언트 충돌 발생 원인
– 주로 작업 간 손실 함수의 최적화 방향이 다를 때 발생
– 손실 함수 설계 단계에서 충돌 가능성을 고려한 전략 필요
– 예: 손실 가중치 조정, 공유 파라미터 구조 변경 등

3. 구현 시 효율성 고려
– 배치 단위로 그래디언트를 계산하고 조정하는 과정에서 연산 비용 증가
– 성능 향상과 연산 비용 간의 트레이드오프 이해 필요

4. 적용 영역 확장성
– 주로 딥러닝 기반 멀티태스크 모델에 적용
– 강화학습, 메타러닝 환경에서도 변형 적용 사례 존재
– 다양한 학습 패러다임에서의 활용 가능성 인지

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*