AI 모델 개발: 전이학습 – Domain Adaptation
ㅁ 전이학습
ㅇ 정의:
기존에 학습된 모델의 지식을 새로운 데이터셋이나 유사한 문제에 적용하는 기법으로, 특히 데이터 수집이 어려운 경우에 효과적임.
ㅇ 특징:
– 학습 시간과 비용 절감
– 소량의 데이터로도 성능 향상 가능
– 기존 모델의 일반화된 특징을 활용
ㅇ 적합한 경우:
– 목표 도메인 데이터가 적거나 수집 비용이 높은 경우
– 원본 도메인과 목표 도메인의 데이터 특성이 유사한 경우
ㅇ 시험 함정:
– 원본 도메인과 목표 도메인의 차이가 너무 크면 성능이 저하됨
– 단순히 가중치를 복사하는 것이 아니라, 적절한 미세조정(fine-tuning)이 필요함
ㅇ 시험 대비 “패턴 보기” 예시:
O: 전이학습은 기존 모델의 지식을 새로운 문제 해결에 활용한다.
X: 전이학습은 반드시 동일한 도메인에서만 가능하다.
================================
1. Domain Adaptation
ㅇ 정의:
원본 도메인(Source domain)과 목표 도메인(Target domain)의 데이터 분포가 다를 때, 이를 보정하여 모델이 목표 도메인에서도 잘 작동하도록 하는 전이학습의 한 형태.
ㅇ 특징:
– 데이터 분포 차이를 줄이기 위해 특징 공간을 조정하거나 재표현
– 지도학습, 비지도학습, 반지도학습 형태로 구현 가능
– 대표 기법: Feature alignment, Adversarial adaptation
ㅇ 적합한 경우:
– 실제 서비스 환경과 학습 데이터 환경이 다른 경우
– 레이블이 부족한 목표 도메인에 적용할 때
ㅇ 시험 함정:
– Domain adaptation은 항상 레이블이 있는 데이터를 필요로 한다는 오해 (비지도도 가능)
– 단순한 데이터 증강과 혼동
ㅇ 시험 대비 “패턴 보기” 예시:
O: Domain Adaptation은 소스와 타겟의 데이터 분포 차이를 줄인다.
X: Domain Adaptation은 동일한 데이터 분포에서만 사용된다.
ㅁ 추가 학습 내용
Domain Adaptation의 세부 유형은 다음과 같이 구분된다.
1. Supervised Domain Adaptation: 소스 도메인과 타겟 도메인 모두에서 레이블이 있는 데이터를 활용하는 방식. 타겟 도메인 데이터의 레이블이 존재하므로 높은 적응 성능을 기대할 수 있으나, 타겟 데이터의 레이블 수집 비용이 발생한다.
2. Unsupervised Domain Adaptation: 소스 도메인에는 레이블이 있으나 타겟 도메인에는 레이블이 없는 경우. 레이블 없는 타겟 데이터를 활용해 도메인 차이를 줄이는 방법이 필요하다. 실제 응용에서 가장 많이 사용된다.
3. Semi-supervised Domain Adaptation: 타겟 도메인에 일부 레이블이 존재하는 경우. 제한된 타겟 레이블과 비라벨 데이터, 그리고 소스 데이터를 함께 활용하여 적응 성능을 높인다.
적응 방식은 크게 두 가지로 나눌 수 있다.
– Feature-level 적응: 소스와 타겟의 특성 공간(feature space)을 맞추는 방식. 예를 들어, 특성 분포를 정렬하거나 임베딩 공간을 공유하도록 학습한다.
– Instance-level 적응: 소스 도메인 데이터의 가중치를 조정하거나 샘플 선택을 통해 타겟 도메인과의 분포 차이를 줄인다.
Adversarial 방법의 대표 예로 DANN(Domain-Adversarial Neural Network)이 있다. 이는 도메인 분류기를 두고, 피처 추출기가 도메인 분류기를 속이도록 학습하여 도메인 불변 특징을 추출하는 원리다. 장점은 레이블 없이도 도메인 차이를 줄일 수 있다는 점이며, 단점은 학습의 안정성이 떨어질 수 있고 복잡한 도메인 차이에서는 한계가 있다는 점이다.
시험에서는 데이터 분포 차이를 수치로 제시하고, 상황에 맞는 적응 기법을 선택하는 응용형 문제가 자주 출제될 수 있으므로 각 방법의 전제 조건, 장단점, 적용 사례를 명확히 구분할 수 있어야 한다.