AI 시스템 구축: 지속학습/재학습 – Incremental Learning
ㅁ 지속학습/재학습
ㅇ 정의:
기존 학습된 모델에 새로운 데이터가 주기적으로 추가될 때, 전체 데이터를 처음부터 다시 학습하지 않고 이전 학습 결과를 유지하면서 새로운 데이터에 대한 학습을 점진적으로 수행하는 기법.
ㅇ 특징:
– 데이터가 순차적으로 유입되는 환경에서 효율적.
– 전체 데이터 재학습 대비 연산 자원과 시간이 절약됨.
– Catastrophic Forgetting(기존 지식 상실) 문제를 방지하기 위한 메커니즘 필요.
– 온라인 학습(Online Learning)과 유사하나, 모델 구조나 파라미터 업데이트 방식에서 차이가 있음.
ㅇ 적합한 경우:
– 실시간 데이터 스트리밍 환경(예: IoT 센서 데이터, 로그 데이터 분석).
– 데이터 저장 비용이 크거나 전체 데이터 재학습이 비효율적인 경우.
– 모델을 장기간 운영하며 지속적으로 성능을 개선해야 하는 경우.
ㅇ 시험 함정:
– Incremental Learning과 Transfer Learning 혼동: Transfer Learning은 기존 모델의 일부를 재활용하여 새로운 도메인에 적용하는 것.
– Online Learning과 동일 개념으로 오인: Online Learning은 데이터가 1건씩 들어올 때마다 즉시 업데이트하는 방식, Incremental Learning은 배치 단위 업데이트도 가능.
– Catastrophic Forgetting 방지 전략(예: Replay Buffer, Regularization Techniques) 미기억.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “전체 데이터를 다시 학습하지 않고, 기존 모델을 유지한 채 새로운 데이터로 점진적 업데이트하는 학습 기법이다.”
X: “Incremental Learning은 반드시 모든 과거 데이터를 저장하고 재학습하는 방법이다.”
ㅁ 추가 학습 내용
Incremental Learning에서 중요한 추가 개념은 Catastrophic Forgetting 방지 전략이다. 대표적으로 과거 데이터 일부를 저장하여 주기적으로 재학습하는 Replay Buffer 방식, 모델 파라미터 변화에 제약을 두는 Elastic Weight Consolidation(EWC), 그리고 Knowledge Distillation을 통한 이전 지식 보존 방법이 있다. 또한 Incremental Learning은 데이터 분포 변화인 Concept Drift에 대응하는 방법과 함께 출제될 수 있으며, 이를 위해 Drift Detection 기법과 결합하는 사례도 존재한다. 실제 시험에서는 Incremental Learning을 Online Learning, Transfer Learning, Continual Learning과 비교하는 문제나, 특정 상황에서 어떤 학습 방식을 선택해야 하는지를 묻는 시나리오형 문제가 나올 가능성이 높다.