AI 모델 개발: 시스템 구축 – 온라인 학습

ㅁ 시스템 구축

ㅇ 정의:
– 온라인 학습(Online Learning)은 데이터가 순차적으로 도착할 때마다 모델을 즉시 업데이트하는 학습 방식으로, 전체 데이터를 한 번에 학습하는 배치 학습과 대비된다.

ㅇ 특징:
– 데이터 스트림 환경에서 실시간 또는 준실시간 모델 업데이트 가능
– 메모리 사용량이 적고, 새로운 데이터 반영 속도가 빠름
– 데이터 분포 변화(Concept Drift)에 대응 가능

ㅇ 적합한 경우:
– IoT 센서 데이터, 금융 거래 데이터, 실시간 로그 분석 등 지속적으로 데이터가 유입되는 환경
– 데이터 저장 비용이 크거나 저장이 불가능한 경우

ㅇ 시험 함정:
– ‘온라인 학습 = 인터넷 기반 학습’으로 오해 유도
– 배치 학습과 혼동하여 모든 데이터를 모아두고 학습한다고 기술하는 경우
– 데이터 순서와 무관하게 학습한다고 잘못 설명하는 문장

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “데이터가 순차적으로 도착할 때마다 모델을 업데이트한다”
– O: “실시간 데이터 반영이 가능하다”
– X: “온라인 학습은 반드시 모든 데이터를 저장한 후 학습한다”
– X: “온라인 학습은 인터넷 연결이 필수이다”

ㅁ 추가 학습 내용

온라인 학습에서는 학습률 조절 전략이 중요하다. 고정 학습률은 구현이 간단하고 안정적인 수렴 속도를 유지할 수 있으나, 최적점 근처에서 진동이 발생할 수 있다. 점진적 감소 학습률은 학습이 진행됨에 따라 학습률을 줄여 안정적인 수렴을 돕지만, 너무 빨리 줄이면 학습이 조기 종료될 수 있다.

SGD(Stochastic Gradient Descent)는 미니배치 없이 1개 또는 소량의 샘플로 모델을 업데이트하는 방식으로, 온라인 학습에서 자주 사용된다.

Concept Drift 대응 기법으로는 가중치 감소(오래된 데이터의 영향 축소), 윈도우 기반 학습(최근 데이터만 사용)이 있으며, 데이터 입력 순서에 따른 편향 문제와 메모리 관리 전략도 고려해야 한다.

온라인 학습은 데이터가 순차적으로 주어질 때 즉시 모델을 업데이트하는 방식이고, 인크리멘탈 학습은 새로운 데이터가 추가될 때 기존 지식을 유지하며 점진적으로 모델을 확장하는 방식이다.

온라인 학습에서는 Catastrophic Forgetting(기존에 학습한 내용이 새로운 학습으로 인해 급격히 소실되는 현상)이 발생할 수 있다. 이를 완화하는 방법으로 EWC(Elastic Weight Consolidation, 중요한 가중치 변화 억제)와 Replay Buffer(과거 데이터를 일부 저장해 재학습) 기법이 있다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*