AI 모델 개발: 시스템 구축 – 배치 학습
ㅁ 시스템 구축
ㅇ 정의:
과거에 수집된 전체 데이터셋을 한 번에 학습하는 방식으로, 모델이 학습 시점에 모든 데이터를 접근할 수 있는 환경에서 사용된다.
ㅇ 특징:
– 모든 데이터를 메모리에 적재하거나 배치 단위로 불러와 학습
– 학습 과정이 종료되면 모델 파라미터가 고정됨
– 재학습 시 전체 데이터셋을 다시 사용해야 함
ㅇ 적합한 경우:
– 데이터가 고정되어 있고 추가 수집이 거의 없는 경우
– 대규모 연산 자원이 확보된 환경
– 모델 업데이트 주기가 길어도 무방한 경우
ㅇ 시험 함정:
– 온라인 학습과 혼동하여 ‘실시간 데이터 반영 가능’으로 표기하면 오답
– ‘배치 학습은 점진적 학습을 지원한다’는 문장은 틀림
ㅇ 시험 대비 “패턴 보기” 예시:
O: “배치 학습은 전체 데이터셋을 이용해 한 번에 학습한다.”
X: “배치 학습은 새로운 데이터가 들어올 때마다 즉시 모델을 갱신한다.”
ㅁ 추가 학습 내용
배치 학습은 전체 데이터셋을 한 번에 사용하여 학습하는 방식으로, 데이터 순서에 민감하지 않다. 장점으로는 안정된 수렴과 전체 데이터 기반의 최적화가 있으며, 단점으로는 재학습 시 전체 데이터를 다시 사용해야 하므로 비용이 크고 메모리 요구량이 많다.
미니배치 학습은 데이터를 작은 묶음 단위로 나누어 학습하는 방식으로, 배치 학습과 온라인 학습의 절충안이다. 연산 효율성과 수렴 안정성을 동시에 어느 정도 확보할 수 있다.
온라인 학습은 데이터가 순차적으로 들어올 때마다 즉시 모델을 업데이트하는 방식으로, 실시간 처리나 데이터가 계속 생성되는 환경에 적합하다. 그러나 데이터 순서나 노이즈에 민감할 수 있다.
시험에서는 배치 학습이 데이터 순서에 민감하다는 문장은 틀린 것으로 출제될 수 있다.
또한 분산 처리 환경에서의 배치 학습 구현 방식으로 MapReduce나 Spark MLlib 등을 활용하는 사례가 있으며, 이를 이해하면 응용 문제에 대비할 수 있다.