AI 모델 개발: 학습 곡선
ㅁ 학습 곡선
ㅇ 정의:
모델의 학습 정도를 시각적으로 표현한 그래프. 주로 훈련 데이터와 검증 데이터에 대한 오류율 또는 정확도의 변화를 학습 단계(epoch)에 따라 나타낸다.
ㅇ 특징:
– 훈련 데이터와 검증 데이터의 성능 차이를 통해 과적합/과소적합 여부를 판단할 수 있음
– 학습이 진행됨에 따라 손실(loss)이 수렴하는 패턴을 관찰 가능
– 모델 튜닝 및 학습 조기 종료 등의 전략 수립에 활용
ㅇ 적합한 경우:
– 모델 성능 개선을 위해 하이퍼파라미터를 조정하는 상황
– 과적합/과소적합 판단이 필요한 경우
– 학습이 안정적으로 진행되는지 모니터링할 때
ㅇ 시험 함정:
– 학습 곡선이 단순히 상승/하강한다고 해서 바로 과적합/과소적합이라고 단정 지을 수 없음
– 데이터셋의 크기나 난이도에 따라 곡선 형태가 달라질 수 있음
– 검증 곡선이 일시적으로 하락했다가 다시 상승하는 경우를 잘못 해석할 수 있음
ㅇ 시험 대비 “패턴 보기” 예시:
O: “훈련 정확도는 높으나 검증 정확도가 낮게 유지된다면 과적합 가능성이 높다.”
X: “훈련 손실과 검증 손실이 모두 높으면 과적합이다.” (→ 이는 과소적합일 가능성이 큼)
================================
1. Underfitting
ㅇ 정의:
모델이 데이터의 패턴을 충분히 학습하지 못해 훈련 데이터와 검증 데이터 모두에서 성능이 낮은 상태.
ㅇ 특징:
– 학습 곡선에서 훈련 성능과 검증 성능이 모두 낮음
– 모델이 지나치게 단순하거나 학습 시간이 부족함
– 특징 추출이 충분히 이루어지지 않음
ㅇ 적합한 경우:
– 일반적으로 지양해야 하며, 필요한 경우는 거의 없음
– 단순한 베이스라인 모델을 빠르게 만들 때 참고 가능
ㅇ 시험 함정:
– 검증 성능이 낮다고 무조건 과적합이라고 판단하는 오류
– 학습 데이터가 부족해서가 아니라 모델이 너무 단순한 경우일 수 있음
ㅇ 시험 대비 “패턴 보기” 예시:
O: “훈련 정확도와 검증 정확도가 모두 낮은 경우 과소적합 가능성이 높다.”
X: “훈련 정확도가 높고 검증 정확도가 낮으면 과소적합이다.” (→ 이는 과적합 특징)
================================
2. Overfitting
ㅇ 정의:
모델이 훈련 데이터에 과도하게 적합되어 새로운 데이터(검증/테스트 데이터)에 대한 일반화 성능이 떨어지는 상태.
ㅇ 특징:
– 학습 곡선에서 훈련 성능은 높으나 검증 성능이 점점 떨어짐
– 훈련 데이터에 있는 노이즈까지 학습
– 복잡한 모델 구조나 과도한 학습 시간으로 발생
ㅇ 적합한 경우:
– 일반적으로 피해야 함
– 특정 데이터셋에서 의도적으로 높은 훈련 성능을 요구할 때(예: 데이터 암호화 식별)
ㅇ 시험 함정:
– 검증 데이터가 너무 적을 경우, 과적합처럼 보일 수 있음
– 데이터 분포가 훈련/검증 세트 간 다를 경우, 과적합이 아니라 데이터 불일치 문제일 수 있음
ㅇ 시험 대비 “패턴 보기” 예시:
O: “훈련 정확도는 높으나 검증 정확도가 낮아진다면 과적합 가능성이 있다.”
X: “훈련과 검증 정확도가 모두 낮으면 과적합이다.” (→ 이는 과소적합 특징)
================================
3. Early Stopping
ㅇ 정의:
검증 데이터 성능이 더 이상 개선되지 않을 때 학습을 조기에 종료하여 과적합을 방지하는 기법.
ㅇ 특징:
– 학습 곡선에서 검증 성능이 정체되거나 하락하는 시점에 학습 중단
– 불필요한 학습을 방지하여 연산량 절감
– patience, min_delta 등 하이퍼파라미터로 민감도 조정 가능
ㅇ 적합한 경우:
– 과적합이 우려되는 상황
– 학습 시간이 길고 자원 소모가 큰 경우
– 최적의 모델 가중치를 확보하고 싶은 경우
ㅇ 시험 함정:
– 너무 일찍 중단하면 과소적합 발생 가능
– 검증 데이터셋이 대표성 없으면 최적 시점 판단 실패
ㅇ 시험 대비 “패턴 보기” 예시:
O: “검증 손실이 증가하기 시작하면 Early Stopping을 고려할 수 있다.”
X: “훈련 손실이 감소하기 시작하면 Early Stopping을 적용한다.” (→ 이는 잘못된 시점)
================================
4. Learning Rate Scheduler
ㅇ 정의:
학습 중 학습률(learning rate)을 동적으로 조정하여 최적화 성능을 향상시키는 기법.
ㅇ 특징:
– 고정된 학습률보다 더 안정적인 수렴 가능
– Step decay, Exponential decay, Cosine annealing 등 다양한 방식 존재
– 초기 학습률은 크게, 이후 점진적으로 감소시키는 경우가 많음
ㅇ 적합한 경우:
– 복잡한 손실 곡선에서 안정적 수렴이 필요할 때
– 학습 후반부에 세밀한 조정이 필요한 경우
– 과적합 방지 및 수렴 속도 향상 목적
ㅇ 시험 함정:
– 학습률을 너무 급격히 줄이면 학습이 조기 종료되거나 지역 최소값에 갇힘
– 감소 주기와 크기를 잘못 설정하면 학습 효율 저하
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Learning Rate Scheduler는 초기 학습 속도를 높이고 후반부에 안정적으로 수렴하도록 돕는다.”
X: “Learning Rate Scheduler는 학습률을 무작위로 변경하여 일반화를 높인다.” (→ 무작위 변경은 일반적이지 않음)
================================
혹시 원하시면, 제가 위 내용을 **시험 대비 압축 버전**으로 한 장 요약 PDF 형태로도 만들어 드릴까요?
그렇게 하면 공부할 때 훨씬 빠르게 회독할 수 있습니다.