AI 모델 개발: 평가지표 – Precision

ㅁ 평가지표 ㅇ 정의: 분류 모델이 예측한 Positive 중 실제로 Positive인 비율을 나타내는 지표. 즉, 모델의 ‘정밀도’를 의미하며, 잘못된 Positive 예측(False Positive)을 얼마나 줄였는지를 평가. ㅇ 특징: – 수식: Precision = TP / (TP + FP) – Positive로 예측한 것 중 정확한 비율을 측정. – FP를 줄이는 것이 중요한 상황에서 유용. – Recall과 상호 보완적

AI 모델 개발: 평가지표 – Accuracy

ㅁ 평가지표 ㅇ 정의: 분류 모델의 예측 결과가 실제 값과 일치하는 비율을 나타내는 지표로, 전체 데이터 중에서 올바르게 예측한 비율을 계산한다. ㅇ 특징: – 계산이 간단하고 직관적이다. – 클래스 불균형이 심한 데이터셋에서는 높은 Accuracy가 실제 성능을 반영하지 못할 수 있다. – 모든 클래스가 동일한 중요도를 가질 때 유효하다. ㅇ 적합한 경우: – 클래스 분포가 균등한

AI 모델 개발: 검증 기법 – LOOCV

ㅁ 검증 기법 ㅇ 정의: Leave-One-Out Cross Validation(LOOCV)은 주어진 데이터셋에서 하나의 샘플만을 검증용으로 사용하고 나머지 모든 샘플을 학습에 사용하는 교차 검증 방식이다. 이를 데이터 개수만큼 반복하여 평균 성능을 측정한다. ㅇ 특징: – 데이터 손실 없이 최대한 학습에 활용 가능 – 데이터 개수가 적을 때 유리 – 학습 반복 횟수가 데이터 개수와 동일하므로 계산량이 매우 많음

AI 모델 개발: 검증 기법 – Bootstrapping

ㅁ 검증 기법 ㅇ 정의: 통계학과 머신러닝에서 사용되는 재표본화(resampling) 기법으로, 주어진 데이터셋에서 복원 추출(sampling with replacement)을 통해 여러 개의 학습용/검증용 데이터셋을 생성하여 모델의 성능을 추정하는 방법. ㅇ 특징: – 데이터의 분포를 가정하지 않고 모델의 불확실성을 추정 가능 – 원본 데이터셋 크기와 동일한 크기로 복원 추출하여 샘플 생성 – 각 부트스트랩 샘플에서 약 63.2%의 고유 데이터가

AI 모델 개발: 검증 기법 – Stratified Sampling

ㅁ 검증 기법 1. Stratified Sampling ㅇ 정의: 데이터셋을 특정 범주(클래스) 비율이 전체 데이터와 동일하게 유지되도록 층화하여 샘플링하는 기법. 주로 분류 문제에서 클래스 불균형을 완화하기 위해 사용됨. ㅇ 특징: – 각 클래스의 비율을 유지하므로 소수 클래스가 학습/검증 세트에서 사라지는 것을 방지. – 데이터 분할 시 무작위 추출(Random Sampling)에 비해 대표성이 높음. – 교차 검증과 결합하여

AI 모델 개발: 검증 기법 – K-Fold CV

ㅁ 검증 기법 1. K-Fold CV ㅇ 정의: 주어진 데이터셋을 K개의 동일 크기 폴드(fold)로 나누어, 각 폴드를 한 번씩 검증 데이터로 사용하고 나머지 K-1개의 폴드를 학습에 사용하는 교차 검증 방법. ㅇ 특징: – 데이터셋 전반에 걸쳐 모델의 성능을 고르게 평가 가능 – 데이터 손실이 거의 없음 – K 값이 크면 계산 비용이 증가하지만 더 안정적인

AI 모델 개발: 학습 곡선 – Learning Rate Scheduler

ㅁ 학습 곡선 ㅇ 정의: 머신러닝 및 딥러닝 학습 과정에서 학습률(learning rate)을 동적으로 조정하여 모델의 수렴 속도와 최종 성능을 개선하는 기법. ㅇ 특징: – 학습 초기에 큰 학습률로 빠르게 최적점 근처까지 이동하고, 이후 점차 학습률을 줄여 세밀하게 수렴. – Overfitting 방지, 안정적인 수렴, 학습 시간 단축에 기여. – 다양한 스케줄링 방식 존재(계단형, 지수감소형, Cosine Annealing

AI 모델 개발: 학습 곡선 – Early Stopping

ㅁ 학습 곡선 ㅇ 정의: 기계학습 모델의 훈련 과정에서 에폭(epoch)에 따른 훈련 오차와 검증 오차의 변화를 시각적으로 나타낸 그래프를 의미하며, 과적합 여부를 판단하는 데 활용된다. ㅇ 특징: – 훈련 오차와 검증 오차의 간격이 벌어지면 과적합 가능성이 높음. – 데이터 양, 모델 복잡도, 학습률 등에 따라 곡선 형태가 달라짐. – 학습 종료 시점 결정, 하이퍼파라미터 튜닝에

AI 모델 개발: 학습 곡선 – Overfitting

ㅁ 학습 곡선 ㅇ 정의: – 모델의 학습 정도(훈련 데이터 성능)와 일반화 성능(검증/테스트 데이터 성능)을 시각적으로 나타낸 그래프. 주로 학습 데이터 크기나 학습 반복(epoch)에 따른 성능 변화를 표시. ㅇ 특징: – 훈련 데이터와 검증 데이터의 오차나 정확도 차이를 통해 모델의 과적합, 과소적합 여부를 판단. – 학습 초기에는 두 곡선이 모두 향상되다가, 과적합이 발생하면 훈련 성능은

AI 모델 개발: 학습 곡선 – Underfitting

ㅁ 학습 곡선 ㅇ 정의: 모델의 학습 정도를 시각적으로 표현한 그래프로, 훈련 데이터와 검증 데이터의 성능 변화를 학습 반복(epoch)에 따라 나타낸 것. ㅇ 특징: – 훈련 데이터와 검증 데이터의 오차 또는 정확도를 함께 표시. – 모델의 학습 상태(과소적합, 과적합, 적정 학습)를 직관적으로 파악 가능. – 학습 데이터 양, 모델 복잡도, 하이퍼파라미터 조정에 따른 변화를 비교