평가지표: Precision

ㅁ 평가지표 ㅇ 정의: 모델의 예측 결과 중에서 실제로 맞춘 비율을 측정하는 지표로, True Positive를 (True Positive + False Positive)로 나눈 값. ㅇ 특징: 분류 모델의 정확도를 측정할 때, 특히 False Positive를 줄이는 것이 중요한 경우에 유용. Precision이 높을수록 모델이 예측한 Positive 값이 신뢰할 수 있음을 의미. ㅇ 적합한 경우: 스팸 메일 필터링처럼 False Positive를

평가지표: Accuracy

ㅁ 평가지표 ㅇ 정의: 모델의 예측이 실제 정답과 얼마나 일치하는지를 측정하는 지표. ㅇ 특징: – 전체 데이터에서 올바르게 예측된 비율을 계산. – 데이터셋이 불균형한 경우 정확도가 높아도 성능이 좋다고 할 수 없음. ㅇ 적합한 경우: – 클래스 간 데이터 비율이 균형 잡혀 있는 경우. – 간단한 모델 성능 비교 시 사용. ㅇ 시험 함정: –

검증 기법: LOOCV

ㅁ 검증 기법 ㅇ 정의: – 검증 기법은 머신러닝 모델의 성능을 평가하기 위해 데이터를 나누고 학습 및 테스트를 반복하는 방법을 의미함. ㅇ 특징: – 데이터의 분할 방식에 따라 다양한 기법이 존재하며, 각 기법은 데이터의 크기와 특성에 따라 적합성이 다름. – 모델의 일반화 성능을 평가하는 데 중요한 역할을 함. ㅇ 적합한 경우: – 모델의 과적합 여부를

검증 기법: Bootstrapping

ㅁ 검증 기법 ㅇ 정의: Bootstrapping은 데이터의 일부를 반복적으로 샘플링하여 모델을 학습시키고 검증하는 기법으로, 원본 데이터를 활용한 재표본화 방법이다. ㅇ 특징: – 데이터의 일부를 랜덤하게 선택하여 샘플링한다. – 샘플링된 데이터는 중복이 허용된다. – 다양한 모델 성능을 검증할 수 있는 유연한 방법이다. ㅇ 적합한 경우: – 데이터 크기가 작아 검증용 데이터를 따로 분리하기 어려운 경우. –

검증 기법: Stratified Sampling

ㅁ 검증 기법 ㅇ 정의: 데이터셋을 학습용과 검증용으로 나누는 과정에서 각 클래스가 원래 데이터셋에서 나타나는 비율을 유지하도록 샘플링하는 기법. ㅇ 특징: – 데이터의 클래스 불균형 문제를 해결하는 데 유용. – 각 클래스의 대표성을 보장하여 모델 평가의 신뢰성을 높임. – 데이터셋의 클래스 분포를 정확히 반영함. ㅇ 적합한 경우: – 클래스 불균형이 있는 데이터셋을 사용하는 경우. –

검증 기법: K-Fold CV

ㅁ 검증 기법 ㅇ 정의: – 검증 기법은 모델의 성능을 평가하기 위해 데이터를 나누고 반복적으로 학습 및 검증을 수행하는 방법을 의미한다. ㅇ 특징: – 데이터의 분할 방식에 따라 다양한 검증 기법이 존재하며, 데이터의 활용도를 최대화하고 과적합을 방지하는 데 도움을 준다. ㅇ 적합한 경우: – 데이터가 부족하거나 모델의 일반화 능력을 확인하고자 할 때 적합하다. ㅇ 시험

학습 곡선: Learning Rate Scheduler

ㅁ 학습 곡선 ㅇ 정의: 학습 곡선은 모델의 성능 변화를 시각적으로 표현한 그래프로, 훈련 데이터와 검증 데이터에 대한 손실 값 또는 정확도를 기준으로 모델의 학습 상태를 평가하는 데 사용된다. ㅇ 특징: – 훈련 손실과 검증 손실의 변화를 통해 과적합과 과소적합 여부를 판단할 수 있다. – 학습률, 데이터셋 크기, 모델 복잡도 등 다양한 요소가 학습 곡선에

학습 곡선: Early Stopping

ㅁ 학습 곡선 ㅇ 정의: 학습 과정에서 모델의 성능 변화를 시각적으로 나타낸 그래프. 일반적으로 훈련 데이터와 검증 데이터에 대한 손실값 또는 정확도를 시간(에포크)에 따라 표시. ㅇ 특징: – 과적합 여부를 판단하는 데 유용. – 훈련 데이터와 검증 데이터의 성능 차이를 통해 모델의 일반화 능력을 평가 가능. – 학습이 진행될수록 훈련 데이터의 성능은 개선되지만, 검증 데이터의

학습 곡선: Overfitting

ㅁ 학습 곡선 ㅇ 정의: 학습 곡선은 머신러닝 모델의 학습 진행 상황을 시각적으로 나타낸 그래프로, 주로 훈련 데이터와 검증 데이터의 오류율 또는 정확도를 학습 단계별로 표시합니다. ㅇ 특징: – 훈련 데이터와 검증 데이터의 성능 차이를 통해 모델의 학습 상태를 파악할 수 있습니다. – 과대적합(Overfitting)이나 과소적합(Underfitting)의 징후를 시각적으로 확인할 수 있습니다. – 모델 개선을 위한 하이퍼파라미터

학습 곡선: Underfitting

ㅁ 학습 곡선 ㅇ 정의: – 학습 곡선은 모델의 학습 과정에서 성능 변화를 시각적으로 나타낸 그래프이며, 주로 훈련 데이터와 검증 데이터의 성능을 비교하여 모델의 학습 상태를 평가하는 데 사용된다. ㅇ 특징: – 훈련 데이터와 검증 데이터의 성능 차이를 통해 과적합(overfitting) 또는 과소적합(underfitting)을 진단할 수 있다. – 학습 데이터의 크기 변화에 따른 성능 변화를 확인할 수