HPO 기법: Random Search

ㅁ HPO 기법 ㅇ 정의: 하이퍼파라미터 최적화를 위한 방법으로, 파라미터 공간에서 무작위로 샘플링하여 최적의 조합을 찾는 기법. ㅇ 특징: – 탐색 공간이 크더라도 효율적으로 탐색 가능. – 특정 패턴 없이 무작위로 선택하므로 초기값에 크게 의존하지 않음. – 계산 비용이 비교적 낮음. ㅇ 적합한 경우: – 탐색 공간의 구조를 알 수 없거나, 복잡한 경우. – 모델의

HPO 기법: Grid Search

ㅁ HPO 기법 ㅇ 정의: 하이퍼파라미터 최적화(Hyperparameter Optimization, HPO) 기법 중 하나로, 모든 가능한 하이퍼파라미터 조합을 체계적으로 탐색하여 최적의 조합을 찾는 방법. ㅇ 특징: – 탐색 공간이 작을 경우 효과적. – 계산 비용이 높으며, 탐색 공간이 커질수록 비효율적. – 병렬 처리를 통해 탐색 속도를 높일 수 있음. ㅇ 적합한 경우: – 하이퍼파라미터의 조합이 제한적이거나 탐색

평가지표: Log Loss

ㅁ 평가지표 ㅇ 정의: 모델의 예측 확률과 실제 레이블 간의 차이를 로그 함수로 계산한 손실 값을 나타내는 지표로, 확률 기반 모델 평가에 사용됨. ㅇ 특징: – 예측 확률이 실제 레이블과 가까울수록 값이 작아짐. – 확률 기반으로 평가하므로 이진 분류와 다중 클래스 분류에 모두 적용 가능. – 값이 작을수록 모델의 예측 성능이 좋음을 의미함. ㅇ 적합한

평가지표: PR Curve

ㅁ 평가지표 ㅇ 정의: 모델의 성능을 평가하기 위해 사용되는 기준으로, 정밀도와 재현율의 관계를 시각적으로 표현한 그래프. ㅇ 특징: – 정밀도(Precision)와 재현율(Recall)의 상호작용을 보여줌. – 모델의 임계값 변화에 따른 성능 변화를 시각화 가능. – PR Curve 아래 면적(AUC-PR)이 클수록 모델의 성능이 우수함. ㅇ 적합한 경우: – 데이터가 불균형한 경우, 특히 클래스 간 비율 차이가 클 때.

평가지표: AUC-ROC

ㅁ 평가지표 ㅇ 정의: 모델의 예측 성능을 평가하기 위해 사용되는 기준으로, 주로 분류 모델에서 사용됨. ㅇ 특징: – 데이터의 분포와 모델의 특성에 따라 적합한 지표를 선택해야 함. – 정확도, 정밀도, 재현율, F1 스코어, AUC-ROC 등 다양한 지표가 존재. ㅇ 적합한 경우: – 모델 성능을 다각도로 평가하고 싶을 때. – 특정 지표가 모델 성능을 왜곡할 가능성이

평가지표: F1

ㅁ 평가지표 ㅇ 정의: 모델의 성능을 평가하기 위한 수단으로, 주어진 데이터에 대해 예측 결과와 실제 값을 비교하여 정량적으로 측정하는 지표. ㅇ 특징: 다양한 평가 지표가 존재하며, 데이터의 특성과 목적에 따라 적합한 지표를 선택해야 함. ㅇ 적합한 경우: 분류, 회귀, 순위 예측 등 다양한 모델 평가 상황에서 사용. ㅇ 시험 함정: 각 지표의 수학적 정의와 목적을

평가지표: Recall

ㅁ 평가지표 ㅇ 정의: 모델의 재현율을 나타내는 지표로, 실제 긍정 사례 중에서 모델이 올바르게 예측한 긍정 사례의 비율. ㅇ 특징: – 민감도(Sensitivity)라고도 불리며, 특히 불균형 데이터셋에서 중요한 지표로 사용됨. – Recall이 높으면 실제 긍정 사례를 많이 잡아내지만, False Positive 증가 가능성 있음. ㅇ 적합한 경우: – 질병 진단 모델처럼 False Negative를 최소화해야 하는 경우. –

평가지표: Precision

ㅁ 평가지표 ㅇ 정의: 모델의 예측 결과 중에서 실제로 맞춘 비율을 측정하는 지표로, True Positive를 (True Positive + False Positive)로 나눈 값. ㅇ 특징: 분류 모델의 정확도를 측정할 때, 특히 False Positive를 줄이는 것이 중요한 경우에 유용. Precision이 높을수록 모델이 예측한 Positive 값이 신뢰할 수 있음을 의미. ㅇ 적합한 경우: 스팸 메일 필터링처럼 False Positive를

평가지표: Accuracy

ㅁ 평가지표 ㅇ 정의: 모델의 예측이 실제 정답과 얼마나 일치하는지를 측정하는 지표. ㅇ 특징: – 전체 데이터에서 올바르게 예측된 비율을 계산. – 데이터셋이 불균형한 경우 정확도가 높아도 성능이 좋다고 할 수 없음. ㅇ 적합한 경우: – 클래스 간 데이터 비율이 균형 잡혀 있는 경우. – 간단한 모델 성능 비교 시 사용. ㅇ 시험 함정: –

검증 기법: LOOCV

ㅁ 검증 기법 ㅇ 정의: – 검증 기법은 머신러닝 모델의 성능을 평가하기 위해 데이터를 나누고 학습 및 테스트를 반복하는 방법을 의미함. ㅇ 특징: – 데이터의 분할 방식에 따라 다양한 기법이 존재하며, 각 기법은 데이터의 크기와 특성에 따라 적합성이 다름. – 모델의 일반화 성능을 평가하는 데 중요한 역할을 함. ㅇ 적합한 경우: – 모델의 과적합 여부를