AI 모델 개발: HPO 기법 – Optuna

ㅁ HPO 기법 ㅇ 정의: 하이퍼파라미터 최적화(Hyperparameter Optimization)를 위해 다양한 탐색 알고리즘과 전략을 적용하는 기법으로, 모델 성능을 극대화하기 위해 자동 또는 반자동으로 최적의 하이퍼파라미터 조합을 찾는 방법. ㅇ 특징: – 모델 구조 변경 없이 성능 향상 가능 – 탐색 공간과 탐색 전략에 따라 결과 품질과 소요 시간이 크게 달라짐 – 그리드 서치, 랜덤 서치, 베이지안

AI 모델 개발: HPO 기법 – Hyperband

ㅁ HPO 기법 ㅇ 정의: Hyperband는 하이퍼파라미터 최적화를 위해 자원(시간, 연산량)을 효율적으로 분배하는 방법으로, 비효율적인 조합을 조기에 중단시키고 promising한 조합에 더 많은 자원을 할당하는 기법이다. ㅇ 특징: – Successive Halving 알고리즘을 기반으로 함. – 탐색 공간이 클 때 효율적. – 조기 중단(early stopping) 전략을 사용하여 불필요한 연산을 줄임. – 병렬화가 용이하여 분산 환경에서 활용 가능.

AI 모델 개발: HPO 기법 – Bayesian Optimization

ㅁ HPO 기법 ㅇ 정의: 하이퍼파라미터 최적화(Hyperparameter Optimization) 기법 중 하나로, 이전 탐색 결과를 바탕으로 확률 모델을 구축하고, 이를 통해 다음 탐색 지점을 효율적으로 선택하는 방법. ㅇ 특징: – Gaussian Process, TPE(Tree-structured Parzen Estimator) 등 확률 모델 사용 – 탐색 공간을 효율적으로 줄이며, 적은 시도로도 최적값에 근접 가능 – 탐색 과정에서 불확실성이 큰 영역을 우선적으로

AI 모델 개발: HPO 기법 – Random Search

ㅁ HPO 기법 1. Random Search ㅇ 정의: – 하이퍼파라미터 최적화를 위해 사전에 정의된 범위 내에서 무작위로 하이퍼파라미터 조합을 선택하여 성능을 평가하는 방법. ㅇ 특징: – 모든 하이퍼파라미터 공간을 균등하게 탐색하지 않고, 무작위 시도로 다양한 영역을 빠르게 커버 가능. – 특정 하이퍼파라미터가 모델 성능에 미치는 영향이 클 경우, 전수 탐색(Grid Search)보다 빠르게 최적값에 근접할 수

AI 모델 개발: HPO 기법 – Grid Search

ㅁ HPO 기법 ㅇ 정의: 하이퍼파라미터 최적화(Hyperparameter Optimization)를 위해 가능한 모든 파라미터 조합을 체계적으로 탐색하는 방법. ㅇ 특징: – 모든 조합을 시도하므로 최적값을 놓칠 가능성이 낮음. – 탐색 공간이 커질수록 연산량과 시간이 기하급수적으로 증가. – 병렬처리가 가능하여 클러스터 환경에서 효율적으로 수행 가능. ㅇ 적합한 경우: – 하이퍼파라미터 개수가 적고 각 파라미터의 후보 값 범위가 작을

AI 모델 개발: 평가지표 – Log Loss

ㅁ 평가지표 ㅇ 정의: 분류 모델의 예측 확률과 실제 정답 간의 차이를 로그 함수로 변환하여 계산하는 손실 함수. 확률 예측의 정확성을 평가하며, 낮을수록 모델의 예측이 실제와 가깝다는 의미. ㅇ 특징: – 예측 확률을 기반으로 평가하므로 단순 정확도보다 세밀하게 모델의 성능을 파악 가능. – 잘못된 예측에 대해 높은 패널티를 부여. – 0~무한대 범위를 가짐. 0에 가까울수록

AI 모델 개발: 평가지표 – PR Curve

ㅁ 평가지표 ㅇ 정의: Precision(정밀도)와 Recall(재현율)의 관계를 시각적으로 나타낸 곡선으로, 분류 모델의 성능을 다양한 임계값(threshold)에서 평가하기 위해 사용됨. ㅇ 특징: – X축은 Recall, Y축은 Precision을 표시함. – 임계값을 변화시키며 Precision과 Recall 값을 계산하여 곡선을 그림. – 클래스 불균형이 심한 데이터셋에서 모델 성능을 평가할 때 유용. ㅇ 적합한 경우: – 양성 클래스가 희귀한 경우(예: 사기 탐지,

AI 모델 개발: 평가지표 – AUC-ROC

ㅁ 평가지표 ㅇ 정의: 분류 모델의 성능을 평가하기 위해 ROC 곡선 아래 면적(Area Under the Curve)을 계산한 값으로, 0~1 사이의 값을 가짐. 1에 가까울수록 분류 성능이 우수함. ㅇ 특징: – ROC 곡선은 TPR(민감도)과 FPR(1-특이도)의 관계를 나타냄. – AUC는 클래스 불균형 데이터에서도 비교적 안정적인 성능 지표로 사용됨. – 임계값(threshold)에 관계없이 모델의 전반적인 분류 성능을 평가 가능.

AI 모델 개발: 평가지표 – F1

ㅁ 평가지표 ㅇ 정의: Precision과 Recall의 조화평균을 계산하여 모델의 성능을 하나의 값으로 나타내는 지표. 불균형 데이터셋에서 모델 성능을 종합적으로 평가할 때 사용됨. ㅇ 특징: – Precision과 Recall 모두를 고려하므로 한쪽에 치우친 성능평가를 방지. – 값의 범위는 0~1이며, 1에 가까울수록 성능이 우수함. – 데이터 불균형 상황에서 Accuracy보다 유용. ㅇ 적합한 경우: – 긍정/부정 클래스 비율이 크게

AI 모델 개발: 평가지표 – Recall

ㅁ 평가지표 ㅇ 정의: 분류 모델이 실제 양성(Positive)인 데이터 중에서 모델이 올바르게 양성으로 예측한 비율을 나타내는 지표. 민감도(Sensitivity) 또는 재현율이라고도 함. ㅇ 특징: – 값이 높을수록 실제 양성을 잘 찾아냄. – False Negative(실제 양성을 음성으로 잘못 분류) 감소에 초점. – 의료 진단, 보안 침입 탐지 등 놓치면 안 되는 사례에서 중요. – Precision과 상충 관계에