AI: 최적화 하이퍼파라미터 튜닝

ㅁ 최적화 하이퍼파라미터 튜닝

1. Bayesian Optimization

ㅇ 정의:
– 확률 모델(보통 Gaussian Process)을 사용하여 하이퍼파라미터 공간을 탐색하는 최적화 기법.
– 이전 평가 결과를 바탕으로 다음 실험 후보를 확률적으로 선택.

ㅇ 특징:
– 탐색(exploration)과 활용(exploitation)의 균형을 조정.
– 평가 횟수가 제한된 경우 효율적.

ㅇ 적합한 경우:
– 모델 학습 시간이 길고, 평가 비용이 높은 경우.
– 연속형 또는 혼합형 하이퍼파라미터 공간.

ㅇ 시험 함정:
– 단순히 랜덤 탐색보다 항상 우수하다고 단정할 수 없음.
– 고차원 공간에서 Gaussian Process의 성능 저하 가능성.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “평가 비용이 높은 경우 Bayesian Optimization이 효율적이다.”
– X: “Bayesian Optimization은 항상 Random Search보다 빠르다.”

1.1 Gaussian Process

ㅇ 정의:
– 함수의 분포를 가우시안 분포로 가정하여 예측과 불확실성을 동시에 제공하는 확률 모델.

ㅇ 특징:
– 예측값과 신뢰 구간 제공.
– 데이터가 적을 때 강력하나, 데이터가 많아지면 계산량 급증.

ㅇ 적합한 경우:
– 소규모 데이터셋, 연속적인 입력 공간.

ㅇ 시험 함정:
– Gaussian Process는 항상 정규분포를 따르는 데이터에서만 사용 가능하다는 오해.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Gaussian Process는 불확실성을 정량화할 수 있다.”
– X: “Gaussian Process는 대규모 데이터에서도 계산이 빠르다.”

2. Acquisition Function

ㅇ 정의:
– Bayesian Optimization에서 다음 평가 지점을 선택하기 위해 사용하는 함수.

ㅇ 특징:
– 예측 평균과 불확실성을 조합하여 탐색/활용을 조절.
– 대표적으로 Expected Improvement, Upper Confidence Bound, Probability of Improvement 등이 있음.

ㅇ 적합한 경우:
– Bayesian Optimization 과정에서 효율적인 후보 선택 필요 시.

ㅇ 시험 함정:
– Acquisition Function이 크다고 항상 좋은 지점을 의미하는 것은 아님.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Expected Improvement는 개선 가능성이 높은 영역을 선택한다.”
– X: “Acquisition Function 값이 최대인 지점이 항상 전역 최적해이다.”

3. Surrogate Model

ㅇ 정의:
– 실제 평가 함수 대신 근사 모델을 사용하여 빠르게 성능을 예측하는 모델.

ㅇ 특징:
– 계산 비용 감소.
– Bayesian Optimization에서는 Gaussian Process, Random Forest 등이 사용됨.

ㅇ 적합한 경우:
– 평가 함수 계산 비용이 높은 경우.

ㅇ 시험 함정:
– Surrogate Model의 예측이 부정확하면 최적화 결과가 악화될 수 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Surrogate Model은 실제 함수 평가 횟수를 줄이는 데 도움을 준다.”
– X: “Surrogate Model은 항상 실제 함수보다 정확하다.”

4. Random Search

ㅇ 정의:
– 하이퍼파라미터 공간에서 무작위로 샘플링하여 탐색하는 방법.

ㅇ 특징:
– 단순 구현, 병렬화 용이.
– 중요한 하이퍼파라미터가 적을 때 효율적.

ㅇ 적합한 경우:
– 탐색 공간이 크고, 일부 파라미터만 성능에 큰 영향을 미칠 때.

ㅇ 시험 함정:
– 무작위라 하여 완전히 비효율적이라는 오해.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Random Search는 Grid Search보다 적은 시도로 좋은 성능을 찾을 수 있다.”
– X: “Random Search는 항상 최적값을 찾는다.”

5. Grid Search

ㅇ 정의:
– 하이퍼파라미터의 모든 조합을 시도하는 전수 탐색 방법.

ㅇ 특징:
– 단순하고 결과 재현성 높음.
– 차원이 높아질수록 계산량 폭증.

ㅇ 적합한 경우:
– 하이퍼파라미터 개수가 적고, 각 값의 범위가 작을 때.

ㅇ 시험 함정:
– 항상 최적값을 보장하지만 계산 비용이 매우 클 수 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Grid Search는 모든 조합을 시도하므로 전역 최적값을 찾을 수 있다.”
– X: “Grid Search는 항상 Random Search보다 효율적이다.”

6. Hyperband

ㅇ 정의:
– 자원(시간, 데이터)을 점진적으로 할당하며 비효율적인 조합을 빠르게 제거하는 하이퍼파라미터 최적화 방법.

ㅇ 특징:
– Successive Halving 기법 기반.
– 많은 후보를 빠르게 평가하고, 유망한 후보에만 더 많은 자원 할당.

ㅇ 적합한 경우:
– 자원 제약이 있고, 후보 모델이 많은 경우.

ㅇ 시험 함정:
– Hyperband는 항상 Bayesian Optimization보다 빠르다는 단정은 틀림.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Hyperband는 비효율적인 후보를 조기에 중단시킨다.”
– X: “Hyperband는 모든 후보를 끝까지 학습시킨다.”

ㅁ 추가 학습 내용

Bayesian Optimization에서는 Gaussian Process 외에도 Tree-structured Parzen Estimator(TPE)와 같은 대안이 있으며, 고차원 공간에서는 Random Forest 기반 모델이 더 적합할 수 있다. Acquisition Function 선택은 최적화 성능에 큰 영향을 미치므로 Expected Improvement, Upper Confidence Bound, Probability of Improvement의 차이를 숙지해야 한다. Surrogate Model의 경우 과적합 방지를 위해 정규화 기법을 적용할 수 있다. Random Search와 Grid Search를 비교할 때, Random Search는 고차원 공간에서 효율적이며, Grid Search는 병렬화가 어렵다는 단점이 있다. Hyperband는 Successive Halving의 확장판으로, 자원 할당 비율과 반복 횟수 설정이 중요하다. 시험에서는 각 기법의 시간 복잡도, 자원 효율성, 적용 사례 비교 문제가 자주 출제된다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*