AI 모델 개발: HPO 기법 – Hyperband

ㅁ HPO 기법

ㅇ 정의:
Hyperband는 하이퍼파라미터 최적화를 위해 자원(시간, 연산량)을 효율적으로 분배하는 방법으로, 비효율적인 조합을 조기에 중단시키고 promising한 조합에 더 많은 자원을 할당하는 기법이다.

ㅇ 특징:
– Successive Halving 알고리즘을 기반으로 함.
– 탐색 공간이 클 때 효율적.
– 조기 중단(early stopping) 전략을 사용하여 불필요한 연산을 줄임.
– 병렬화가 용이하여 분산 환경에서 활용 가능.

ㅇ 적합한 경우:
– 하이퍼파라미터 조합이 많고, 각 조합의 학습 시간이 긴 경우.
– 제한된 자원에서 빠르게 최적 조합을 찾아야 하는 경우.
– 모델 성능이 학습 초기에 어느 정도 가늠 가능한 경우.

ㅇ 시험 함정:
– Hyperband는 무조건 모든 경우에 효율적인 것은 아님. 학습 초기에 성능 추세가 불안정한 모델에는 부적합.
– Grid Search나 Random Search와 비교할 때, 탐색 공간이 작으면 오히려 비효율적일 수 있음.
– 조기 중단이 항상 성능 향상을 보장하지 않음.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Hyperband는 자원 효율성을 높이기 위해 조기 중단을 활용한다.”
O: “Successive Halving을 기반으로 한 하이퍼파라미터 최적화 기법이다.”
X: “Hyperband는 모든 경우에 Grid Search보다 빠르고 정확하다.”
X: “Hyperband는 조기 중단 없이 모든 조합을 끝까지 학습시킨다.”

ㅁ 추가 학습 내용

Hyperband는 Successive Halving을 확장한 방법으로, 여러 개의 bracket을 사용하여 자원을 분배하는 전략을 달리한다. 각 bracket은 초기 자원 할당량과 후보 수가 서로 다르며, 이를 통해 탐색(exploration)과 활용(exploitation) 사이의 균형을 조절한다.
시험에서는 Hyperband와 Bayesian Optimization, Random Search, Grid Search의 차이점을 비교하는 문제가 자주 출제될 수 있다.
Hyperband의 핵심 파라미터는 최대 자원(R), 감축 비율(η), bracket 수 계산 방법이다.
η 값이 클수록 조기 중단이 더 공격적으로 이루어지고, η 값이 작을수록 탐색 범위가 넓어진다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*