AI: 탐색 및 자동화 최신 추세
ㅁ 탐색 및 자동화 최신 추세
ㅇ 정의:
하이퍼파라미터 최적화에서 최신 알고리즘과 자동화 기법을 활용하여 모델 성능을 극대화하는 방법론.
ㅇ 특징:
– 단순 수동 조정이 아닌, 통계적 모델링·탐색 전략·자동화 도구를 활용
– 연산 자원 절약과 최적값 탐색 속도 향상
ㅇ 적합한 경우:
– 모델 학습 시간이 길고 하이퍼파라미터 조합이 많을 때
– 자동화된 ML 파이프라인 구축 시
ㅇ 시험 함정:
– 단순한 정의 암기보다 장단점·적용 사례를 묻는 문제 출제
– 탐색 범위 설정과 과적합 방지 개념 혼동
ㅇ 시험 대비 “패턴 보기” 예시:
O: “베이지안 최적화는 이전 탐색 결과를 반영하여 다음 탐색 지점을 선택한다.”
X: “베이지안 최적화는 무작위로만 탐색한다.”
================================
1. 베이지안 최적화 원리
ㅇ 정의:
확률 모델(주로 가우시안 프로세스)을 사용하여 함수의 분포를 추정하고, 기대 개선(Expected Improvement) 등 획득 함수를 통해 다음 탐색 지점을 선택하는 최적화 기법.
ㅇ 특징:
– 이전 탐색 결과를 반영하여 효율적 탐색
– 적은 시도 횟수로도 우수한 성능 가능
– 연속적·비선형·고비용 함수에 적합
ㅇ 적합한 경우:
– 모델 학습 비용이 크고, 평가가 느린 경우
– 탐색 공간이 연속적이고 복잡한 경우
ㅇ 시험 함정:
– 그리드/랜덤 탐색과 혼동
– 확률 모델 없이 단순 반복 탐색하는 것으로 오해
ㅇ 시험 대비 “패턴 보기” 예시:
O: “베이지안 최적화는 가우시안 프로세스를 활용하여 다음 평가 지점을 선택한다.”
X: “베이지안 최적화는 항상 모든 조합을 평가한다.”
================================
2. Random vs Grid Search
ㅇ 정의:
하이퍼파라미터 탐색에서 무작위로 조합을 선택하는 방법(Random Search)과 모든 조합을 체계적으로 탐색하는 방법(Grid Search)을 비교하는 개념.
ㅇ 특징:
– Grid Search: 모든 조합 평가, 완전탐색, 계산량 많음
– Random Search: 일부 무작위 조합 평가, 중요한 파라미터에 더 많은 기회 제공 가능
ㅇ 적합한 경우:
– Grid Search: 탐색 범위가 작고 계산 자원이 충분할 때
– Random Search: 탐색 범위가 넓고 자원이 제한적일 때
ㅇ 시험 함정:
– Random Search가 항상 성능이 낮다고 오해
– Grid Search가 항상 최적값을 찾는다고 단정
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Random Search는 일부 조합만 무작위로 선택하여 효율성을 높인다.”
X: “Grid Search는 무작위로 조합을 선택한다.”
================================
3. 하이퍼파라미터 영향
ㅇ 정의:
하이퍼파라미터 설정이 모델 성능, 학습 속도, 과적합/과소적합 등에 미치는 영향.
ㅇ 특징:
– 학습률, 규제 계수, 은닉층 수 등 주요 하이퍼파라미터가 성능에 직접적 영향
– 잘못된 설정 시 과적합 또는 학습 실패 가능
ㅇ 적합한 경우:
– 모델 성능 최적화를 위해 파라미터 조정 필요 시
– 모델 튜닝 과정에서 영향 분석 필요 시
ㅇ 시험 함정:
– 하이퍼파라미터와 모델 파라미터 개념 혼동
– 영향이 항상 선형적이라고 오해
ㅇ 시험 대비 “패턴 보기” 예시:
O: “학습률이 너무 크면 발산할 수 있고, 너무 작으면 수렴이 느려진다.”
X: “학습률이 클수록 항상 더 빨리 수렴한다.”
ㅁ 추가 학습 내용
베이지안 최적화의 핵심 요소인 획득 함수 종류와 특징
– Expected Improvement(EI): 현재까지의 최적 성능 대비 기대되는 향상의 크기를 계산하여 탐색. 개선 가능성이 크고 불확실성이 높은 영역을 균형 있게 선택.
– Upper Confidence Bound(UCB): 예측 평균과 불확실성을 결합해 상한 신뢰 구간을 최대화하는 방향으로 탐색. 탐색과 활용의 균형을 조절하는 파라미터 존재.
– Probability of Improvement(PI): 현재 최적값을 초과할 확률이 높은 지점을 선택. 개선 가능성에 집중하지만 불확실성 고려가 상대적으로 약함.
하이퍼파라미터 탐색 기법
– Random Search: 하이퍼파라미터 공간에서 무작위로 조합을 선택하여 탐색. 단순하지만 효율적일 수 있음.
– Grid Search: 미리 정의한 격자 형태의 조합을 전수 탐색. 계산량이 많고 차원이 커질수록 비효율적.
– Hyperband: 자원 할당을 동적으로 조절하며 비효율적인 조합을 조기에 중단. 빠른 수렴 가능.
– Optuna: 트리 구조 파라미터 공간 탐색과 조기 중단, 조건부 파라미터 설정 등 유연한 기능 제공.
– Population Based Training(PBT): 여러 모델을 병렬 학습하며 성능이 좋은 개체의 하이퍼파라미터를 다른 개체에 전이하고 변이시켜 탐색.
주요 하이퍼파라미터와 과적합/과소적합 방지 전략
– 학습률(Learning Rate): 너무 크면 발산, 너무 작으면 수렴이 느림. 적절한 스케줄링 기법 사용 가능.
– 배치 크기(Batch Size): 크면 안정적이지만 일반화 성능 저하 가능, 작으면 노이즈가 커져 학습이 불안정할 수 있음.
– 드롭아웃 비율(Dropout Rate): 뉴런을 무작위로 비활성화하여 과적합 방지. 비율이 높으면 학습이 어려워질 수 있음.
– 정규화 계수(Regularization Coefficient, L1/L2): 가중치 크기를 제한하여 과적합 방지. 너무 크면 과소적합 위험.
과적합 방지 전략: 드롭아웃, 데이터 증강, 조기 종료(Early Stopping), 정규화, 교차 검증 등
과소적합 방지 전략: 모델 복잡도 증가, 학습 시간 연장, 학습률 조정, 적절한 하이퍼파라미터 설정