AI 시스템 구축: 자동화 기법 – Auto Scaling

ㅁ 자동화 기법

ㅇ 정의:
클라우드 환경 또는 분산 시스템에서 워크로드 변화에 따라 컴퓨팅 자원(서버 인스턴스, 컨테이너 등)의 수를 자동으로 증감시키는 기술.

ㅇ 특징:
– 사전에 정의한 정책(CPU 사용률, 메모리 사용률, 요청 수 등)에 따라 자동으로 동작.
– 수평 확장(scale-out)과 수평 축소(scale-in) 모두 지원.
– 클라우드 서비스(AWS Auto Scaling, Azure VM Scale Sets 등)에서 기본 제공.
– 예측 기반(Predictive)과 반응 기반(Reactive) 방식이 있음.

ㅇ 적합한 경우:
– 사용량이 시간대별, 요일별로 변동이 큰 서비스.
– 갑작스러운 트래픽 증가에 빠르게 대응해야 하는 웹 서비스.
– 비용 최적화와 성능 보장을 동시에 추구하는 환경.

ㅇ 시험 함정:
– Auto Scaling은 항상 성능 향상만을 보장하는 것이 아니라, 적정 자원 유지가 목적임.
– 수직 확장(vertical scaling)과 혼동하는 경우가 많음.
– 즉시 반응이 아닌, 모니터링 주기와 설정 지연에 따라 반응 속도가 달라짐.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “트래픽 변화에 따라 서버 인스턴스 수를 자동으로 조절하는 기능을 제공한다.”
X: “Auto Scaling은 항상 서버 성능을 최대치로 유지한다.”

ㅁ 추가 학습 내용

Auto Scaling은 시스템 부하에 따라 리소스를 자동으로 조정하는 기능으로, 다음 개념을 구분해야 한다.
스케일 인/아웃은 인스턴스 수를 줄이거나 늘리는 수평 확장 방식이며, 스케일 업/다운은 인스턴스 성능 사양을 높이거나 낮추는 수직 확장 방식이다.
예측 기반(Predictive) Auto Scaling은 과거 데이터와 패턴을 분석해 사전에 리소스를 조정하므로 부하 대응이 빠르지만, 예측이 빗나가면 자원 낭비가 발생할 수 있다. 반응 기반(Reactive) Auto Scaling은 실시간 모니터링 지표를 기반으로 부하 발생 후 조정하므로 낭비는 줄지만 반응 속도가 느릴 수 있다.
AWS, Azure, GCP 등 클라우드 벤더마다 Auto Scaling 구현 방식과 설정 옵션이 다르므로 비교 학습이 필요하다.

정책 설정 시 CPU, 메모리, 네트워크 I/O, 사용자 정의 지표 중 어떤 것을 모니터링할지 선택하는 것이 성능과 비용 최적화에 중요하다. 쿨다운(Cooldown) 기간은 인스턴스 조정 후 다음 조정까지 대기하는 시간으로, 너무 짧으면 불필요한 잦은 조정이 발생하고, 너무 길면 부하 대응이 늦어질 수 있다.

시험에서는 부하 분산(Load Balancing)과 Auto Scaling의 관계를 함께 묻는 경우가 많으며, Auto Scaling만으로는 고가용성을 보장하지 않는다는 점을 함정으로 출제할 수 있다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*