AI: RLOps 알고리즘/최적화 – Clipping

ㅁ RLOps 알고리즘/최적화

ㅇ 정의:
강화학습에서 정책 업데이트 시, 기존 정책과 새로운 정책 간의 변화 폭을 제한하여 학습의 안정성을 높이는 기법. 주로 Proximal Policy Optimization(PPO)에서 사용되며, 확률비율(probability ratio)을 일정 범위 내로 클리핑하여 급격한 정책 변화로 인한 성능 저하를 방지한다.

ㅇ 특징:
– 정책의 변화량을 제한하여 학습의 폭주(divergence)를 방지.
– 안정적인 수렴을 유도하나, 과도한 제한은 학습 속도 저하 가능.
– 구현이 비교적 간단하며 PPO와 결합 시 효과적.

ㅇ 적합한 경우:
– 환경이 불안정하거나 보상 변동성이 큰 경우.
– 정책이 급격히 변하면 성능이 떨어지는 환경.
– 대규모 분산 학습에서 안정성을 우선할 때.

ㅇ 시험 함정:
– Clipping은 Gradient Clipping과 혼동하기 쉬움 (PPO의 Clipping은 정책 확률비율 제한, Gradient Clipping은 기울기 값 자체 제한).
– Clipping 범위(예: 0.2)는 경험적으로 설정되며, 고정된 최적값이 아님.
– Clipping을 사용한다고 항상 성능이 향상되는 것은 아님.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “PPO에서 Clipping은 정책 업데이트 폭을 제한하여 안정성을 높인다.”
X: “Clipping은 모든 강화학습 알고리즘에서 필수적으로 사용된다.”

ㅁ 추가 학습 내용

Clipping은 PPO(Proximal Policy Optimization)에서 손실 함수를 수정하여 정책 업데이트의 폭을 제한하는 안정화 기법이다. 수식은 다음과 같다.
min(r(θ) * A, clip(r(θ), 1-ε, 1+ε) * A)
여기서 r(θ)는 새로운 정책 확률을 기존 정책 확률로 나눈 비율이며, A는 Advantage 값이다. ε는 일반적으로 0.1~0.3 범위에서 설정한다. ε가 너무 작으면 학습이 느려지고, 너무 크면 정책 업데이트의 안정성이 떨어진다.

시험에서는 Clipping이 정책 기반 방법론의 안정화 기법임을 강조한다. Gradient Clipping과는 목적이 다르다. Gradient Clipping은 기울기 폭을 제한하여 폭주를 방지하는 것이고, PPO의 Clipping은 정책 확률 비율의 변화 폭을 제한하여 안정적인 학습을 유도한다.

또한 TRPO(Trust Region Policy Optimization)와 비교하면, TRPO는 KL divergence 제약을 통해 정책 변화 폭을 제한하는 반면, PPO Clipping은 손실 함수 내에서 직접 확률 비율을 제한하는 방식으로 구현되어 계산이 단순하다.

Clipping이 없을 경우, 정책이 한 번의 업데이트에서 크게 변하여 성능이 급격히 나빠지는 정책 붕괴(policy collapse)가 발생할 수 있다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*