AI: RLOps 알고리즘/최적화 – Proximal Policy Optimization(PPO)
ㅁ RLOps 알고리즘/최적화
ㅇ 정의:
Proximal Policy Optimization(PPO)는 정책 경사 기반 강화학습 알고리즘으로, 기존의 Trust Region Policy Optimization(TRPO)의 복잡한 제약 조건을 단순화하여 안정적이고 효율적인 정책 업데이트를 가능하게 하는 방법.
ㅇ 특징:
– 정책 업데이트 시 클리핑(clipping) 기법을 사용하여 정책 변화 폭을 제한함.
– 샘플 효율성과 안정성을 동시에 확보.
– 구현이 비교적 간단하고 다양한 환경에서 좋은 성능을 보임.
– 연속적/이산적 액션 공간 모두 적용 가능.
ㅇ 적합한 경우:
– 환경과 상호작용 비용이 높아 샘플 효율성이 중요한 경우.
– 안정적인 학습이 필요한 복잡한 시뮬레이션 환경.
– 하이퍼파라미터 튜닝에 많은 시간을 들이기 어려운 프로젝트.
ㅇ 시험 함정:
– PPO는 value-based 알고리즘이 아니라 actor-critic 구조를 사용하는 policy-based 알고리즘임.
– TRPO와 달리 수치 최적화에서 제약 조건을 직접 풀지 않음.
– 클리핑 기법은 overfitting 방지가 아닌 정책 변화 제한 목적임.
ㅇ 시험 대비 “패턴 보기” 예시:
O: PPO는 정책 업데이트 시 클리핑을 사용하여 안정성을 높인다.
X: PPO는 Q-learning 기반의 가치 함수 업데이트만을 사용한다.
X: PPO는 TRPO보다 구현이 복잡하다.
ㅁ 추가 학습 내용
PPO(Proximal Policy Optimization)는 기본적으로 Actor-Critic 구조를 사용하며, Advantage 함수 추정 시 GAE(Generalized Advantage Estimation)를 자주 활용한다.
클리핑 방식 외에도 adaptive KL penalty를 적용하는 변형 버전이 존재한다.
데이터 효율성을 높이기 위해 미니배치 학습과 여러 epoch 반복 학습 방식을 사용한다.
PPO의 주요 하이퍼파라미터로는 clip ratio, learning rate, epoch 수, batch size 등이 있으며, 이 값들이 성능에 큰 영향을 미친다.
연속형 액션 환경에서는 Gaussian policy를, 이산형 액션 환경에서는 categorical policy를 주로 사용한다.