AI 모델 개발: 강화학습 – PPO

ㅁ 강화학습

ㅇ 정의:
환경과 상호작용하며 보상을 최대화하는 방향으로 정책을 학습하는 머신러닝 기법.

ㅇ 특징:
– 에이전트, 환경, 상태, 행동, 보상으로 구성됨.
– 시뮬레이션 환경에서의 반복 학습이 중요.
– 탐험(Exploration)과 활용(Exploitation)의 균형 필요.

ㅇ 적합한 경우:
– 게임 AI, 로보틱스 제어, 자율 주행, 자원 최적화 문제.

ㅇ 시험 함정:
– 지도학습과 혼동하는 경우.
– 보상 함수 설계가 모델 성능에 미치는 영향 간과.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “강화학습은 보상을 최대화하는 정책을 학습한다.”
X: “강화학습은 정답 레이블이 있는 데이터로 학습한다.”

================================

1. PPO

ㅇ 정의:
Proximal Policy Optimization의 약자로, 정책 경사 기반 강화학습 알고리즘 중 하나로, 정책 업데이트 시 큰 변화가 발생하지 않도록 제한하는 기법.

ㅇ 특징:
– 기존 Policy Gradient의 불안정성을 개선.
– Clipped Objective Function을 사용하여 정책 변화 폭을 제한.
– 샘플 효율성과 안정성이 높음.

ㅇ 적합한 경우:
– 안정적인 정책 업데이트가 필요한 환경.
– 시뮬레이션 환경에서 반복 학습 시 성능 저하 방지가 필요한 경우.

ㅇ 시험 함정:
– TRPO와 혼동: TRPO는 제약 조건 기반, PPO는 클리핑 기반.
– DQN과 같은 가치 기반 알고리즘과 혼동.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “PPO는 정책 변화 폭을 제한하는 클리핑 기법을 사용한다.”
X: “PPO는 가치 기반 학습 알고리즘이다.”

ㅁ 추가 학습 내용

PPO(Proximal Policy Optimization)는 On-policy 알고리즘으로, 일반적으로 Actor-Critic 구조를 사용한다. 기본적으로 정책 업데이트 시 클리핑 방식을 사용하지만, 변형으로 Adaptive KL Penalty 방식을 적용하기도 한다. 주요 하이퍼파라미터로는 clip ratio, learning rate, epoch 수 등이 있으며, 이 값들이 성능에 큰 영향을 미친다. PPO는 TRPO에 비해 구현이 간단하고 계산 효율이 높다. On-policy 특성상 정책 업데이트 시 샘플을 재사용하지 않는다. 또한 PPO는 연속적 행동 공간과 이산적 행동 공간 모두에 적용 가능하다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*