트렌드 및 시험 특화: 정책 기법 – Policy Gradient
ㅁ 정책 기법
ㅇ 정의:
강화학습에서 에이전트의 정책(행동 확률 분포)을 직접 최적화하는 방법으로, 가치 함수 대신 정책 파라미터를 경사하강법으로 업데이트하는 기법.
ㅇ 특징:
– 연속적 행동 공간에 적합
– 확률적 정책을 통해 탐험(exploration) 보장
– 정책 파라미터를 직접 업데이트하므로 가치 함수 기반 방법보다 수렴이 안정적일 수 있음
– REINFORCE, Actor-Critic 등 다양한 변형 존재
ㅇ 적합한 경우:
– 행동 공간이 크거나 연속적인 경우
– 정책의 확률적 특성이 중요한 경우
– 가치 함수 추정이 어려운 환경
ㅇ 시험 함정:
– 가치 기반(Value-based) 방법과 혼동 유발 (Q-learning, SARSA 등과 비교)
– 정책 기울기 추정 시 분산이 크다는 점을 간과
– 항상 정책 기법이 가치 기반보다 우월하다고 생각하는 오류
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Policy Gradient는 확률적 정책을 직접 최적화하는 강화학습 기법이다.”
– O: “연속적 행동 공간에서 효과적이다.”
– X: “Policy Gradient는 항상 가치 기반 방법보다 빠르게 수렴한다.”
– X: “정책 기법은 탐험을 전혀 고려하지 않는다.”
1. Policy Gradient
ㅇ 정의:
에이전트의 정책을 파라미터화하고, 기대 보상을 최대화하는 방향으로 정책 파라미터를 경사하강법으로 업데이트하는 강화학습 방법.
ㅇ 특징:
– 정책을 직접 학습하므로 결정론적/확률적 정책 모두 가능
– Monte Carlo 방식(REINFORCE) 또는 Actor-Critic 구조로 구현 가능
– 분산이 커 학습 안정성을 위해 baseline 기법 사용
ㅇ 적합한 경우:
– 로봇 제어, 게임 플레이 등 연속적이고 복잡한 행동 환경
– 정책 확률 분포를 명시적으로 제어해야 하는 경우
ㅇ 시험 함정:
– Gradient Ascent 방향과 Gradient Descent 혼동
– Value Function을 반드시 필요로 한다고 오해
– Deterministic Policy Gradient와 혼동
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Policy Gradient는 정책 파라미터를 직접 업데이트한다.”
– O: “REINFORCE는 Policy Gradient의 한 예시이다.”
– X: “Policy Gradient는 항상 Q-learning보다 샘플 효율이 높다.”
– X: “Policy Gradient는 확률적 정책만 학습할 수 있다.”
ㅁ 추가 학습 내용
Policy Gradient 추가 학습 정리
1. REINFORCE 알고리즘 수식
θ ← θ + α * Gt * ∇θ log πθ(at|st)
여기서 θ는 정책 파라미터, α는 학습률, Gt는 t 시점부터의 누적 보상, ∇θ log πθ(at|st)는 정책의 로그 확률에 대한 파라미터의 기울기이다.
2. Baseline(b) 사용 이유
– 분산 감소: 보상에서 baseline을 빼줌으로써 학습 안정성을 높임
– 학습 안정성 향상: 기대값을 변화시키지 않으면서 업데이트의 변동성을 줄임
3. Actor-Critic 구조
– Actor: 정책(πθ)을 업데이트하는 역할
– Critic: 가치 함수(V(s) 또는 Q(s,a))를 추정하여 Actor의 업데이트를 돕는 역할
4. Deterministic Policy Gradient(DPG)와의 차이점
– Policy Gradient: 확률적 정책에서 기울기를 계산
– DPG: 결정론적 정책에서 기울기를 계산
– DPG는 연속 제어(Continuous control) 문제에서 효율적
5. Advantage Function A(s,a)
– 정의: A(s,a) = Q(s,a) – V(s)
– 사용 이유: 상태-행동의 상대적 가치 평가로 Policy Gradient의 분산을 감소시킴
6. Entropy Regularization
– 정책의 엔트로피를 보상에 추가하여 탐험(exploration)을 유지
– 지나친 정책 수렴으로 인한 탐험 부족을 방지
7. On-policy vs Off-policy 차이
– On-policy: 현재 정책으로 수집한 데이터로만 학습 (기본 Policy Gradient 대부분 해당)
– Off-policy: 다른 정책으로 수집한 데이터로도 학습 가능
– Off-policy 확장은 시험에서 중요한 포인트