트렌드 및 시험 특화: 정책 기법
ㅁ 정책 기법
1. Policy Gradient
ㅇ 정의:
– 강화학습에서 정책을 직접 매개변수화하여, 보상을 최대화하는 방향으로 정책 파라미터를 업데이트하는 기법.
ㅇ 특징:
– 확률적 정책을 사용하여 연속적 행동 공간에서도 적용 가능.
– 정책 자체를 최적화하므로 탐색과 수렴이 빠를 수 있음.
– 고차원 상태·행동 공간에서도 유연하게 적용 가능.
ㅇ 적합한 경우:
– 행동 공간이 연속적이거나 큰 경우.
– 명시적 가치 함수 추정이 어려운 경우.
ㅇ 시험 함정:
– Value-based 방법과 혼동 유발.
– Q-learning과 비교 시, 정책 직접 최적화 여부를 구분 못하게 함.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “행동 확률을 직접 조정하는 강화학습 기법이다.”
– X: “가치 함수를 반드시 계산해야 하는 방법이다.”
2. Value Iteration
ㅇ 정의:
– 동적계획법(DP) 기반으로, 벨만 최적 방정식을 반복적으로 적용하여 최적 가치 함수를 구하고, 이를 통해 최적 정책을 도출하는 방법.
ㅇ 특징:
– 수렴이 보장되며, 이론적으로 최적 정책을 찾을 수 있음.
– 상태와 행동 공간이 작을 때 효과적.
ㅇ 적합한 경우:
– 환경 모델(전이 확률, 보상)이 명확히 주어진 경우.
– 상태·행동 공간이 유한하고 크지 않은 경우.
ㅇ 시험 함정:
– Policy Iteration과의 순서 차이(정책 평가 → 정책 개선 vs 가치 반복)를 혼동.
– 모델 기반 vs 모델 프리 구분을 묻는 문제.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “벨만 방정식을 반복 적용하여 최적 정책을 찾는다.”
– X: “환경 모델 없이 샘플만으로 최적 정책을 찾는다.”
3. Actor-Critic
ㅇ 정의:
– 정책 기반(Actor)과 가치 기반(Critic)을 결합한 강화학습 알고리즘.
ㅇ 특징:
– Actor는 정책을 업데이트하고, Critic은 가치 함수를 추정하여 Actor의 학습을 돕는다.
– Policy Gradient의 높은 분산 문제를 완화.
ㅇ 적합한 경우:
– 연속적·고차원 행동 공간.
– 정책과 가치 함수의 장점을 모두 활용하고자 할 때.
ㅇ 시험 함정:
– Actor와 Critic의 역할을 뒤바꿔 묻는 문제.
– 단순히 두 개의 네트워크 사용 여부로만 설명하는 오류 유도.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “정책과 가치 함수를 동시에 학습하는 방법이다.”
– X: “정책만 학습하며 가치 함수는 사용하지 않는다.”
ㅁ 추가 학습 내용
학습 정리
1. Policy Gradient 주요 변형 알고리즘
– REINFORCE: 기본적인 Monte Carlo 기반 Policy Gradient 알고리즘. 에피소드 전체의 리턴을 이용해 정책 파라미터를 업데이트.
– Advantage Actor-Critic(A2C): Actor와 Critic을 함께 사용하여 Advantage 함수로 분산을 줄이고 학습 안정성 향상.
– Proximal Policy Optimization(PPO): 정책 업데이트 시 KL divergence 제약 또는 clipping 기법을 사용해 안정적 학습을 유도.
2. Value Iteration vs Policy Iteration
– 계산 순서:
Value Iteration: 가치 함수 갱신과 정책 개선을 동시에 수행.
Policy Iteration: 정책 평가(가치 함수 수렴) 후 정책 개선을 반복.
– 수렴 속도: Value Iteration은 빠르게 근사치에 도달하지만 최적정책 수렴은 Policy Iteration이 더 안정적일 수 있음.
– 환경 모델 필요성: 두 방법 모두 상태 전이 확률과 보상 함수(환경 모델)가 필요.
3. Actor-Critic 관련 개념
– On-policy: 현재 정책으로 수집한 데이터를 이용해 같은 정책을 업데이트.
– Off-policy: 다른 정책(행동 정책)으로 수집한 데이터를 목표 정책 업데이트에 활용.
– TD 학습 결합: Critic이 TD 오차를 이용해 가치 함수 학습, Actor는 Critic의 평가를 바탕으로 정책 업데이트.
– Advantage 함수: A(s,a) = Q(s,a) – V(s), 특정 행동이 평균 대비 얼마나 좋은지 나타내어 학습 분산 감소.
4. 모델 기반(Model-based) vs 모델 프리(Model-free)
– 모델 기반: 환경의 동적 모델(전이 확률, 보상 함수)을 알고 이를 활용해 계획(planning) 수행.
– 모델 프리: 환경 모델 없이 경험 데이터로 직접 정책 또는 가치 함수 학습.
– 각 기법의 범주:
REINFORCE, A2C, PPO: 모델 프리
Value Iteration, Policy Iteration: 모델 기반
시험 대비 체크리스트
[ ] REINFORCE, A2C, PPO의 특징과 차이점 설명 가능
[ ] Value Iteration과 Policy Iteration의 계산 순서 차이 암기
[ ] 두 방법의 수렴 속도 비교 가능
[ ] 환경 모델이 필요한 이유 설명 가능
[ ] On-policy와 Off-policy 차이 명확히 구분
[ ] Actor-Critic 구조와 TD 학습 결합 방식 이해
[ ] Advantage 함수 정의와 역할 숙지
[ ] 모델 기반과 모델 프리의 차이 구분
[ ] 각 알고리즘이 모델 기반인지 모델 프리인지 분류 가능