트렌드 및 시험 특화: 정책 기법
ㅁ 정책 기법
1. Policy Gradient
ㅇ 정의:
– 강화학습에서 정책 함수를 직접 파라미터화하여, 보상 신호를 통해 정책 파라미터를 최적화하는 방법.
– 행동 선택 확률을 미분 가능하게 하여 경사 상승법으로 학습.
ㅇ 특징:
– 연속적 행동 공간에서도 적용 가능.
– 정책을 직접 학습하므로 탐색과 수렴이 빠를 수 있음.
– 고분산 문제 발생 가능.
ㅇ 적합한 경우:
– 행동이 연속적이거나, 명시적 정책 모델이 필요한 경우.
– 가치 함수로 표현하기 어려운 복잡한 정책 구조.
ㅇ 시험 함정:
– Q-learning과 혼동 유발.
– ‘정책 평가 후 개선’ 절차 없이 바로 정책을 갱신하는 점을 놓치기 쉬움.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “행동 확률을 직접 최적화하는 강화학습 기법이다.”
– X: “정책 기울기 방법은 항상 가치 함수를 사용해야 한다.”
1.1 REINFORCE
ㅇ 정의:
– 에피소드 전체의 보상 합을 이용해 정책 파라미터를 업데이트하는 대표적인 정책 기울기 알고리즘.
ㅇ 특징:
– 구현이 간단하나, 고분산으로 인해 학습 안정성이 낮을 수 있음.
ㅇ 적합한 경우:
– 작은 문제나 개념 증명용.
ㅇ 시험 함정:
– 온라인 업데이트로 오해.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “에피소드 종료 후 누적 보상으로 파라미터를 갱신한다.”
– X: “REINFORCE는 매 스텝마다 즉시 업데이트한다.”
================
2. Value Iteration
ㅇ 정의:
– 벨만 최적 방정식을 반복적으로 적용하여 최적 가치 함수를 근사하는 동적 계획법 기법.
ㅇ 특징:
– 정책과 가치 함수를 동시에 개선.
– 수렴 시 최적 정책 도출 가능.
ㅇ 적합한 경우:
– 환경 모델이 완전하게 주어져 있고, 상태/행동 공간이 작을 때.
ㅇ 시험 함정:
– Policy Iteration과 혼동.
– 가치 함수와 정책이 분리된 단계로 업데이트된다고 착각.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “벨만 최적 방정식을 반복 적용하여 최적 정책을 찾는다.”
– X: “Value Iteration은 정책을 먼저 고정한 후 가치 함수를 계산한다.”
================
3. Actor-Critic
ㅇ 정의:
– 정책 기반 방법(Actor)과 가치 기반 방법(Critic)을 결합하여 정책과 가치 함수를 동시에 학습하는 강화학습 구조.
ㅇ 특징:
– Actor는 정책을, Critic은 가치 함수를 학습.
– 정책 기울기의 분산을 줄이고 학습 안정성을 높임.
ㅇ 적합한 경우:
– 대규모 상태/행동 공간, 온라인 학습 환경.
ㅇ 시험 함정:
– Actor와 Critic의 역할 혼동.
– Critic이 정책을 직접 업데이트한다고 오해.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “정책과 가치 함수를 동시에 학습하여 안정성을 높인다.”
– X: “Actor-Critic은 가치 함수를 사용하지 않는다.”
ㅁ 추가 학습 내용
Policy Gradient
– Baseline 기법을 사용하여 분산을 줄이는 방법 학습 (예: Advantage Function)
– Entropy regularization을 통한 탐색 유지 전략 이해
Value Iteration
– 수렴 조건 숙지
– 할인율(γ)의 영향 이해
– Value Iteration과 Policy Iteration의 시간 복잡도 비교
Actor-Critic
– On-policy와 Off-policy 변형 이해 (A3C, DDPG, PPO 등)
– 각 변형의 장단점과 적용 사례 학습
공통 학습 요소 (세 기법 모두 해당)
– 벨만 방정식
– 마르코프 결정 과정(MDP) 기본 정의
– 수렴성 보장 조건