트렌드 및 시험 특화: 정책 기법 – Actor-Critic
ㅁ 정책 기법
ㅇ 정의:
강화학습에서 정책 기반 방법(Actor)과 가치 기반 방법(Critic)을 결합한 알고리즘 계열로, Actor는 행동을 선택하는 정책을 학습하고, Critic은 해당 정책의 가치를 평가하여 Actor의 학습을 돕는다.
ㅇ 특징:
– 정책과 가치 함수를 동시에 학습하여 안정성과 수렴 속도를 높인다.
– Actor는 확률적 정책을 업데이트하고, Critic은 TD오차(Temporal Difference Error)를 기반으로 평가한다.
– 연속적 행동 공간에서도 적용 가능하다.
– 단일 구조보다 계산량은 늘어나지만 학습 효율이 향상된다.
ㅇ 적합한 경우:
– 상태와 행동 공간이 크거나 연속적인 문제.
– 정책 탐색과 가치 평가를 동시에 수행하여 학습 안정성이 중요한 경우.
– 로봇 제어, 게임 AI, 자율주행 등 실시간 의사결정 문제.
ㅇ 시험 함정:
– Actor와 Critic을 혼동하거나, Actor가 가치 함수를 학습한다고 오답 유도.
– Q-learning, SARSA 등 가치 기반 방법과 혼동.
– 정책 기반 방법이 항상 불안정하다는 일반화된 오해.
ㅇ 시험 대비 “패턴 보기” 예시:
– (O) Actor는 정책을, Critic은 가치 함수를 학습한다.
– (X) Actor는 TD오차를 직접 업데이트한다.
– (O) Actor-Critic은 정책 기반과 가치 기반 방법의 장점을 결합한다.
– (X) Actor-Critic은 연속적 행동 공간에는 적용할 수 없다.
ㅁ 추가 학습 내용
Actor-Critic 구조의 변형 알고리즘에는 A3C, A2C, DDPG, PPO 등이 있으며, 각 알고리즘은 병렬 학습 방식, 업데이트 방식, 연속 행동 공간 처리 방법, 정책 안정화 기법 등에서 차이가 있다.
A2C에서 Advantage 함수는 특정 상태에서 특정 행동을 선택했을 때, 평균적인 가치 대비 얼마나 더 좋은지 또는 나쁜지를 나타내는 값이다. 이는 TD오차와 밀접한 관련이 있으며, TD오차는 실제 보상과 예측 가치의 차이를 나타내고 Advantage는 이를 상태-행동 기준으로 조정한 개념이다.
Critic의 학습 안정성을 높이기 위해 타깃 네트워크를 사용하며, 이는 가치 추정의 변동성을 줄이고 학습을 안정화한다. Actor의 탐색성을 높이기 위해 엔트로피 보너스를 적용하여 정책이 한 행동에 과도하게 집중되지 않도록 한다.
Actor-Critic의 수식적 업데이트 규칙에는 정책 그래디언트를 이용한 Actor의 파라미터 업데이트와 가치 함수 손실을 최소화하는 Critic의 파라미터 업데이트가 포함된다. 이러한 수식을 이해하면 계산형 문제에도 대비할 수 있다.