알고리즘·논문: 최신 알고리즘 – Soft Actor-Critic (SAC)
ㅁ 최신 알고리즘
ㅇ 정의:
최대 엔트로피 강화학습(Maximum Entropy Reinforcement Learning) 기반의 오프폴리시(Off-policy) 심층 강화학습 알고리즘으로, 정책의 탐색 효율성과 안정성을 동시에 확보하기 위해 설계된 방법. Actor-Critic 구조를 사용하며, 정책의 확률 분포 엔트로피를 최대화하여 탐색을 장려함.
ㅇ 특징:
– Off-policy 방식으로 과거 경험 재사용이 가능해 sample efficiency가 높음.
– 최대 엔트로피 원리를 적용해 탐색과 수렴 안정성을 동시에 확보.
– Actor(정책 네트워크)와 Critic(Q-value 네트워크) 외에 온도 파라미터(temperature parameter)를 자동 조정하는 메커니즘 포함.
– 연속형 액션 공간에 특히 적합하며, 스토캐스틱 정책을 유지.
ㅇ 적합한 경우:
– 연속적인 제어 문제(로봇 제어, 자율주행 등)에서 안정적 학습이 필요한 경우.
– 환경의 보상 신호가 희소하거나 불확실성이 큰 경우.
– 탐색과 활용의 균형이 중요한 상황.
ㅇ 시험 함정:
– SAC는 On-policy 알고리즘으로 분류하는 오류(O)
– SAC는 deterministic policy를 사용한다고 설명하는 오류(O)
– SAC의 엔트로피 항은 항상 고정된 상수라는 진술(O)
– SAC는 discrete action space에서만 사용 가능하다는 설명(O)
ㅇ 시험 대비 “패턴 보기” 예시:
– “SAC는 최대 엔트로피 강화학습을 기반으로 하여 탐색을 장려한다.” (O)
– “SAC는 경험 재사용이 불가능하다.” (X)
– “SAC는 온도 파라미터를 자동 조정할 수 있다.” (O)
– “SAC는 연속형 제어 문제에 적합하다.” (O)
– “SAC는 deterministic policy만 지원한다.” (X)
================================
1. Soft Actor-Critic (SAC)
ㅇ 정의:
최대 엔트로피 강화학습 프레임워크를 적용한 Off-policy Actor-Critic 알고리즘으로, 정책의 엔트로피를 보상에 포함시켜 탐색성을 높이고 학습의 안정성을 강화한 기법.
ㅇ 특징:
– Actor: 확률적 정책을 출력하는 신경망.
– Critic: 상태-행동 가치함수(Q-function)를 근사.
– 온도 파라미터 α를 자동 조정하여 탐색과 활용의 균형 유지.
– Replay buffer를 통한 샘플 효율성 향상.
ㅇ 적합한 경우:
– 연속형 액션 공간 문제.
– 로봇 제어, 시뮬레이션 기반 제어 문제.
– 안정적 학습과 높은 성능이 동시에 필요한 경우.
ㅇ 시험 함정:
– SAC는 On-policy 알고리즘이다 (X)
– SAC는 엔트로피 항을 사용하지 않는다 (X)
– SAC는 discrete action space에서만 사용 가능하다 (X)
– SAC는 경험 재사용이 불가능하다 (X)
ㅇ 시험 대비 “패턴 보기” 예시:
– “SAC는 최대 엔트로피 원리를 적용하여 탐색을 장려한다.” (O)
– “SAC는 온도 파라미터를 자동 조정할 수 있다.” (O)
– “SAC는 deterministic policy를 사용한다.” (X)
– “SAC는 Off-policy 알고리즘이다.” (O)
– “SAC는 연속형 제어 문제에 적합하다.” (O)
ㅁ 추가 학습 내용
SAC(Soft Actor-Critic)의 핵심은 최대 엔트로피 강화학습을 기반으로 하여, 보상 함수에 엔트로피 항을 추가함으로써 정책의 확률 분포를 넓게 퍼지게 하고 탐색성을 강화하는 것이다.
온도 파라미터 α는 고정값이 아니라 학습 과정에서 자동으로 조정될 수 있으며, Off-policy 방식이므로 replay buffer를 사용하여 과거 경험을 재활용한다.
SAC는 연속형 액션 공간에 특화되어 있지만, 이론적으로는 이산형 액션 공간에도 변형 적용이 가능하다는 점이 출제 포인트가 될 수 있다.
Actor-Critic 구조에서 Actor는 확률적 정책을 담당하고, Critic은 Q-value를 근사한다.
또한 두 개의 Critic 네트워크를 사용하여 overestimation bias를 줄이는 Double Q-learning 기법을 포함한다.