강화학습: Soft Actor-Critic
ㅁ 강화학습
ㅇ 정의:
강화학습은 에이전트가 환경과 상호작용하며 보상을 최대화하기 위한 행동을 학습하는 기계 학습 방법론이다.
ㅇ 특징:
– 환경과의 상호작용을 통해 데이터를 생성한다.
– 보상 신호를 기반으로 학습하며 명시적인 지도 데이터가 필요하지 않다.
– 탐색과 활용의 균형을 맞추는 것이 중요하다.
ㅇ 적합한 경우:
– 명확한 보상 체계가 존재하는 문제.
– 시뮬레이션 환경에서 에이전트의 학습을 반복적으로 수행할 수 있는 경우.
ㅇ 시험 함정:
– 강화학습과 지도학습의 차이를 명확히 이해하지 못하는 경우.
– 탐색과 활용의 균형을 설명하지 못하거나 관련 개념을 혼동하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: 강화학습은 명시적인 라벨이 없는 환경에서 보상 신호를 기반으로 학습한다.
– X: 강화학습은 항상 지도 데이터가 필요하다.
================================
1. Soft Actor-Critic
ㅇ 정의:
Soft Actor-Critic(SAC)은 최대 엔트로피 강화학습 기법 중 하나로, 정책의 확률적 특성을 고려하여 탐색 능력을 강화하고 안정적인 학습을 도모하는 알고리즘이다.
ㅇ 특징:
– 정책과 가치 함수를 동시에 학습한다.
– 최대 엔트로피 원칙을 적용하여 탐색성을 극대화한다.
– 샘플 효율성이 높고 안정적인 수렴을 보인다.
ㅇ 적합한 경우:
– 고차원 연속적 행동 공간을 가진 문제.
– 샘플 효율성이 중요한 환경.
ㅇ 시험 함정:
– SAC와 DDPG, PPO와의 차이점을 정확히 이해하지 못하는 경우.
– 최대 엔트로피 원칙의 목적을 혼동하거나 잘못 설명하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: Soft Actor-Critic은 최대 엔트로피 원칙을 기반으로 샘플 효율성과 탐색 능력을 강화한다.
– X: Soft Actor-Critic은 결정론적 정책만을 학습한다.
ㅁ 추가 학습 내용
Soft Actor-Critic(SAC)과 관련하여 추가적으로 알아야 할 중요한 개념은 다음과 같이 정리할 수 있습니다.
첫째, SAC에서 사용하는 ‘온정책(On-policy)’과 ‘오프정책(Off-policy)’의 차이점:
– 온정책은 현재 학습 중인 정책을 사용하여 데이터를 수집하고 업데이트하는 방식입니다. 즉, 정책이 변경되면 새롭게 수집된 데이터만을 사용합니다. 대표적인 예로 PPO가 있습니다.
– 오프정책은 과거에 수집된 데이터를 재사용하여 학습할 수 있는 방식입니다. SAC와 DDPG는 오프정책 알고리즘으로, 리플레이 버퍼를 활용하여 효율적으로 데이터를 사용합니다. 오프정책은 데이터 효율성이 높고 안정적인 학습이 가능하다는 장점이 있습니다.
둘째, SAC의 손실 함수 설계와 관련된 수학적 표현 및 직관적 해석:
– SAC는 최대 엔트로피 강화 학습(Maximum Entropy Reinforcement Learning)을 기반으로 하며, 정책의 엔트로피를 포함한 손실 함수를 사용합니다. 엔트로피를 포함함으로써 정책이 더 탐색적인 행동을 하도록 유도하고, 학습 안정성을 높이는 데 기여합니다.
– SAC의 손실 함수는 크게 두 부분으로 나뉩니다: Q-값을 학습하기 위한 손실 함수와 정책을 업데이트하기 위한 손실 함수. Q-값 손실은 TD 타겟을 기반으로 하며, 정책 손실은 엔트로피 항을 포함하여 행동의 다양성을 유지합니다.
– 이를 직관적으로 해석하면 SAC는 단순히 높은 보상을 얻는 것뿐만 아니라, 다양한 행동을 탐색하며 장기적으로 더 나은 정책을 학습하려는 의도가 반영된 알고리즘입니다.
셋째, SAC와 유사한 알고리즘인 DDPG 및 PPO와의 비교:
– SAC와 DDPG:
– DDPG는 오프정책 알고리즘으로 SAC와 유사하지만, 엔트로피 항을 포함하지 않으므로 탐색 능력이 제한적일 수 있습니다.
– SAC는 DDPG에 비해 더 안정적이고 효율적인 학습을 제공하며, 특히 고차원 상태-행동 공간에서 더 뛰어난 성능을 보이는 경향이 있습니다.
– SAC와 PPO:
– PPO는 온정책 알고리즘으로, 학습 과정에서 새롭게 수집된 데이터만을 사용하며, 정책 업데이트 시 클리핑 기법을 활용하여 안정성을 확보합니다.
– SAC는 오프정책 기반으로 리플레이 버퍼를 사용하며, 탐색 능력을 강화하기 위해 엔트로피를 포함합니다.
– PPO는 간단하고 구현이 쉬운 반면, SAC는 더 높은 데이터 효율성과 안정성을 제공합니다.
이러한 내용을 정리하여 SAC의 주요 개념을 명확히 이해하고, 관련 알고리즘과의 비교를 통해 장단점을 파악하면 시험 대비에 효과적입니다.