최신 알고리즘: Soft Actor-Critic (SAC)
ㅁ 최신 알고리즘
ㅇ 정의: 강화학습의 최신 알고리즘으로, 정책 학습과 가치 학습을 동시에 수행하여 안정적이고 효율적인 학습을 목표로 함.
ㅇ 특징: 학습 안정성과 샘플 효율성을 개선하며, 최대 엔트로피 원칙을 사용해 정책의 탐색 능력을 극대화함.
ㅇ 적합한 경우: 복잡한 환경에서 안정적이고 효율적인 학습이 필요한 경우, 연속적인 상태와 행동 공간을 다루는 문제.
ㅇ 시험 함정: SAC의 주요 개념인 최대 엔트로피 원칙을 놓치거나, 정책과 가치 학습의 병렬적 수행을 혼동하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
1) Soft Actor-Critic (SAC)
ㅇ 정의: 최대 엔트로피 원칙을 기반으로 한 강화학습 알고리즘으로, 정책과 가치 함수를 동시에 학습하여 안정적인 성능을 제공.
ㅇ 특징: 샘플 효율성이 높고, 탐색 능력을 강화하며, 연속적인 행동 공간에서 효과적임.
ㅇ 적합한 경우: 복잡하고 연속적인 환경에서 정책의 탐색 능력을 극대화해야 할 때.
ㅇ 시험 함정: SAC의 목표를 단순히 정책 최적화로만 이해하거나, 엔트로피 보상의 역할을 무시하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
1.1 최대 엔트로피 원칙
ㅇ 정의: 정책이 행동을 선택할 때 불확실성을 최대화하여 탐색 능력을 증가시키는 원칙.
ㅇ 특징: 행동의 다양성을 높이며, 정책이 특정 행동에 과도하게 치우치지 않도록 함.
ㅇ 적합한 경우: 초기 학습 단계에서 탐색이 중요한 문제.
ㅇ 시험 함정: 엔트로피 보상이 정책 최적화와 상충한다고 오해하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: 최대 엔트로피 원칙은 정책의 탐색 능력을 강화한다.
– X: 최대 엔트로피 원칙은 정책의 안정성을 감소시킨다.
1.2 정책과 가치 학습의 병렬 수행
ㅇ 정의: 정책 함수와 가치 함수를 동시에 학습하여 상호 보완적으로 성능을 개선하는 방법.
ㅇ 특징: 학습 속도를 높이고, 정책과 가치 평가의 불일치를 줄임.
ㅇ 적합한 경우: 빠른 학습이 필요하거나 복잡한 환경에서 성능을 최적화해야 할 때.
ㅇ 시험 함정: 정책과 가치 학습이 독립적으로 이루어진다고 오해하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: SAC는 정책과 가치 학습을 동시에 수행한다.
– X: SAC는 정책 학습 후 가치 학습을 수행한다.
ㅁ 추가 학습 내용
SAC 알고리즘의 주요 구성 요소 중 하나인 ‘온정책 학습’과 ‘오프정책 학습’의 차이점과 장단점을 다음과 같이 정리할 수 있습니다.
1. 온정책 학습(On-Policy Learning):
– 정의: 현재 정책에서 생성된 데이터를 사용하여 정책을 업데이트하는 방식.
– 특징: 정책이 업데이트되면 이전에 수집된 데이터는 더 이상 유효하지 않으며, 새로운 데이터를 수집해야 함.
– 장점:
– 정책에 맞춘 데이터로 학습하므로 안정적이고 수렴 속도가 빠른 경우가 많음.
– 특정 환경에서 높은 성능을 보이는 경우가 있음.
– 단점:
– 데이터 효율성이 낮음. 매번 새로운 데이터를 수집해야 하므로 많은 환경 상호작용이 필요.
– 계산 비용이 높아질 수 있음.
– 예시 알고리즘: PPO(Proximal Policy Optimization)
2. 오프정책 학습(Off-Policy Learning):
– 정의: 이전에 수집된 데이터(리플레이 버퍼)를 사용하여 정책을 업데이트하는 방식.
– 특징: 정책이 업데이트되더라도 기존 데이터를 계속 사용할 수 있음.
– 장점:
– 데이터 효율성이 높음. 동일한 데이터를 여러 번 재사용 가능.
– 다양한 데이터 소스를 활용할 수 있어 더 넓은 탐색이 가능.
– 단점:
– 학습이 불안정할 수 있으며, 정책과 데이터 간의 불일치 문제(배치 편향)가 발생할 수 있음.
– 예시 알고리즘: SAC(Soft Actor-Critic), TD3(Twin Delayed Deep Deterministic Policy Gradient)
SAC 알고리즘은 오프정책 학습을 활용하여 데이터 효율성을 극대화하고 안정적인 학습을 가능하게 합니다.
다른 최신 알고리즘과의 차이점 및 적용 사례는 다음과 같습니다.
1. PPO와의 차이점:
– PPO는 온정책 학습 알고리즘으로, 정책의 안정성을 보장하기 위해 클리핑 기법을 사용하여 업데이트 크기를 제한함.
– SAC는 오프정책 학습 알고리즘으로, 엔트로피 보너스를 통해 더욱 탐색적인 행동을 유도하며, 데이터 효율성을 높임.
– 적용 사례:
– PPO는 로봇 제어와 같이 안정성이 중요한 환경에서 주로 사용됨.
– SAC는 연속적인 행동 공간을 가진 환경에서 높은 성능을 발휘하며, 자율주행이나 로봇 팔 제어와 같은 복잡한 문제에 적합.
2. TD3와의 차이점:
– TD3는 오프정책 학습 알고리즘으로, DDPG(Deep Deterministic Policy Gradient)의 단점을 보완하기 위해 정책 지연 업데이트와 노이즈 추가를 사용함.
– SAC는 TD3와 유사하게 오프정책 학습을 사용하지만, 확률적 정책을 채택하여 더 넓은 탐색을 가능하게 하고, 엔트로피 보너스를 통해 학습 안정성을 추가적으로 강화함.
– 적용 사례:
– TD3는 연속적인 행동 공간을 가진 환경에서 높은 샘플 효율성과 정밀한 제어를 요구하는 문제에 적합.
– SAC는 TD3보다 더 복잡한 환경에서 안정적으로 작동하며, 다양한 초기 조건에서도 강건한 성능을 보임.
SAC는 엔트로피 보너스를 통해 탐색과 학습의 균형을 잘 맞추는 점에서 다른 알고리즘과 차별화되며, 연속적이고 복잡한 환경에서 특히 유리합니다.