알고리즘·논문: 최신 알고리즘

ㅁ 최신 알고리즘

1. PPO

ㅇ 정의:
Proximal Policy Optimization으로, 정책 기반 강화학습 알고리즘의 한 종류로 정책 업데이트 시 큰 변화가 생기지 않도록 클리핑 기법을 사용하는 방법.

ㅇ 특징:
– Actor-Critic 구조 기반
– 정책 업데이트 시 KL divergence 제약 대신 클리핑 손실 사용
– 안정적 수렴과 비교적 단순한 구현

ㅇ 적합한 경우:
– 연속/이산 행동공간 모두 가능
– 시뮬레이션 환경에서 안정성과 성능을 동시에 요구하는 경우

ㅇ 시험 함정:
– TRPO와 혼동 (TRPO는 KL 제약, PPO는 클리핑)
– PPO가 반드시 수렴 속도가 빠른 것은 아님

ㅇ 시험 대비 “패턴 보기” 예시:
O: “정책 업데이트 시 큰 변화 방지를 위해 클리핑 손실을 사용하는 알고리즘은 PPO이다.”
X: “PPO는 KL divergence 제약을 직접적으로 사용한다.”

2. Soft Actor-Critic (SAC)

ㅇ 정의:
최대 엔트로피 강화학습을 기반으로 한 Off-policy Actor-Critic 알고리즘으로, 정책의 탐색성을 높이기 위해 보상에 엔트로피 항을 추가.

ㅇ 특징:
– Off-policy 학습
– 연속 행동공간에 강점
– 엔트로피 보너스를 통한 탐색-활용 균형
– 자동 온도 조절 기능으로 하이퍼파라미터 튜닝 부담 감소

ㅇ 적합한 경우:
– 연속 제어 문제
– 탐색이 중요한 환경

ㅇ 시험 함정:
– DDPG와 혼동 (SAC는 엔트로피 항 포함)
– On-policy 알고리즘으로 착각

ㅇ 시험 대비 “패턴 보기” 예시:
O: “SAC는 보상함수에 엔트로피 항을 추가하여 탐색성을 높인다.”
X: “SAC는 On-policy 알고리즘이다.”

3. Offline RL

ㅇ 정의:
환경과의 상호작용 없이, 사전에 수집된 고정된 데이터셋으로만 정책을 학습하는 강화학습 방법.

ㅇ 특징:
– 데이터 효율성 높음
– 분포 이동 문제(Distributional Shift) 발생 가능
– 안전성이 중요한 분야에 적합

ㅇ 적합한 경우:
– 실제 환경 상호작용이 위험하거나 비용이 큰 경우
– 의료, 자율주행 등 안전 필수 분야

ㅇ 시험 함정:
– Off-policy와 동일시 (Offline RL은 환경 상호작용이 전혀 없음)
– 데이터 품질이 학습 성능에 미치는 영향 간과

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Offline RL은 환경과의 추가 상호작용 없이 기존 데이터로만 학습한다.”
X: “Offline RL은 학습 중 새로운 데이터를 수집할 수 있다.”

4. Multi-Agent RL

ㅇ 정의:
여러 개의 에이전트가 동일하거나 다른 환경에서 상호작용하며 학습하는 강화학습 방법.

ㅇ 특징:
– 협력, 경쟁, 혼합 시나리오 가능
– 환경이 비정상(non-stationary)으로 변함
– Credit assignment 문제가 발생 가능

ㅇ 적합한 경우:
– 분산 제어 시스템
– 게임 AI, 로봇 협력 작업

ㅇ 시험 함정:
– 단일 에이전트 환경과 동일하게 취급
– 학습 안정성 확보의 어려움 간과

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Multi-Agent RL에서는 다른 에이전트의 정책 변화로 환경이 비정상적이 될 수 있다.”
X: “Multi-Agent RL 환경은 항상 stationary하다.”

ㅁ 추가 학습 내용

학습 정리

1. PPO(Proximal Policy Optimization)
– 클리핑 기법 외에도 Advantage Normalization을 통해 학습 안정성 향상
– 미니배치 SGD를 사용하여 샘플 효율성 및 성능 향상
– 시험에서는 클리핑 외의 성능 개선 요소를 물을 수 있음

2. SAC(Soft Actor-Critic)
– Q-value 추정 시 두 개의 Q 네트워크를 사용하여 overestimation 방지(Double Q-learning과 유사한 원리)
– 안정적인 학습과 높은 성능을 위한 핵심 설계 포인트

3. Offline RL(오프라인 강화학습)
– 분포 이동(distribution shift) 문제 완화 기법 중요
– Behavior Cloning(행동 복제)
– Conservative Q-Learning(CQL)
– 데이터셋 기반 학습 시 정책과 데이터 분포 차이를 줄이는 전략

4. Multi-Agent RL
– Centralized Training with Decentralized Execution(CTDE) 구조: 학습 시에는 모든 에이전트 정보 사용, 실행 시에는 개별 관측만 사용
– 협력형 알고리즘: MADDPG, QMIX 등
– 경쟁형 알고리즘: 개별 보상 및 상충 관계 처리
– 협력형 vs 경쟁형의 차이와 적용 사례 이해 필요

5. 개념 구분 주의
– On-policy vs Off-policy: 데이터 수집 정책과 학습 정책의 동일 여부
– Online vs Offline: 환경과의 상호작용 여부
– Single-Agent vs Multi-Agent: 에이전트 수와 상호작용 구조
– 시험에서 혼동 유도 문제 가능성이 높으므로 비교표 형태로 정리

시험 대비 체크리스트

[ ] PPO의 성능 향상 요소: 클리핑, Advantage Normalization, 미니배치 SGD
[ ] SAC의 Double Q 네트워크 사용 이유와 효과
[ ] Offline RL의 대표 기법: Behavior Cloning, CQL 원리와 목적
[ ] Distribution shift의 정의와 문제점
[ ] Multi-Agent RL의 CTDE 구조 이해
[ ] 협력형 알고리즘(MADDPG, QMIX) 특징과 적용 분야
[ ] 경쟁형 알고리즘 특징과 사례
[ ] On-policy / Off-policy 차이 명확히 구분
[ ] Online / Offline 학습 차이 명확히 구분
[ ] Single-Agent / Multi-Agent 차이 명확히 구분
[ ] 개념 비교표를 스스로 작성하여 암기

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*