알고리즘·논문: 최신 알고리즘 – Offline RL

ㅁ 최신 알고리즘

1. Offline RL

ㅇ 정의:
환경과의 실시간 상호작용 없이, 사전에 수집된 고정된 데이터셋을 기반으로 정책을 학습하는 강화학습 방법.

ㅇ 특징:
– 환경 접근이 불가능하거나 비용이 큰 경우 활용.
– 데이터 분포 밖의 상태-행동 쌍에 대한 추론 시 성능 저하 발생 가능.
– 오프라인 데이터 품질과 다양성이 성능에 직접적인 영향.
– 보수적 정책 학습 기법(CQL, BCQ 등)과 함께 사용되는 경우 많음.

ㅇ 적합한 경우:
– 실제 환경 실험이 위험하거나 불가능한 경우(예: 의료, 자율주행).
– 시뮬레이터 성능이 낮거나 데이터 수집 비용이 높은 경우.
– 과거 로그 데이터를 활용한 정책 개선.

ㅇ 시험 함정:
– ‘Offline RL은 항상 온라인 상호작용을 포함한다’ → X (환경 상호작용 없이 진행)
– ‘Offline RL은 데이터 분포 밖의 행동에 강하다’ → X (오히려 취약)
– ‘Offline RL은 데이터 품질이 낮아도 성능이 유지된다’ → X (품질에 민감)

ㅇ 시험 대비 “패턴 보기” 예시:
– “Offline RL은 고정된 데이터셋을 사용한다” → O
– “Offline RL은 환경과 지속적으로 상호작용하여 정책을 개선한다” → X
– “Offline RL은 데이터 품질과 다양성이 성능에 중요하다” → O

ㅁ 추가 학습 내용

Offline RL에서는 분포 이동(distributional shift) 문제가 발생할 수 있다. 이는 학습 시 사용하는 오프라인 데이터셋의 상태-행동 분포와 실제 정책 실행 시의 분포가 다르기 때문에 생기는 현상이다. 이로 인해 데이터셋에 없는 상태-행동 쌍에 대해 Q-value가 부정확하게, 특히 과대추정되는 문제가 발생할 수 있으며 이를 extrapolation error라고 한다.

이러한 문제를 완화하기 위해 여러 알고리즘이 제안되었다.
보수적 Q-learning(CQL)은 데이터셋에 없는 상태-행동에 대해 Q-value를 낮추는 방식으로 과대추정을 방지한다.
Batch Constrained Q-learning(BCQ)은 정책이 데이터셋에 존재하는 행동 근처에서만 행동을 선택하도록 제한하여 분포 이동을 줄인다.
Behavior Regularized Actor Critic(BRAC)은 학습 정책이 데이터셋의 행동 분포와 크게 벗어나지 않도록 정규화를 적용한다.

오프라인 데이터셋의 구성에 따라 성능 차이가 발생할 수 있다. 전문가 데이터만 사용한 경우와 다양한 품질의 데이터를 혼합한 경우 성능이 다르게 나타난다. 오프라인 RL은 환경과의 상호작용 없이 기존 데이터로 학습하는 반면, imitation learning은 주로 전문가 시연 데이터를 모방하는 데 중점을 둔다.

오프라인 RL의 성능을 직접 환경에서 평가하기 어렵기 때문에 offline policy evaluation(OPE) 기법이 사용된다. 대표적으로 Importance Sampling(IS)은 데이터셋의 분포와 목표 정책의 분포 차이를 보정하는 방법이며, Fitted Q Evaluation(FQE)은 Q함수를 학습하여 정책의 가치를 추정하는 방법이다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*