AI: RLOps 알고리즘/최적화

By - meet
Posted on 2025년 08월 31일
Posted in AI 이론

AI: RLOps 알고리즘/최적화

ㅁ RLOps 알고리즘/최적화

1. Proximal Policy Optimization(PPO)

ㅇ 정의:
– 정책 기반 강화학습 알고리즘으로, 기존 정책과 새로운 정책 간의 변화 폭을 제한하여 안정적인 학습을 유도하는 방법.

ㅇ 특징:
– Clipping 기법을 사용하여 정책 업데이트 폭을 제한
– On-policy 방식으로, 최근 수집한 데이터를 기반으로 학습
– 비교적 구현이 간단하고 안정성이 높음

ㅇ 적합한 경우:
– 환경의 변동성이 크고, 정책 업데이트 시 급격한 성능 변화를 방지해야 하는 경우
– 로봇 제어, 게임 AI 등 연속적 행동 공간에서 안정적 학습이 필요한 경우

ㅇ 시험 함정:
– Off-policy 알고리즘과 혼동하기 쉬움
– Clipping을 사용하는 이유를 단순히 ‘값 제한’으로만 설명하는 경우 오답

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) PPO는 기존 정책과 새로운 정책 간의 변화 폭을 제한하여 학습 안정성을 확보한다.
– (X) PPO는 Off-policy 데이터 재사용을 극대화한다.

1.1 Clipping

ㅇ 정의:
– 정책 확률비율의 변화가 일정 범위를 넘지 않도록 잘라내는 기법

ㅇ 특징:
– 업데이트 크기를 제한하여 학습 안정성 향상
– 수렴 속도는 다소 느려질 수 있으나 성능 변동 폭 감소

ㅇ 적합한 경우:
– 정책이 급격히 변해 환경 적응 실패 가능성이 있는 경우

ㅇ 시험 함정:
– Clipping이 Gradient Exploding 방지를 위한 것이라고 잘못 설명하는 경우

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) Clipping은 정책 확률비율의 변화 폭을 제한하여 급격한 정책 변화를 방지한다.
– (X) Clipping은 학습률을 동적으로 조절하는 기법이다.

2. Experience Replay Buffer

ㅇ 정의:
– 에이전트가 과거에 경험한 상태, 행동, 보상, 다음 상태를 저장해두고 학습 시 무작위로 샘플링하는 메모리 구조

ㅇ 특징:
– 데이터 샘플 간 상관성을 줄여 학습 안정성 향상
– Off-policy 알고리즘에서 주로 사용

ㅇ 적합한 경우:
– 환경 상호작용 비용이 크고, 데이터 효율성을 높여야 하는 경우

ㅇ 시험 함정:
– On-policy 알고리즘에서도 항상 효과적이라고 오해하는 경우

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) Experience Replay Buffer는 과거 경험을 무작위로 샘플링하여 데이터 상관성을 줄인다.
– (X) Experience Replay Buffer는 최신 경험만을 사용하여 학습한다.

3. Target Network

ㅇ 정의:
– Q-learning 계열에서 안정적인 학습을 위해 메인 네트워크와 별도로 일정 주기마다만 갱신되는 네트워크

ㅇ 특징:
– 타깃 값 계산 시 동일 네트워크를 반복 사용하여 발생하는 불안정성 감소
– 주기적 업데이트로 학습 진동 완화

ㅇ 적합한 경우:
– DQN, Double DQN 등에서 Q 값의 안정성을 확보해야 하는 경우

ㅇ 시험 함정:
– Target Network가 매 스텝마다 업데이트된다고 잘못 이해하는 경우

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) Target Network는 일정 주기마다 메인 네트워크의 가중치로 갱신된다.
– (X) Target Network는 매 학습 스텝마다 메인 네트워크와 동일하게 유지된다.

ㅁ 추가 학습 내용

PPO(Proximal Policy Optimization)와 Clipping
– 확률비율 r_t(θ) = π_θ(a_t | s_t) / π_θ_old(a_t | s_t)
– Clipping 범위: [1 – ε, 1 + ε]
– 목적: 정책 업데이트 시 과도한 변화 방지, 안정적인 학습 유도

Experience Replay Buffer와 Prioritized Experience Replay
– 일반 Experience Replay: 과거 경험을 무작위 샘플링하여 학습
– Prioritized Experience Replay: TD 오차(Temporal Difference Error)가 큰 경험에 더 높은 샘플링 확률 부여
– 구현 원리: 우선순위 기반 확률 분포 생성, 중요도 샘플링(IS) 가중치로 편향 보정

Target Network 업데이트 방식
– Hard Update: 일정 주기마다 메인 네트워크 파라미터를 Target Network에 복사
– Soft Update: τ 파라미터 기반으로 매 스텝마다 가중치 일부만 이동
θ_target ← τ θ_main + (1 – τ) θ_target

On-policy와 Off-policy 비교
– On-policy: 현재 정책으로 수집한 데이터만 학습에 사용, 데이터 재사용 불가
예시: SARSA, PPO
– Off-policy: 다른 정책에서 수집한 데이터도 학습에 사용 가능, 데이터 재사용 가능
예시: Q-learning, DQN, DDPG

Meet AI

최신 글

최신 댓글

보관함

카테고리

AI: RLOps 알고리즘/최적화

Previous Article

Next Article

답글 남기기 응답 취소