AI: RLOps 알고리즘/최적화 – Target Network
ㅁ RLOps 알고리즘/최적화
ㅇ 정의:
강화학습에서 Q-러닝 계열 알고리즘의 학습 안정성을 높이기 위해, 학습 중인 네트워크와 별도로 일정 주기마다만 갱신되는 고정된 네트워크를 두는 기법.
ㅇ 특징:
– 메인 네트워크의 가중치 변동에 따른 Q값 진동을 완화.
– 일정 스텝마다 메인 네트워크의 가중치를 복사하여 타깃 네트워크를 업데이트.
– DQN(Deep Q-Network)에서 대표적으로 사용.
ㅇ 적합한 경우:
– 환경의 상태-보상 분포가 불안정한 경우.
– Q값 추정의 발산을 방지하고자 할 때.
– 대규모 상태공간에서 안정적 학습이 필요한 경우.
ㅇ 시험 함정:
– 타깃 네트워크를 매 스텝마다 업데이트하는 것은 Target Network의 개념이 아님(O/X 문제에서 자주 출제).
– Soft Update(τ 파라미터 이용)와 Hard Update(일정 주기 복사) 혼동.
– 타깃 네트워크는 정책 네트워크가 아니라 Q값 추정 네트워크임.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “타깃 네트워크는 메인 네트워크의 가중치를 일정 주기마다 복사하여 학습 안정성을 높인다.”
– X: “타깃 네트워크는 매 스텝마다 메인 네트워크와 동일하게 유지된다.”
– O: “DQN에서 타깃 네트워크를 사용하면 Q값의 발산을 방지할 수 있다.”
– X: “타깃 네트워크는 정책 네트워크를 의미한다.”
ㅁ 추가 학습 내용
Soft Update 방식은 매 스텝마다 타깃 네트워크의 파라미터를 메인 네트워크 파라미터에 조금씩 반영하는 방법으로, θ_target ← τ * θ_main + (1 – τ) * θ_target 형태로 계산된다. Hard Update는 일정 주기마다 타깃 네트워크를 메인 네트워크로 완전히 복사하는 방식으로, 구현이 단순하지만 파라미터 변화가 불연속적이어서 학습이 불안정해질 수 있다. 반면 Soft Update는 파라미터 변화가 부드럽게 이루어져 안정성이 높아지는 장점이 있다. Double DQN에서는 타깃 네트워크가 Q값의 과대추정을 완화하는 역할을 하며, 타깃 네트워크의 업데이트 주기는 학습 성능에 직접적인 영향을 미친다. Soft Update는 Polyak averaging과 개념적으로 동일하며, 실제 구현 시에는 타깃 네트워크를 추가로 유지해야 하므로 메모리 사용량이 증가하고, 매 스텝 파라미터 연산이 추가되어 연산량이 늘어날 수 있다.