알고리즘·논문: 최신 알고리즘 – Multi-Agent RL

ㅁ 최신 알고리즘

ㅇ 정의:
다수의 에이전트가 동일 환경에서 상호작용하며 동시에 학습하는 강화학습 기법. 각 에이전트는 자신의 정책을 최적화하면서 다른 에이전트의 행동 변화에 적응해야 함.

ㅇ 특징:
– 환경이 비정상(non-stationary)으로 변함: 다른 에이전트의 정책 변화가 환경 변화로 작용
– 협력(Cooperative), 경쟁(Competitive), 혼합(Mixed) 형태로 구분 가능
– 중앙집중식 학습(Centralized Training)과 분산 실행(Decentralized Execution) 구조가 자주 사용됨
– 상태·행동 공간이 급격히 커짐에 따라 학습 안정성이 떨어질 수 있음

ㅇ 적합한 경우:
– 자율주행 차량 간 협력 주행
– 멀티 로봇 제어
– 게임 AI에서 팀 기반 전략 학습

ㅇ 시험 함정:
– 단일 에이전트 RL과 혼동: 다른 에이전트의 정책 변화 고려 여부가 핵심 차이
– 환경이 항상 고정되어 있다고 가정하는 경우 오답
– 모든 멀티 에이전트 환경이 반드시 협력적일 것이라고 착각

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Multi-Agent RL에서는 다른 에이전트의 정책 변화가 환경 변화로 작용할 수 있다.”
X: “Multi-Agent RL은 항상 협력적 환경에서만 사용된다.”

ㅁ 추가 학습 내용

Multi-Agent RL의 주요 연구 주제는 다음과 같다.
첫째, Credit Assignment Problem은 공동 보상 환경에서 각 에이전트의 개별 기여도를 평가하는 문제이다.
둘째, Communication Learning은 에이전트 간 효과적인 정보 교환 전략을 학습하는 것이다.

CTDE(Centralized Training with Decentralized Execution) 구조는 학습 시 중앙집중식으로 모든 정보와 상태를 활용해 학습하되, 실행 시에는 각 에이전트가 자신의 관측만으로 행동을 결정하는 방식이다. 장점으로는 학습 효율성과 협력 성능 향상을 들 수 있고, 단점으로는 학습 시 중앙 정보 수집의 어려움과 실행 환경과의 불일치 가능성이 있다.

비정상성 문제(non-stationarity)는 다른 에이전트의 정책이 학습 중 변함에 따라 환경이 변화하는 문제로, 이를 해결하기 위해 Opponent Modeling 기법이 사용되며 이는 상대 에이전트의 정책을 예측하여 안정적인 학습을 돕는다.

자주 쓰이는 알고리즘으로 MADDPG와 QMIX가 있다.
MADDPG(Multi-Agent Deep Deterministic Policy Gradient)는 각 에이전트가 개별 정책을 가지면서도 중앙집중식 비평가(critic)를 통해 다른 에이전트의 상태와 행동 정보를 활용하여 학습한다. 주로 연속적 행동 공간에서 사용된다.
QMIX는 각 에이전트의 개별 Q값을 비선형 혼합 네트워크로 합성하여 전역 Q값을 만드는 가치 분해(Value Decomposition) 기반 협력 학습 알고리즘으로, 주로 이산적 행동 공간에서 사용된다.

두 알고리즘의 차이점은 MADDPG가 정책 경사 기반이며 연속 행동에 적합하고, QMIX는 가치 기반으로 이산 행동에 적합하다는 점이다. 적용 사례로 MADDPG는 다중 로봇 제어, 자율 주행 협력 등에, QMIX는 팀 기반 게임 AI, 분산 자원 할당 등에 활용된다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*