트랜드: 최신 알고리즘 – Reinforcement Learning

ㅁ 최신 알고리즘

1. Reinforcement Learning

ㅇ 정의:
에이전트가 환경과 상호작용하며 보상(reward)을 최대화하는 방향으로 학습하는 머신러닝 기법. 상태(state)와 행동(action) 그리고 보상(reward) 신호를 기반으로 의사결정을 최적화.

ㅇ 특징:
– 지도학습처럼 정답 데이터가 주어지지 않고, 시도-오류(trial-and-error)를 통해 학습.
– 장기 보상(maximize cumulative reward)을 목표로 함.
– 마코프 의사결정 과정(MDP)에 기반.
– 탐험(exploration)과 활용(exploitation) 간의 균형 필요.

ㅇ 적합한 경우:
– 게임 플레이(예: 알파고)
– 로봇 제어
– 자율주행 차량의 경로 최적화
– 자원 할당 문제

ㅇ 시험 함정:
– 단기 보상과 장기 보상의 구분을 혼동.
– RL이 반드시 딥러닝을 포함한다고 오해.
– Q-learning과 Policy Gradient의 차이를 혼동.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “환경과 상호작용하며 보상을 최대화하는 학습 방법이다.”
O: “마코프 의사결정 과정에 기반한다.”
X: “정답 라벨이 주어진 데이터를 기반으로 학습한다.”
X: “항상 신경망을 사용해야 한다.”

ㅁ 추가 학습 내용

Reinforcement Learning 주요 알고리즘 유형과 특징

1. Q-learning
– Off-policy 방식의 가치 기반(value-based) 학습
– 환경의 상태-행동 가치 함수(Q값)를 업데이트하여 최적 정책 학습
– 현재 정책과 무관하게, 항상 최대 Q값을 향해 업데이트
– 충분한 탐험과 학습률 조건 하에서 최적 정책으로 수렴

2. SARSA
– On-policy 방식의 가치 기반 학습
– 실제로 선택한 행동을 기반으로 Q값 업데이트
– 정책이 학습 과정에 직접 반영되므로, 탐험 전략이 수렴 결과에 영향
– Q-learning에 비해 보수적인 학습 경향

3. Policy Gradient
– 정책을 직접 파라미터화하여 확률적으로 행동을 선택
– 목표 함수(기대 보상)에 대해 정책 파라미터를 경사상승법으로 최적화
– 연속적 행동 공간에 적합
– 수렴 시 최적 정책을 직접 얻을 수 있음

4. Actor-Critic
– Policy Gradient(Actor)와 가치 함수 추정(Critic)을 결합
– Actor는 정책을 업데이트, Critic은 상태 가치 또는 상태-행동 가치를 평가
– 학습 안정성과 샘플 효율성을 동시에 추구

보상 설계(Reward Shaping)
– 에이전트가 목표 행동을 학습하도록 보상을 설계하는 과정
– 잘못된 보상 설계 시 보상 해킹(reward hacking)이나 의도치 않은 행동(unintended behavior) 발생 가능
– 보상은 목표와 일치하도록 명확하고 일관성 있게 설계해야 함

탐험/활용 균형 조절 방법
– ε-greedy: 확률 ε로 무작위 행동, 나머지는 현재 최적 행동 선택
– Softmax: Q값을 확률 분포로 변환하여 확률적으로 행동 선택
– UCB(Upper Confidence Bound): 불확실성이 큰 행동을 우선적으로 시도

할인율(γ)의 의미와 영향
– 미래 보상의 현재 가치 반영 비율
– γ가 크면 장기 보상 중시, 작으면 단기 보상 중시
– 0 ≤ γ < 1 범위에서 설정 모델 기반(Model-based) vs 모델 프리(Model-free) RL - 모델 기반: 환경의 동적 모델(전이 확률, 보상 함수)을 학습 또는 알고 있음, 이를 사용해 계획(planning) 수행 - 모델 프리: 환경 모델 없이 경험 데이터를 통해 직접 정책 또는 가치 함수 학습 On-policy vs Off-policy 학습 - On-policy: 현재 사용하는 정책으로 수집한 데이터로 학습 (예: SARSA) - Off-policy: 다른 정책(탐험 정책)으로 수집한 데이터로 학습 (예: Q-learning) 최근 주목받는 Deep Reinforcement Learning 알고리즘 - DQN(Deep Q-Network): 신경망으로 Q값 근사, 경험 재생과 타깃 네트워크로 안정성 확보 - A3C(Asynchronous Advantage Actor-Critic): 다수의 에이전트를 병렬로 학습시켜 효율성과 안정성 향상 - PPO(Proximal Policy Optimization): 정책 업데이트 폭을 제한해 안정적인 학습 보장

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*