AI 모델 개발: 강화학습

ㅁ 강화학습

ㅇ 정의:
에이전트가 환경과 상호작용하며 보상을 최대화하는 방향으로 정책을 학습하는 기계학습 방법.

ㅇ 특징:
상태(State), 행동(Action), 보상(Reward)의 3요소를 기반으로 함. 탐험(Exploration)과 활용(Exploitation)의 균형이 중요.

ㅇ 적합한 경우:
게임, 로보틱스 제어, 자율주행 등 시뮬레이션 기반 환경에서 최적 정책을 찾아야 하는 경우.

ㅇ 시험 함정:
지도학습과 혼동, 보상 지연 문제를 간과, 정책과 가치기반 방법의 차이를 혼동.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: 강화학습은 환경과 상호작용하며 보상을 최대화하는 정책을 학습한다.
– X: 강화학습은 정답 레이블이 주어진 데이터를 기반으로 학습한다.

================================

1. Policy Gradient

ㅇ 정의:
정책 함수를 직접 매개변수화하여 보상 기대값을 최대로 만드는 방향으로 파라미터를 업데이트하는 방법.

ㅇ 특징:
연속적인 행동 공간에서 효과적, 확률적 정책을 다룸, 수렴이 안정적이지만 분산이 클 수 있음.

ㅇ 적합한 경우:
행동이 연속적이거나 확률적 정책이 필요한 경우.

ㅇ 시험 함정:
가치함수를 직접 추정하지 않는다는 점, Q-learning과의 차이를 혼동.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: Policy Gradient는 정책 파라미터를 직접 업데이트한다.
– X: Policy Gradient는 항상 결정론적 정책만 학습한다.

================================

2. DQN

ㅇ 정의:
Deep Q-Network, 딥러닝을 활용하여 Q-learning의 Q함수를 근사하는 방법.

ㅇ 특징:
경험 재현(Replay Buffer)과 타깃 네트워크(Target Network) 사용으로 학습 안정성 향상.

ㅇ 적합한 경우:
이산적 행동 공간에서의 최적 정책 학습.

ㅇ 시험 함정:
연속적 행동 공간에 그대로 적용 불가, Policy Gradient와 혼동.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: DQN은 타깃 네트워크를 사용하여 학습 안정성을 높인다.
– X: DQN은 연속적 행동 공간에서 바로 적용 가능하다.

================================

3. Actor-Critic

ㅇ 정의:
정책 기반(Actor)과 가치 기반(Critic) 방법을 결합하여 학습하는 강화학습 구조.

ㅇ 특징:
Actor는 정책을 업데이트하고, Critic은 가치함수를 추정하여 Actor의 업데이트를 돕는다.

ㅇ 적합한 경우:
Policy Gradient의 분산 문제를 줄이고, 가치 기반 방법의 한계를 보완하고자 할 때.

ㅇ 시험 함정:
Actor와 Critic의 역할을 혼동, Critic이 정책을 직접 업데이트한다고 오해.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: Actor-Critic은 정책과 가치 함수를 동시에 학습한다.
– X: Actor-Critic에서 Critic은 정책 파라미터를 직접 업데이트한다.

================================

4. PPO

ㅇ 정의:
Proximal Policy Optimization, 정책 업데이트 폭을 제한하여 안정성을 높인 강화학습 알고리즘.

ㅇ 특징:
Clipped objective function을 사용, Trust Region Policy Optimization(TRPO)의 단순화 버전.

ㅇ 적합한 경우:
대규모 환경에서 안정적이고 효율적인 정책 학습이 필요할 때.

ㅇ 시험 함정:
PPO가 항상 TRPO보다 성능이 높다고 단정, clipping의 목적을 잘못 이해.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: PPO는 정책 업데이트를 제한하여 학습 안정성을 높인다.
– X: PPO는 정책 업데이트 크기에 제한을 두지 않는다.

ㅁ 추가 학습 내용

Policy Gradient에서는 REINFORCE 알고리즘과 baseline 개념을 함께 이해하는 것이 중요하다.
DQN에서는 Double DQN, Dueling DQN, Prioritized Experience Replay와 같은 변형 기법이 시험에 자주 출제된다.
Actor-Critic 계열에서는 Advantage Actor-Critic(A2C)와 Asynchronous Advantage Actor-Critic(A3C)의 동기와 비동기 방식 차이를 숙지해야 한다.
PPO에서는 clipping 기법뿐만 아니라 adaptive KL penalty 방식과의 비교, 그리고 하이퍼파라미터 ε의 역할이 출제될 수 있다.
강화학습 전반적으로는 exploration-exploitation trade-off, reward shaping, discount factor(γ)의 의미와 영향, on-policy와 off-policy의 차이가 자주 출제된다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*