AI 모델 개발: 강화학습
ㅁ 강화학습
ㅇ 정의:
에이전트가 환경과 상호작용하며 보상을 최대화하는 방향으로 정책을 학습하는 기계학습 방법.
ㅇ 특징:
– 시퀀스 의사결정 문제 해결에 적합
– 탐험(Exploration)과 이용(Exploitation)의 균형 필요
– 보상 설계가 학습 성능에 큰 영향
ㅇ 적합한 경우:
– 게임 AI, 로봇 제어, 자율주행 등 시뮬레이션 기반 학습이 가능한 경우
ㅇ 시험 함정:
– 지도학습과 혼동하여 ‘정답 레이블’이 있다고 오해하는 경우
– 보상 신호가 즉각적으로 주어지지 않는 경우를 간과
ㅇ 시험 대비 “패턴 보기” 예시:
O: “환경과 상호작용하며 보상을 최대화하는 정책을 학습한다.”
X: “라벨이 주어진 데이터셋에서 정책을 학습한다.”
================================
1. Policy Gradient
ㅇ 정의:
정책 함수를 직접 파라미터화하여 보상 기대값의 기울기를 계산하고 이를 최대화하는 방향으로 학습하는 방법.
ㅇ 특징:
– 연속적 행동 공간에서 효과적
– 정책을 확률적으로 표현 가능
– 수렴은 느릴 수 있으나 최적 정책에 직접 접근 가능
ㅇ 적합한 경우:
– 행동이 연속적인 로봇 제어 문제
– 확률적 정책이 필요한 환경
ㅇ 시험 함정:
– 가치 함수 기반 방법처럼 Q값을 직접 추정한다고 착각
– Gradient 계산 시 Monte Carlo 추정의 분산 문제 간과
ㅇ 시험 대비 “패턴 보기” 예시:
O: “정책 파라미터를 직접 업데이트하여 기대 보상을 최대화한다.”
X: “가치 함수를 먼저 학습한 후 정책을 도출한다.”
================================
2. DQN
ㅇ 정의:
심층신경망을 이용하여 Q-Learning의 Q함수를 근사하는 방법.
ㅇ 특징:
– 이산적 행동 공간에서 효과적
– 경험 재현(Experience Replay)과 타깃 네트워크(Target Network)로 안정성 향상
ㅇ 적합한 경우:
– Atari 게임 등 이산적 액션 환경
– 상태 공간은 크지만 행동 공간은 작은 경우
ㅇ 시험 함정:
– 연속적 행동 공간에 그대로 적용 가능하다고 오해
– 경험 재현 없이도 안정적으로 학습된다고 착각
ㅇ 시험 대비 “패턴 보기” 예시:
O: “심층신경망으로 Q함수를 근사하여 이산적 행동을 선택한다.”
X: “정책을 직접 파라미터화하여 행동을 생성한다.”
================================
3. Actor-Critic
ㅇ 정의:
정책 기반(Actor)과 가치 기반(Critic) 방법을 결합하여 학습 효율과 안정성을 높인 강화학습 구조.
ㅇ 특징:
– Actor는 정책을, Critic은 가치 함수를 학습
– Policy Gradient의 고분산 문제를 완화
– 온정책(On-policy) 또는 오프정책(Off-policy) 가능
ㅇ 적합한 경우:
– 연속/이산 환경 모두 적용 가능
– 샘플 효율성과 안정성이 동시에 필요한 경우
ㅇ 시험 함정:
– Actor와 Critic이 동일한 네트워크라고 착각
– Critic의 역할을 보상 계산으로만 한정하는 오류
ㅇ 시험 대비 “패턴 보기” 예시:
O: “정책과 가치 함수를 동시에 학습하여 안정성을 높인다.”
X: “정책만 학습하고 가치는 사용하지 않는다.”
================================
4. PPO
ㅇ 정의:
Proximal Policy Optimization. 정책 업데이트 시 변화 폭을 제한하여 안정성을 높이는 정책 기반 강화학습 알고리즘.
ㅇ 특징:
– Clipped Objective로 과도한 정책 업데이트 방지
– 샘플 효율 높음, 안정성 우수
– 구현이 비교적 간단
ㅇ 적합한 경우:
– 대규모 시뮬레이션 환경
– 안정적 정책 업데이트가 중요한 경우
ㅇ 시험 함정:
– Trust Region Policy Optimization(TRPO)와 혼동
– Clipping이 항상 성능을 향상시킨다고 일반화
ㅇ 시험 대비 “패턴 보기” 예시:
O: “정책 변화 폭을 제한하여 안정성을 높인다.”
X: “정책을 무제한으로 업데이트하여 빠르게 수렴한다.”
ㅁ 추가 학습 내용
정리 내용
1. Policy Gradient
– REINFORCE 알고리즘의 개념, 수식, 학습 절차 이해
– Baseline 기법의 필요성, Variance 감소 효과, 구현 방식 숙지
2. DQN 변형 기법
– Double DQN: Q-value의 과대추정 문제 해결 원리
– Dueling DQN: Value/Advantage 분리 구조와 장점
– Prioritized Experience Replay: 샘플 선택 확률 조정 원리와 구현
3. Actor-Critic 확장형 구조
– A2C(Advantage Actor-Critic): Advantage 함수 활용 방식
– A3C(Asynchronous Advantage Actor-Critic): 병렬 학습 구조와 장점
4. PPO(Proximal Policy Optimization)
– Clipping 방식의 목적과 효과
– Adaptive KL Penalty 방식과 Clipping 방식 비교
5. 강화학습 전반 핵심 개념
– On-policy vs Off-policy: 정의, 장단점, 대표 알고리즘
– Exploration 전략: ε-greedy, Softmax, UCB의 원리와 차이
– Discount Factor(감가율): 값 변화에 따른 장기/단기 보상 영향
– Reward Shaping: 장점(학습 가속)과 단점(잘못된 정책 유도 가능성)
– Sample Efficiency: 정의와 중요성, 알고리즘별 효율 차이
시험 대비 체크리스트
[ ] REINFORCE 알고리즘의 수식과 학습 절차를 설명할 수 있는가
[ ] Baseline 기법이 Variance를 줄이는 원리를 이해했는가
[ ] Double DQN이 Q-value 과대추정 문제를 어떻게 완화하는지 알고 있는가
[ ] Dueling DQN의 Value/Advantage 분리 구조를 그릴 수 있는가
[ ] Prioritized Experience Replay의 샘플 선택 확률 계산 방식을 설명할 수 있는가
[ ] A2C와 A3C의 차이와 장점을 비교할 수 있는가
[ ] PPO의 Clipping과 Adaptive KL Penalty 방식을 비교 설명할 수 있는가
[ ] On-policy와 Off-policy의 차이와 예시 알고리즘을 말할 수 있는가
[ ] ε-greedy, Softmax, UCB 탐색 전략의 특징과 사용 상황을 구분할 수 있는가
[ ] Discount Factor 값이 높거나 낮을 때 정책에 미치는 영향을 설명할 수 있는가
[ ] Reward Shaping의 장단점과 주의할 점을 알고 있는가
[ ] Sample Efficiency의 의미와 강화학습에서의 중요성을 설명할 수 있는가