AI 모델 개발: 강화학습 – DQN

ㅁ 강화학습

ㅇ 정의:
에이전트가 환경과 상호작용하며 보상을 최대화하는 행동 정책을 학습하는 기계학습 방법.

ㅇ 특징:
– 명시적인 정답 데이터 없이 보상 신호를 기반으로 학습.
– 탐험(Exploration)과 활용(Exploitation)의 균형이 중요.
– 상태, 행동, 보상, 정책, 가치함수 등의 개념 포함.

ㅇ 적합한 경우:
– 게임 AI, 로봇 제어, 자율주행 등 순차적 의사결정 문제.

ㅇ 시험 함정:
– 지도학습/비지도학습과 혼동.
– 보상 신호가 학습 데이터인 것으로 오해.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “보상 신호를 기반으로 정책을 최적화한다.”
X: “정답 레이블을 기반으로 손실함수를 최소화한다.”

================================

1. DQN

ㅇ 정의:
Deep Q-Network. Q-learning과 심층신경망을 결합하여 고차원 상태공간에서의 Q함수를 근사하는 강화학습 알고리즘.

ㅇ 특징:
– 상태를 입력으로 받아 각 행동의 Q값을 출력하는 심층신경망 사용.
– Experience Replay를 통해 샘플 간 상관성을 줄이고 학습 안정성 향상.
– Target Network를 사용하여 Q값 업데이트의 안정성을 높임.

ㅇ 적합한 경우:
– 아타리 게임 등 픽셀 기반의 고차원 입력을 처리하는 환경.
– 상태공간이 크고 연속적이지만 행동공간이 이산적인 경우.

ㅇ 시험 함정:
– DQN이 연속적인 행동공간에 바로 적용 가능하다고 착각.
– Experience Replay와 Target Network의 목적 혼동.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “DQN은 Experience Replay와 Target Network를 사용하여 학습 안정성을 높인다.”
X: “DQN은 연속적인 행동공간에서 직접 Q값을 계산한다.”

ㅁ 추가 학습 내용

DQN 변형 알고리즘과 목적 및 개선점
– Double DQN: Q값의 과대추정(overestimation) 문제를 완화하기 위해 행동 선택과 가치 평가를 분리하여 안정적인 학습을 유도함.
– Dueling DQN: 상태가치(State Value)와 행동가치(Action Advantage)를 분리하여 불필요한 상태 평가를 줄이고, 가치 추정의 효율성을 높임.
– Prioritized Experience Replay: 학습에 중요한 경험 샘플에 더 높은 확률로 재생(replay) 기회를 부여하여 학습 속도와 효율성을 개선함.

Q-learning 핵심 개념
– 벨만 방정식: 현재 상태-행동 가치(Q값)를 보상과 다음 상태의 Q값을 이용해 갱신하는 기본 원리.
– ε-greedy 정책: 일정 확률(ε)로 무작위 행동을 선택하여 탐험(exploration)과 이용(exploitation)의 균형을 맞춤.
– 학습률(learning rate): Q값 갱신 시 새로운 정보 반영 비율을 조절.
– 할인율(γ): 미래 보상의 현재 가치 반영 정도를 결정하며, 0에 가까울수록 단기 보상 중시, 1에 가까울수록 장기 보상 중시.

실무 적용 시 주의점
– DQN은 이산(discrete) 행동공간에서 사용되며, 연속(continuous) 행동공간에는 직접 적용 불가.
– 연속 행동공간 문제에서는 DDPG, SAC 등의 알고리즘을 사용함.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*