ㅁ 강화학습 ㅇ 정의: 에이전트가 환경과 상호작용하며 보상을 최대화하는 방향으로 정책을 학습하는 기계학습 방법. ㅇ 특징: 상태(State), 행동(Action), 보상(Reward)의 3요소를 기반으로 함. 탐험(Exploration)과 활용(Exploitation)의 균형이 중요. ㅇ 적합한 경우: 게임, 로보틱스 제어, 자율주행 등 시뮬레이션 기반 환경에서 최적 정책을 찾아야 하는 경우. ㅇ 시험 함정: 지도학습과 혼동, 보상 지연 문제를 간과, 정책과 가치기반 방법의 차이를