ㅁ 효율적 학습 ㅇ 정의: 대규모 배치 학습에서 학습률을 안정적으로 조정하기 위해 Layer-wise Adaptive Moments를 적용한 최적화 기법. ㅇ 특징: – Adam의 1차, 2차 모멘트 추정 방식을 기반으로 각 레이어별로 학습률을 스케일링. – 대규모 배치(예: 32K 이상)에서도 학습 안정성과 수렴 속도를 유지. – BERT, GPT 등 대형 NLP 모델 학습에서 효과적. ㅇ 적합한 경우: –
ㅁ 효율적 학습 ㅇ 정의: AdamW는 Adam 옵티마이저의 변형으로, 가중치 감쇠(weight decay)를 L2 정규화와 분리하여 적용하는 최적화 알고리즘이다. 주로 딥러닝 모델의 학습 안정성과 일반화 성능 향상을 위해 사용된다. ㅇ 특징: – Adam의 1차, 2차 모멘트 추정 방식을 그대로 사용하면서 weight decay를 별도의 항으로 적용 – 과적합 방지 및 학습 속도 안정화에 유리 – 학습률 스케줄러와
ㅁ 최신 기법 1. Few-shot Learning ㅇ 정의: 소량의 학습 데이터(수 개~수십 개의 샘플)만으로도 새로운 태스크를 수행할 수 있도록 사전 학습된 모델을 활용하는 학습 방식. 대규모 데이터로 사전 학습(pre-training) 후, 적은 예시로 미세 조정(fine-tuning)하거나 프롬프트 기반으로 수행. ㅇ 특징: – 데이터 수집 비용 절감 – 사전 학습 모델의 일반화 능력 활용 – 프롬프트 엔지니어링과 결합
ㅁ 최신 기법 1. Retrieval-Augmented Generation (RAG) ㅇ 정의: 외부 지식 베이스나 문서 저장소에서 관련 정보를 검색(Retrieval)하여, 이를 기반으로 생성(Generation) 모델이 답변을 생성하는 자연어 처리 기법. ㅇ 특징: – 사전 학습된 언어 모델의 한계를 보완하여 최신 정보나 도메인 특화 지식을 활용 가능 – 검색 단계와 생성 단계를 결합하여 사실성(Factuality) 향상 – 검색 품질에 따라 최종
ㅁ 최신 기법 ㅇ 정의: 대규모 언어 모델(LLM)에 다양한 자연어 지시문(Instruction)과 그에 대한 적절한 응답을 학습시켜, 사용자의 요청 의도를 더 잘 이해하고 수행할 수 있도록 하는 미세 조정(fine-tuning) 기법. ㅇ 특징: – 기존의 단순 문장 완성형 학습과 달리, 명령어 기반 질의응답, 요약, 변환 등의 작업을 하나의 통합된 프레임워크로 학습. – 다양한 태스크를 단일 모델로 처리
ㅁ 최신 알고리즘 ㅇ 정의: 다수의 에이전트가 동일 환경에서 상호작용하며 동시에 학습하는 강화학습 기법. 각 에이전트는 자신의 정책을 최적화하면서 다른 에이전트의 행동 변화에 적응해야 함. ㅇ 특징: – 환경이 비정상(non-stationary)으로 변함: 다른 에이전트의 정책 변화가 환경 변화로 작용 – 협력(Cooperative), 경쟁(Competitive), 혼합(Mixed) 형태로 구분 가능 – 중앙집중식 학습(Centralized Training)과 분산 실행(Decentralized Execution) 구조가 자주 사용됨
ㅁ 최신 알고리즘 1. Offline RL ㅇ 정의: 환경과의 실시간 상호작용 없이, 사전에 수집된 고정된 데이터셋을 기반으로 정책을 학습하는 강화학습 방법. ㅇ 특징: – 환경 접근이 불가능하거나 비용이 큰 경우 활용. – 데이터 분포 밖의 상태-행동 쌍에 대한 추론 시 성능 저하 발생 가능. – 오프라인 데이터 품질과 다양성이 성능에 직접적인 영향. – 보수적 정책
ㅁ 최신 알고리즘 ㅇ 정의: 최대 엔트로피 강화학습(Maximum Entropy Reinforcement Learning) 기반의 오프폴리시(Off-policy) 심층 강화학습 알고리즘으로, 정책의 탐색 효율성과 안정성을 동시에 확보하기 위해 설계된 방법. Actor-Critic 구조를 사용하며, 정책의 확률 분포 엔트로피를 최대화하여 탐색을 장려함. ㅇ 특징: – Off-policy 방식으로 과거 경험 재사용이 가능해 sample efficiency가 높음. – 최대 엔트로피 원리를 적용해 탐색과 수렴 안정성을
ㅁ 모델 혁신 1. Mixture of Experts (MoE) ㅇ 정의: 여러 개의 전문가(Expert) 모델과 이를 조합하는 게이트 네트워크(Gating Network)로 구성된 딥러닝 아키텍처로, 입력에 따라 일부 전문가만 활성화하여 효율적으로 연산하는 방법. ㅇ 특징: – 각 Expert는 특정 데이터 패턴이나 영역에 특화되어 학습됨. – Gating Network가 입력 특성에 따라 어떤 Expert를 활성화할지 결정. – 모든 Expert를 항상
ㅁ 모델 혁신 1. Vision Transformers ㅇ 정의: – 이미지를 패치 단위로 분할하여 각 패치를 토큰처럼 처리하고, Transformer 구조를 적용해 이미지 분류, 객체 탐지 등에 활용하는 모델. – 2020년 Google Research에서 제안한 ViT(Vision Transformer)가 대표적. ㅇ 특징: – CNN과 달리 합성곱 연산 없이 전역적 문맥 정보를 학습. – 입력 이미지를 고정 크기 패치로 나누고, 각