ㅁ 패딩 및 배치 처리 ㅇ 정의: 서로 다른 길이의 시퀀스 데이터를 동일한 길이로 맞추기 위해 패딩을 적용하고, 효율적인 학습을 위해 이를 배치 단위로 처리하는 기법. ㅇ 특징: – 시퀀스 길이 불일치 문제 해결 – 메모리 낭비를 최소화하기 위한 다양한 패딩 전략 존재 – RNN, Transformer 등 시퀀스 모델 학습 시 필수적 ㅇ 적합한 경우:
ㅁ 토큰 및 임베딩 특수 처리 1. Relative Positional Embedding ㅇ 정의: – 입력 시퀀스 내 토큰 간의 상대적 위치 정보를 임베딩에 반영하는 기법으로, 절대 위치 대신 토큰 간 거리 관계를 모델이 학습하도록 함. ㅇ 특징: – 길이 가변 시퀀스 처리에 유리. – 시퀀스 길이가 학습 시보다 길어져도 일반화 성능 유지 가능. – Transformer 모델의
ㅁ 데이터 증강 ㅇ 정의: 기존 데이터에 변형, 합성, 노이즈 추가 등을 통해 새로운 학습 데이터를 생성하여 모델의 일반화 성능을 높이는 기법. ㅇ 특징: – 데이터 부족 문제를 완화하고, 과적합을 방지. – 이미지, 음성, 텍스트 등 다양한 도메인에서 활용 가능. – 원본 데이터의 레이블을 유지하거나 변형된 데이터에 맞게 조정 필요. ㅇ 적합한 경우: – 데이터
ㅁ 편향 및 공정성 1. Proxy Bias ㅇ 정의: – 분석에 사용되는 변수가 실제로 측정하려는 개념을 직접적으로 나타내지 않고, 다른 변수(프록시)를 통해 간접적으로 나타내는 경우 발생하는 편향. – 예: ‘우편번호’를 소득 수준의 대리 변수로 사용 시, 인종·지역적 편향이 내포될 수 있음. ㅇ 특징: – 프록시 변수는 측정이 용이하지만, 대상 개념과 완벽히 일치하지 않음. – 숨겨진
ㅁ 최적화 하이퍼파라미터 튜닝 1. Bayesian Optimization ㅇ 정의: – 확률 모델(보통 Gaussian Process)을 사용하여 하이퍼파라미터 공간을 탐색하는 최적화 기법. – 이전 평가 결과를 바탕으로 다음 실험 후보를 확률적으로 선택. ㅇ 특징: – 탐색(exploration)과 활용(exploitation)의 균형을 조정. – 평가 횟수가 제한된 경우 효율적. ㅇ 적합한 경우: – 모델 학습 시간이 길고, 평가 비용이 높은 경우.
ㅁ RLOps 알고리즘/최적화 1. Proximal Policy Optimization(PPO) ㅇ 정의: – 강화학습에서 정책(Policy)을 안정적으로 업데이트하기 위해 제안된 on-policy 계열의 알고리즘으로, 정책 변화 폭을 제한하여 학습 안정성을 높인다. ㅇ 특징: – 정책 업데이트 시 KL divergence나 clipping 기법을 사용해 급격한 변화 방지 – 샘플 효율성은 낮지만 안정성이 높음 – Actor-Critic 구조와 함께 사용되는 경우가 많음 ㅇ 적합한
ㅁ NAS 메타러닝 주요 기법 ㅇ 정의: 신경망 구조를 자동으로 탐색하고 최적화하기 위해 메타러닝 관점에서 적용되는 핵심 구성 요소와 알고리즘 기법들의 집합. ㅇ 특징: – 탐색 공간, 탐색 전략, 성능 추정, 아키텍처 인코딩 등 모듈별로 구성됨 – GPU/TPU 등 하드웨어 제약 고려 가능 – 모델 학습과 탐색을 동시에 진행하거나 순차적으로 진행 ㅇ 적합한 경우: –
ㅁ 파이프라인 및 자동화 1. Experiment Tracking ㅇ 정의: – 머신러닝 실험의 파라미터, 데이터셋, 코드 버전, 결과 메트릭 등을 체계적으로 기록하고 관리하는 과정 또는 도구. ㅇ 특징: – 실험 재현성 보장. – 실험 비교 및 분석 용이. – 협업 시 실험 이력 공유 가능. ㅇ 적합한 경우: – 여러 하이퍼파라미터 조합을 테스트하는 프로젝트. – 장기간에
ㅁ 스케줄링/조기종료 ㅇ 정의: 모델 학습 과정에서 학습률 조절, 조기 종료, 배치 정규화 등을 통해 과적합 방지와 학습 효율성을 높이는 기법. ㅇ 특징: – 학습 중 손실 감소 추세나 검증 정확도 변화를 모니터링하여 학습 중단 또는 파라미터 조정. – 불필요한 연산을 줄이고 최적의 가중치 상태를 확보. ㅇ 적합한 경우: – 데이터셋이 작아 과적합 우려가 있는
ㅁ 네트워크 구조 1. Depthwise Separable Convolution ㅇ 정의: – 합성곱 연산을 Depthwise Convolution과 Pointwise Convolution(1×1 Conv)으로 분리하여 연산량을 줄이는 기법. ㅇ 특징: – 일반 합성곱 대비 파라미터 수와 FLOPs를 크게 절감. – MobileNet, Xception 등 경량 모델에서 주로 사용. – 채널별로 독립적인 필터 적용 후 채널 결합. ㅇ 적합한 경우: – 모바일/임베디드 환경에서 실시간