ㅁ 최적화 기술 효과 및 방법 1. Pruning 기준 ㅇ 정의: – 신경망의 불필요한 가중치나 뉴런을 제거하여 모델 크기와 연산량을 줄이는 기법에서, 어떤 요소를 제거할지 결정하는 평가 기준. ㅇ 특징: – 가중치 크기 기반(L1/L2 norm), 중요도 기반(gradient, saliency), 구조적 기준(필터 단위, 채널 단위) 등 다양함. – 기준 설정에 따라 모델 성능 저하 정도와 경량화 효과가
ㅁ 탐색 및 자동화 최신 추세 ㅇ 정의: 하이퍼파라미터 최적화에서 최신 알고리즘과 자동화 기법을 활용하여 모델 성능을 극대화하는 방법론. ㅇ 특징: – 단순 수동 조정이 아닌, 통계적 모델링·탐색 전략·자동화 도구를 활용 – 연산 자원 절약과 최적값 탐색 속도 향상 ㅇ 적합한 경우: – 모델 학습 시간이 길고 하이퍼파라미터 조합이 많을 때 – 자동화된 ML 파이프라인
ㅁ 불균형 데이터 적용 및 해석 ㅇ 정의: 불균형 데이터 적용 및 해석은 데이터 내 클래스 비율이 극단적으로 차이나는 상황에서 모델 성능을 공정하게 평가하고 개선하기 위한 기법과 이를 해석하는 방법을 의미함. ㅇ 특징: – 소수 클래스의 예측 성능 저하를 방지하기 위한 기법 필요 – 단순 정확도(Accuracy) 지표는 신뢰성이 떨어짐 – Precision, Recall, F1-score, AUC-ROC 등
ㅁ 조기 종료 및 정규화 ㅇ 정의: – 모델 학습 시 과적합을 방지하고 일반화 성능을 높이기 위해 학습을 조기에 중단하거나 가중치에 제약을 주는 기법. ㅇ 특징: – 검증 데이터 성능이 더 이상 향상되지 않을 때 학습을 중단. – 가중치 크기를 제한하거나 랜덤하게 뉴런을 비활성화해 모델 복잡도를 조절. ㅇ 적합한 경우: – 데이터셋이 작거나 노이즈가 많은
ㅁ 블랙박스 해법 ㅇ 정의: 인공지능 모델의 내부 구조가 복잡하거나 해석이 어려운 경우, 외부에서 동작을 관찰하여 설명 가능한 형태로 변환하는 기법. ㅇ 특징: – 원래 모델의 파라미터나 구조를 직접 해석하지 않고, 입력-출력 관계를 기반으로 설명. – 모델 불투명성을 보완하기 위해 별도의 해석 모델이나 시각화 기법 활용. ㅇ 적합한 경우: – 딥러닝, 앙상블 등 복잡한 모델의
ㅁ 핵심 메커니즘 1. LoRA 저차원 행렬 ㅇ 정의: – Low-Rank Adaptation의 약자로, 대규모 모델의 가중치 업데이트를 저차원 행렬로 분해하여 학습 파라미터 수를 줄이는 기법. ㅇ 특징: – 기존 가중치는 고정하고, 저차원 행렬만 학습. – 메모리 사용량과 연산량 절감. – 기존 모델 성능을 유지하면서도 빠른 파인튜닝 가능. ㅇ 적합한 경우: – 대규모 언어모델(LLM) 파인튜닝 시
ㅁ 오해 및 정정 1. BERT NSP 오용 ㅇ 정의: – BERT의 Next Sentence Prediction(NSP) 목적을 잘못 이해하거나 불필요하게 사용하는 경우를 의미. – NSP는 두 문장이 연속인지 여부를 예측하는 사전학습 태스크. ㅇ 특징: – NSP는 문장 간 관계 학습에 도움을 주지만, 문장 내 토큰 이해와 직접적 관련은 적음. – 일부 연구에서 NSP를 제거해도 성능 저하가
ㅁ 학습기법 특징 및 업데이트 1. EMA 업데이트 ㅇ 정의: – Exponential Moving Average(지수이동평균) 기법을 모델 파라미터 업데이트에 적용하여, 학습 중 안정적인 타겟 네트워크를 유지하는 방법. ㅇ 특징: – 현재 모델 가중치와 이전 타겟 가중치를 EMA 방식으로 혼합하여 업데이트. – 노이즈에 덜 민감하고 학습 안정성 향상. – BYOL, Mean Teacher 등 자기지도학습에서 자주 사용. ㅇ
ㅁ 학습 및 생성 과정 ㅇ 정의: 확산 모델에서 데이터에 점진적으로 노이즈를 추가하고, 이를 역으로 제거하여 원본 데이터를 복원하는 전체 절차. ㅇ 특징: 데이터 분포를 점진적으로 파괴하고 재구성하는 과정을 통해 안정적인 생성 품질 확보. ㅇ 적합한 경우: 이미지, 오디오, 3D 데이터 등 복잡한 분포를 가진 데이터 생성. ㅇ 시험 함정: Forward와 Backward 과정의 방향 혼동,
ㅁ 효과 및 적용 1. Node Feature Masking ㅇ 정의: – 그래프의 노드 속성(feature) 중 일부를 의도적으로 가려서(마스킹) 모델이 특정 속성에 과도하게 의존하지 않도록 하는 데이터 증강 기법. ㅇ 특징: – 입력 노드 특성의 일부를 무작위 또는 규칙적으로 0 또는 특수 토큰으로 대체. – 모델이 다양한 feature 조합을 학습하여 일반화 성능 향상. – 과적합 방지