ㅁ 심층 기법 1. Counterfactual Explanations ㅇ 정의: – 모델 예측 결과를 바꾸기 위해 입력 변수 값을 최소한으로 변경한 가상의 사례를 제시하여, 왜 해당 예측이 나왔는지 설명하는 기법. ㅇ 특징: – 사용자가 원하는 결과를 얻기 위해 어떤 입력을 바꿔야 하는지 직관적으로 제시. – 개별 예측 단위에서 설명이 가능하며, 모델의 내부 구조를 몰라도 적용 가능. ㅇ
ㅁ 고급 방법 1. Layer Normalization ㅇ 정의: – 입력 데이터의 각 샘플별로 feature 차원에 대해 평균과 분산을 계산하여 정규화하는 기법. ㅇ 특징: – 배치 크기에 의존하지 않음. – RNN, Transformer 등 시퀀스 모델에 효과적. – Batch Normalization 대비 작은 배치에서도 안정적. ㅇ 적합한 경우: – 배치 크기가 매우 작거나 1인 경우. – 시퀀스 처리
ㅁ 기법 1. Gradient Clipping ㅇ 정의: – 신경망 학습 시 기울기 폭주(Gradient Explosion)를 방지하기 위해 기울기의 크기를 특정 임계값으로 제한하는 기법. ㅇ 특징: – 역전파 시 계산된 기울기의 L2 노름이 임계값을 초과하면 비율에 맞춰 스케일링. – RNN, LSTM 등 장기 의존성 문제가 있는 네트워크에서 자주 사용. ㅇ 적합한 경우: – 깊은 네트워크나 순환 신경망에서
ㅁ 고급 기법 1. Classifier-Free Guidance ㅇ 정의: – 생성 모델에서 별도의 분류기 없이 조건부 생성 품질을 높이는 기법으로, 조건부 확률과 무조건 확률을 혼합하여 샘플의 방향성을 조정함. ㅇ 특징: – 조건부와 무조건부 모델 출력을 선형 보간 또는 가중 조합하여 생성물의 조건 충실도를 조절. – 추가 분류기 학습이 필요 없어 효율적. – Guidance scale 하이퍼파라미터로 조건
ㅁ 효과적 처리 ㅇ 정의: 미니배치 내 시퀀스 길이가 다를 때 불필요한 패딩 연산을 줄이고 연산 효율을 높이는 기법들을 총칭함. ㅇ 특징: – 시퀀스 데이터 처리 시 GPU 연산 낭비를 방지함 – 모델 학습 속도와 메모리 사용 효율을 향상시킴 ㅇ 적합한 경우: – 자연어 처리, 음성 인식 등 길이가 다양한 시퀀스 데이터 처리 시 ㅇ
ㅁ 특수 기법 ㅇ 정의: 토큰 및 임베딩 과정에서 모델의 성능과 효율성을 높이기 위해 사용하는 다양한 부가적 또는 대체 기법. ㅇ 특징: – 기존의 단순 위치 인코딩, 토크나이저 방식의 한계를 보완. – 모델의 일반화 성능, 긴 문맥 처리 능력, 희귀 단어 처리 능력을 개선. ㅇ 적합한 경우: – 긴 시퀀스 처리, 다국어 처리, 희귀 어휘가
ㅁ 신규 기법 1. CutMix ㅇ 정의: – 이미지 데이터의 일부 영역을 잘라 다른 이미지의 동일 위치에 붙여 넣고, 라벨도 해당 비율로 혼합하는 데이터 증강 기법. ㅇ 특징: – 이미지 일부를 잘라 붙이는 방식으로 MixUp 대비 객체의 형태 보존 가능. – 학습 시 다양한 배경과 객체 조합을 제공하여 일반화 성능 향상. ㅇ 적합한 경우: –
ㅁ 고급 편향 유형 1. Proxy Bias ㅇ 정의: – 모델이 직접적으로 사용할 수 없는 민감 속성(예: 인종, 성별)을 대리하는 다른 변수를 사용함으로써 발생하는 편향. ㅇ 특징: – 대리 변수는 표면적으로는 무해해 보이지만, 실제로는 민감 속성과 높은 상관관계를 가짐. – 데이터 전처리 단계에서 발견하기 어려움. ㅇ 적합한 경우: – 의도적으로 사용하는 경우는 드물며, 민감 속성을
ㅁ 연합학습 및 프라이버시 1. Differential Privacy ㅇ 정의: 개인의 데이터가 포함된 통계 결과를 공개하더라도 개별 사용자의 정보가 노출되지 않도록 노이즈를 추가하는 프라이버시 보호 기법. ㅇ 특징: 데이터 분석 결과에 무작위 노이즈를 주입하여 재식별 위험을 수학적으로 제한. ε(엡실론) 값으로 프라이버시 손실 수준을 제어. ㅇ 적합한 경우: 대규모 인구 통계 분석, 위치 데이터 분석 등 민감
ㅁ 멀티태스크 학습 ㅇ 정의: 하나의 모델이 여러 개의 관련된 작업(Task)을 동시에 학습하도록 하는 기법으로, 각 작업 간의 공통 표현을 학습하여 성능과 효율성을 높인다. ㅇ 특징: – 파라미터 공유를 통해 모델 크기 및 학습 비용 절감 – 작업 간 상관관계를 활용하여 일반화 성능 향상 – 데이터가 부족한 작업에 다른 작업의 정보가 도움을 줄 수 있음