알고리즘·논문: 모델 혁신
ㅁ 모델 혁신
1. Transformers
ㅇ 정의:
– 시퀀스 데이터를 병렬로 처리하기 위해 Self-Attention 메커니즘을 사용하는 딥러닝 모델 구조.
– RNN, LSTM의 순차적 처리 한계를 극복.
ㅇ 특징:
– 병렬 처리 가능, 긴 문맥 학습에 유리.
– Encoder-Decoder 구조 또는 Encoder-only, Decoder-only 변형 가능.
– 파라미터 수가 많아 대규모 데이터에서 성능 우수.
ㅇ 적합한 경우:
– 자연어 처리(NLP), 시계열 예측, 코드 생성 등 순서 있는 데이터 처리.
ㅇ 시험 함정:
– Attention Mechanism과 Self-Attention 혼동.
– RNN 대비 학습 속도와 성능 차이 원인 질문.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Transformers는 입력 시퀀스를 병렬로 처리할 수 있다.”
– X: “Transformers는 반드시 순차적으로만 데이터를 처리한다.”
1.1 Self-Attention
ㅇ 정의:
– 각 토큰이 시퀀스 내 다른 모든 토큰과의 연관성을 계산하여 가중합을 만드는 메커니즘.
ㅇ 특징:
– Query, Key, Value 벡터 사용.
– 긴 거리 의존성 학습 가능.
ㅇ 적합한 경우:
– 문맥 이해가 중요한 번역, 요약, 질의응답.
ㅇ 시험 함정:
– Attention Score 계산 순서와 Softmax 적용 위치 혼동.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Self-Attention은 각 단어가 다른 모든 단어와 관계를 계산한다.”
– X: “Self-Attention은 인접 단어와만 관계를 계산한다.”
================================
2. Vision Transformers
ㅇ 정의:
– 이미지를 패치 단위로 나누어 시퀀스로 변환 후 Transformer 구조로 처리하는 모델.
ㅇ 특징:
– CNN 없이도 이미지 분류 가능.
– 대규모 데이터에서 CNN 대비 우수한 성능.
– 패치 임베딩과 위치 인코딩 사용.
ㅇ 적합한 경우:
– 대규모 이미지 분류, 멀티모달 학습.
ㅇ 시험 함정:
– CNN과의 차이점, 패치 크기와 성능 관계 질문.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Vision Transformer는 이미지를 일정 크기의 패치로 나누어 처리한다.”
– X: “Vision Transformer는 픽셀 단위로만 입력을 처리한다.”
2.1 Patch Embedding
ㅇ 정의:
– 이미지 패치를 벡터로 변환하는 과정.
ㅇ 특징:
– 선형 변환 또는 작은 CNN 사용.
ㅇ 적합한 경우:
– Transformer 입력 전처리.
ㅇ 시험 함정:
– 위치 인코딩과 혼동.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Patch Embedding은 이미지 패치를 고정 길이 벡터로 변환한다.”
– X: “Patch Embedding은 이미지를 전혀 변환하지 않는다.”
================================
3. Sparse Models
ㅇ 정의:
– 전체 파라미터 중 일부만 활성화하여 연산 효율성을 높이는 모델 구조.
ㅇ 특징:
– 메모리와 계산량 절감.
– 특정 입력에 필요한 경로만 활성화.
ㅇ 적합한 경우:
– 대규모 모델에서 추론 속도 최적화.
ㅇ 시험 함정:
– 파라미터 수와 활성 파라미터 수 혼동.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Sparse Models는 일부 파라미터만 활성화하여 연산한다.”
– X: “Sparse Models는 항상 모든 파라미터를 동시에 사용한다.”
3.1 Dynamic Sparsity
ㅇ 정의:
– 학습 중 활성화되는 파라미터 집합이 동적으로 변하는 구조.
ㅇ 특징:
– 적응형 연산 경로.
ㅇ 적합한 경우:
– 데이터 특성에 따라 연산 경로 최적화.
ㅇ 시험 함정:
– 정적 희소성과 혼동.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Dynamic Sparsity는 학습 과정에서 활성화 파라미터 구성이 변한다.”
– X: “Dynamic Sparsity는 항상 동일한 파라미터 집합을 사용한다.”
================================
4. Mixture of Experts (MoE)
ㅇ 정의:
– 여러 개의 전문가 네트워크 중 일부만 선택적으로 활성화하여 처리하는 모델 아키텍처.
ㅇ 특징:
– 게이트 네트워크가 전문가 선택.
– 확장성 높음, 효율적 파라미터 활용.
ㅇ 적합한 경우:
– 다양한 패턴을 포함하는 대규모 데이터 처리.
ㅇ 시험 함정:
– 모든 전문가가 항상 활성화된다고 오해.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “MoE는 입력에 따라 일부 전문가만 활성화한다.”
– X: “MoE는 항상 모든 전문가를 동시에 활성화한다.”
4.1 Gating Network
ㅇ 정의:
– 입력에 따라 활성화할 전문가를 결정하는 네트워크.
ㅇ 특징:
– Softmax 또는 Top-k 선택 방식 사용.
ㅇ 적합한 경우:
– 전문가 선택이 필요한 MoE 구조.
ㅇ 시험 함정:
– 게이트가 출력값을 직접 생성한다고 착각.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Gating Network는 어떤 전문가를 사용할지 결정한다.”
– X: “Gating Network는 최종 예측값을 직접 생성한다.”
ㅁ 추가 학습 내용
추가 학습 정리
1. Transformers의 Multi-Head Attention
– 장점: 서로 다른 부분(subspace)에서 병렬적으로 정보를 학습하여 다양한 문맥적 관계를 포착 가능
– 각 Head의 역할: 입력 시퀀스의 다른 위치 간 관계를 다른 관점에서 학습, 특정 Head는 장거리 의존성, 다른 Head는 국소적 패턴에 집중
2. Position Encoding
– 절대 위치 인코딩(Absolute): 각 위치에 고유한 위치 정보를 부여, 주로 사인/코사인 함수를 사용
– 상대 위치 인코딩(Relative): 두 토큰 간 상대적 거리 정보를 반영, 긴 문맥 처리에 유리
– 적용 방식: 입력 임베딩에 위치 인코딩 벡터를 더하거나(concatenate) 주입
3. Vision Transformers(ViT)
– 데이터 증강 기법: Random Crop, Random Flip, Color Jitter, Mixup, CutMix 등
– 사전 학습 전략: 대규모 이미지 데이터셋에서 사전 학습 후 다운스트림 태스크에 파인튜닝, Self-Supervised Learning 기법 활용 가능
4. Sparse Models
– 구조적 희소성(Structured Sparsity): 채널, 필터, 블록 단위로 제거하여 하드웨어 가속에 유리
– 비구조적 희소성(Unstructured Sparsity): 개별 가중치를 제거, 유연하지만 하드웨어 최적화 어려움
5. Mixture of Experts(MoE)
– Load Balancing 문제: 일부 전문가(Expert)만 과도하게 선택되어 학습 불균형 발생
– 해결 Loss 항목: Load Balancing Loss, Auxiliary Loss 등을 추가하여 전문가 선택 확률을 균등하게 유지
6. 학습 안정성 기법
– Layer Normalization: 각 층 입력을 정규화하여 학습 안정화, Gradient 폭주/소실 방지
– Residual Connection: 입력을 출력에 더해 Gradient 흐름을 원활히 하고 깊은 네트워크 학습 가능하게 함
시험 대비 체크리스트
[ ] Multi-Head Attention의 장점과 Head별 역할 설명 가능
[ ] 절대/상대 Position Encoding의 개념과 적용 방식 구분 가능
[ ] Vision Transformers의 주요 데이터 증강 기법과 사전 학습 전략 나열 가능
[ ] 구조적 희소성과 비구조적 희소성의 차이와 장단점 설명 가능
[ ] MoE의 Load Balancing 문제 원인과 해결 Loss 항목 명확히 설명 가능
[ ] Layer Normalization과 Residual Connection의 역할과 효과 설명 가능
[ ] 모델 구조도에서 각 구성 요소의 기능을 식별하고 설명 가능