아키텍처/블록: Multi-Head Attention
ㅁ 아키텍처/블록
ㅇ 정의:
– 아키텍처/블록은 딥러닝 모델의 구조적 요소로, 모델의 성능과 효율성을 결정짓는 핵심 구성 단위입니다.
ㅇ 특징:
– 반복적이고 모듈화된 설계가 가능하며, 다양한 문제에 맞게 조합 및 조정될 수 있습니다.
ㅇ 적합한 경우:
– 복잡한 입력 데이터를 처리하거나, 특정 패턴을 학습해야 하는 문제에서 효과적입니다.
ㅇ 시험 함정:
– 아키텍처의 역할과 구현 목적을 혼동하거나, 특정 블록의 장단점을 명확히 이해하지 못할 수 있습니다.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “아키텍처/블록은 모델의 주요 구성 요소로, 모듈화된 설계를 가능하게 한다.”
– X: “아키텍처/블록은 데이터 전처리 과정에서 사용된다.”
================================
1. Multi-Head Attention
ㅇ 정의:
– Multi-Head Attention은 입력 데이터의 다양한 표현을 학습하기 위해 여러 개의 Attention 메커니즘을 병렬적으로 사용하는 기술입니다.
ㅇ 특징:
– 병렬 처리를 통해 모델의 학습 능력을 향상시키며, 서로 다른 부분의 정보를 동시에 캡처할 수 있습니다.
ㅇ 적합한 경우:
– 자연어 처리, 컴퓨터 비전 등에서 데이터의 상호 연관성을 학습해야 할 때 유용합니다.
ㅇ 시험 함정:
– Attention 메커니즘과 Multi-Head Attention의 차이를 혼동하거나, 각 Head의 독립적 학습 과정을 이해하지 못할 수 있습니다.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Multi-Head Attention은 입력 데이터의 다양한 표현을 학습하기 위해 여러 Attention 메커니즘을 병렬적으로 사용한다.”
– X: “Multi-Head Attention은 단일 Attention 메커니즘보다 메모리 사용량이 적다.”
================================
ㅁ 추가 학습 내용
Multi-Head Attention과 관련하여 학습해야 할 내용을 다음과 같이 정리합니다.
1. Self-Attention과 Multi-Head Attention의 차이점 및 활용 사례:
– Self-Attention은 입력 시퀀스 내 각 요소가 다른 요소와의 관계를 학습하는 메커니즘으로, 동일 시퀀스 내에서 정보를 통합합니다. Multi-Head Attention은 이러한 Self-Attention을 여러 개의 헤드로 병렬 실행하여 다양한 관점을 학습할 수 있도록 확장한 개념입니다.
– Self-Attention은 주로 단일 시퀀스 내의 관계를 분석할 때 사용되며, Multi-Head Attention은 더 풍부하고 다차원적인 관계를 학습하기 위해 활용됩니다.
– 활용 사례로는 Self-Attention이 텍스트 요약이나 번역에서 문맥을 이해하는 데 사용되고, Multi-Head Attention은 Transformer 모델에서 문장 간의 복잡한 관계를 학습하는 데 사용됩니다.
2. Multi-Head Attention의 계산 과정:
– Query, Key, Value는 입력 데이터를 선형 변환한 벡터로, 각각 검색 질의(Query), 데이터의 특징(Key), 반환할 정보(Value)를 나타냅니다.
– Attention Score는 Query와 Key의 내적을 통해 계산되며, 이는 두 벡터 간의 유사도를 나타냅니다. 이 점수를 소프트맥스 함수로 정규화하여 가중치를 결정합니다.
– Value는 정규화된 Attention Score와 곱해져 최종 출력으로 이어집니다.
– Multi-Head Attention은 이러한 과정을 여러 헤드에서 병렬로 수행한 뒤, 각 헤드의 출력을 결합하여 최종 출력을 생성합니다. 이를 통해 다양한 시각에서 정보를 학습할 수 있습니다.
3. Transformer 모델에서 Multi-Head Attention의 위치와 역할:
– Multi-Head Attention은 Transformer 모델의 Encoder와 Decoder 블록에서 핵심 역할을 합니다.
– Encoder에서 입력 시퀀스의 각 단어 간 관계를 학습하여 문맥을 이해합니다.
– Decoder에서는 이전 출력과 Encoder 출력 간의 관계를 학습하여 다음 단어를 예측합니다.
– Multi-Head Attention은 특히 문맥의 다양한 측면을 동시에 학습할 수 있도록 도와줍니다.
4. 모델 학습 시 Attention Score 계산 방식과 학습되는 패턴의 종류:
– Attention Score는 Query와 Key의 내적을 통해 계산되며, 이를 차원 수의 제곱근으로 나눈 뒤 소프트맥스를 적용하여 정규화합니다. 이를 통해 특정 Key-Value 쌍에 더 높은 가중치를 부여합니다.
– 학습되는 패턴으로는 문맥 내 단어 간의 종속성, 문장 구조, 구문적 관계 등이 포함됩니다. 예를 들어, 문장에서 주어와 동사의 관계를 학습하거나, 특정 단어가 다른 단어와의 연관성을 통해 의미를 강화하는 방식으로 작동합니다.