AI 모델 개발: 멀티모달 구조 – Cross-attention
ㅁ 멀티모달 구조
ㅇ 정의:
– 서로 다른 형태의 데이터(예: 이미지, 텍스트, 음성 등)를 결합하여 처리하는 모델 구조로, 각 모달리티 간의 상호 보완적인 정보 활용을 목표로 함.
ㅇ 특징:
– 데이터 간의 의미적 연결을 학습하여 단일 모달보다 더 풍부한 표현을 생성.
– 모달 간 특징 추출기와 융합 모듈을 포함.
– 주로 이미지 캡셔닝, 비디오 질의응답, 멀티모달 감정 분석 등에 활용.
ㅇ 적합한 경우:
– 단일 데이터 형태로는 의미 파악이 어려운 복합적인 문제.
– 이미지와 텍스트를 동시에 이해해야 하는 검색, 추천, 설명 생성.
ㅇ 시험 함정:
– 멀티모달 구조와 단순한 데이터 증강을 혼동.
– 모달 융합 시점(early, late, hybrid)을 구분하지 못하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “멀티모달 구조는 서로 다른 데이터 형태를 결합하여 더 풍부한 표현을 학습한다.”
– X: “멀티모달 구조는 단일 데이터 모달리티만 처리한다.”
================================
1. Cross-attention
ㅇ 정의:
– 한 모달의 특성을 다른 모달의 특성과 비교·참조하여 가중치를 부여하는 주의(attention) 메커니즘.
– Query를 한 모달에서, Key와 Value를 다른 모달에서 가져와 상호 정보 교환.
ㅇ 특징:
– 모달 간 상호작용을 세밀하게 조정 가능.
– Transformer 기반 멀티모달 모델에서 자주 사용.
– 정보 손실을 줄이고 의미적 정합성을 높임.
ㅇ 적합한 경우:
– 이미지-텍스트 매칭, 비디오-오디오 동기화, 다중 센서 데이터 융합.
– 서로 다른 데이터의 특정 부분을 강조해야 하는 작업.
ㅇ 시험 함정:
– Self-attention과 혼동: Self-attention은 Query, Key, Value 모두 동일 모달.
– Cross-attention을 단순한 피처 결합으로 오해.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Cross-attention은 서로 다른 모달 간 Query와 Key/Value를 교차하여 주의 가중치를 계산한다.”
– X: “Cross-attention은 동일 모달 내부에서만 주의 가중치를 계산한다.”
ㅁ 추가 학습 내용
Cross-attention의 수학적 정의를 이해해야 한다. Query(Q), Key(K), Value(V)의 차원이 일치하도록 설정하며, Scaled Dot-Product Attention은 Q와 K의 내적을 구한 뒤 차원 수의 제곱근으로 나누고, Softmax를 적용하여 가중치를 구한 후 V에 곱하는 방식으로 계산된다.
멀티모달 환경에서의 Cross-attention 적용 예시로는 CLIP, Flamingo, BLIP-2 등이 있다. 이러한 모델에서 서로 다른 모달리티(예: 텍스트와 이미지) 간의 정보 결합에 Cross-attention이 활용된다.
Fusion 방식에는 Early Fusion, Late Fusion, Hybrid Fusion이 있으며, Cross-attention은 주로 Late Fusion 또는 Hybrid Fusion 단계에서 사용된다.
Self-attention과 Cross-attention의 차이를 표로 정리해 두면 혼동을 줄일 수 있다. Self-attention은 Q, K, V가 모두 동일한 모달에서 오고, Cross-attention은 Q와 K/V가 서로 다른 모달에서 온다.
시험에서는 Q와 K/V가 동일한 모달에서 오는 경우를 Cross-attention이라고 혼동시키는 오답 유도 문장이 자주 출제되므로 주의해야 한다.