AI 트렌드: 멀티모달 AI – Flamingo
ㅁ 멀티모달 AI
ㅇ 정의:
텍스트, 이미지, 오디오 등 서로 다른 형태의 데이터를 동시에 처리하고 이해할 수 있는 인공지능 기술을 의미한다.
ㅇ 특징:
– 다양한 데이터 소스를 결합하여 더 정교한 분석과 추론이 가능함
– 단일 모달보다 맥락 이해도가 높음
– 대규모 사전학습 모델과 결합 시 성능 향상
ㅇ 적합한 경우:
– 이미지 설명 생성, 비디오 자막 생성, 시각 질문응답(VQA) 등 복합 데이터 기반 서비스
– 의료 영상+진료 기록 분석, 감시 영상+센서 데이터 통합 분석
ㅇ 시험 함정:
– 멀티모달 AI를 단순히 여러 AI 모델을 나열한 것으로 오해
– 모달 간 정보 융합 시점(early fusion, late fusion) 구분 혼동
ㅇ 시험 대비 “패턴 보기” 예시:
O: “텍스트와 이미지를 동시에 이해하고 출력하는 AI를 멀티모달 AI라 한다.”
X: “멀티모달 AI는 항상 텍스트만 처리한다.”
================================
1. Flamingo
ㅇ 정의:
DeepMind에서 개발한 대규모 멀티모달 언어 모델로, 텍스트와 이미지를 결합하여 질의응답, 설명 생성 등의 작업을 few-shot 학습으로 수행할 수 있는 모델.
ㅇ 특징:
– 사전학습된 언어 모델과 비전 모델을 연결하는 아키텍처
– 소량의 예시만으로도 새로운 멀티모달 작업에 적응
– 이미지-텍스트 쌍 데이터로 학습
ㅇ 적합한 경우:
– 이미지 기반 질의응답(VQA)
– 이미지 설명문 생성
– 멀티모달 정보 검색 및 요약
ㅇ 시험 함정:
– Flamingo를 단일 이미지 분류 모델로 착각
– 완전한 zero-shot만 지원한다고 오해
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Flamingo는 텍스트와 이미지를 함께 처리하여 few-shot 학습이 가능하다.”
X: “Flamingo는 오직 텍스트 데이터만을 처리한다.”
ㅁ 추가 학습 내용
멀티모달 모델은 서로 다른 형태의 데이터를 결합하여 처리하는 인공지능 모델로, Flamingo와 같은 모델은 cross-attention 메커니즘을 활용해 모달 간 정보를 융합한다.
융합 방식에는 다음과 같은 구분이 있다.
– Early fusion: 입력 단계에서 서로 다른 모달 데이터를 결합하여 모델에 입력하는 방식
– Late fusion: 각 모달을 별도로 처리한 후 출력 단계에서 결합하는 방식
– Hybrid fusion: 처리 과정의 중간 단계에서 모달 정보를 결합하는 방식
Flamingo는 사전학습된 CLIP과 같은 비전 모델과 대규모 언어 모델을 연결해 설계되었다.
멀티모달 AI의 주요 응용 분야
– 자율주행: 카메라 + 라이다 센서 융합
– 스마트 팩토리: 센서 + 영상 데이터 융합
– 의료 진단: 의료 영상 + 환자 기록 융합
시험에서 자주 묻는 내용
– 단일 모달 대비 장점: 더 풍부한 정보 활용, 정확도 향상, 상황 이해력 증대
– 데이터 정합성 문제: 모달 간 시간·공간적 불일치, 데이터 품질 차이, 동기화 문제