AI 트렌드: 멀티모달 AI – CLIP
ㅁ 멀티모달 AI
ㅇ 정의:
텍스트, 이미지, 오디오 등 서로 다른 형태의 데이터를 동시에 처리하고 이해하는 인공지능 기술.
ㅇ 특징:
– 다양한 데이터 소스를 결합하여 더 풍부한 의미를 추론 가능
– 복합 입력 기반의 질의응답, 검색, 생성 작업에 활용
– 데이터 간 의미적 매핑을 학습함
ㅇ 적합한 경우:
– 이미지와 텍스트를 함께 분석해야 하는 검색 엔진
– 영상 속 설명문 생성, 멀티모달 챗봇
ㅇ 시험 함정:
– 단일모달 AI와 혼동하여 정의를 잘못 선택하는 경우
– 멀티모달 AI를 단순히 데이터 양이 많은 AI로 오해하는 경우
ㅇ 시험 대비 “패턴 보기” 예시:
O: “이미지와 텍스트를 동시에 이해하는 AI 기술”
X: “한 종류의 데이터만 처리하는 AI 기술”
================================
1. CLIP
ㅇ 정의:
OpenAI에서 개발한 멀티모달 AI 모델로, 이미지와 텍스트를 동일한 임베딩 공간에 매핑하여 의미적으로 연결하는 기술.
ㅇ 특징:
– 대규모 이미지-텍스트 쌍 데이터로 사전 학습
– 텍스트와 이미지의 유사도를 계산하여 검색, 분류 가능
– Zero-shot 학습 가능: 학습하지 않은 카테고리도 텍스트 설명만으로 분류
ㅇ 적합한 경우:
– 텍스트 기반 이미지 검색
– 이미지 설명 생성
– 사전 정의되지 않은 클래스 분류
ㅇ 시험 함정:
– CLIP을 단일 이미지 분류 모델로 오해하는 경우
– Zero-shot 기능을 지도학습의 하위 기능으로 잘못 이해하는 경우
ㅇ 시험 대비 “패턴 보기” 예시:
O: “이미지와 텍스트를 동일한 벡터 공간에서 비교하는 멀티모달 모델”
X: “텍스트만을 처리하는 자연어 처리 모델”
ㅁ 추가 학습 내용
CLIP은 Contrastive Language–Image Pre-training의 약자로, 이미지와 텍스트 쌍을 이용해 대조 학습(Contrastive Learning) 방식으로 학습한다. 핵심 개념은 대조 학습과 공통 임베딩 공간이며, 이를 통해 이미지와 텍스트를 동일한 벡터 공간에 매핑한다. CLIP이 Zero-shot 학습을 수행할 수 있는 이유는 사전 학습 단계에서 다양한 개념을 포괄적으로 학습했기 때문이며, 이는 전이학습(Transfer Learning)과 연결된다. 멀티모달 AI 분야에서는 CLIP 외에도 Flamingo, BLIP, ALIGN 등의 모델이 존재하며, 이들 간의 차이점을 비교하는 문제가 출제될 수 있다.