최신 AI 트렌드: 기술 및 응용

ㅁ 기술 및 응용

1. Multimodal Models

ㅇ 정의:
– 텍스트, 이미지, 오디오, 비디오 등 서로 다른 형태의 데이터를 동시에 처리하고 이해하는 AI 모델.

ㅇ 특징:
– 서로 다른 모달리티 간의 상호 연관성을 학습.
– 복합 입력을 기반으로 더 정교한 추론 가능.
– 대규모 데이터와 연산 자원 필요.

ㅇ 적합한 경우:
– 이미지 캡션 생성, 비디오 설명, 텍스트-이미지 검색 등 복합 데이터 처리.

ㅇ 시험 함정:
– 단일 모달 모델과 혼동하기 쉬움.
– 멀티모달이라고 해서 반드시 모든 모달을 동시에 사용하는 것은 아님.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “텍스트와 이미지를 함께 입력받아 의미를 추론하는 모델”
– X: “이미지 분류만 수행하는 CNN”

2. CLIP

ㅇ 정의:
– OpenAI가 개발한 텍스트와 이미지를 동일한 임베딩 공간에 매핑하여 의미적 유사도를 계산하는 모델.

ㅇ 특징:
– 대규모 텍스트-이미지 쌍 데이터로 학습.
– 제로샷 학습 능력 보유.

ㅇ 적합한 경우:
– 이미지 검색, 제로샷 분류, 텍스트 기반 이미지 필터링.

ㅇ 시험 함정:
– 지도학습 기반이라고 오해하기 쉬움(실제로는 대규모 사전학습 기반).
– 단순 이미지 캡션 모델과 혼동.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “이미지와 텍스트를 동일한 벡터 공간에 매핑”
– X: “이미지에서 텍스트를 직접 생성하는 모델”

3. Flamingo

ㅇ 정의:
– DeepMind에서 개발한 비전-언어 모델로, 소수 샷 학습(few-shot) 환경에서 멀티모달 작업 수행.

ㅇ 특징:
– 사전학습된 비전 백본과 언어 모델 결합.
– 적은 예시로도 새로운 멀티모달 태스크 수행.

ㅇ 적합한 경우:
– 데이터 라벨이 적은 멀티모달 환경.

ㅇ 시험 함정:
– 대규모 파인튜닝이 필수라고 착각.
– 단일 모달 few-shot 모델과 혼동.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “적은 예시로도 이미지와 텍스트를 함께 이해”
– X: “수백만 장의 라벨링 이미지가 필수”

4. Stable Diffusion

ㅇ 정의:
– 텍스트 프롬프트를 기반으로 이미지를 생성하는 공개형 딥러닝 기반 확산 모델.

ㅇ 특징:
– Latent Diffusion 방식을 사용해 연산 효율성 향상.
– 오픈소스로 배포되어 커뮤니티 활용도 높음.

ㅇ 적합한 경우:
– 창작 이미지 생성, 컨셉 아트 제작, 시각적 아이디어 시뮬레이션.

ㅇ 시험 함정:
– GAN 기반이라고 오해하기 쉬움(실제로는 확산 모델).
– 텍스트 이해 없이 무작위 이미지 생성한다고 착각.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “텍스트 설명을 기반으로 이미지 생성”
– X: “이미지를 입력받아 텍스트를 생성”

5. Vision-Language Models

ㅇ 정의:
– 시각 정보와 언어 정보를 함께 처리하여 의미를 이해하는 AI 모델.

ㅇ 특징:
– 이미지 특징 추출기와 언어 모델을 결합.
– 멀티모달 검색, 질의응답, 캡션 생성 가능.

ㅇ 적합한 경우:
– 이미지 기반 질의응답, 텍스트-이미지 매칭.

ㅇ 시험 함정:
– 단순 이미지 분류 모델과 혼동.
– 언어 모델 부분이 없이도 동작한다고 오해.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “이미지와 텍스트를 함께 처리하여 질의응답 수행”
– X: “텍스트만 입력받아 답변하는 챗봇”

ㅁ 추가 학습 내용

멀티모달 AI 시험 대비 정리

1. 멀티모달 융합 방식
– Early Fusion: 입력 단계에서 서로 다른 모달리티 데이터를 결합.
장점: 모달 간 상호작용을 초기에 반영 가능.
단점: 차원 증가로 인한 계산 복잡도, 모달별 특성 손실 가능성.
– Late Fusion: 각 모달리티를 개별 처리 후 출력 단계에서 결합.
장점: 모달별 최적 처리 가능, 구현 용이.
단점: 모달 간 상호작용이 제한적.
– Hybrid Fusion: 중간 계층에서 결합.
장점: 모달별 특성과 상호작용을 균형 있게 활용 가능.
단점: 설계 복잡도 증가, 최적 결합 시점 결정이 어려움.

2. 대표적인 멀티모달 데이터셋
– MS COCO: 이미지와 캡션 데이터 제공, 이미지 캡셔닝·객체 인식에 활용.
– Visual Genome: 이미지와 객체 관계, 속성 정보 풍부.
– LAION-400M: 대규모 이미지-텍스트 페어, 웹 크롤링 기반.

3. 성능 평가 지표
– 텍스트-이미지 검색: Recall@K (K개 중 정답 포함 비율).
– 이미지 캡션: BLEU, METEOR, CIDEr 등 언어 유사도 측정 지표.

4. 학습 시 고려사항
– 모달 불균형 문제: 데이터 양·품질의 차이로 인한 학습 편향.
– 데이터 정렬 품질: 이미지와 텍스트의 의미적 일치 여부 중요.
– 크로스모달 어텐션 구조: 모달 간 정보 교환과 강조를 위한 핵심 메커니즘.

5. 최신 동향
– GPT-4V, Kosmos-1 등 대규모 멀티모달 LLM 등장.
– 이미지·텍스트·음성 등 다양한 모달 처리, 응용 영역 확장.

6. 법적/윤리적 이슈
– 저작권 문제: 데이터 수집·활용 시 법적 분쟁 가능성.
– 데이터 편향: 학습 데이터의 사회적·문화적 편향 반영 위험.
– 생성물 악용 가능성: 허위 정보, 불법 콘텐츠 제작 등.

시험 대비 체크리스트
– Early, Late, Hybrid Fusion의 정의와 장단점을 구분할 수 있는가?
– MS COCO, Visual Genome, LAION-400M의 특징과 활용 분야를 말할 수 있는가?
– Recall@K, BLEU, METEOR, CIDEr 지표의 의미와 사용 사례를 설명할 수 있는가?
– 모달 불균형, 데이터 정렬, 크로스모달 어텐션의 개념과 중요성을 이해하고 있는가?
– GPT-4V, Kosmos-1의 특징과 멀티모달 LLM의 응용 사례를 알고 있는가?
– 저작권, 데이터 편향, 악용 가능성 등 법적·윤리적 이슈를 설명할 수 있는가?

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*