AI 모델 개발: 멀티모달 구조 – CoT
ㅁ 멀티모달 구조
ㅇ 정의:
텍스트, 이미지, 음성 등 서로 다른 형태의 데이터를 동시에 처리하고 이해할 수 있는 인공지능 모델 구조를 의미하며, CoT(Chain of Thought)는 이러한 멀티모달 환경에서 모델이 단계적으로 추론 과정을 전개하도록 유도하는 기법이다.
ㅇ 특징:
– 복잡한 문제를 중간 단계로 나누어 해결
– 모델이 각 단계별로 명시적인 사고 과정을 출력
– 멀티모달 입력(예: 이미지+텍스트)에 대해 단계별 설명 생성 가능
ㅇ 적합한 경우:
– 수학 문제 풀이, 논리 추론, 복합 질의 응답
– 이미지 속 객체 관계 분석 후 서술
– 단계별 근거 제시가 필요한 법률/의학 질의 처리
ㅇ 시험 함정:
– CoT를 단순히 ‘모델이 생각하는 것’으로 오해하는 경우
– 멀티모달과 무관하게 CoT가 적용된다고 착각하는 경우
– 모든 문제에서 CoT가 성능을 향상시키는 것은 아님
ㅇ 시험 대비 “패턴 보기” 예시:
O: “CoT는 복잡한 문제를 단계적으로 풀도록 유도하는 기법이다.”
X: “CoT는 모델의 연산 속도를 높이는 하드웨어 최적화 기법이다.”
================================
1. CoT
ㅇ 정의:
Chain of Thought의 약자로, 모델이 문제 해결 시 중간 추론 과정을 명시적으로 생성하도록 유도하는 프롬프트 설계 기법.
ㅇ 특징:
– 단계별 reasoning을 통해 최종 답 도출
– 멀티모달 구조에서는 각 modality별 정보를 순차적으로 연결
– 프롬프트에 “Let’s think step by step” 등의 문구 사용
ㅇ 적합한 경우:
– 복잡한 수치 계산, 논리 퍼즐
– 이미지 속 장면 해석 후 설명
– 다단계 조건을 만족하는 답변 생성
ㅇ 시험 함정:
– CoT를 데이터 전처리 방식으로 혼동
– CoT 적용이 항상 정확도를 높인다고 단정
– 멀티모달 입력에서 modality 간 관계를 고려하지 않는 경우
ㅇ 시험 대비 “패턴 보기” 예시:
O: “CoT는 모델이 중간 추론 과정을 출력하여 복잡한 문제 해결을 돕는다.”
X: “CoT는 모델의 파라미터 수를 줄이는 모델 경량화 기법이다.”
ㅁ 추가 학습 내용
CoT와 멀티모달 구조를 결합할 때는 모달리티 정렬(modality alignment)과 크로스 어텐션(cross-attention) 메커니즘이 핵심 역할을 한다. 이미지와 텍스트를 함께 처리하는 경우, CoT는 각 모달리티에서 추출된 특징을 순차적으로 추론 체인(reasoning chain)에 통합하여 동작할 수 있다.
Zero-shot CoT는 예시 없이 문제를 풀 때 바로 추론 과정을 생성하는 방식이며, Few-shot CoT는 몇 개의 예시를 제공하여 모델이 추론 과정을 학습한 뒤 문제를 푸는 방식이다.
Self-consistency는 동일 입력에 대해 여러 개의 추론 경로를 생성하고, 그 결과들 중 가장 일관성이 높은 답을 선택하여 CoT 성능을 향상시키는 방법이다.
CoT는 경우에 따라 실패할 수 있으며, 특히 잘못된 추론 경로를 따라가면서 사실과 다른 내용을 생성하는 hallucination이 증가할 가능성이 있다.