ㅁ 멀티모달 구조 ㅇ 정의: 서로 다른 형태의 데이터를 동시에 처리하고 결합하여 의미를 추론하는 모델 구조로, 이미지와 텍스트를 함께 이해하는 모델이 대표적임. ㅇ 특징: – 입력 데이터의 모달리티가 2개 이상(예: 시각+언어) – 각 모달리티별 인코더를 두고, 융합(Fusion) 모듈을 통해 결합 – 사전학습(Pre-training) 시 대규모 멀티모달 데이터셋 사용 – 크로스 어텐션(Cross-Attention)과 같은 모듈 활용 ㅇ 적합한
ㅁ 대규모 언어모델 세부 1. RAG ㅇ 정의: Retrieval-Augmented Generation의 약자로, 대규모 언어모델(LLM)이 응답을 생성하기 전에 외부 지식베이스나 데이터베이스에서 관련 정보를 검색(Retrieval)하여 이를 기반으로 답변을 생성(Generation)하는 아키텍처. ㅇ 특징: – LLM의 최신성 한계를 보완하여, 학습 시점 이후의 정보나 도메인 특화 지식을 활용 가능. – 검색된 문서를 컨텍스트로 포함시켜 환각(Hallucination) 현상을 줄임. – 검색 품질에 따라
ㅁ 그래프 데이터 증강 ㅇ 정의: 그래프 데이터 증강은 기존 그래프 데이터를 변형하여 학습에 사용할 수 있는 새로운 그래프 샘플을 생성하는 기법으로, 데이터 부족 문제를 완화하고 모델의 일반화 성능을 향상시키는 데 사용됨. ㅇ 특징: – 노드, 엣지, 속성 등을 변형하여 데이터 다양성을 확보 – 원래 그래프의 구조적/의미적 특성을 크게 훼손하지 않음 – 지도, 비지도, 자가지도
ㅁ 그래프 데이터 증강 ㅇ 정의: 그래프 구조에서 일부 노드와 엣지를 무작위로 탐색하여 서브그래프를 추출하는 방식의 데이터 증강 기법. 주로 랜덤 워크(Random Walk) 알고리즘을 사용하여 그래프의 지역적 구조를 보존하면서 새로운 학습 샘플을 생성한다. ㅇ 특징: – 시작 노드에서 무작위로 인접 노드로 이동하며 일정 길이의 경로를 생성. – 그래프의 전역 구조보다 국소 구조를 잘 반영. –
ㅁ 그래프 데이터 증강 ㅇ 정의: 그래프 데이터의 구조적 다양성을 확보하기 위해 기존 그래프에서 일부 엣지를 제거하여 새로운 학습 데이터를 생성하는 기법. ㅇ 특징: – 그래프의 연결성을 변화시켜 모델이 다양한 구조를 학습하도록 유도. – 무작위 삭제(random deletion) 또는 특정 기준(예: 낮은 중요도 엣지) 기반 삭제 가능. – 노드 간 관계 정보가 줄어들어 과적합 방지에 도움.
ㅁ 그래프 데이터 증강 ㅇ 정의: 그래프 데이터에서 일부 노드를 선택적으로 추출하여 원본 그래프의 구조를 유지하면서 데이터의 다양성을 확보하는 기법. ㅇ 특징: – 전체 그래프의 크기를 줄이면서도 중요한 구조적 특징을 보존 가능 – 무작위 샘플링, 중요도 기반 샘플링 등 다양한 방식 존재 – 모델 학습 시 과적합 방지 및 일반화 성능 향상에 기여 ㅇ 적합한
ㅁ 시간 데이터 처리 ㅇ 정의: 시간 데이터 처리란 시계열 데이터에서 시간 순서에 따라 데이터를 정리, 변환, 분석하기 위한 전처리 과정으로, 주기성, 추세, 계절성을 반영하여 분석 가능하도록 만드는 작업이다. ㅇ 특징: – 시계열 특성을 고려하여 결측치 보간, 이상치 처리, 리샘플링, 이동평균 등의 기법을 활용 – 시간 단위(초, 분, 시, 일, 주 등) 변환 가능 –
ㅁ 시간 데이터 처리 ㅇ 정의: 시간 데이터 처리란 시간 축을 기준으로 수집된 데이터를 분석 가능하도록 가공하는 과정을 말하며, 주기성·추세·계절성 등을 고려한 변환과 정제가 포함된다. ㅇ 특징: – 데이터가 시간 순서대로 정렬되어야 함 – 시계열 특성을 반영한 분석 기법 필요 – 결측치·이상치 처리 시 시간적 연속성 고려 ㅇ 적합한 경우: – 주식, 기상, 판매량 등
ㅁ 시간 데이터 처리 ㅇ 정의: 시간 데이터 처리 중 ‘시즌성 제거’는 시계열 데이터에서 주기적으로 반복되는 패턴(계절성)을 제거하여 추세나 불규칙 요인을 명확히 분석할 수 있도록 하는 과정. ㅇ 특징: – 월별, 분기별, 요일별 등 특정 주기에 따라 반복되는 패턴을 분리. – 이동평균, 계절성 분해(Seasonal Decomposition), 차분(Differencing) 등의 기법 활용. – 예측 모델의 정확도를 높이기 위해
ㅁ 시간 데이터 처리 ㅇ 정의: 시간 데이터 처리란 시계열 데이터의 시간 단위, 간격, 포맷 등을 변환하거나 보정하여 분석 및 모델링에 적합하게 만드는 과정이다. ㅇ 특징: – 시계열 데이터의 시간 간격이 불규칙하거나 결측이 있는 경우 이를 일정한 간격으로 맞출 수 있다. – 시간대(Timezone) 변환, 포맷 변경, 주기적 집계 등의 작업이 포함된다. – 데이터의 시간 단위(초,