데이터 전처리: 개념 및 실천

ㅁ 개념 및 실천

ㅇ 정의:
데이터 중심 설계에서 실제 AI/데이터 모델의 성능 향상을 위해 데이터의 품질, 구조, 표현을 개선하는 전반적인 활동을 의미함.

ㅇ 특징:
모델 구조 변경보다 데이터 품질, 전처리, 표현 방식 최적화를 중시함.

ㅇ 적합한 경우:
데이터 수집은 충분하지만 품질이 낮거나, 다양한 소스에서 데이터가 혼합되어 있는 경우.

ㅇ 시험 함정:
데이터 중심 설계는 단순히 데이터 수집을 의미하는 것이 아님. ‘데이터 수집’과 ‘데이터 품질 개선’을 혼동하지 않도록 주의.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “모델 변경 없이 데이터 품질 개선으로 성능 향상”
– X: “데이터 중심 설계는 새로운 모델 아키텍처 설계 기법”

================================

1. Data Curation

ㅇ 정의:
분석 목적에 맞게 데이터를 수집, 정제, 라벨링, 메타데이터 관리 등을 수행하는 과정.

ㅇ 특징:
데이터 신뢰성과 일관성을 확보하며, 품질 관리 프로세스를 포함함.

ㅇ 적합한 경우:
다양한 출처에서 데이터를 수집하고 통합해야 하는 프로젝트.

ㅇ 시험 함정:
단순 데이터 저장이 아니라 품질과 목적 적합성을 고려한 선별 과정임.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “데이터 큐레이션은 데이터 품질과 목적 적합성 확보를 목표로 함”
– X: “데이터 큐레이션은 데이터 양을 최대화하는 과정”

================================

2. Feature Engineering

ㅇ 정의:
모델 학습에 유용하도록 원본 데이터를 변환, 생성, 선택하는 과정.

ㅇ 특징:
도메인 지식을 활용하여 모델 입력 특성을 개선함.

ㅇ 적합한 경우:
원본 데이터에서 직접 학습하기 어려운 경우, 모델 성능 향상을 위해 새로운 특성이 필요한 경우.

ㅇ 시험 함정:
Feature Engineering은 단순 스케일링이나 정규화만을 의미하지 않음.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “도메인 지식을 활용하여 새로운 파생 변수를 생성”
– X: “Feature Engineering은 데이터 라벨링 과정과 동일함”

================================

3. Tokenization

ㅇ 정의:
텍스트 데이터를 의미 있는 최소 단위(토큰)로 분할하는 과정.

ㅇ 특징:
자연어 처리에서 필수 전처리 단계이며, 언어별 규칙과 문맥을 고려해야 함.

ㅇ 적합한 경우:
텍스트 기반 분석, NLP 모델 학습 전처리.

ㅇ 시험 함정:
Tokenization은 단순히 공백 기준 분할이 아님. 언어별 형태소 분석이나 서브워드 처리 필요할 수 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Tokenization은 문장을 의미 단위로 분리하는 과정”
– X: “Tokenization은 숫자 데이터를 범주형으로 변환하는 과정”

================================

4. Multimodality

ㅇ 정의:
텍스트, 이미지, 오디오 등 서로 다른 유형의 데이터를 함께 처리하고 학습하는 방식.

ㅇ 특징:
다양한 데이터 소스를 통합하여 더 풍부한 표현과 추론 가능.

ㅇ 적합한 경우:
이미지+텍스트 검색, 비디오 자막 생성, 멀티센서 데이터 분석.

ㅇ 시험 함정:
Multimodality는 단일 데이터 타입을 여러 방식으로 변환하는 것이 아님.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Multimodality는 서로 다른 유형의 데이터를 결합하여 학습”
– X: “Multimodality는 동일 데이터의 중복 저장 기법”

ㅁ 추가 학습 내용

정리된 학습 내용

1. Data Curation의 법·윤리적 고려사항
– 데이터 거버넌스: 데이터 수집, 저장, 활용, 폐기 전 과정에 대한 관리 체계 이해
– GDPR(General Data Protection Regulation): 유럽연합 개인정보 보호 규정의 주요 원칙과 적용 범위
– 개인정보 비식별화: 익명화(Anonymization), 가명화(Pseudonymization) 기법과 한계

2. Feature Engineering 자동화와 전통적 방식 비교
– 자동화 기법: Feature Store, AutoML 기반 Feature Selection의 개념과 장점(효율성, 재사용성)
– 전통적 수동 설계: 도메인 지식을 활용한 수작업 특징 생성의 장점(해석 가능성, 맞춤화)
– 두 접근 방식의 장단점 및 활용 시 고려 요소

3. Tokenization 서브워드 분할 알고리즘
– BPE(Byte Pair Encoding): 가장 빈번한 문자 쌍 병합 방식, OOV(Out-of-Vocabulary) 문제 완화
– WordPiece: 확률 기반 토큰 선택, BERT 등에서 사용
– SentencePiece: 언어 독립적, 공백 기반 전처리 불필요, 유니그램 언어 모델 지원
– 각 알고리즘의 특징, 장단점, 적용 사례 비교

4. Multimodality 최신 모델 아키텍처
– Cross-modal Attention: 서로 다른 모달리티 간 정보 교환 메커니즘
– CLIP: 이미지-텍스트 쌍 학습, Zero-shot 분류 가능
– Flamingo: Few-shot 멀티모달 학습, 대규모 사전 학습 모델 활용
– 각 모델의 구조적 특징과 응용 분야

5. 데이터 중심 설계 vs 모델 중심 설계
– 데이터 중심 설계: 데이터 품질, 다양성, 정제에 집중하여 성능 개선
– 모델 중심 설계: 알고리즘, 아키텍처 개선에 집중
– 두 접근법의 성능 개선 사례 및 비교 분석 포인트

6. 시험 대비 포인트
– 각 용어의 정의와 개념 숙지
– 적용 시 장단점 분석 가능
– 구현 시 고려사항 파악
– 사례 기반 응용형 문제 대비

시험 대비 체크리스트

[ ] 데이터 거버넌스, GDPR, 개인정보 비식별화의 정의와 차이 이해
[ ] Feature Store와 AutoML 기반 Feature Selection의 개념과 장단점 숙지
[ ] 전통적 Feature Engineering 방식의 특징과 장단점 정리
[ ] BPE, WordPiece, SentencePiece 알고리즘의 원리와 차이점 설명 가능
[ ] Cross-modal Attention, CLIP, Flamingo의 구조와 특징 숙지
[ ] 데이터 중심 설계와 모델 중심 설계의 정의, 장단점, 사례 비교 가능
[ ] 각 개념의 구현 시 고려사항 및 법·윤리적 이슈 설명 가능
[ ] 응용형 문제 대비를 위해 실제 사례와 연결해 설명 가능

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*