ㅁ 이미지 증강 ㅇ 정의: 이미지 데이터를 변형하여 학습 데이터의 다양성을 인위적으로 확장하는 기법. 원본 이미지를 다양한 방식으로 변환해 모델의 일반화 성능을 향상시킴. ㅇ 특징: 데이터 부족 문제 해결, 과적합 방지, 실제 환경에서의 다양한 변화를 모델이 학습 가능하게 함. ㅇ 적합한 경우: 이미지 데이터셋이 작거나 특정 각도·조명·위치에 치우친 경우, 다양한 환경에서 성능을 높이고 싶은 경우.
ㅁ 이미지 처리 ㅇ 정의: 이미지 데이터를 분석, 학습, 예측 등의 목적으로 사용하기 위해 형식, 크기, 색상, 품질 등을 변환·보정하는 전처리 과정 ㅇ 특징: 픽셀 단위 연산이 많고, 데이터 손실과 정보 왜곡 가능성이 존재하며, 모델 성능에 직접적인 영향을 미침 ㅇ 적합한 경우: 이미지 기반 AI 모델 학습, 컴퓨터 비전 프로젝트, 시각 데이터 품질 향상 필요
ㅁ 텍스트 처리 ㅇ 정의: 비정형 텍스트 데이터를 분석 가능한 형태로 변환하기 위해 수행하는 전처리 과정의 집합. ㅇ 특징: 토큰 단위 분리, 불필요한 단어 제거, 어형 통합, 품사 기반 분석 등 언어 처리 기법을 포함. ㅇ 적합한 경우: 자연어 처리(NLP) 모델 학습, 텍스트 마이닝, 감성 분석 등의 사전 데이터 준비 단계. ㅇ 시험 함정: 토큰화와
ㅁ 인코딩 ㅇ 정의: 데이터 전처리 과정에서 범주형(카테고리) 데이터를 머신러닝 모델이 이해할 수 있도록 숫자 형태로 변환하는 기법. ㅇ 특징: – 범주형 변수를 처리하는 핵심 기술 – 인코딩 방식에 따라 모델 성능 및 처리 속도에 큰 영향을 미침 – 고차원 희소 행렬 발생 가능성 존재(특히 One-hot) – 모델 종류(트리 기반, 선형 모델, 신경망)에 따라 적합한
ㅁ 스케일링 ㅇ 정의: 데이터의 값 범위를 일정한 기준으로 맞추는 전처리 기법으로, 모델 학습 시 특정 변수의 값 크기로 인한 가중치 왜곡을 방지하기 위함. ㅇ 특징: – 모든 피처를 동일한 스케일로 변환하여 모델의 수렴 속도와 예측 성능 향상 – 거리 기반 알고리즘(KNN, SVM, K-means 등)에 필수적으로 적용됨 – 스케일링 방법에 따라 평균과 표준편차, 최소·최대값, 사분위수
ㅁ 이상치 처리 ㅇ 정의: 데이터셋 내에서 정상 범위에서 벗어난 값(이상치, Outlier)을 탐지하고 제거하거나 수정하는 과정. 모델 성능 저하, 통계 왜곡, 잘못된 분석 결론을 방지하기 위해 수행됨. ㅇ 특징: – 통계 기반(평균, 표준편차, 사분위수 등) 또는 머신러닝 기반 기법 활용 – 극단값을 제거하거나 대체함 – 데이터 분포와 도메인 지식을 고려해야 함 ㅇ 적합한 경우: –
ㅁ 결측치 처리 ㅇ 정의: 데이터셋 내에서 일부 관측값이 누락된 경우, 이를 보완하거나 제거하여 분석과 모델링의 신뢰성을 높이는 과정. ㅇ 특징: – 결측치의 원인과 패턴(무작위/비무작위)에 따라 처리 방법 달라짐 – 단순 삭제부터 통계적·모델 기반 대체까지 다양한 기법 존재 – 처리 방식에 따라 데이터 분포와 분석 결과에 영향 ㅇ 적합한 경우: – 분석의 정확성과 모델 예측력을
ㅁ 데이터 포맷 ㅇ 정의: 데이터 포맷은 데이터를 저장하거나 전송할 때 구조와 형식을 정의하는 방식으로, 데이터의 해석과 호환성을 결정한다. ㅇ 특징: 데이터의 구조(행/열 기반, 계층 구조 등), 압축 여부, 스키마 포함 여부에 따라 처리 효율성과 활용 범위가 달라진다. ㅇ 적합한 경우: 시스템 간 데이터 교환, 분석 전처리, 저장 최적화 등 목적에 맞는 포맷 선택이 필요할