데이터 전처리: 이미지 처리 – 리사이즈

ㅁ 이미지 처리 ㅇ 정의: 이미지 처리(Image Processing)는 이미지 데이터를 분석, 변환, 개선하기 위해 다양한 알고리즘과 기술을 적용하는 데이터 전처리 과정이다. ㅇ 특징: – 픽셀 단위 연산을 통해 이미지의 크기, 색상, 해상도 등을 변경 가능 – 머신러닝/딥러닝 모델 입력 형식에 맞추기 위해 필수적으로 수행됨 – OpenCV, Pillow, scikit-image 등의 라이브러리를 활용 ㅇ 적합한 경우: –

데이터 전처리: 텍스트 처리 – 형태소 분석

ㅁ 텍스트 처리 ㅇ 정의: 텍스트 데이터를 형태소 단위로 분해하여 각 단어의 품사와 의미를 분석하는 과정으로, 한국어와 같이 형태 변화가 많은 언어에서 특히 중요하다. ㅇ 특징: – 단어를 최소 의미 단위(형태소)로 분리 – 품사 태깅(POS tagging) 가능 – 불필요한 조사, 어미 등을 제거하여 분석 효율 향상 – 한국어는 띄어쓰기만으로 단어 구분이 어려워 형태소 분석기가 필요

데이터 전처리: 텍스트 처리 – 표제어 추출

ㅁ 텍스트 처리 ㅇ 정의: 텍스트 데이터에서 단어의 원형(표제어)을 찾아 변형된 형태를 정규화하는 과정. 예를 들어 ‘running’, ‘ran’을 ‘run’으로 변환. ㅇ 특징: 품사 태깅과 사전 기반 분석을 통해 단어의 의미를 유지하며 변환. 형태소 분석보다 단순하지만 어간 추출보다 정확도가 높음. ㅇ 적합한 경우: 문서 분류, 감성 분석 등 의미 기반 분석이 필요한 경우. 특히 다양한 시제,

데이터 전처리: 텍스트 처리 – 불용어 제거

ㅁ 텍스트 처리 ㅇ 정의: 텍스트 데이터에서 분석 목적에 불필요한 단어(불용어)를 제거하여 데이터의 품질과 분석 효율성을 높이는 과정. ㅇ 특징: – 불용어는 조사, 접속사, 빈번히 등장하지만 의미가 없는 단어 등이 포함됨. – 언어별, 도메인별로 불용어 목록이 다르며, 사전 기반 또는 사용자 정의 가능. – 전처리 단계에서 토큰화 후 적용하는 경우가 많음. ㅇ 적합한 경우: –

데이터 전처리: 텍스트 처리 – 토큰화

ㅁ 텍스트 처리 ㅇ 정의: 텍스트 데이터를 의미 있는 최소 단위(단어, 문장, 형태소 등)로 분리하는 과정으로, 자연어 처리(NLP) 전 단계에서 필수적으로 수행됨. ㅇ 특징: – 언어별 문법 구조와 띄어쓰기 규칙에 따라 구현 방식이 다름. – 영어는 주로 공백과 구두점을 기준으로 분리, 한국어는 형태소 분석기를 활용. – 정규표현식, 사전 기반, 머신러닝 기반 등 다양한 방식 존재.

데이터 전처리: 인코딩 – Embedding

ㅁ 인코딩 ㅇ 정의: 데이터의 범주형, 텍스트, 시계열 등의 정보를 기계학습 모델이 이해할 수 있는 수치 벡터 형태로 변환하는 과정 중, 고차원 의미를 보존하며 밀집 벡터로 매핑하는 방식. ㅇ 특징: – 단어, 문장, 아이템 등을 고정 길이의 실수 벡터로 변환. – 차원 축소와 의미 보존을 동시에 수행. – 원-핫 인코딩 대비 메모리 사용 효율이 높음.

데이터 전처리: 인코딩 – Target Encoding

ㅁ 인코딩 ㅇ 정의: 범주형 변수를 해당 범주가 가진 목표 변수(Target)의 통계값(평균, 중위수 등)으로 변환하는 기법. ㅇ 특징: – 고차원 범주형 데이터 처리에 유용하며, 차원 증가 없이 수치형으로 변환 가능. – 지도학습에서만 사용 가능(목표 변수를 필요로 함). – 평균, 가중평균, 스무딩(smoothing) 등을 적용하여 과적합을 방지. ㅇ 적합한 경우: – 범주의 개수가 매우 많아 One-Hot Encoding

데이터 전처리: 인코딩 – Label

ㅁ 인코딩 ㅇ 정의: 범주형 데이터를 컴퓨터가 이해할 수 있도록 숫자형으로 변환하는 과정 중 하나로, 각 범주에 고유한 정수 값을 부여하는 방식. ㅇ 특징: – 간단하고 직관적이며 메모리 사용량이 적음. – 범주 간의 순서나 크기 의미가 없더라도 숫자로 변환되므로 알고리즘에 따라 잘못된 순서 관계를 학습할 수 있음. – 주로 트리 기반 모델에서 잘 작동함. ㅇ

데이터 전처리: 인코딩 – One-hot

ㅁ 인코딩 ㅇ 정의: 데이터의 범주형 변수를 기계학습 알고리즘이 이해할 수 있는 수치형 데이터로 변환하는 과정. ㅇ 특징: – 범주형 데이터를 0과 1로 이루어진 이진 벡터로 변환. – 각 범주는 고유한 벡터의 한 위치에서만 1, 나머지는 0. – 차원이 범주의 개수만큼 증가. ㅇ 적합한 경우: – 범주 간에 순서나 크기 개념이 없는 명목형 데이터. –

데이터 전처리: 스케일링 – Min-Max Scaling

ㅁ 스케일링 ㅇ 정의: 데이터의 값 범위를 일정한 구간으로 변환하여 모델 학습 시 변수 간 영향력을 균등하게 만드는 전처리 기법. ㅇ 특징: – 변수 단위나 범위가 다를 때 모델이 특정 변수에 치우치는 것을 방지. – 거리 기반 알고리즘(KNN, SVM, K-Means 등)에서 효과적. – 정규화(Normalization)와 표준화(Standardization)로 구분 가능. ㅇ 적합한 경우: – 변수 값의 범위가 크게