ㅁ 텍스트 처리 ㅇ 정의: 텍스트 데이터를 분석하기 위해 불필요한 정보를 제거하고 데이터를 정제하는 과정. ㅇ 특징: – 텍스트 데이터의 품질을 향상시키기 위한 전처리 단계. – 불용어 제거, 토큰화, 어간 추출 등의 작업 포함. ㅇ 적합한 경우: – 텍스트 기반의 머신러닝 모델을 학습시키기 전에 데이터 정제가 필요한 경우. – 텍스트 데이터의 노이즈를 줄이고 의미 있는
ㅁ 텍스트 처리 ㅇ 정의: 텍스트 데이터를 분석 가능한 형태로 변환하는 과정으로, 주로 자연어 처리에서 사용됨. ㅇ 특징: 텍스트 데이터의 불필요한 부분을 제거하고, 분석에 적합한 구조로 변환함. 예를 들어, 대소문자 통일, 불용어 제거, 토큰화 등을 포함함. ㅇ 적합한 경우: 자연어 처리(NLP)에서 텍스트 데이터를 전처리할 때, 데이터의 품질을 높이기 위해 사용됨. ㅇ 시험 함정: 텍스트 처리
ㅁ 인코딩 ㅇ 정의: 데이터를 컴퓨터가 처리할 수 있는 형식으로 변환하는 과정. ㅇ 특징: – 데이터를 수치형으로 변환하여 머신러닝 모델이 이해할 수 있도록 함. – 범주형 데이터와 같은 비수치 데이터를 처리하는 데 주로 사용됨. ㅇ 적합한 경우: – 머신러닝과 딥러닝 모델에 비수치 데이터를 입력해야 할 때. – 데이터 분석에서 범주형 데이터를 수치형으로 변환할 필요가 있을
ㅁ 인코딩 ㅇ 정의: – 데이터를 머신러닝 모델에 적합한 형태로 변환하는 과정으로, 범주형 데이터를 수치형 데이터로 변환하는 기법. ㅇ 특징: – 데이터의 스케일과 분포를 고려하여 변환해야 함. – 모델의 성능에 직접적인 영향을 미침. ㅇ 적합한 경우: – 범주형 데이터가 많고, 이를 수치형으로 변환해야 하는 경우. – 머신러닝 알고리즘이 수치 데이터를 필요로 할 때. ㅇ 시험
ㅁ 인코딩 ㅇ 정의: 데이터를 컴퓨터가 처리할 수 있는 형식으로 변환하는 과정으로, 특히 범주형 데이터를 수치형 데이터로 변환하는 것을 의미함. ㅇ 특징: – 머신러닝 모델에 입력하기 위해 필수적인 과정임. – 데이터의 의미를 유지하면서도 모델이 이해할 수 있는 형태로 변환됨. – 다양한 인코딩 기법이 존재하며, 데이터와 모델의 특성에 따라 적합한 방법을 선택해야 함. ㅇ 적합한 경우:
ㅁ 인코딩 ㅇ 정의: 데이터 분석 및 머신러닝 모델링 과정에서 범주형 데이터를 수치형 데이터로 변환하는 과정. ㅇ 특징: – 범주형 데이터를 처리하기 위한 필수적 단계. – 데이터의 스케일에 영향을 주지 않도록 설계 가능. – 다양한 방식(One-hot, Label Encoding 등)이 존재함. ㅇ 적합한 경우: – 범주형 데이터가 모델 입력값으로 사용될 때. – 데이터의 값이 순서와 무관한
ㅁ 스케일링 ㅇ 정의: 데이터의 범위를 특정 구간으로 변환하여 분석 및 모델링에 적합하도록 만드는 과정. ㅇ 특징: – 데이터의 크기를 표준화하여 알고리즘의 성능을 향상시킴. – 이상치(outlier)에 민감할 수 있음. ㅇ 적합한 경우: – 데이터의 값들이 서로 다른 범위를 가지는 경우. – 머신러닝 알고리즘에서 입력값의 크기가 성능에 영향을 미치는 경우. ㅇ 시험 함정: – 스케일링이 항상
ㅁ 스케일링 ㅇ 정의: 데이터의 범위를 조정하여 특정 알고리즘이 더 잘 작동하도록 만드는 과정. ㅇ 특징: – 데이터의 크기 차이를 줄여 모델 학습이 원활하도록 함. – 이상치에 민감한 경우, 적절한 방법을 선택해야 함. ㅇ 적합한 경우: – 데이터의 값이 서로 다른 범위를 가질 때. – 학습 알고리즘이 거리 기반으로 작동할 때. ㅇ 시험 함정: –
ㅁ 스케일링 ㅇ 정의: 데이터의 크기나 범위를 일정한 기준으로 변환하여 분석 결과에 영향을 미치지 않도록 조정하는 과정. ㅇ 특징: – 데이터의 단위 차이로 인해 발생할 수 있는 문제를 방지. – 머신러닝 모델에서 가중치 계산의 왜곡을 줄임. ㅇ 적합한 경우: – 변수 간의 단위가 다를 때. – 거리 기반 알고리즘(예: KNN, K-Means)에서. ㅇ 시험 함정: –
ㅁ 스케일링 ㅇ 정의: 데이터의 범위를 조정하여 모델 학습에 적합하도록 만드는 과정. ㅇ 특징: – 데이터의 단위 차이로 인한 모델 성능 저하 방지. – 주요 방법으로 표준화와 정규화가 있음. ㅇ 적합한 경우: – 데이터의 값 범위가 매우 클 때. – 머신러닝 알고리즘(예: SVM, 로지스틱 회귀 등)이 데이터 크기에 민감할 때. ㅇ 시험 함정: – 스케일링이