결측치 처리: EM 알고리즘

ㅁ 결측치 처리 ㅇ 정의: 데이터셋 내에서 누락된 값을 처리하여 분석의 정확성과 신뢰성을 높이는 과정. ㅇ 특징: – 결측 데이터의 패턴을 파악하여 적절한 처리 방법을 선택해야 함. – 처리 방법에 따라 데이터의 통계적 특성이 달라질 수 있음. ㅇ 적합한 경우: – 데이터 분석 과정에서 결측치가 많아 분석 결과에 영향을 줄 가능성이 있는 경우. – 데이터의

결측치 처리: Interpolation 기법

ㅁ 결측치 처리 ㅇ 정의: 데이터셋에서 누락된 값을 처리하여 분석의 정확성을 높이는 과정. ㅇ 특징: – 데이터의 일관성을 유지하며 분석 결과의 신뢰도를 향상시킴. – 결측치 유형(무작위, 비무작위)에 따라 적절한 처리 방법을 선택해야 함. ㅇ 적합한 경우: – 데이터 분석 시 결측치가 모델의 성능에 영향을 미칠 경우. – 결측치 비율이 낮거나 적당한 경우. ㅇ 시험 함정:

결측치 처리: KNN Imputation

ㅁ 결측치 처리 ㅇ 정의: 데이터셋에서 누락된 값을 처리하여 분석에 적합한 상태로 만드는 과정. ㅇ 특징: – 결측치의 유형(무작위, 특정 패턴)을 파악하는 것이 중요함. – 적절한 처리 방법을 선택해야 데이터 왜곡을 방지할 수 있음. ㅇ 적합한 경우: – 데이터 분석이나 머신러닝 모델링에 결측치가 포함된 경우. – 결측치 비율이 높지 않고, 데이터의 주요 패턴이 유지될 수

결측치 처리: 다중 대체법(MICE)

ㅁ 결측치 처리 ㅇ 정의: 데이터셋 내 결측된 값을 처리하여 분석의 정확성과 신뢰성을 높이는 과정. ㅇ 특징: – 결측치의 유형(무작위 결측, 비무작위 결측 등)에 따라 적합한 방법이 달라짐. – 데이터의 분포와 분석 목적에 따라 처리 방법 선택 필요. ㅇ 적합한 경우: – 결측치가 데이터셋의 일부를 차지하여 분석 결과에 영향을 줄 경우. – 결측값이 특정 변수에

이상치 탐지 기법: Hampel Filter

ㅁ 이상치 탐지 기법 ㅇ 정의: 이상치 탐지 기법은 데이터 세트 내에서 비정상적이거나 일반적인 패턴에서 벗어난 데이터를 식별하는 기법을 의미한다. ㅇ 특징: – 데이터의 품질을 향상시키기 위해 사용됨. – 다양한 기법이 존재하며, 데이터 유형과 특성에 따라 적합한 방법이 다름. – 통계적 기법, 기계 학습 기반 기법 등으로 분류 가능. ㅇ 적합한 경우: – 센서 데이터에서

이상치 탐지 기법: Mahalanobis Distance

ㅁ 이상치 탐지 기법 ㅇ 정의: 데이터셋 내에서 정상적인 데이터와 동떨어진 데이터를 식별하기 위한 방법론의 집합. ㅇ 특징: – 데이터의 분포와 특성을 기반으로 비정상적인 데이터를 탐지. – 다양한 통계적, 기계 학습 기반 방법을 포함. ㅇ 적합한 경우: – 데이터 분석 전 이상치 제거가 필요한 경우. – 모델 학습 전에 데이터 품질을 높이고자 할 때. ㅇ

이상치 탐지 기법: DBSCAN 기반 탐지

ㅁ 이상치 탐지 기법 ㅇ 정의: 데이터셋 내에서 정상 데이터와 다른 패턴을 보이는 데이터를 식별하기 위한 기법. ㅇ 특징: – 비정상적인 데이터 포인트를 찾아내어 분석의 정확성을 높임. – 기법에 따라 지도학습, 비지도학습 방식으로 나뉨. ㅇ 적합한 경우: – 센서 데이터에서 비정상 측정값 식별. – 금융 거래 데이터에서 이상 거래 탐지. ㅇ 시험 함정: – 이상치와

데이터 수집 기법: 웹 스크래핑 도구(BeautifulSoup Scrapy)

ㅁ 데이터 수집 기법 ㅇ 정의: 데이터를 수집하는 다양한 방법으로, 웹에서 정보를 자동으로 추출하거나 API를 통해 데이터를 가져오는 기술을 포함한다. ㅇ 특징: – 데이터의 구조와 형식에 따라 다양한 도구와 방법이 사용됨. – 웹 스크래핑은 비정형 데이터를 처리할 때 유용하며, API는 정형 데이터를 수집하는 데 적합함. ㅇ 적합한 경우: – 필요한 데이터가 공개된 웹 페이지에 존재하지만

데이터 소스 확장: 크라우드소싱 데이터

ㅁ 데이터 소스 확장 ㅇ 정의: 데이터 소스 확장은 기존 데이터 외에 새로운 데이터 소스를 발굴하거나 포함시키는 과정을 말하며, 데이터의 다양성과 품질을 높이는 데 목적이 있다. ㅇ 특징: 다양한 소스에서 데이터를 수집함으로써 데이터의 편향성을 줄이고, 분석 결과의 신뢰성을 높일 수 있다. 하지만 데이터 품질 관리와 통합 과정에서 추가적인 비용과 노력이 필요하다. ㅇ 적합한 경우: 기존

데이터 소스 확장: 오픈 데이터 포털

ㅁ 데이터 소스 확장 ㅇ 정의: 기존 데이터 외에 새로운 데이터 소스를 추가하여 분석의 다양성과 정확성을 높이는 과정. ㅇ 특징: 다양한 데이터 소스에서 데이터를 수집할 수 있으며, 데이터의 품질과 신뢰성을 확인하는 것이 중요함. ㅇ 적합한 경우: 기존 데이터로는 충분한 인사이트를 도출하기 어려운 경우, 추가 데이터가 분석 결과에 긍정적인 영향을 미칠 수 있는 경우. ㅇ 시험