데이터 전처리: 라벨링 기술 – 수동 레이블링

ㅁ 라벨링 기술 ㅇ 정의: 사람이 직접 데이터를 보고 분석하여 적절한 라벨(정답)을 부여하는 방식. ㅇ 특징: – 높은 정확도를 확보할 수 있으나 시간과 비용이 많이 듦. – 주관적 판단이 개입될 수 있어 라벨러 간 일관성 유지가 중요함. – 전문 지식이 필요한 데이터셋(의료 영상, 법률 문서 등)에서 주로 사용. ㅇ 적합한 경우: – 데이터 양이 많지

데이터 전처리: 결측치 처리 – EM 알고리즘

ㅁ 결측치 처리 ㅇ 정의: 데이터셋 내 일부 관측값이 누락된 경우, 이를 통계적 방법으로 추정하여 채우는 과정. ㅇ 특징: – 결측치 유형(MCAR, MAR, MNAR)에 따라 처리 방법이 달라짐 – 단순 삭제, 평균 대치, 회귀 대치, 다중 대치, EM 알고리즘 등 다양한 기법 존재 – 데이터 손실 최소화와 편향 방지가 핵심 목표 ㅇ 적합한 경우: –

데이터 전처리: 결측치 처리 – Interpolation 기법

ㅁ 결측치 처리 ㅇ 정의: 데이터셋 내에서 일부 값이 누락된 경우 이를 보완하여 분석의 정확성과 일관성을 유지하는 과정. ㅇ 특징: – 결측치가 분석 결과에 미치는 영향을 최소화함. – 처리 방식에 따라 데이터의 분포와 통계량이 변할 수 있음. – 단순 제거, 대체, 예측 기반 대체 등 다양한 방법 존재. ㅇ 적합한 경우: – 결측치가 전체 데이터의

데이터 전처리: 결측치 처리 – KNN Imputation

ㅁ 결측치 처리 1. KNN Imputation ㅇ 정의: – K-최근접 이웃(K-Nearest Neighbors) 알고리즘을 활용하여 결측값을 주변 데이터 포인트들의 값으로 대체하는 기법. – 결측치가 있는 샘플과 다른 샘플 간의 거리를 계산하여 가장 가까운 K개의 이웃을 찾고, 해당 이웃들의 평균 또는 다수결로 결측값을 채움. ㅇ 특징: – 데이터의 분포와 패턴을 반영하여 결측치를 대체할 수 있음. – K

데이터 전처리: 결측치 처리 – 다중 대체법(MICE)

ㅁ 결측치 처리 ㅇ 정의: 데이터셋 내에서 일부 관측값이 누락된 경우, 해당 결측값을 여러 번 대체하여 불확실성을 반영하는 통계적 방법. MICE(Multivariate Imputation by Chained Equations)는 변수별 회귀모형을 순차적으로 적용하여 결측값을 반복적으로 예측·대체함. ㅇ 특징: – 단일 대체법보다 결측치 대체의 불확실성을 반영 가능. – 각 변수의 결측치를 다른 변수들과의 관계를 기반으로 예측. – 반복(iteration)을 통해 수렴

데이터 전처리: 이상치 탐지 기법 – Hampel Filter

ㅁ 이상치 탐지 기법 ㅇ 정의: 통계적 방법을 활용하여 데이터 집합에서 평균이나 중앙값에서 크게 벗어난 값을 탐지하는 기법 중 하나로, Hampel Filter는 윈도우 내 중앙값과 중앙절대편차(MAD)를 이용하여 이상치를 판단한다. ㅇ 특징: – 중앙값 기반이므로 평균 기반보다 극단값에 덜 민감하다. – 윈도우 크기와 임계값 설정에 따라 탐지 민감도가 달라진다. – 시계열 데이터에서 이동 윈도우 방식으로 적용

데이터 전처리: 이상치 탐지 기법 – Mahalanobis Distance

ㅁ 이상치 탐지 기법 1. Mahalanobis Distance ㅇ 정의: 다변량 데이터에서 각 관측치가 평균으로부터 얼마나 떨어져 있는지를 공분산을 고려하여 측정하는 거리 기반 이상치 탐지 기법. ㅇ 특징: – 변수 간 상관관계를 반영하여 거리 계산 – 차원 수가 많아도 적용 가능하지만, 공분산 행렬이 비가역이면 계산 불가 – 데이터가 다변량 정규분포를 따른다는 가정이 있음 ㅇ 적합한 경우:

데이터 전처리: 이상치 탐지 기법 – DBSCAN 기반 탐지

ㅁ 이상치 탐지 기법 1. DBSCAN 기반 탐지 ㅇ 정의: – 밀도 기반 군집화 알고리즘(DBSCAN)을 활용하여 데이터의 밀도가 낮은 영역에 위치한 점들을 이상치로 식별하는 기법. – 데이터 포인트 주변의 이웃 개수를 기준으로 군집을 형성하고, 군집에 속하지 못한 점을 이상치로 간주. ㅇ 특징: – 사전에 군집 개수를 지정할 필요가 없음. – 비선형 분포 및 임의 모양의

데이터 전처리: 데이터 수집 기법 – Flink)

ㅁ 데이터 수집 기법 1. Flink ㅇ 정의: 실시간 데이터 스트리밍 및 배치 처리를 모두 지원하는 오픈소스 분산 처리 프레임워크로, 대규모 데이터 파이프라인 구축에 활용됨. ㅇ 특징: – 이벤트 기반 스트리밍 처리에 최적화되어 밀리초 단위의 저지연 처리 가능 – 상태 관리(Stateful Processing)와 정확히 한 번 처리(Exactly-once semantics) 보장 – Java, Scala, Python 등 다양한 언어

데이터 전처리: 데이터 수집 기법 – 데이터 스트리밍(Kafka

ㅁ 데이터 수집 기법 ㅇ 정의: 실시간으로 발생하는 데이터를 지속적으로 전송·처리하기 위해 메시지 브로커를 활용하는 수집 방식. Apache Kafka는 분산형 스트리밍 플랫폼으로, 대규모 데이터 파이프라인 구축에 사용됨. ㅇ 특징: – 실시간 처리 가능, 대용량 데이터 처리에 강점 – Producer-Consumer 구조로 확장성 높음 – 장애 복구 및 데이터 내구성 보장 – 토픽 기반 메시지 분류 가능