ㅁ 대표 기법 ㅇ 정의: – Pseudo Labeling은 라벨이 없는 데이터에 대해 현재 모델이 예측한 결과를 임시 라벨(가짜 라벨)로 부여하여 학습 데이터로 활용하는 준지도 학습 기법이다. ㅇ 특징: – 초기에는 소량의 라벨링된 데이터로 모델을 학습한 뒤, 라벨이 없는 데이터에 대해 예측을 수행하여 신뢰도가 높은 결과를 라벨로 채택한다. – 라벨 없는 데이터의 활용도를 높여 데이터 부족
ㅁ 주요 기법 1. 오토인코더 ㅇ 정의: 입력 데이터를 저차원 잠재 공간(latent space)으로 압축한 뒤, 이를 다시 원래 차원으로 복원하는 신경망 구조. 주로 차원 축소, 잡음 제거, 특징 추출 등 비지도 학습에 활용됨. ㅇ 특징: – 인코더(Encoder)와 디코더(Decoder)로 구성됨. – 출력이 입력과 최대한 유사하도록 학습함. – 지도 학습이 아닌 입력 자체를 레이블로 사용. – 은닉층의
ㅁ 주요 기법 1. t-SNE ㅇ 정의: 고차원 데이터의 구조를 2~3차원으로 시각화하기 위해 확률적 이웃 임베딩을 사용하는 차원 축소 기법. 데이터 간 유사도를 확률 분포로 변환하여 저차원 공간에서 유사도 분포를 최대한 보존. ㅇ 특징: – 비선형 차원 축소 기법으로, 복잡한 데이터의 군집 구조를 잘 드러냄 – PCA와 달리 국소 구조(근접 데이터 관계) 보존에 강점 –
ㅁ 주요 기법 1. PCA ㅇ 정의: 주성분 분석(Principal Component Analysis, PCA)은 고차원 데이터의 분산을 최대한 보존하면서 저차원으로 투영하는 차원 축소 기법이다. 데이터의 상관관계를 분석하여 새로운 직교 축(주성분)을 생성한다. ㅇ 특징: – 데이터의 분산이 큰 방향을 우선적으로 선택하여 정보 손실을 최소화. – 주성분들은 서로 직교(orthogonal)하여 다중공선성 문제를 제거. – 선형 변환 기반이며 비선형 구조는 잘
ㅁ 주요 기법 1. 클러스터링 ㅇ 정의: 주어진 데이터의 레이블 정보 없이 유사한 속성을 가진 데이터들을 그룹(클러스터)으로 묶는 비지도 학습 기법. ㅇ 특징: – 데이터 간 유사도(거리, 상관계수 등)를 기반으로 그룹화 – 대표적인 알고리즘: K-means, 계층적 클러스터링, DBSCAN 등 – 클러스터 수를 사전에 지정해야 하는 경우(K-means)와 그렇지 않은 경우(DBSCAN)가 존재 – 데이터 스케일에 민감하므로 전처리(정규화,
ㅁ 처리 기술 ㅇ 정의: 시계열 데이터에서 장기적인 추세(트렌드) 성분을 제거하여 계절성, 순환성, 불규칙 요인만 남기는 전처리 기법. ㅇ 특징: – 데이터의 평균이나 기울기 변화와 같은 장기 패턴을 제거함. – 이동평균, 차분(differencing), 회귀분석 등을 활용. – 예측 모델이 단기 변동성에 집중하도록 유도. ㅇ 적합한 경우: – 주식 가격, 기온 변화 등 장기 추세가 강해 단기
ㅁ 처리 기술 ㅇ 정의: 시계열 데이터를 추세(Trend), 계절성(Seasonality), 불규칙성(Residual) 등 구성 요소로 분리하거나, 분리된 요소를 다시 합성하여 원래의 시계열을 재구성하는 기법. ㅇ 특징: – 분해는 시계열 패턴 분석과 예측 모델 성능 향상에 유용함. – 합성은 분해된 요소를 조합하여 미래 값을 추정하거나 시뮬레이션에 활용. – 가법 모델(Additive)과 승법 모델(Multiplicative) 방식이 있음. ㅇ 적합한 경우: –
ㅁ 처리 기술 1. FFT 변환 ㅇ 정의: 고속 푸리에 변환(Fast Fourier Transform, FFT)은 시계열 데이터의 시간 영역 신호를 주파수 영역으로 변환하는 알고리즘으로, 복잡한 푸리에 변환 계산을 효율적으로 수행한다. ㅇ 특징: – 시간 복잡도를 O(N log N)으로 줄여 대규모 데이터 처리에 적합 – 주파수 성분 분석, 잡음 제거, 필터링 등에 활용 – 실수 신호, 복소
ㅁ 처리 기술 ㅇ 정의: 시간 축에서 누락된 데이터 포인트를 주변 시점의 데이터를 활용하여 추정·보완하는 기법으로, 특히 기상 데이터와 같이 연속성이 중요한 시계열 데이터에서 사용됨. ㅇ 특징: – 선형 보간, 스플라인 보간, 다항식 보간 등 다양한 방식 존재 – 데이터의 시간 간격이 일정하다는 가정이 일반적 – 실제 관측값이 아닌 추정치이므로 오차가 발생할 수 있음 –
ㅁ 보안 전략 ㅇ 정의: 데이터 보안 전략은 민감 정보의 유출을 방지하고 개인정보 보호법 등 관련 규제를 준수하기 위해 수립하는 데이터 처리 및 보호 방안의 집합이다. ㅇ 특징: – 기술적, 관리적, 물리적 보호 조치를 포함한다. – 데이터 수명 주기 전반(수집, 저장, 처리, 폐기)에 걸쳐 적용된다. – 법적 규제와 산업 표준을 동시에 고려한다. ㅇ 적합한 경우: