데이터 전처리: 결측치 처리 – EM 알고리즘
ㅁ 결측치 처리
ㅇ 정의:
데이터셋 내 일부 관측값이 누락된 경우, 이를 통계적 방법으로 추정하여 채우는 과정.
ㅇ 특징:
– 결측치 유형(MCAR, MAR, MNAR)에 따라 처리 방법이 달라짐
– 단순 삭제, 평균 대치, 회귀 대치, 다중 대치, EM 알고리즘 등 다양한 기법 존재
– 데이터 손실 최소화와 편향 방지가 핵심 목표
ㅇ 적합한 경우:
– 데이터 수집 과정에서 일부 값이 누락되었으나, 나머지 변수와의 상관관계를 활용할 수 있는 경우
– 결측치 비율이 낮지 않고, 단순 대치로는 정확도가 떨어질 우려가 있는 경우
ㅇ 시험 함정:
– 결측치 유형을 구분하지 않고 동일한 처리 방법을 적용하는 경우
– EM 알고리즘을 단순 평균 대치와 혼동하는 경우
– 결측치 비율이 매우 높을 때 EM 알고리즘이 항상 좋은 성능을 낸다고 생각하는 경우
ㅇ 시험 대비 “패턴 보기” 예시:
O: “EM 알고리즘은 결측치가 있는 데이터의 모수 추정을 반복적으로 수행하여 수렴값을 찾는다.”
X: “EM 알고리즘은 결측치를 단순 평균으로 채우는 방법이다.”
================================
1. EM 알고리즘
ㅇ 정의:
Expectation-Maximization 알고리즘의 약자로, 결측치나 잠재 변수가 있는 데이터에서 모수를 추정하기 위해 반복적으로 기대값 계산(E-step)과 최대화(M-step)를 수행하는 통계적 방법.
ㅇ 특징:
– E-step: 현재 모수 추정값을 기반으로 결측 데이터의 기댓값 계산
– M-step: E-step에서 계산한 기댓값을 활용해 모수 재추정
– 반복 수행하며 수렴 시 최종 모수 추정값 도출
– 결측 데이터뿐 아니라 잠재 변수 모델(혼합모델, HMM 등)에도 사용
ㅇ 적합한 경우:
– 데이터에 결측치가 존재하되, 데이터 간 상관관계가 뚜렷한 경우
– 데이터가 다변량 정규분포를 따른다고 가정할 수 있는 경우
– 혼합 분포 모델의 모수 추정이 필요한 경우
ㅇ 시험 함정:
– EM 알고리즘을 단순 대치법으로 오해하는 경우
– 모든 결측치 상황에서 EM이 최적이라고 생각하는 경우
– 수렴값이 항상 전역 최적해라고 착각하는 경우
ㅇ 시험 대비 “패턴 보기” 예시:
O: “EM 알고리즘은 E-step과 M-step을 반복하여 결측 데이터의 모수를 추정한다.”
X: “EM 알고리즘은 결측치를 무조건 평균값으로 채운다.”
ㅁ 추가 학습 내용
EM 알고리즘 학습 시 유의사항 정리
1. 결측치 유형과 적용 가능성
– MCAR(결측이 완전 무작위): EM 알고리즘 적용 가능성이 높음
– MAR(결측이 조건부 무작위): 적절한 모델링 시 적용 가능
– MNAR(결측이 무작위 아님): EM 알고리즘 적용에 한계가 있으며, 추가적인 가정이나 보정 필요
2. 초기값의 영향
– 초기값에 따라 지역 최적해에 수렴할 수 있음
– 여러 초기값을 시도하여 결과의 안정성을 확보하는 것이 중요
3. 시험 대비 핵심 절차
– E-step: 현재 추정된 매개변수로 결측 데이터의 기댓값 계산
– M-step: E-step 결과를 이용하여 매개변수를 최대우도 추정으로 갱신
– 수렴 조건: 매개변수 변화량이 기준 이하이거나 로그우도 함수 값의 변화가 미미할 때
4. 다변량 정규분포 가정 하 적용 사례
– 공분산 행렬 추정에서 결측치가 있는 경우 EM 알고리즘 활용 가능
5. 주요 활용 분야
– 혼합 가우시안 모델 학습
– 은닉 마코프 모델(HMM) 학습