AI 모델 개발: 주요 기법 – PCA
ㅁ 주요 기법
1. PCA
ㅇ 정의:
주성분 분석(Principal Component Analysis, PCA)은 고차원 데이터의 분산을 최대한 보존하면서 저차원으로 투영하는 차원 축소 기법이다. 데이터의 상관관계를 분석하여 새로운 직교 축(주성분)을 생성한다.
ㅇ 특징:
– 데이터의 분산이 큰 방향을 우선적으로 선택하여 정보 손실을 최소화.
– 주성분들은 서로 직교(orthogonal)하여 다중공선성 문제를 제거.
– 선형 변환 기반이며 비선형 구조는 잘 반영하지 못함.
– 데이터 스케일에 민감하므로 표준화가 필요.
ㅇ 적합한 경우:
– 고차원 데이터 시각화.
– 다중공선성 제거 후 회귀 분석.
– 데이터 압축 및 노이즈 제거.
ㅇ 시험 함정:
– PCA는 종속변수를 고려하지 않는 비지도 학습임.
– 분산이 큰 방향이 반드시 중요한 특성을 의미하는 것은 아님.
– 주성분의 개수 선택은 누적 설명 분산 비율을 고려해야 함.
ㅇ 시험 대비 “패턴 보기” 예시:
O: PCA는 데이터의 분산을 최대화하는 방향으로 새로운 축을 형성한다.
O: PCA 적용 전 변수의 단위 차이를 보정하기 위해 표준화가 필요하다.
X: PCA는 종속변수와의 상관관계를 고려하여 축을 선택한다.
X: PCA는 항상 데이터의 모든 중요한 특성을 보존한다.
ㅁ 추가 학습 내용
PCA 관련 추가 학습 정리
1. Eigenvalue와 Eigenvector의 의미
– 공분산 행렬의 고유값(Eigenvalue)은 각 주성분이 설명하는 데이터 분산의 크기를 나타낸다.
– 고유벡터(Eigenvector)는 해당 주성분이 향하는 방향을 나타낸다.
2. SVD(특이값 분해)를 이용한 PCA 계산 방법
– 대규모 데이터셋에서는 수치적 안정성을 위해 공분산 행렬 대신 SVD를 사용하여 PCA를 수행한다.
– SVD는 데이터 행렬을 직교 행렬과 특이값으로 분해하여 주성분을 구한다.
3. 누적 설명 분산 비율(Cumulative Explained Variance Ratio)
– 각 주성분이 설명하는 분산 비율을 누적하여 전체 데이터 분산 중 몇 퍼센트를 설명하는지 확인한다.
– 일반적으로 80%~95% 이상의 누적 설명 분산 비율을 달성하는 주성분 개수를 선택한다.
4. Kernel PCA 개념
– 비선형 데이터 구조를 반영하기 위해 커널 함수를 사용하여 데이터를 고차원 특징 공간으로 매핑한 뒤, 그 공간에서 선형 PCA를 수행하는 방법이다.
5. PCA와 LDA의 차이점
– PCA(Principal Component Analysis)는 비지도 학습 기법으로, 데이터의 분산을 최대화하는 방향을 찾는다.
– LDA(Linear Discriminant Analysis)는 지도 학습 기법으로, 클래스 간 분리를 최대화하는 방향을 찾는다.
6. Whitening 변환
– 주성분을 단위 분산(variance=1)으로 변환하여 서로 상관관계를 제거하고 독립성을 높이는 과정이다.
– 이후의 머신러닝 알고리즘에서 안정적인 학습을 지원한다.