AI 모델 개발: 주요 기법
ㅁ 주요 기법
1. 클러스터링
ㅇ 정의:
– 데이터의 유사성을 기반으로 그룹(클러스터)으로 묶는 비지도 학습 기법.
ㅇ 특징:
– 사전 라벨 없이 데이터 패턴을 발견.
– 거리 기반(K-means) 또는 밀도 기반(DBSCAN) 등 다양한 알고리즘 존재.
– 결과는 클러스터 개수, 초기값, 거리 척도 등에 민감.
ㅇ 적합한 경우:
– 고객 세분화, 이상치 탐지, 문서 주제 분류 등.
ㅇ 시험 함정:
– K-means는 구형 클러스터에 적합, 비구형 데이터에 부적합.
– DBSCAN은 클러스터 개수를 사전에 지정하지 않음.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “K-means는 사전에 클러스터 개수를 지정해야 한다.”
– X: “DBSCAN은 클러스터 개수를 입력해야 한다.”
1.1 K-means
ㅇ 정의:
– 중심점을 기준으로 데이터를 K개의 클러스터로 나누는 알고리즘.
ㅇ 특징:
– 반복적 중심 재계산.
– 초기 중심값에 따라 결과가 달라짐.
ㅇ 적합한 경우:
– 데이터가 구형 분포를 가질 때.
ㅇ 시험 함정:
– 이상치에 민감.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “K-means는 이상치에 민감하다.”
– X: “K-means는 이상치에 강건하다.”
1.2 DBSCAN
ㅇ 정의:
– 밀도 기반 클러스터링으로, 밀집된 데이터 포인트를 클러스터로 형성.
ㅇ 특징:
– 클러스터 개수 자동 결정.
– 노이즈와 이상치 분리 가능.
ㅇ 적합한 경우:
– 비구형 데이터, 잡음이 있는 데이터.
ㅇ 시험 함정:
– 파라미터(eps, minPts) 설정에 따라 결과가 크게 변함.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “DBSCAN은 노이즈 포인트를 식별할 수 있다.”
– X: “DBSCAN은 모든 포인트를 반드시 클러스터에 포함시킨다.”
================================
2. PCA
ㅇ 정의:
– 고차원 데이터를 주성분으로 변환하여 차원을 축소하는 기법.
ㅇ 특징:
– 주성분은 데이터 분산이 최대가 되는 방향.
– 선형 변환 기반.
ㅇ 적합한 경우:
– 데이터 시각화, 노이즈 제거, 차원 축소.
ㅇ 시험 함정:
– 변수 표준화 여부에 따라 결과가 달라짐.
– 비선형 구조 데이터에는 부적합.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “PCA는 데이터의 분산이 가장 큰 방향을 찾는다.”
– X: “PCA는 비선형 데이터 구조를 직접적으로 반영한다.”
2.1 커널 PCA
ㅇ 정의:
– 커널 함수를 사용하여 비선형 데이터를 고차원 공간에서 선형 분리 가능하게 만드는 PCA 확장 기법.
ㅇ 특징:
– 비선형 패턴 추출 가능.
ㅇ 적합한 경우:
– 비선형 데이터의 차원 축소.
ㅇ 시험 함정:
– 커널 선택에 따라 성능이 달라짐.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “커널 PCA는 비선형 데이터에도 적용 가능하다.”
– X: “커널 PCA는 선형 데이터에만 적용된다.”
================================
3. t-SNE
ㅇ 정의:
– 고차원 데이터를 저차원(2D, 3D)으로 시각화하는 비선형 차원 축소 기법.
ㅇ 특징:
– 국소 구조 보존에 강점.
– 확률적 접근 사용.
ㅇ 적합한 경우:
– 데이터 시각화, 군집 구조 탐색.
ㅇ 시험 함정:
– 전역 구조 왜곡 가능.
– 하이퍼파라미터(perplexity)에 민감.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “t-SNE는 고차원 데이터의 국소 구조를 잘 보존한다.”
– X: “t-SNE는 전역 거리 관계를 정확히 보존한다.”
================================
4. 오토인코더
ㅇ 정의:
– 입력 데이터를 압축(인코딩) 후 복원(디코딩)하는 신경망 기반 차원 축소 기법.
ㅇ 특징:
– 비선형 변환 가능.
– 은닉층 크기를 줄여 차원 축소.
ㅇ 적합한 경우:
– 노이즈 제거, 비지도 특징 학습.
ㅇ 시험 함정:
– 과적합 위험.
– 학습 데이터 분포에 종속.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “오토인코더는 비선형 차원 축소가 가능하다.”
– X: “오토인코더는 선형 변환만 수행한다.”
4.1 변분 오토인코더(VAE)
ㅇ 정의:
– 확률적 잠재 변수 모델을 사용하는 오토인코더.
ㅇ 특징:
– 데이터 생성 가능.
ㅇ 적합한 경우:
– 생성 모델 학습, 데이터 증강.
ㅇ 시험 함정:
– 잠재 공간의 분포 가정이 성능에 영향.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “VAE는 새로운 데이터를 생성할 수 있다.”
– X: “VAE는 데이터 생성이 불가능하다.”
ㅁ 추가 학습 내용
클러스터링
– 클러스터 개수 결정 기법: 실루엣 계수, 엘보우 방법 학습
– 각 기법의 원리와 계산 방법 이해
PCA(주성분 분석)
– 공분산 행렬과 고유값 분해 과정 이해
– 데이터 표준화 필요성 숙지
t-SNE
– 확률적 유사도 계산 방식 이해
– 초기화 방법이 결과에 미치는 영향 파악
오토인코더
– 변형 모델: 스파스 오토인코더, 딥 오토인코더
– 재구성 손실 함수 종류와 차이: MSE, BCE
시험 대비 포인트
– 각 기법의 장단점 비교
– 적용 사례 정리
– 파라미터 설정이 결과에 미치는 영향 분석
– 표 형태로 정리하여 학습