AI 모델 개발: 주요 기법

ㅁ 주요 기법

1. 클러스터링

ㅇ 정의:
– 데이터의 유사성을 기반으로 그룹(클러스터)으로 묶는 비지도 학습 기법.

ㅇ 특징:
– 사전 라벨 없이 데이터 패턴을 발견.
– 거리 기반(K-means) 또는 밀도 기반(DBSCAN) 등 다양한 알고리즘 존재.
– 결과는 클러스터 개수, 초기값, 거리 척도 등에 민감.

ㅇ 적합한 경우:
– 고객 세분화, 이상치 탐지, 문서 주제 분류 등.

ㅇ 시험 함정:
– K-means는 구형 클러스터에 적합, 비구형 데이터에 부적합.
– DBSCAN은 클러스터 개수를 사전에 지정하지 않음.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “K-means는 사전에 클러스터 개수를 지정해야 한다.”
– X: “DBSCAN은 클러스터 개수를 입력해야 한다.”

1.1 K-means

ㅇ 정의:
– 중심점을 기준으로 데이터를 K개의 클러스터로 나누는 알고리즘.

ㅇ 특징:
– 반복적 중심 재계산.
– 초기 중심값에 따라 결과가 달라짐.

ㅇ 적합한 경우:
– 데이터가 구형 분포를 가질 때.

ㅇ 시험 함정:
– 이상치에 민감.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “K-means는 이상치에 민감하다.”
– X: “K-means는 이상치에 강건하다.”

1.2 DBSCAN

ㅇ 정의:
– 밀도 기반 클러스터링으로, 밀집된 데이터 포인트를 클러스터로 형성.

ㅇ 특징:
– 클러스터 개수 자동 결정.
– 노이즈와 이상치 분리 가능.

ㅇ 적합한 경우:
– 비구형 데이터, 잡음이 있는 데이터.

ㅇ 시험 함정:
– 파라미터(eps, minPts) 설정에 따라 결과가 크게 변함.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “DBSCAN은 노이즈 포인트를 식별할 수 있다.”
– X: “DBSCAN은 모든 포인트를 반드시 클러스터에 포함시킨다.”

================================

2. PCA

ㅇ 정의:
– 고차원 데이터를 주성분으로 변환하여 차원을 축소하는 기법.

ㅇ 특징:
– 주성분은 데이터 분산이 최대가 되는 방향.
– 선형 변환 기반.

ㅇ 적합한 경우:
– 데이터 시각화, 노이즈 제거, 차원 축소.

ㅇ 시험 함정:
– 변수 표준화 여부에 따라 결과가 달라짐.
– 비선형 구조 데이터에는 부적합.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “PCA는 데이터의 분산이 가장 큰 방향을 찾는다.”
– X: “PCA는 비선형 데이터 구조를 직접적으로 반영한다.”

2.1 커널 PCA

ㅇ 정의:
– 커널 함수를 사용하여 비선형 데이터를 고차원 공간에서 선형 분리 가능하게 만드는 PCA 확장 기법.

ㅇ 특징:
– 비선형 패턴 추출 가능.

ㅇ 적합한 경우:
– 비선형 데이터의 차원 축소.

ㅇ 시험 함정:
– 커널 선택에 따라 성능이 달라짐.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “커널 PCA는 비선형 데이터에도 적용 가능하다.”
– X: “커널 PCA는 선형 데이터에만 적용된다.”

================================

3. t-SNE

ㅇ 정의:
– 고차원 데이터를 저차원(2D, 3D)으로 시각화하는 비선형 차원 축소 기법.

ㅇ 특징:
– 국소 구조 보존에 강점.
– 확률적 접근 사용.

ㅇ 적합한 경우:
– 데이터 시각화, 군집 구조 탐색.

ㅇ 시험 함정:
– 전역 구조 왜곡 가능.
– 하이퍼파라미터(perplexity)에 민감.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “t-SNE는 고차원 데이터의 국소 구조를 잘 보존한다.”
– X: “t-SNE는 전역 거리 관계를 정확히 보존한다.”

================================

4. 오토인코더

ㅇ 정의:
– 입력 데이터를 압축(인코딩) 후 복원(디코딩)하는 신경망 기반 차원 축소 기법.

ㅇ 특징:
– 비선형 변환 가능.
– 은닉층 크기를 줄여 차원 축소.

ㅇ 적합한 경우:
– 노이즈 제거, 비지도 특징 학습.

ㅇ 시험 함정:
– 과적합 위험.
– 학습 데이터 분포에 종속.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “오토인코더는 비선형 차원 축소가 가능하다.”
– X: “오토인코더는 선형 변환만 수행한다.”

4.1 변분 오토인코더(VAE)

ㅇ 정의:
– 확률적 잠재 변수 모델을 사용하는 오토인코더.

ㅇ 특징:
– 데이터 생성 가능.

ㅇ 적합한 경우:
– 생성 모델 학습, 데이터 증강.

ㅇ 시험 함정:
– 잠재 공간의 분포 가정이 성능에 영향.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “VAE는 새로운 데이터를 생성할 수 있다.”
– X: “VAE는 데이터 생성이 불가능하다.”

ㅁ 추가 학습 내용

클러스터링
– 클러스터 개수 결정 기법: 실루엣 계수, 엘보우 방법 학습
– 각 기법의 원리와 계산 방법 이해

PCA(주성분 분석)
– 공분산 행렬과 고유값 분해 과정 이해
– 데이터 표준화 필요성 숙지

t-SNE
– 확률적 유사도 계산 방식 이해
– 초기화 방법이 결과에 미치는 영향 파악

오토인코더
– 변형 모델: 스파스 오토인코더, 딥 오토인코더
– 재구성 손실 함수 종류와 차이: MSE, BCE

시험 대비 포인트
– 각 기법의 장단점 비교
– 적용 사례 정리
– 파라미터 설정이 결과에 미치는 영향 분석
– 표 형태로 정리하여 학습

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*