AI 모델 개발: 주요 기법

By - meet
Posted on 2025년 08월 28일
Posted in AI 이론

AI 모델 개발: 주요 기법

ㅁ 주요 기법

1. 클러스터링

ㅇ 정의:
데이터의 유사성에 따라 그룹(클러스터)으로 묶는 비지도 학습 기법으로, 사전 레이블 없이 데이터 구조를 파악.

ㅇ 특징:
– 대표 알고리즘: K-means, 계층적 클러스터링, DBSCAN
– 거리 기반 또는 밀도 기반으로 군집 형성
– 군집 수를 사전에 지정해야 하는 경우(K-means)와 그렇지 않은 경우(DBSCAN)가 있음

ㅇ 적합한 경우:
– 고객 세분화, 이상치 탐지, 문서 주제 분류 등

ㅇ 시험 함정:
– K-means는 구형 클러스터에 적합, 비구형 데이터에 부적합
– 거리 계산 시 스케일링 미적용 시 결과 왜곡

ㅇ 시험 대비 “패턴 보기” 예시:
O: “K-means는 각 군집의 중심과의 거리를 최소화하는 방식으로 데이터를 분류한다.”
X: “K-means는 사전에 레이블이 있는 데이터를 사용하여 군집을 형성한다.”

2. PCA

ㅇ 정의:
고차원 데이터를 저차원으로 변환하는 차원 축소 기법으로, 데이터의 분산을 최대화하는 주성분을 찾음.

ㅇ 특징:
– 선형 변환 기반
– 주성분은 서로 직교
– 노이즈 제거 및 시각화에 유용

ㅇ 적합한 경우:
– 데이터 시각화, 다중공선성 제거, 전처리 단계

ㅇ 시험 함정:
– PCA는 비선형 패턴을 잘 포착하지 못함
– 주성분은 원래 특성의 의미를 그대로 유지하지 않음

ㅇ 시험 대비 “패턴 보기” 예시:
O: “PCA는 데이터의 분산이 가장 큰 방향을 찾아 차원을 축소한다.”
X: “PCA의 주성분은 반드시 원래 변수와 동일한 의미를 가진다.”

3. t-SNE

ㅇ 정의:
고차원 데이터를 저차원(주로 2D, 3D)으로 시각화하는 비선형 차원 축소 기법.

ㅇ 특징:
– 국소적 구조 보존에 강점
– 확률적 방법 사용
– 계산량이 많고 대규모 데이터에 부적합

ㅇ 적합한 경우:
– 데이터 시각화, 군집 구조 탐색

ㅇ 시험 함정:
– t-SNE 결과는 매 실행마다 조금씩 다를 수 있음
– 거리 척도가 직접적인 의미를 가지지 않을 수 있음

ㅇ 시험 대비 “패턴 보기” 예시:
O: “t-SNE는 데이터의 국소적 유사성을 보존하여 시각화한다.”
X: “t-SNE는 선형 변환을 통해 차원을 축소한다.”

4. 오토인코더

ㅇ 정의:
입력 데이터를 압축(인코딩)하고 다시 복원(디코딩)하는 신경망 기반 비지도 학습 기법.

ㅇ 특징:
– 비선형 차원 축소 가능
– 은닉층이 병목 구조를 가짐
– 이상치 탐지, 노이즈 제거에 활용

ㅇ 적합한 경우:
– 이미지 압축, 이상치 탐지, 데이터 전처리

ㅇ 시험 함정:
– 학습 데이터와 다른 분포의 데이터에 대해 성능 저하 가능
– 과적합 방지를 위해 정규화, 드롭아웃 필요

ㅇ 시험 대비 “패턴 보기” 예시:
O: “오토인코더는 입력 데이터를 저차원 잠재공간으로 매핑한 후 재구성한다.”
X: “오토인코더는 반드시 레이블이 있는 데이터로 학습해야 한다.”

ㅁ 추가 학습 내용

정리
각 기법의 수학적 원리와 알고리즘 절차를 이해하는 것이 중요하다.
클러스터링에서는 군집 수를 결정하는 기법으로 실루엣 계수와 엘보우 방법을 학습해야 한다.
PCA에서는 공분산 행렬 계산, 고유값 분해 과정, 데이터 스케일링의 필요성을 숙지해야 한다.
t-SNE에서는 perplexity, learning rate 등의 하이퍼파라미터 의미와 데이터 시각화 품질에 미치는 영향을 이해해야 한다.
오토인코더에서는 변분 오토인코더(VAE), 스파스 오토인코더 등 다양한 변형 모델의 특징과 활용 사례를 학습해야 한다.

시험 대비 체크리스트
1. 각 기법의 수학적 원리를 설명할 수 있는가?
2. 각 기법의 알고리즘 세부 절차를 순서대로 말할 수 있는가?
3. 클러스터링에서 실루엣 계수와 엘보우 방법의 계산 방법과 해석을 알고 있는가?
4. PCA에서 공분산 행렬 계산 과정을 단계별로 설명할 수 있는가?
5. PCA에서 고유값과 고유벡터의 의미와 계산 과정을 이해하고 있는가?
6. PCA 수행 전 데이터 스케일링이 필요한 이유를 설명할 수 있는가?
7. t-SNE에서 perplexity와 learning rate 하이퍼파라미터의 의미와 조정 시 영향도를 알고 있는가?
8. 오토인코더의 기본 구조와 학습 방식, 손실 함수의 의미를 설명할 수 있는가?
9. 변분 오토인코더(VAE)의 구조와 확률적 특성을 이해하고 있는가?
10. 스파스 오토인코더의 특징과 활용 사례를 알고 있는가?

Meet AI

최신 글

최신 댓글

보관함

카테고리

AI 모델 개발: 주요 기법

Previous Article

Next Article

답글 남기기 응답 취소