AI 모델 개발: 대표 기법
ㅁ 대표 기법
1. 클러스터링
ㅇ 정의:
데이터의 유사도나 거리 기반으로 그룹을 자동으로 나누는 비지도 학습 기법.
ㅇ 특징:
라벨이 없는 데이터에서 패턴을 찾음, K-means, DBSCAN, 계층적 클러스터링 등 다양한 알고리즘 존재.
ㅇ 적합한 경우:
고객 세분화, 이상치 탐지, 문서 분류 등.
ㅇ 시험 함정:
K-means는 구형(球形) 클러스터에 적합하다는 점, 초기 중심값 설정에 따라 결과가 달라질 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “라벨 없이 데이터의 유사성 기반 그룹화” → 클러스터링
X: “정답 라벨 기반의 분류” → 클러스터링 아님
1.1 K-means
ㅇ 정의:
사전에 지정한 k개의 중심을 기준으로 데이터를 할당하고 중심을 갱신하는 반복적 군집화 기법.
ㅇ 특징:
계산 속도가 빠르고 구현이 간단하나, k값 사전 지정 필요.
ㅇ 적합한 경우:
데이터가 구형 클러스터 형태일 때.
ㅇ 시험 함정:
이상치에 민감하고, k값 선택이 결과에 큰 영향.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “중심점과 거리 기반 군집화” → K-means
X: “밀도 기반으로 클러스터를 찾음” → K-means 아님
1.2 DBSCAN
ㅇ 정의:
데이터 밀도 기반으로 클러스터를 형성하는 군집화 기법.
ㅇ 특징:
클러스터 수를 미리 지정할 필요 없으며, 임의 모양의 클러스터 탐지 가능.
ㅇ 적합한 경우:
데이터 분포가 불규칙하거나 잡음이 포함된 경우.
ㅇ 시험 함정:
파라미터 eps, minPts 설정에 따라 결과가 크게 달라짐.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “밀도 기반 클러스터링, 잡음 식별” → DBSCAN
X: “중심점 기반으로만 그룹화” → DBSCAN 아님
2. 오토인코더
ㅇ 정의:
입력 데이터를 저차원 잠재 공간으로 압축(인코딩)한 뒤 다시 복원(디코딩)하는 신경망 구조.
ㅇ 특징:
비지도 학습으로 차원 축소, 특징 추출, 이상 탐지 가능.
ㅇ 적합한 경우:
이미지 노이즈 제거, 데이터 압축, 이상치 탐지.
ㅇ 시험 함정:
입력과 출력이 동일하다고 해서 단순 복사하는 것이 아님. 잠재 공간 학습이 핵심.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “입력을 잠재 공간으로 압축 후 복원” → 오토인코더
X: “라벨로 지도 학습” → 오토인코더 아님
2.1 변분 오토인코더(VAE)
ㅇ 정의:
잠재 공간을 확률적 분포로 모델링하는 오토인코더 변형.
ㅇ 특징:
생성 모델로 활용 가능, 데이터 다양성 확보.
ㅇ 적합한 경우:
새로운 데이터 샘플 생성, 데이터 증강.
ㅇ 시험 함정:
단순 오토인코더와 달리 잠재 변수에 확률 분포 적용.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “잠재 공간을 확률 분포로 모델링” → VAE
X: “잠재 공간이 고정된 벡터” → VAE 아님
3. t-SNE
ㅇ 정의:
고차원 데이터를 2~3차원으로 시각화하는 차원 축소 기법.
ㅇ 특징:
데이터의 국소 구조를 잘 보존, 시각화 용도로 주로 사용.
ㅇ 적합한 경우:
데이터 탐색, 군집 시각화.
ㅇ 시험 함정:
차원 축소 후 결과 해석은 시각적 참고용이며, 거리 비율이 왜곡될 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “국소 구조 보존 시각화” → t-SNE
X: “대규모 데이터 실시간 변환” → t-SNE 아님
4. PCA
ㅇ 정의:
데이터의 분산을 최대화하는 방향(주성분)으로 축을 재설정하는 차원 축소 기법.
ㅇ 특징:
선형 변환 기반, 주성분은 서로 직교.
ㅇ 적합한 경우:
다차원 데이터 시각화, 노이즈 제거, 변수 축소.
ㅇ 시험 함정:
변수 스케일 차이에 민감, 표준화 필요.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “분산이 최대인 축으로 변환” → PCA
X: “비선형 차원 축소” → PCA 아님
ㅁ 추가 학습 내용
정리 내용
클러스터링에서는 k값 결정 방법으로 실루엣 계수와 엘보우 방법의 개념과 계산 절차를 이해해야 한다.
오토인코더는 기본형 외에도 스파스 오토인코더와 덴오이징 오토인코더의 구조적 특징, 학습 목적, 활용 사례를 숙지해야 한다.
t-SNE에서는 perplexity와 learning rate 같은 주요 하이퍼파라미터의 의미, 값 변화에 따른 시각화 결과 변화의 특징을 알아야 한다.
PCA는 공분산 행렬 계산, 고유값 분해(Eigen decomposition) 과정을 이해하고, SVD(특이값 분해)와의 차이점을 비교할 수 있어야 한다.
비지도 학습과 준지도 학습의 정의, 적용 사례, 차이점을 명확히 구분해야 한다.
각 기법의 시간 복잡도와 대규모 데이터 처리 시의 한계 및 고려사항을 파악해야 한다.
시험 대비 체크리스트
1. 실루엣 계수의 정의, 계산 방법, 해석 방법을 설명할 수 있는가
2. 엘보우 방법의 절차와 k값 선택 기준을 설명할 수 있는가
3. 스파스 오토인코더의 구조적 특징과 학습 목표를 알고 있는가
4. 덴오이징 오토인코더의 원리와 활용 사례를 설명할 수 있는가
5. t-SNE의 perplexity와 learning rate의 의미와 영향도를 이해하고 있는가
6. PCA에서 공분산 행렬 계산과 고유값 분해 과정을 순서대로 설명할 수 있는가
7. PCA의 SVD 방식과 고유값 분해 방식의 차이를 비교할 수 있는가
8. 비지도 학습과 준지도 학습의 정의와 차이를 명확히 구분할 수 있는가
9. 각 기법의 시간 복잡도를 설명할 수 있는가
10. 대규모 데이터 처리 시 각 기법의 한계와 해결 방안을 제시할 수 있는가