AI 모델 개발: 대표 기법
ㅁ 대표 기법
1. 클러스터링
ㅇ 정의:
– 데이터의 유사도나 거리 기반으로 비슷한 데이터들을 그룹(클러스터)으로 묶는 기법.
ㅇ 특징:
– 사전 레이블 없이 데이터 패턴을 발견.
– K-means, DBSCAN, 계층적 군집 등 다양한 알고리즘 존재.
– 거리 계산 방식(유클리드, 맨해튼 등)에 따라 결과가 달라짐.
ㅇ 적합한 경우:
– 고객 세분화, 이상치 탐지, 문서 주제 분류 등.
ㅇ 시험 함정:
– K-means는 구형(球形) 클러스터에 적합하며, 이상치에 민감.
– DBSCAN은 밀도 기반으로 클러스터 수를 사전에 지정할 필요가 없지만, 파라미터 설정에 따라 성능 차이 큼.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “K-means는 사전에 군집 개수를 지정해야 한다.”
– X: “DBSCAN은 항상 원형 클러스터를 찾는다.”
1.1 K-means
ㅇ 정의:
– 데이터 포인트를 K개의 클러스터 중심으로 반복적으로 재배치하는 알고리즘.
ㅇ 특징:
– 빠르고 구현이 간단.
– 초기 중심값 설정에 따라 결과가 달라짐.
ㅇ 적합한 경우:
– 대규모 데이터, 비교적 균일한 분포.
ㅇ 시험 함정:
– 비구형 데이터에는 부적합.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “K-means는 각 데이터가 가장 가까운 중심점에 할당된다.”
– X: “K-means는 이상치에 강하다.”
1.2 DBSCAN
ㅇ 정의:
– 밀도 기반 클러스터링으로, 밀집된 데이터 영역을 찾아 클러스터를 형성.
ㅇ 특징:
– 클러스터 개수 자동 결정.
– 이상치에 강함.
ㅇ 적합한 경우:
– 임의 모양의 클러스터, 노이즈 포함 데이터.
ㅇ 시험 함정:
– 파라미터 eps, minPts 설정이 중요.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “DBSCAN은 노이즈 포인트를 클러스터에 포함시키지 않는다.”
– X: “DBSCAN은 K-means보다 항상 빠르다.”
================================
2. 오토인코더
ㅇ 정의:
– 입력 데이터를 압축(인코딩) 후 다시 복원(디코딩)하는 인공신경망 구조.
ㅇ 특징:
– 비지도 학습 기반 차원 축소 및 특징 추출.
– 비선형 변환 가능.
ㅇ 적합한 경우:
– 이상치 탐지, 이미지 노이즈 제거, 데이터 압축.
ㅇ 시험 함정:
– 학습 데이터에 과적합될 수 있음.
– 단순 선형 변환만 가능하다고 오해하면 안 됨.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “오토인코더는 입력과 출력이 동일한 구조를 목표로 한다.”
– X: “오토인코더는 항상 지도 학습 방식이다.”
2.1 변분 오토인코더(VAE)
ㅇ 정의:
– 잠재 공간을 확률 분포로 모델링하는 확률적 오토인코더.
ㅇ 특징:
– 새로운 데이터 샘플 생성 가능.
– 잠재 변수의 연속성 보장.
ㅇ 적합한 경우:
– 이미지 생성, 데이터 증강.
ㅇ 시험 함정:
– 단순 오토인코더와의 차이를 혼동.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “VAE는 잠재 공간에서 샘플링을 수행한다.”
– X: “VAE는 입력 데이터를 그대로 복사한다.”
================================
3. t-SNE
ㅇ 정의:
– 고차원 데이터를 저차원(2~3차원)으로 시각화하는 비선형 차원 축소 기법.
ㅇ 특징:
– 데이터의 지역적 구조 보존.
– 계산량이 많고 대규모 데이터에는 부적합.
ㅇ 적합한 경우:
– 데이터 시각화, 군집 구조 탐색.
ㅇ 시험 함정:
– 차원 축소 결과는 거리의 절대값 비교에 적합하지 않음.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “t-SNE는 시각화 목적으로 주로 사용된다.”
– X: “t-SNE는 선형 변환을 사용한다.”
================================
4. PCA
ㅇ 정의:
– 데이터의 분산이 가장 큰 방향(주성분)을 찾아 차원을 축소하는 선형 기법.
ㅇ 특징:
– 선형 변환 기반.
– 주성분은 서로 직교.
ㅇ 적합한 경우:
– 다차원 데이터 압축, 노이즈 제거.
ㅇ 시험 함정:
– 데이터 표준화 여부에 따라 결과가 달라짐.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “PCA는 데이터의 분산을 최대화하는 방향을 찾는다.”
– X: “PCA는 비선형 변환을 수행한다.”
ㅁ 추가 학습 내용
클러스터링에서는 실루엣 계수와 엘보우 방법 등 최적 클러스터 수를 결정하는 기법을 학습해야 한다.
오토인코더에서는 스파스 오토인코더, 덴오이징 오토인코더 등 변형 모델의 개념과 특징을 이해해야 한다.
t-SNE에서는 perplexity, learning rate 등의 하이퍼파라미터가 결과에 미치는 영향을 파악해야 한다.
PCA에서는 SVD(특이값 분해)와의 관계, 공분산 행렬 계산 과정, 표준화 필요성 등을 숙지해야 한다.
각 기법의 시간 복잡도와 대규모 데이터셋 적용 시 고려 사항을 이해해야 하며, 비지도 학습과 지도 학습의 경계에 해당하는 준지도 학습 사례도 학습하는 것이 유용하다.