AI 모델 개발: 주요 기법 – 오토인코더
ㅁ 주요 기법
1. 오토인코더
ㅇ 정의:
입력 데이터를 저차원 잠재 공간(latent space)으로 압축한 뒤, 이를 다시 원래 차원으로 복원하는 신경망 구조. 주로 차원 축소, 잡음 제거, 특징 추출 등 비지도 학습에 활용됨.
ㅇ 특징:
– 인코더(Encoder)와 디코더(Decoder)로 구성됨.
– 출력이 입력과 최대한 유사하도록 학습함.
– 지도 학습이 아닌 입력 자체를 레이블로 사용.
– 은닉층의 뉴런 수를 입력층보다 적게 설정하여 중요한 특징만 추출.
ㅇ 적합한 경우:
– 데이터의 주요 패턴만 남기고 압축하고자 할 때.
– 이상치 탐지(재구성 오차를 기반으로).
– 고차원 데이터의 시각화.
ㅇ 시험 함정:
– PCA와 혼동: PCA는 선형 변환 기반, 오토인코더는 비선형 변환 가능.
– GAN과 혼동: GAN은 생성 모델, 오토인코더는 재구성 모델.
– 오토인코더는 레이블이 필요 없다는 점을 간과.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “입력 데이터를 압축 후 복원하는 비지도 학습 모델”
O: “인코더와 디코더 구조를 가진다”
X: “레이블이 반드시 필요하다”
X: “선형 변환만 가능하다”
ㅁ 추가 학습 내용
오토인코더의 변형 모델은 다음과 같다.
변분 오토인코더(VAE)는 확률적 잠재 공간을 학습하며, 새로운 데이터를 생성할 수 있는 생성 모델로 활용 가능하다.
스파스 오토인코더는 은닉층의 활성화를 제한하여 더 해석 가능한 특징을 학습한다.
잡음 제거 오토인코더(Denoising Autoencoder)는 입력 데이터에 노이즈를 추가한 후 원래 입력을 복원하도록 학습하여 모델의 강건성을 높인다.
시험에서는 재구성 오차를 기반으로 한 이상치 탐지 과정에 대한 이해가 필요하다.
또한 오토인코더 학습 시 사용하는 목표 함수의 종류(MSE, BCE 등)에 따른 차이와 특성을 숙지해야 한다.
GPU 연산 최적화 방법과 과적합 방지를 위한 기법(Dropout, 정규화)과 오토인코더의 관계도 함께 이해해야 한다.