트랜드: 최신 알고리즘 – Deep Learning
ㅁ 최신 알고리즘
ㅇ 정의:
– 인공신경망(ANN)을 기반으로 다층 구조를 통해 데이터의 특징을 자동으로 학습하는 기계학습 기법.
– 대규모 데이터와 연산 자원을 활용하여 이미지, 음성, 자연어 처리 등 다양한 분야에서 높은 성능을 발휘.
ㅇ 특징:
– 다층 퍼셉트론(MLP), 합성곱 신경망(CNN), 순환 신경망(RNN) 등 다양한 구조 존재.
– 비선형 변환을 반복적으로 적용하여 복잡한 패턴을 학습.
– 대규모 데이터셋과 GPU/TPU와 같은 고성능 연산 장비 필요.
– 학습 과정에서 과적합(overfitting) 방지를 위한 정규화, 드롭아웃(dropout) 기법 사용.
ㅇ 적합한 경우:
– 이미지 인식, 음성 인식, 자연어 처리, 추천 시스템 등 비정형 데이터 분석.
– 데이터 특징이 복잡하고 비선형성이 강한 문제.
ㅇ 시험 함정:
– 딥러닝은 항상 최고의 성능을 보장하는 것이 아님 → 데이터 양이 적거나 연산 자원이 부족하면 전통적 기법이 더 나을 수 있음.
– 딥러닝은 지도학습만 가능하다는 오해 → 비지도학습, 강화학습에도 적용 가능.
– CNN은 시계열 데이터에 사용 불가하다는 오해 → 1D-CNN을 시계열 분석에 활용 가능.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “딥러닝은 비정형 데이터 처리에 강점을 가진다.”
– O: “합성곱 신경망(CNN)은 이미지 처리에 주로 사용된다.”
– X: “딥러닝은 데이터 양이 적을수록 더 잘 작동한다.”
– X: “딥러닝은 지도학습에만 사용된다.”
ㅁ 추가 학습 내용
주요 딥러닝 프레임워크
TensorFlow: 구글에서 개발, 대규모 분산 학습과 생산 환경 배포에 강점, 정적 그래프 기반(2.x부터는 즉시 실행 지원).
PyTorch: 페이스북에서 개발, 동적 그래프 기반으로 직관적이고 디버깅이 쉬움, 연구 개발에 많이 사용.
Keras: 고수준 API로 직관적인 모델 구성, TensorFlow 등 백엔드 위에서 동작, 빠른 프로토타이핑에 적합.
하이퍼파라미터 튜닝 요소
학습률(learning rate): 가중치 업데이트 크기를 결정, 너무 크면 발산, 너무 작으면 수렴 속도 저하.
배치 크기(batch size): 한 번의 가중치 업데이트에 사용되는 데이터 샘플 수, 메모리 사용량과 학습 안정성에 영향.
에폭(epoch): 전체 데이터셋을 한 번 학습하는 주기, 너무 많으면 과적합 위험, 너무 적으면 학습 부족.
활성화 함수 종류와 특징
ReLU: 0 이하 입력은 0, 그 이상은 그대로 출력, 계산 효율 높음, 경사소실 완화.
Sigmoid: 출력 범위 0~1, 확률 해석 가능, 경사소실 문제 존재.
Tanh: 출력 범위 -1~1, 데이터 중심화 효과, 경사소실 문제 존재.
Softmax: 다중 클래스 분류에서 각 클래스 확률로 변환.
손실 함수 종류
MSE(Mean Squared Error): 회귀 문제에서 주로 사용, 예측값과 실제값 차이 제곱 평균.
Cross-Entropy Loss: 분류 문제에서 주로 사용, 예측 확률과 실제 레이블의 차이를 측정.
전이학습(Transfer Learning)
개념: 이미 학습된 모델의 가중치를 활용해 새로운 문제 해결.
장점: 학습 시간 단축, 적은 데이터로도 높은 성능 가능.
대표 모델: VGG, ResNet(이미지), BERT(자연어).
경사소실과 경사폭발 문제
경사소실: 역전파 시 기울기가 점점 작아져 학습이 어려워짐.
경사폭발: 기울기가 너무 커져 가중치가 발산.
해결 방법: LSTM, GRU 같은 순환구조, Batch Normalization, 기울기 클리핑.
시험에서 자주 출제되는 내용
딥러닝과 머신러닝의 차이점: 딥러닝은 다층 신경망 기반, 자동 특징 추출, 대규모 데이터 필요. 머신러닝은 수동 특징 추출, 적은 데이터로도 가능.
학습 유형: 지도학습(레이블 있음), 비지도학습(레이블 없음), 강화학습(행동-보상 기반).
CNN과 RNN의 구조적 차이: CNN은 합성곱 계층 기반, 이미지 처리에 강점. RNN은 순환 구조 기반, 시계열·자연어 처리에 강점.