ㅁ 정규화 및 표준화 ㅇ 정의: 데이터의 범위나 분포를 조정하여 알고리즘 학습 성능을 향상시키는 전처리 기법. ㅇ 특징: – 서로 다른 단위나 범위를 가진 데이터를 동일 기준으로 맞춤. – 거리 기반 알고리즘(KNN, SVM, K-means 등)에서 중요. ㅇ 적합한 경우: – 피처 스케일 차이가 모델 성능에 영향을 주는 경우. ㅇ 시험 함정: – 정규화와 표준화를 혼동.
ㅁ 데이터 편향 감소 방안 1. 다양한 인구 집단 ㅇ 정의: 데이터 수집 시 연령, 성별, 인종, 지역, 사회경제적 배경 등 다양한 인구 통계학적 특성을 포함하도록 하는 방법. ㅇ 특징: 모집단의 대표성을 높이고, 특정 집단에 대한 과대·과소 대표를 방지함. ㅇ 적합한 경우: 예측 모델이 다양한 사용자 그룹에 적용되어야 하는 경우(예: 의료 진단, 공공 서비스). ㅇ
ㅁ 연합학습/프라이버시 ㅇ 정의: 여러 참여자가 데이터 원본을 공유하지 않고도 협력하여 모델을 학습하거나 분석 결과를 도출하는 기술 및 방법론. ㅇ 특징: 데이터 프라이버시 보호, 법규 준수, 분산 환경 적용 가능. ㅇ 적합한 경우: 개인정보 보호가 중요한 의료, 금융, IoT 환경 등. ㅇ 시험 함정: 프라이버시 보호 기법이 성능 저하를 유발할 수 있다는 점 간과. ㅇ
ㅁ 멀티태스크 학습 ㅇ 정의: 하나의 모델이 동시에 여러 개의 관련된 작업(Task)을 학습하도록 하는 기법으로, 각 작업의 학습을 통해 공유된 표현(Feature Representation)을 향상시키는 방법. ㅇ 특징: – 파라미터를 공유하여 데이터 효율성과 일반화 성능을 높임. – 한 작업의 학습이 다른 작업의 성능 향상에 기여할 수 있음(Positive Transfer). – 반대로, 작업 간 충돌로 인한 성능 저하(Negative Transfer)
ㅁ 대체 모델/접근법 1. Spiking Neural Networks ㅇ 정의: – 생물학적 뉴런의 발화(spike) 메커니즘을 모사하여 시간에 따라 불연속적인 이벤트로 신호를 처리하는 신경망. ㅇ 특징: – 이벤트 기반 처리로 에너지 효율이 높음. – 시간 정보(Time Dynamics)를 자연스럽게 반영. – 뉴로모픽 하드웨어와 결합 시 저전력 고속 처리 가능. ㅇ 적합한 경우: – 센서에서 이벤트 기반 데이터가 발생하는
ㅁ 인프라 및 자동화 1. Kubernetes Operators ㅇ 정의: – Kubernetes API를 확장하여 특정 애플리케이션이나 서비스의 배포, 관리, 운영을 자동화하는 컨트롤러 패턴. – Custom Resource Definition(CRD)을 활용하여 도메인 특화 리소스를 정의하고, 해당 리소스의 상태를 관리. ㅇ 특징: – 선언적 구성(Declarative Configuration) 기반 자동화. – 애플리케이션 수명주기(Lifecycle) 관리 가능. – 복잡한 운영 로직을 코드로 구현하여 반복
ㅁ 고급 전략 1. Shadow Deployment ㅇ 정의: – 새로운 버전의 애플리케이션을 실제 사용자 요청과 동일한 트래픽에 노출시키되, 응답은 실제 서비스에 반영하지 않고 내부적으로만 처리하여 성능과 안정성을 검증하는 배포 전략. ㅇ 특징: – 실서비스와 동일한 환경에서 테스트 가능 – 사용자 경험에 영향 없음 – 운영 환경과 테스트 환경 간 차이를 최소화 ㅇ 적합한 경우: –
ㅁ 첨단 방법 1. Population Based Training ㅇ 정의: – 하이퍼파라미터 탐색과 모델 학습을 동시에 진행하며, 주기적으로 성능이 낮은 개체를 성능이 좋은 개체의 파라미터와 하이퍼파라미터로 교체/변이시키는 방법. ㅇ 특징: – 탐색과 학습 병행, 진화 알고리즘 기반. – 학습 도중 하이퍼파라미터를 동적으로 변경. – 병렬 처리에 적합. ㅇ 적합한 경우: – 대규모 분산 환경에서의 모델 최적화.
ㅁ 최신 1. Lookahead Optimizer ㅇ 정의: – 기존 옵티마이저(SGD, Adam 등)의 파라미터 업데이트를 보조하여 학습 안정성과 일반화를 향상시키는 메타 옵티마이저 기법. – 빠르게 움직이는 ‘fast weights’와 느리게 움직이는 ‘slow weights’를 병행 업데이트. ㅇ 특징: – fast weights는 기존 옵티마이저로 여러 스텝 업데이트. – slow weights는 fast weights를 일정 주기마다 보간하여 업데이트. – 학습 진동
ㅁ 최신 모델 1. GraphSAGE ㅇ 정의: – Graph Sample and Aggregate의 약자로, 이웃 노드의 정보를 샘플링하고 집계하여 노드 임베딩을 생성하는 그래프 신경망 모델. ㅇ 특징: – 대규모 그래프 처리에 효율적. – 이웃 샘플링으로 메모리 사용량 절감. – Aggregator로 mean, LSTM, max-pooling 등을 사용 가능. ㅇ 적합한 경우: – 노드 수가 매우 많아 전체 이웃