ㅁ 데이터 소스 ㅇ 정의: 데이터 분석, 머신러닝, 시각화 등에 활용하기 위해 원천 데이터를 확보하는 출처나 경로를 의미하며, 내부 시스템, 외부 API, 공개 데이터셋, 데이터베이스(DB) 등이 포함됨. ㅇ 특징: – 데이터 품질과 분석 결과의 신뢰도에 직접적인 영향을 미침 – 수집 방식에 따라 실시간/배치 처리 가능 – 보안, 접근 권한, 포맷 변환 이슈가 발생할 수 있음
ㅁ 데이터 소스 ㅇ 정의: – 분석에 필요한 데이터를 얻기 위해 활용되는 원천 경로나 시스템. – 데이터베이스, 파일, API, 센서, 로그 등 다양한 형태가 존재. ㅇ 특징: – 데이터 품질, 접근 방식, 업데이트 주기, 포맷 등이 다양함. – 데이터 소스의 특성에 따라 전처리 난이도와 방식이 달라짐. ㅇ 적합한 경우: – 분석 목적에 맞는 데이터가 특정
ㅁ 데이터 소스 ㅇ 정의: 데이터 소스는 분석이나 모델 학습을 위해 데이터를 가져오는 원천을 의미하며, 내부 시스템 데이터, 외부 공개 데이터, API, 웹 페이지 등 다양한 형태가 존재함. ㅇ 특징: – 정형, 반정형, 비정형 데이터를 모두 포함할 수 있음 – 데이터 품질과 최신성이 분석 결과에 큰 영향을 미침 – 접근 권한과 라이선스 조건을 반드시 확인해야
ㅁ 이상치 처리 ㅇ 정의: 데이터셋에서 다른 값들과 비교해 극단적으로 벗어난 값을 탐지하고 처리하는 과정. ㅇ 특징: 통계적 방법, 거리 기반 방법, 머신러닝 기반 방법 등 다양한 접근법이 존재하며, 데이터 분포와 특성에 따라 적절한 방법을 선택해야 함. ㅇ 적합한 경우: 모델 학습 시 이상치가 결과에 큰 영향을 미치는 경우, 데이터 품질 향상이 필요한 경우. ㅇ
ㅁ 결측치 처리 ㅇ 정의: 데이터셋에서 일부 관측값이 누락된 경우 이를 처리하는 기법으로, 분석의 왜곡을 방지하고 모델의 성능을 유지하기 위해 수행됨. ㅇ 특징: 결측치의 패턴(MCAR, MAR, MNAR)에 따라 적절한 처리 방법을 선택해야 하며, 잘못 처리하면 편향(bias) 발생 가능. ㅇ 적합한 경우: 데이터 분석, 머신러닝 모델 학습 전에 데이터 품질을 확보해야 할 때. ㅇ 시험 함정:
ㅁ 성능 개선 복합 처리 ㅇ 정의: – 여러 모델 경량화 기법을 동시에 적용하여 성능 저하를 최소화하면서 연산량과 메모리 사용량을 줄이는 방법. ㅇ 특징: – 단일 기법 대비 더 높은 경량화 효과. – 기법 간 상호작용에 따른 성능 변화가 복잡함. – 적용 순서와 비율 조절이 중요. ㅇ 적합한 경우: – 모바일·엣지 디바이스에서 실시간 추론이 필요한
ㅁ 학습 곡선 최적화 기법 ㅇ 정의: – 모델 학습 과정에서 손실과 정확도의 변화를 분석하여 학습 효율을 높이고 일반화 성능을 향상시키는 방법. ㅇ 특징: – 학습 곡선을 기반으로 조기 종료, 정규화, 하이퍼파라미터 조정 등을 수행. – 훈련 데이터와 검증 데이터의 성능 차이를 통해 과적합/과소적합을 판단. ㅇ 적합한 경우: – 모델 성능이 일정 시점 이후 개선되지
ㅁ 자동 설계 검색 및 평가 ㅇ 정의: 신경망 구조를 사람이 직접 설계하지 않고, 알고리즘이 자동으로 탐색(Search) 및 평가(Evaluation)하여 최적의 모델 구조를 찾는 기술. ㅇ 특징: – 인공지능 모델 성능을 향상시키기 위해 구조 설계 과정을 자동화. – 탐색(Search)과 평가(Evaluation) 단계로 구성. – 연산량이 많고 자원 소모가 크지만, 최근에는 효율적인 탐색 기법이 개발됨. ㅇ 적합한 경우:
ㅁ 자동화 수준 관리 및 모니터링 ㅇ 정의: MLOps 환경에서 모델 개발·배포·운영의 자동화 수준을 단계별로 구분하고, 각 단계에 맞는 모니터링 체계를 구축하는 활동. ㅇ 특징: – 자동화 수준(Level)에 따라 수동 작업 비중과 자동화 범위가 달라짐 – 모델 품질, 데이터 품질, 시스템 안정성을 지속적으로 감시 – CI/CD, Feature Store 등 다양한 도구와 연계됨 ㅇ 적합한 경우:
ㅁ 배포 전략 특징 및 고려사항 1. Model-in-service vs Model-as-service ㅇ 정의: – Model-in-service: 모델이 애플리케이션 서비스 내부에 포함되어 함께 배포되는 방식 – Model-as-service: 모델이 독립된 서비스로 배포되어 API 형태로 호출되는 방식 ㅇ 특징: – Model-in-service: 배포 단순, 네트워크 지연 적음, 서비스와 모델 버전 동기화 필요 – Model-as-service: 모델 독립 배포 가능, 확장성 용이, 네트워크