ㅁ 데이터 소스 ㅇ 정의: 데이터 분석, 머신러닝, 시각화 등에 활용하기 위해 원천 데이터를 확보하는 출처나 경로를 의미하며, 내부 시스템, 외부 API, 공개 데이터셋, 데이터베이스(DB) 등이 포함됨. ㅇ 특징: – 데이터 품질과 분석 결과의 신뢰도에 직접적인 영향을 미침 – 수집 방식에 따라 실시간/배치 처리 가능 – 보안, 접근 권한, 포맷 변환 이슈가 발생할 수 있음
ㅁ 데이터 소스 ㅇ 정의: – 분석에 필요한 데이터를 얻기 위해 활용되는 원천 경로나 시스템. – 데이터베이스, 파일, API, 센서, 로그 등 다양한 형태가 존재. ㅇ 특징: – 데이터 품질, 접근 방식, 업데이트 주기, 포맷 등이 다양함. – 데이터 소스의 특성에 따라 전처리 난이도와 방식이 달라짐. ㅇ 적합한 경우: – 분석 목적에 맞는 데이터가 특정
ㅁ 데이터 소스 ㅇ 정의: 데이터 소스는 분석이나 모델 학습을 위해 데이터를 가져오는 원천을 의미하며, 내부 시스템 데이터, 외부 공개 데이터, API, 웹 페이지 등 다양한 형태가 존재함. ㅇ 특징: – 정형, 반정형, 비정형 데이터를 모두 포함할 수 있음 – 데이터 품질과 최신성이 분석 결과에 큰 영향을 미침 – 접근 권한과 라이선스 조건을 반드시 확인해야
ㅁ 이상치 처리 ㅇ 정의: 데이터셋에서 다른 값들과 비교해 극단적으로 벗어난 값을 탐지하고 처리하는 과정. ㅇ 특징: 통계적 방법, 거리 기반 방법, 머신러닝 기반 방법 등 다양한 접근법이 존재하며, 데이터 분포와 특성에 따라 적절한 방법을 선택해야 함. ㅇ 적합한 경우: 모델 학습 시 이상치가 결과에 큰 영향을 미치는 경우, 데이터 품질 향상이 필요한 경우. ㅇ
ㅁ 결측치 처리 ㅇ 정의: 데이터셋에서 일부 관측값이 누락된 경우 이를 처리하는 기법으로, 분석의 왜곡을 방지하고 모델의 성능을 유지하기 위해 수행됨. ㅇ 특징: 결측치의 패턴(MCAR, MAR, MNAR)에 따라 적절한 처리 방법을 선택해야 하며, 잘못 처리하면 편향(bias) 발생 가능. ㅇ 적합한 경우: 데이터 분석, 머신러닝 모델 학습 전에 데이터 품질을 확보해야 할 때. ㅇ 시험 함정: