결측치 처리: 다중 대체법(MICE)

ㅁ 결측치 처리 ㅇ 정의: 데이터셋 내 결측된 값을 처리하여 분석의 정확성과 신뢰성을 높이는 과정. ㅇ 특징: – 결측치의 유형(무작위 결측, 비무작위 결측 등)에 따라 적합한 방법이 달라짐. – 데이터의 분포와 분석 목적에 따라 처리 방법 선택 필요. ㅇ 적합한 경우: – 결측치가 데이터셋의 일부를 차지하여 분석 결과에 영향을 줄 경우. – 결측값이 특정 변수에

이상치 탐지 기법: Hampel Filter

ㅁ 이상치 탐지 기법 ㅇ 정의: 이상치 탐지 기법은 데이터 세트 내에서 비정상적이거나 일반적인 패턴에서 벗어난 데이터를 식별하는 기법을 의미한다. ㅇ 특징: – 데이터의 품질을 향상시키기 위해 사용됨. – 다양한 기법이 존재하며, 데이터 유형과 특성에 따라 적합한 방법이 다름. – 통계적 기법, 기계 학습 기반 기법 등으로 분류 가능. ㅇ 적합한 경우: – 센서 데이터에서

이상치 탐지 기법: Mahalanobis Distance

ㅁ 이상치 탐지 기법 ㅇ 정의: 데이터셋 내에서 정상적인 데이터와 동떨어진 데이터를 식별하기 위한 방법론의 집합. ㅇ 특징: – 데이터의 분포와 특성을 기반으로 비정상적인 데이터를 탐지. – 다양한 통계적, 기계 학습 기반 방법을 포함. ㅇ 적합한 경우: – 데이터 분석 전 이상치 제거가 필요한 경우. – 모델 학습 전에 데이터 품질을 높이고자 할 때. ㅇ

이상치 탐지 기법: DBSCAN 기반 탐지

ㅁ 이상치 탐지 기법 ㅇ 정의: 데이터셋 내에서 정상 데이터와 다른 패턴을 보이는 데이터를 식별하기 위한 기법. ㅇ 특징: – 비정상적인 데이터 포인트를 찾아내어 분석의 정확성을 높임. – 기법에 따라 지도학습, 비지도학습 방식으로 나뉨. ㅇ 적합한 경우: – 센서 데이터에서 비정상 측정값 식별. – 금융 거래 데이터에서 이상 거래 탐지. ㅇ 시험 함정: – 이상치와

데이터 수집 기법: 웹 스크래핑 도구(BeautifulSoup Scrapy)

ㅁ 데이터 수집 기법 ㅇ 정의: 데이터를 수집하는 다양한 방법으로, 웹에서 정보를 자동으로 추출하거나 API를 통해 데이터를 가져오는 기술을 포함한다. ㅇ 특징: – 데이터의 구조와 형식에 따라 다양한 도구와 방법이 사용됨. – 웹 스크래핑은 비정형 데이터를 처리할 때 유용하며, API는 정형 데이터를 수집하는 데 적합함. ㅇ 적합한 경우: – 필요한 데이터가 공개된 웹 페이지에 존재하지만

데이터 소스 확장: 크라우드소싱 데이터

ㅁ 데이터 소스 확장 ㅇ 정의: 데이터 소스 확장은 기존 데이터 외에 새로운 데이터 소스를 발굴하거나 포함시키는 과정을 말하며, 데이터의 다양성과 품질을 높이는 데 목적이 있다. ㅇ 특징: 다양한 소스에서 데이터를 수집함으로써 데이터의 편향성을 줄이고, 분석 결과의 신뢰성을 높일 수 있다. 하지만 데이터 품질 관리와 통합 과정에서 추가적인 비용과 노력이 필요하다. ㅇ 적합한 경우: 기존

데이터 소스 확장: 오픈 데이터 포털

ㅁ 데이터 소스 확장 ㅇ 정의: 기존 데이터 외에 새로운 데이터 소스를 추가하여 분석의 다양성과 정확성을 높이는 과정. ㅇ 특징: 다양한 데이터 소스에서 데이터를 수집할 수 있으며, 데이터의 품질과 신뢰성을 확인하는 것이 중요함. ㅇ 적합한 경우: 기존 데이터로는 충분한 인사이트를 도출하기 어려운 경우, 추가 데이터가 분석 결과에 긍정적인 영향을 미칠 수 있는 경우. ㅇ 시험

데이터 소스 확장: 위성 데이터

ㅁ 데이터 소스 확장 ㅇ 정의: 데이터 소스 확장은 기존 데이터 외에 새로운 데이터를 추가하여 분석의 다양성과 정확성을 높이는 작업을 의미한다. ㅇ 특징: – 기존 데이터와의 연관성을 고려하여 추가 데이터를 선택해야 함. – 다양한 데이터 소스 간의 통합 및 정규화 과정이 필요함. ㅇ 적합한 경우: – 기존 데이터만으로 분석 결과의 신뢰도가 낮은 경우. – 추가

데이터 소스 확장: IoT 센서 네트워크

ㅁ 데이터 소스 확장 ㅇ 정의: 데이터 소스 확장은 기존 데이터를 보완하거나 새로운 데이터를 추가하여 분석의 품질을 높이는 과정이다. 다양한 데이터 소스를 활용함으로써 데이터의 다양성과 정확성을 확보할 수 있다. ㅇ 특징: – 데이터의 다양성을 증가시켜 분석의 신뢰성을 높임. – 새로운 패턴과 인사이트를 발견할 가능성을 제공. – 데이터 통합 시 발생할 수 있는 품질 문제를 해결해야

강화학습 응용: Autonomous Driving

ㅁ 강화학습 응용 ㅇ 정의: 강화학습은 에이전트가 환경과 상호작용하며 보상을 최대화하는 행동을 학습하는 기법이다. 강화학습은 특히 복잡한 의사결정 문제에서 유용하다. ㅇ 특징: 강화학습은 시뮬레이션 환경에서 학습이 가능하며, 실시간 피드백을 통해 학습을 진행한다. 또한, 탐색과 활용의 균형을 맞추는 것이 중요하다. ㅇ 적합한 경우: 복잡한 환경에서 최적의 행동을 찾는 문제, 예를 들어, 게임 AI, 로봇 제어, 자율주행