ㅁ 프롬프트 설계 ㅇ 정의: ㅇ 특징: ㅇ 적합한 경우: ㅇ 시험 함정: ㅇ 시험 대비 “패턴 보기” 예시: ================================ 1. Zero-shot ㅇ 정의: 사전 예시 없이 모델에 직접 질의를 던져 답변을 생성하게 하는 프롬프트 기법. ㅇ 특징: 학습 데이터 기반 일반화 능력에 의존, 빠른 응답 가능, 설계가 단순함. ㅇ 적합한 경우: 질문이 명확하고 맥락
ㅁ 대표 기법 ㅇ 정의: 준지도 학습에서 널리 사용되는 주요 알고리즘 기법들을 의미하며, 소량의 라벨 데이터와 대량의 비라벨 데이터를 결합하여 모델 성능을 향상시키는 방법들이다. ㅇ 특징: 라벨이 없는 데이터에 대해 모델이 예측한 결과를 활용하거나, 데이터 변형에 따른 일관성을 유지하는 방식 등 다양한 전략을 사용한다. ㅇ 적합한 경우: 라벨 데이터 수집이 어렵거나 비용이 높은 경우, 비라벨
ㅁ 주요 기법 1. 클러스터링 ㅇ 정의: 데이터의 유사성에 따라 그룹(클러스터)으로 묶는 비지도 학습 기법으로, 사전 레이블 없이 데이터 구조를 파악. ㅇ 특징: – 대표 알고리즘: K-means, 계층적 클러스터링, DBSCAN – 거리 기반 또는 밀도 기반으로 군집 형성 – 군집 수를 사전에 지정해야 하는 경우(K-means)와 그렇지 않은 경우(DBSCAN)가 있음 ㅇ 적합한 경우: – 고객 세분화,
ㅁ 처리 기술 1. 기상 보간 ㅇ 정의: 누락된 기상 관측 데이터나 불규칙한 간격의 시계열 데이터를 시간 축에 맞춰 보간하는 기법. ㅇ 특징: 선형 보간, 스플라인 보간, 크리깅 등 다양한 방법이 있으며, 데이터의 계절성과 변동성을 고려해야 함. ㅇ 적합한 경우: 센서 고장, 통신 오류 등으로 일부 데이터가 결측된 경우. ㅇ 시험 함정: 단순 선형 보간은
ㅁ 보안 전략 ㅇ 정의: 데이터 전처리 과정에서 민감 정보의 유출을 방지하고 무단 접근을 차단하기 위한 일련의 기술적·관리적 조치. ㅇ 특징: 데이터 암호화, 접근 제어, 개인정보 비식별화 등 다양한 보안 기술을 결합하여 사용. ㅇ 적합한 경우: 개인정보, 금융정보, 의료정보 등 민감 데이터 처리 시. ㅇ 시험 함정: 단일 기술만으로 보안 전략이 완성된다고 착각하는 경우. ㅇ
ㅁ 동기화 기법 ㅇ 정의: 데이터 동기화 기법은 서로 다른 시스템, 데이터베이스, 또는 애플리케이션 간의 데이터 일관성을 유지하기 위해 데이터를 동일하게 맞추는 방법을 의미함. ㅇ 특징: – 데이터 변경 사항을 즉시 또는 일정 주기로 반영 – 네트워크, 처리 지연, 충돌 관리 필요 – 데이터 무결성과 가용성 보장 목적 ㅇ 적합한 경우: – 분산 시스템 운영
ㅁ 라벨링 기술 ㅇ 정의: 데이터 라벨링 기술은 원본 데이터에 의미 있는 태그나 클래스를 부여하여 머신러닝 학습이 가능하도록 만드는 방법론을 의미함. ㅇ 특징: 데이터 품질과 모델 성능에 직접적인 영향을 미치며, 다양한 방식(수동, 반자동, 자동, 크라우드소싱 등)이 존재함. ㅇ 적합한 경우: 모델 학습용 데이터셋 제작, 데이터 정제, 품질 검증이 필요한 경우. ㅇ 시험 함정: 라벨링 기술은
ㅁ 결측치 처리 ㅇ 정의: 데이터셋에서 누락된 값(결측치)을 적절한 방법으로 대체하거나 제거하여 분석의 정확성과 신뢰성을 높이는 과정. ㅇ 특징: – 결측치 유형(MCAR, MAR, MNAR)에 따라 처리 방법이 달라짐 – 단순 제거, 단일 대체, 다중 대체 등 다양한 기법 존재 – 잘못된 처리 시 편향(Bias)과 분산(Variance) 문제 발생 ㅇ 적합한 경우: – 데이터 분석, 모델 학습
ㅁ 이상치 탐지 기법 ㅇ 정의: 데이터셋에서 정상 범위를 벗어난 관측값(이상치)을 식별하는 통계적·알고리즘적 방법. ㅇ 특징: – 데이터 품질 향상을 위해 필수적으로 수행 – 통계적 방법, 거리 기반 방법, 머신러닝 기반 방법 등 다양함 – 도메인 지식과 결합 시 정확도 향상 ㅇ 적합한 경우: – 센서 데이터의 오류값 제거 – 금융 사기 탐지, 제조 불량
ㅁ 데이터 수집 기법 ㅇ 정의: 데이터 분석이나 머신러닝 모델 학습을 위해 다양한 출처에서 데이터를 획득하는 방법과 절차를 의미함. ㅇ 특징: – 웹, API, DB, 스트리밍 등 다양한 소스에서 수집 가능 – 데이터 품질과 형식이 제각각이므로 후속 전처리 필요 – 자동화 도구와 스크립트를 통한 반복 수집 가능 ㅇ 적합한 경우: – 분석 목적에 맞는 데이터가