데이터: 샘플링 기법 – 다단계 클러스터 샘플링

ㅁ 샘플링 기법 ㅇ 정의: 모집단을 여러 단계로 나누어 각 단계마다 클러스터를 무작위로 선택하고, 선택된 클러스터 내에서 다시 표본을 추출하는 확률 표본추출 방법. ㅇ 특징: – 대규모 모집단에서 조사 비용과 시간을 절감할 수 있음. – 각 단계에서 무작위 추출을 수행하여 표본의 대표성을 확보. – 클러스터 간 이질성이 크고, 클러스터 내 동질성이 높은 경우 효율적. ㅇ

데이터: 샘플링 기법 – 비례할당 표본추출

ㅁ 샘플링 기법 ㅇ 정의: 모집단을 여러 층(strata)으로 나눈 후, 각 층의 크기에 비례하여 표본을 추출하는 층화추출 방법의 하나. ㅇ 특징: – 층별 비율이 모집단과 동일하게 유지되도록 표본을 구성. – 표본의 대표성이 높아지고 편향이 줄어듦. – 층 내 변동이 작고 층 간 변동이 큰 경우 효과적. ㅇ 적합한 경우: – 모집단이 이질적이며, 특정 속성(예: 성별,

데이터: 데이터 편향 유형 – 측정 편향

ㅁ 데이터 편향 유형 1. 측정 편향 ㅇ 정의: 데이터 수집 과정에서 측정 기기, 설문 문항, 기록 방식 등의 오류로 인해 실제 값과 다른 값이 기록되는 현상. ㅇ 특징: – 센서 오작동, 설문 응답자의 주관적 판단, 기록자의 실수 등으로 발생 – 데이터 전처리 시 발견이 어려울 수 있음 – 지속적으로 같은 방향으로 오차가 발생하는 경향이

데이터: 데이터 편향 유형 – 시간적 편향

ㅁ 데이터 편향 유형 1. 시간적 편향 ㅇ 정의: 데이터가 수집된 시점의 특성이나 상황이 반영되어, 시간이 지나면서 해당 데이터가 현재 상황을 대표하지 못하는 현상. ㅇ 특징: – 데이터가 특정 기간에 집중되어 있음. – 계절성, 트렌드 변화, 사회적 사건 등 외부 요인에 영향을 받음. – 예측 모델이 과거 패턴에 과도하게 맞춰져 현재나 미래 데이터 예측력이 떨어짐.

데이터: 데이터 편향 유형 – 생존자 편향

ㅁ 데이터 편향 유형 1. 생존자 편향 ㅇ 정의: 분석 대상에서 성공 사례 또는 생존한 사례만을 고려하고 실패하거나 탈락한 사례를 배제함으로써 잘못된 결론을 도출하는 오류. ㅇ 특징: – 데이터 수집 과정에서 실패 사례가 누락됨. – 성공 사례의 공통점을 과대평가하는 경향. – 역사적 사례나 비즈니스 분석에서 자주 발생. ㅇ 적합한 경우: – 실제로는 적합하지 않으며, 반드시

데이터: 데이터 편향 유형 – 확인 편향

ㅁ 데이터 편향 유형 ㅇ 정의: 특정 가설이나 기대에 부합하는 데이터나 해석만 선택하고, 반대되는 증거는 무시하는 경향에서 발생하는 편향. ㅇ 특징: – 데이터 수집 단계에서 자신이 원하는 결론을 뒷받침하는 사례만 선택하는 경우가 많음. – 분석 과정에서 기존 신념을 강화하는 방향으로 통계나 시각화를 해석. – 알고리즘 학습 시 특정 범주의 데이터가 과도하게 반영되어 예측 결과가 왜곡됨.

데이터: 데이터 편향 유형 – 선택 편향

ㅁ 데이터 편향 유형 1. 선택 편향 ㅇ 정의: 표본을 선택하는 과정에서 모집단을 대표하지 못하는 데이터가 수집되어 분석 결과가 왜곡되는 현상. ㅇ 특징: – 표본이 특정 집단이나 특성을 과도하게 포함하거나 배제함. – 데이터 수집 단계에서 발생하며 이후 분석 전 단계에서 이미 내재됨. – 설문조사, 온라인 리뷰, 자발적 참여 데이터에서 빈번히 발생. ㅇ 적합한 경우: –

트랜드: 최신 연구 주제 – Explainable AI (XAI)

ㅁ 최신 연구 주제 1. Explainable AI (XAI) ㅇ 정의: 인공지능 모델이 내린 예측이나 결정의 이유를 사람에게 이해할 수 있는 형태로 설명하는 기술 및 방법론. ㅇ 특징: – 복잡한 딥러닝 모델의 ‘블랙박스’ 문제를 해결하기 위해 개발됨. – 규칙 기반 설명, 시각화, 중요 변수 강조 등 다양한 방식 존재. – 법적·윤리적 요구사항(예: GDPR의 설명권) 대응 가능.

트랜드: 최신 연구 주제 – Model Compression

ㅁ 최신 연구 주제 ㅇ 정의: 대규모 딥러닝 모델의 파라미터 수와 연산량을 줄여 모델 크기를 축소하고, 메모리 사용량과 추론 속도를 개선하는 기술. ㅇ 특징: – 파라미터 프루닝, 양자화, 지식 증류 등 다양한 기법 포함 – 성능 저하를 최소화하면서 경량화 가능 – 모바일, 엣지 디바이스 배포에 유리 ㅇ 적합한 경우: – 자원 제약이 있는 환경에서 모델을

트랜드: 최신 연구 주제 – Large Scale Pretraining

ㅁ 최신 연구 주제 1. Large Scale Pretraining ㅇ 정의: 대규모 데이터셋과 연산 자원을 활용하여 사전 학습(pretraining)을 수행하는 기계학습 방법으로, 주로 언어모델(LLM)이나 비전 모델에서 사용됨. ㅇ 특징: – 수십억~수조 개의 파라미터를 가진 모델을 대규모 코퍼스에서 사전 학습. – 전이학습(transfer learning) 기반으로 다양한 다운스트림 작업에 적용 가능. – 학습에 막대한 GPU/TPU 자원과 시간 필요. – 데이터