데이터: 결측치 및 이상치 – Node Feature Masking

ㅁ 결측치 및 이상치 ㅇ 정의: 데이터셋에서 그래프 형태의 데이터(노드 기반)에서 특정 노드의 속성(feature) 값을 의도적으로 가리거나 제거하여 모델의 일반화 성능과 결측 상황 대응 능력을 향상시키는 기법. ㅇ 특징: – 주로 그래프 신경망(GNN) 학습 시 데이터 증강(Data Augmentation) 기법으로 사용됨. – 일부 노드의 feature를 마스킹하여 모델이 구조 정보나 다른 노드의 feature를 활용하도록 유도. – 마스킹

데이터: 결측치 및 이상치 – fillna

ㅁ 결측치 및 이상치 1. fillna ㅇ 정의: 데이터셋 내 결측치(NaN, None 등)를 지정한 값이나 다른 데이터로 대체하는 Pandas 메서드. ㅇ 특징: – 특정 값, 평균/중앙값/최빈값 등 통계값, 이전/다음 값으로 결측치를 채울 수 있음. – inplace=True 옵션으로 원본 데이터에 바로 적용 가능. – method=’ffill'(앞 값으로 채움), method=’bfill'(뒤 값으로 채움) 지원. ㅇ 적합한 경우: – 결측치가

데이터: 결측치 및 이상치 – thresh 파라미터

ㅁ 결측치 및 이상치 ㅇ 정의: 데이터프레임에서 결측치가 포함된 행 또는 열을 제거할 때, 최소한으로 남아야 하는 비결측값의 개수를 지정하는 파라미터. pandas의 dropna() 메서드에서 사용됨. ㅇ 특징: – dropna(thresh=n) 형태로 사용하며, 비결측값이 n개 미만인 행/열을 제거함. – axis 파라미터와 함께 사용하여 행 기준(axis=0) 또는 열 기준(axis=1)으로 적용 가능. – 특정 열만 대상으로 하려면 subset 파라미터와

데이터: 결측치 및 이상치 – Inter-annotator agreement

ㅁ 결측치 및 이상치 ㅇ 정의: 여러 명의 주석자(annotator)가 동일한 데이터에 대해 라벨링 작업을 수행했을 때, 그 결과의 일관성을 수치로 나타낸 것. 주로 데이터 라벨링 품질 관리 및 신뢰성 검증에 사용됨. ㅇ 특징: – Cohen’s Kappa, Fleiss’ Kappa, Krippendorff’s Alpha 등의 지표 사용 – 1에 가까울수록 높은 합의, 0에 가까울수록 우연 수준의 일치 – 주관적

데이터: 해결 기법 – Class Weighting

ㅁ 해결 기법 ㅇ 정의: – 분류 모델 학습 시 소수 클래스의 중요도를 높이기 위해 클래스별 가중치를 다르게 부여하는 방법. – 손실 함수 계산 시 클래스별 가중치를 곱해 학습 과정에서 소수 클래스의 오분류에 더 큰 패널티를 주는 방식. ㅇ 특징: – 데이터 자체를 변경하지 않고 모델 학습 과정에서 불균형을 보정. – 가중치 설정은 클래스 빈도

데이터: 해결 기법 – Random Undersampling

ㅁ 해결 기법 1. Random Undersampling ㅇ 정의: 다수 클래스의 데이터 샘플을 무작위로 제거하여 클래스 간 데이터 수를 균형 맞추는 기법. ㅇ 특징: – 구현이 간단하고 빠름. – 데이터 양이 줄어들어 학습 속도가 빨라짐. – 정보 손실이 발생할 수 있음. – 불균형 비율이 큰 경우 성능 저하 가능. ㅇ 적합한 경우: – 데이터가 매우 많아

데이터: 해결 기법 – Random Oversampling

ㅁ 해결 기법 1. Random Oversampling ㅇ 정의: 소수 클래스(minority class)의 데이터를 무작위로 복제하여 클래스 간 데이터 비율을 맞추는 기법. ㅇ 특징: – 간단하고 빠르게 구현 가능 – 데이터 손실 없이 클래스 균형 조정 가능 – 동일한 데이터 복제로 인해 과적합(overfitting) 위험 증가 ㅇ 적합한 경우: – 데이터 양이 적고, 소수 클래스의 정보 손실을 최소화해야

데이터: 해결 기법 – Threshold Tuning

ㅁ 해결 기법 1. Threshold Tuning ㅇ 정의: 분류 모델에서 기본적으로 0.5로 설정된 결정 임계값(threshold)을 조정하여, 예측 클래스 비율을 변경하고 성능 지표(F1-score, Recall 등)를 최적화하는 기법. ㅇ 특징: – 모델의 학습 과정은 변경하지 않고, 예측 확률을 기반으로 최종 분류 기준만 변경. – 클래스 불균형 상황에서 소수 클래스의 Recall을 높이는데 효과적. – ROC Curve, Precision-Recall Curve를

데이터: 샘플링 기법 – 온라인 설문조사 샘플링

ㅁ 샘플링 기법 1. 온라인 설문조사 샘플링 ㅇ 정의: 인터넷을 통해 설문지를 배포하고 응답을 수집하는 방식의 샘플링 기법으로, 이메일, SNS, 웹사이트 배너, 모바일 앱 등을 활용하여 응답자를 모집한다. ㅇ 특징: – 시간과 비용이 적게 들며, 빠른 데이터 수집 가능 – 지리적 제약이 없고 다양한 지역의 응답자 확보 가능 – 표본이 자발적으로 참여하는 특성상 모집단 대표성이

데이터: 샘플링 기법 – 계층적 샘플링

ㅁ 샘플링 기법 ㅇ 정의: 모집단을 동질적인 하위 집단(계층)으로 나눈 후, 각 계층에서 표본을 추출하는 방법으로, 모집단 내 중요한 특성이 계층별로 다를 때 대표성을 높이기 위해 사용. ㅇ 특징: – 각 계층은 내부적으로 동질, 계층 간에는 이질적임. – 비례할당(각 계층의 크기에 비례하여 표본 추출)과 동일할당(각 계층에서 동일 수 추출) 방식이 있음. – 표본의 대표성을 높이고