데이터: 결측치 및 이상치
ㅁ 결측치 및 이상치
1. Inter-annotator agreement
ㅇ 정의:
여러 명의 주석자(annotator)가 동일한 데이터에 대해 레이블을 부여했을 때, 서로 일치하는 정도를 측정하는 지표.
ㅇ 특징:
– Cohen’s Kappa, Fleiss’ Kappa, Krippendorff’s Alpha 등이 대표적
– 단순 정확도 대비 우연 일치 가능성을 보정
– 0~1 범위로 나타나며, 1에 가까울수록 합의도가 높음
ㅇ 적합한 경우:
– 텍스트, 이미지, 음성 등 주관적 판단이 개입되는 레이블링 품질 검증
ㅇ 시험 함정:
– 단순 일치율과 합의도 지표를 혼동
– Cohen’s Kappa는 2명 주석자, Fleiss’ Kappa는 3명 이상에 적용
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Cohen’s Kappa는 우연 일치를 보정한 2인 주석자 합의도 측정 지표이다.”
X: “Fleiss’ Kappa는 2명 주석자 전용이다.”
2. thresh 파라미터
ㅇ 정의:
Pandas의 dropna 등에서 결측치 허용 기준을 설정하는 매개변수로, 지정한 개수 이상의 비결측값이 존재해야 행/열을 유지함.
ㅇ 특징:
– 행 또는 열 단위로 적용 가능
– NaN 개수가 아닌 비결측값 개수를 기준으로 판단
ㅇ 적합한 경우:
– 결측치가 많은 데이터셋에서 일정 수준 이상 정보가 있는 행/열만 유지하고자 할 때
ㅇ 시험 함정:
– thresh 값이 결측치 개수 기준이라고 오해
– axis 파라미터와 혼동
ㅇ 시험 대비 “패턴 보기” 예시:
O: “thresh=3은 비결측값이 3개 이상이면 행을 유지한다.”
X: “thresh=3은 결측치가 3개 이하이면 행을 유지한다.”
3. fillna
ㅇ 정의:
Pandas에서 결측값(NaN)을 지정한 값이나 메서드로 대체하는 함수.
ㅇ 특징:
– value, method(forward fill, backward fill) 옵션 제공
– inplace=True로 원본 변경 가능
ㅇ 적합한 경우:
– 결측치를 평균, 중앙값, 최빈값 등으로 대체
– 시계열 데이터에서 이전/다음 값으로 보간
ㅇ 시험 함정:
– method와 value를 동시에 지정할 수 없음
– inplace=False 시 반환값을 재할당하지 않으면 원본이 변하지 않음
ㅇ 시험 대비 “패턴 보기” 예시:
O: “fillna(method=’ffill’)은 결측값을 이전 값으로 채운다.”
X: “fillna는 결측값을 자동으로 평균으로 채운다.”
4. Node Feature Masking
ㅇ 정의:
그래프 신경망(GNN)에서 학습 시 일부 노드의 특성(feature)을 마스킹하여 모델의 일반화 성능을 높이는 데이터 증강 기법.
ㅇ 특징:
– 랜덤하게 노드 특성 차원을 0으로 설정
– Dropout과 유사하지만 노드 피처 차원에 적용
ㅇ 적합한 경우:
– 노드 특성이 과적합되는 것을 방지하고 강건성 향상
ㅇ 시험 함정:
– Edge Dropout, Subgraph Sampling과 혼동
– 학습 시에만 적용하며 추론 시에는 적용하지 않음
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Node Feature Masking은 노드 속성 일부를 무작위로 제거하여 학습한다.”
X: “Node Feature Masking은 노드를 그래프에서 제거한다.”
5. Subgraph Sampling
ㅇ 정의:
대규모 그래프 학습 시 전체 그래프 대신 일부 서브그래프를 샘플링하여 학습하는 기법.
ㅇ 특징:
– Neighbor Sampling, Random Walk Sampling 등 다양한 방식 존재
– 메모리 효율성과 학습 속도 향상
ㅇ 적합한 경우:
– 수백만 노드 이상의 대규모 그래프 처리
ㅇ 시험 함정:
– Subgraph Sampling을 단순히 노드 feature masking과 동일하게 이해
– 샘플링 전략에 따라 성능이 달라짐을 간과
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Subgraph Sampling은 대규모 그래프에서 일부 이웃 노드만 선택해 학습한다.”
X: “Subgraph Sampling은 모든 노드를 항상 포함한다.”
ㅁ 추가 학습 내용
Inter-annotator agreement에서는 지표별 계산식과 Landis & Koch의 Kappa 해석 범위를 학습해야 한다.
thresh 파라미터와 fillna는 Pandas뿐 아니라 PySpark DataFrame의 결측치 처리 방식과 비교하여 학습하면 시험 응용 문제에 대비할 수 있다.
Node Feature Masking과 Subgraph Sampling은 GNN 데이터 증강 기법 중 Edge Dropout, Feature Dropout, Graph Diffusion 등과 비교하여 차이점을 정리해야 한다.
Subgraph Sampling에서는 GraphSAGE, PinSAGE, Cluster-GCN 등 대표 알고리즘과 각 샘플링 전략을 숙지하여 심화 문제에 대비해야 한다.