데이터: 결측치 및 이상치 – Node Feature Masking
ㅁ 결측치 및 이상치
ㅇ 정의:
데이터셋에서 그래프 형태의 데이터(노드 기반)에서 특정 노드의 속성(feature) 값을 의도적으로 가리거나 제거하여 모델의 일반화 성능과 결측 상황 대응 능력을 향상시키는 기법.
ㅇ 특징:
– 주로 그래프 신경망(GNN) 학습 시 데이터 증강(Data Augmentation) 기법으로 사용됨.
– 일부 노드의 feature를 마스킹하여 모델이 구조 정보나 다른 노드의 feature를 활용하도록 유도.
– 마스킹 비율, 선택 방식(무작위/규칙 기반)에 따라 성능이 달라짐.
ㅇ 적합한 경우:
– 그래프 데이터에서 일부 노드 속성이 결측될 가능성이 높은 경우.
– 노드 feature에 과적합(overfitting) 우려가 있을 때 일반화 성능 향상을 위해.
– 데이터 증강을 통한 모델의 강건성(robustness) 확보가 필요한 경우.
ㅇ 시험 함정:
– Node Feature Masking은 결측치 대체(imputation) 기법이 아니라는 점.
– 모든 feature를 제거하는 것이 아니라 일부 feature만 마스킹.
– 그래프 구조 자체를 변형하는 것이 아니라 노드 속성 값만 가린다는 점.
ㅇ 시험 대비 “패턴 보기” 예시:
– (O) Node Feature Masking은 GNN의 일반화 성능 향상을 위해 일부 노드 속성을 가린다.
– (X) Node Feature Masking은 결측치를 평균값으로 대체하는 전처리 기법이다.
– (X) Node Feature Masking은 그래프의 엣지 구조를 변경하는 기법이다.
ㅁ 추가 학습 내용
Node Feature Masking은 그래프 데이터 증강 기법의 하나로, Edge Dropout, Subgraph Sampling 등과 자주 비교된다. 마스킹 비율을 조절하면 모델의 학습 난이도와 일반화 성능에 영향을 미친다. 무작위(Random) 마스킹은 노드 특성을 임의로 가리며, 중요도 기반(Importance-based) 마스킹은 모델 학습에 중요한 특성을 우선적으로 가린다. 마스킹 후에는 Self-Supervised Learning과 결합하여, 예를 들어 마스킹된 feature를 복원하는 방식으로 학습하는 경우가 많다. GNN에서 Node Feature Masking은 결측치 처리보다는 구조적 표현 학습을 강화하는 목적이 크다는 점이 중요한 출제 포인트다.