데이터 전처리: 그래프 데이터 증강 – 그래프 마스킹
ㅁ 그래프 데이터 증강
ㅇ 정의:
그래프 데이터 증강은 기존 그래프 데이터를 변형하여 학습에 사용할 수 있는 새로운 그래프 샘플을 생성하는 기법으로, 데이터 부족 문제를 완화하고 모델의 일반화 성능을 향상시키는 데 사용됨.
ㅇ 특징:
– 노드, 엣지, 속성 등을 변형하여 데이터 다양성을 확보
– 원래 그래프의 구조적/의미적 특성을 크게 훼손하지 않음
– 지도, 비지도, 자가지도 학습 모두에 활용 가능
ㅇ 적합한 경우:
– 그래프 데이터셋이 작아 과적합 위험이 높은 경우
– 다양한 그래프 변형을 통해 모델의 견고성을 높이고자 할 때
ㅇ 시험 함정:
– 이미지나 텍스트 증강과 동일하게 생각하면 오답
– 그래프 구조적 특성을 보존하는 것이 핵심임을 간과하기 쉬움
ㅇ 시험 대비 “패턴 보기” 예시:
O: “그래프 데이터 증강은 노드/엣지 변형을 통해 데이터 다양성을 높인다.”
X: “그래프 데이터 증강은 반드시 노드 개수를 늘려야 한다.”
================================
1. 그래프 마스킹
ㅇ 정의:
그래프 마스킹(Graph Masking)은 그래프의 일부 노드, 엣지, 혹은 속성(feature)을 의도적으로 가려서(마스킹) 학습 시 모델이 숨겨진 정보를 예측하도록 하는 증강 기법.
ㅇ 특징:
– 노드 마스킹: 특정 노드의 속성을 가림
– 엣지 마스킹: 특정 엣지를 제거 또는 비활성화
– 속성 마스킹: 노드/엣지의 피처 값을 가림
– 자가지도 학습에서 마스킹된 부분을 복원하는 pretext task로 자주 사용됨
ㅇ 적합한 경우:
– 노드 속성 예측, 링크 예측, 그래프 분류 등에서 데이터 다양성 확보가 필요한 경우
– 모델이 특정 부분 정보에 과도하게 의존하는 것을 방지하고자 할 때
ㅇ 시험 함정:
– 마스킹이 항상 랜덤하게만 이루어진다고 생각하면 오답
– 마스킹 비율이 너무 높으면 정보 손실로 성능 저하 가능
ㅇ 시험 대비 “패턴 보기” 예시:
O: “그래프 마스킹은 일부 노드/엣지/속성을 가려 모델의 예측 능력을 향상시킨다.”
X: “그래프 마스킹은 원본 그래프의 모든 정보를 제거한다.”
ㅁ 추가 학습 내용
그래프 마스킹과 유사하지만 다른 기법으로는 그래프 드롭아웃(Graph Dropout), 서브그래프 샘플링(Subgraph Sampling), 구조적 변환(Structural Transformation)이 있다. 시험에서는 그래프 마스킹을 이미지 마스킹과 혼동하도록 하는 함정이 자주 나오므로, 마스킹의 대상(노드, 엣지, 속성)과 목적(모델의 일반화 향상, 자가지도 학습)을 명확히 구분해야 한다. 또한 마스킹 비율, 선택 방식(랜덤 또는 전략적), 마스킹 후 복원 과정이 성능에 미치는 영향을 이해하는 것이 중요하다. GNN 학습에서 마스킹은 주로 contrastive learning, feature completion, link prediction의 사전 학습 과제로 활용되므로, 이러한 활용 방식과의 연계성을 숙지해야 한다.