데이터 전처리: 그래프 데이터 증강
ㅁ 그래프 데이터 증강
ㅇ 정의:
그래프 데이터의 구조나 속성을 변형하여 학습 데이터의 다양성을 높이고 모델의 일반화 성능을 향상시키는 기법.
ㅇ 특징:
– 노드, 엣지, 속성 등을 다양한 방식으로 변형 가능
– 원본 그래프의 중요한 구조적 특징을 유지하면서도 변형을 가함
– 지도학습, 자가지도학습 모두에서 활용 가능
ㅇ 적합한 경우:
– 그래프 데이터가 적어 과적합 위험이 높은 경우
– 다양한 구조 변형을 통한 모델의 견고성 향상이 필요한 경우
ㅇ 시험 함정:
– 원본 그래프의 핵심 구조를 훼손하는 변형은 오히려 성능을 저하시킬 수 있음
– 데이터 증강과 데이터 생성(Generative) 기법을 혼동하는 경우
ㅇ 시험 대비 “패턴 보기” 예시:
O: “그래프 데이터 증강은 원본 구조를 유지하며 다양성을 높인다.”
X: “그래프 데이터 증강은 항상 노드 수를 증가시킨다.”
================================
1. 노드 샘플링
ㅇ 정의:
원본 그래프에서 일부 노드를 무작위 또는 특정 기준에 따라 선택하여 서브그래프를 생성하는 기법.
ㅇ 특징:
– 무작위 샘플링, 중요도 기반 샘플링 등 다양한 방식 존재
– 계산량 감소 및 데이터 다양성 확보 가능
ㅇ 적합한 경우:
– 대규모 그래프에서 연산 효율성을 높이고자 할 때
– 특정 노드 집합의 특성을 집중 학습하고자 할 때
ㅇ 시험 함정:
– 무작위 샘플링 시 중요한 허브 노드가 제거될 수 있음
– 샘플링 비율이 지나치게 낮으면 구조 정보 손실이 큼
ㅇ 시험 대비 “패턴 보기” 예시:
O: “노드 샘플링은 대규모 그래프 처리 시 효율성을 높인다.”
X: “노드 샘플링은 항상 그래프의 연결성을 유지한다.”
================================
2. 엣지 삭제
ㅇ 정의:
그래프에서 일부 엣지를 제거하여 구조를 변형하는 기법.
ㅇ 특징:
– 무작위 삭제, 중요도 기반 삭제 가능
– 연결성 감소로 인해 경로 길이, 중심성 등의 지표 변화 발생
ㅇ 적합한 경우:
– 모델이 특정 연결에 과도하게 의존하는 것을 방지하려는 경우
– 그래프의 견고성을 평가하고자 하는 경우
ㅇ 시험 함정:
– 핵심 연결 삭제 시 그래프가 분리될 수 있음
– 엣지 가중치 정보가 있는 경우 단순 삭제는 의미 손실 가능
ㅇ 시험 대비 “패턴 보기” 예시:
O: “엣지 삭제는 모델의 과적합을 방지하는 데 활용될 수 있다.”
X: “엣지 삭제 후에도 항상 원래의 평균 경로 길이가 유지된다.”
================================
3. 랜덤 워크 샘플링
ㅇ 정의:
그래프 상에서 임의의 노드에서 시작하여 무작위로 인접 노드를 따라 이동하며 서브그래프를 구성하는 기법.
ㅇ 특징:
– 지역적 구조와 전역적 구조를 모두 반영 가능
– 이동 횟수와 재방문 허용 여부에 따라 다양하게 변형 가능
ㅇ 적합한 경우:
– 그래프 임베딩 학습 시 지역 패턴과 전역 패턴을 동시에 반영하고자 할 때
– 노드 간 관계를 순차적으로 탐색하고자 할 때
ㅇ 시험 함정:
– 짧은 워크 길이는 전역 구조 반영이 어려움
– 무작위성이 높아 재현성이 낮을 수 있음
ㅇ 시험 대비 “패턴 보기” 예시:
O: “랜덤 워크 샘플링은 지역적, 전역적 구조를 모두 반영할 수 있다.”
X: “랜덤 워크 샘플링은 항상 모든 노드를 동일 확률로 방문한다.”
================================
4. 그래프 마스킹
ㅇ 정의:
그래프의 일부 노드, 엣지 또는 속성 정보를 가려서 모델이 결손 데이터를 복원하거나 추론하도록 하는 기법.
ㅇ 특징:
– 자가지도학습에서 많이 활용됨
– 구조 마스킹, 속성 마스킹 등 다양한 형태 존재
ㅇ 적합한 경우:
– 결손 데이터 복원 능력을 강화하고자 할 때
– 노드/엣지 속성 예측 성능을 높이고자 할 때
ㅇ 시험 함정:
– 마스킹 비율이 너무 높으면 학습 불안정
– 마스킹 위치가 편향되면 일반화 성능 저하
ㅇ 시험 대비 “패턴 보기” 예시:
O: “그래프 마스킹은 자가지도학습에서 결손 데이터 복원에 활용된다.”
X: “그래프 마스킹은 항상 구조 정보를 보존한다.”
ㅁ 추가 학습 내용
그래프 데이터 증강 기법별 학습 정리
1. 주요 기법과 특징
– 노드 샘플링: 노드를 단위로 그래프를 축소·변형. 구조 보존 정도가 낮을 수 있음.
– 랜덤 워크 샘플링: 경로 단위로 샘플링하여 지역적 구조 보존에 유리.
– 엣지 삭제: 연결 관계를 제거하여 네트워크 견고성 분석에 활용 가능.
– 그래프 마스킹: 노드나 엣지 정보를 가려 예측하도록 하는 방식. GNN 기반 자가지도학습에서 BERT와 유사한 마스킹 예측 구조로 자주 사용.
2. 장단점
– 노드 샘플링: 간단하고 빠르지만 전체 구조 왜곡 가능성 있음.
– 랜덤 워크 샘플링: 지역 구조 유지 가능하지만 전역 구조 반영은 제한적.
– 엣지 삭제: 네트워크 취약성 분석에 유리하나 정보 손실 위험 존재.
– 그래프 마스킹: 학습 다양성 확보 가능하지만 과도한 마스킹 시 학습 저하 가능.
3. 적용 시 주의사항
– 증강 목적과 데이터 특성에 맞는 기법 선택.
– 구조 정보 손실 최소화.
– 증강 강도 조절 필요.
– 성능 평가 시 분류 지표(Precision, Recall, F1-score)와 함께 구조적 지표(그래프 중심성, 클러스터링 계수 변화)도 고려.
4. 실제 적용 분야
– 네트워크 견고성 분석(엣지 삭제)
– 자가지도학습(GNN + 마스킹)
– 대규모 그래프 샘플링(노드 샘플링, 랜덤 워크)
5. 시험 대비 포인트
– 기법별 차이점과 구조 보존 정도 비교 가능해야 함.
– 절대적 표현 함정 주의: “그래프 데이터 증강은 항상 성능을 높인다”는 조건부 상황에 따라 틀릴 수 있음.