데이터 전처리: 그래프 데이터 증강 – 랜덤 워크 샘플링
ㅁ 그래프 데이터 증강
ㅇ 정의:
그래프 구조에서 일부 노드와 엣지를 무작위로 탐색하여 서브그래프를 추출하는 방식의 데이터 증강 기법. 주로 랜덤 워크(Random Walk) 알고리즘을 사용하여 그래프의 지역적 구조를 보존하면서 새로운 학습 샘플을 생성한다.
ㅇ 특징:
– 시작 노드에서 무작위로 인접 노드로 이동하며 일정 길이의 경로를 생성.
– 그래프의 전역 구조보다 국소 구조를 잘 반영.
– 하이퍼파라미터(워크 길이, 샘플 수)에 따라 증강 데이터의 다양성이 달라짐.
– 노드 속성(feature)과 연결 관계를 함께 보존 가능.
ㅇ 적합한 경우:
– 대규모 그래프에서 전체 데이터를 사용하기 어려운 경우.
– 노드 분류, 링크 예측 등에서 데이터 다양성을 높이고자 할 때.
– 그래프의 지역 패턴 학습이 중요한 경우.
ㅇ 시험 함정:
– 랜덤 워크 샘플링은 항상 대표성을 보장하지 않음 → 전역 구조 보존과 혼동 주의.
– 무작위성이 높아 재현성이 떨어질 수 있음.
– ‘랜덤 워크’를 단순 임의 노드 선택과 동일시하는 오류.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “랜덤 워크 샘플링은 그래프의 지역 구조를 보존하며 서브그래프를 생성한다.”
X: “랜덤 워크 샘플링은 그래프의 전역 구조를 항상 보존한다.”
ㅁ 추가 학습 내용
랜덤 워크 샘플링의 대표적인 알고리즘에는 DeepWalk와 Node2Vec이 있다.
Node2Vec은 랜덤 워크 경로의 특성을 조절하기 위해 p와 q라는 두 개의 파라미터를 사용하며, 이를 통해 BFS(너비 우선 탐색)와 DFS(깊이 우선 탐색) 성향을 조절할 수 있다.
시험에서는 랜덤 워크 기반 임베딩 기법과 데이터 증강 기법을 혼동하는 문제가 나올 수 있으므로, 두 개념의 차이를 명확히 구분해야 한다.
임베딩 목적은 그래프의 구조적 특징을 벡터 형태로 표현하여 분석·예측 모델에 활용하기 위함이고,
데이터 증강 목적은 학습 데이터의 다양성을 인위적으로 늘려 모델의 일반화 성능을 높이기 위함이다.
또한, 랜덤 워크 샘플링은 그래프 데이터에서 발생하는 불균형 문제나 희소성 문제를 완화하는 데 기여할 수 있다.
이는 랜덤 워크가 다양한 노드와 경로를 탐색함으로써 데이터의 대표성을 높이고, 드물게 등장하는 노드나 연결 관계를 학습에 반영할 수 있게 해주기 때문이다.