데이터: 결측치 및 이상치 – Subgraph Sampling

ㅁ 결측치 및 이상치

ㅇ 정의:
그래프 데이터에서 전체 그래프가 너무 크거나 복잡할 때, 분석 또는 학습 효율성을 높이기 위해 원본 그래프의 일부 노드와 엣지를 추출하여 부분 그래프(subgraph)를 구성하는 기법.

ㅇ 특징:
– 대규모 그래프 처리 시 메모리와 연산량 절감.
– 무작위(Random), 계층적(Hierarchical), 중요도 기반(Importance-based) 등 다양한 샘플링 전략 존재.
– 샘플링 방식에 따라 원본 그래프의 구조적 특성이 왜곡될 수 있음.
– GNN(Graph Neural Network) 학습 시 미니배치 구성에 활용.

ㅇ 적합한 경우:
– 소셜 네트워크, 지식 그래프 등 노드·엣지 수가 매우 큰 경우.
– 제한된 자원에서 그래프 임베딩 또는 예측 모델 학습이 필요한 경우.
– 그래프의 특정 지역적 패턴이나 커뮤니티 구조를 분석하려는 경우.

ㅇ 시험 함정:
– ‘Subgraph Sampling은 항상 원본 그래프의 모든 특성을 보존한다’ → X (샘플링 방식에 따라 정보 손실 발생 가능)
– ‘Subgraph Sampling은 그래프의 크기를 줄이기 위해 사용하는 전처리 기법이다’ → O
– ‘Importance-based Sampling은 노드 중요도를 고려하지 않는다’ → X

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Subgraph Sampling은 대규모 그래프 학습 시 메모리 사용량을 줄이는 데 유용하다.”
– X: “Subgraph Sampling은 항상 원본 그래프의 전 구조를 정확히 유지한다.”

ㅁ 추가 학습 내용

Subgraph Sampling의 대표적인 방법에는 다음이 있다.
1. Node Sampling: 무작위로 노드를 선택하고 해당 노드와 연결된 엣지를 포함하는 방식
2. Edge Sampling: 무작위로 엣지를 선택하고 해당 엣지와 연결된 노드를 포함하는 방식
3. Random Walk Sampling: 랜덤 워크를 통해 연결된 노드를 순차적으로 탐색하는 방식

각 방법은 보존되는 그래프 구조 정보와 왜곡 정도가 다르다. 시험에서는 샘플링 방법과 그 장단점을 매칭하는 문제가 자주 출제된다.

GNN 학습에서는 Neighbor Sampling 기법이 Subgraph Sampling의 한 형태로 사용되며, 각 노드의 일부 이웃만 선택하여 연산량을 줄인다.

시험에서는 Subgraph Sampling이 데이터 정제 과정에서 수행될 수 있는 이유와 샘플링 후 발생할 수 있는 대표적인 문제점(예: 연결성 감소, 정보 손실)을 묻는 경우가 많다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*