데이터 전처리: 그래프 데이터 증강

ㅁ 그래프 데이터 증강

ㅇ 정의:
그래프 데이터에서 노드, 엣지, 속성 등을 변형하거나 일부를 제거/추가하여 데이터 다양성을 높이고 모델의 일반화 성능을 향상시키는 기법.

ㅇ 특징:
구조적 데이터 특성을 유지하면서도 다양한 변형을 적용해 과적합을 방지하고 학습 데이터의 편향을 줄임.

ㅇ 적합한 경우:
학습 데이터가 적거나 네트워크 구조가 복잡하여 일반화 성능 확보가 필요한 경우.

ㅇ 시험 함정:
이미지나 텍스트 증강 기법과 혼동하여 그래프 구조 보존 여부를 간과하는 경우.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “그래프 데이터 증강은 노드나 엣지를 변형하여 데이터 다양성을 확보한다.”
X: “그래프 데이터 증강은 원본 그래프를 완전히 무작위 그래프로 대체한다.”

================================

1. 노드 샘플링

ㅇ 정의:
원본 그래프에서 일부 노드를 무작위 또는 규칙 기반으로 선택하여 부분 그래프를 생성하는 기법.

ㅇ 특징:
계산량 감소, 지역 구조 학습 가능, 특정 노드 중심의 분석 가능.

ㅇ 적합한 경우:
대규모 그래프에서 연산 효율성을 높이거나 특정 영역 집중 학습이 필요할 때.

ㅇ 시험 함정:
노드 샘플링이 항상 전체 그래프의 연결성을 보장한다고 오해하는 경우.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “노드 샘플링은 일부 노드와 관련 엣지만을 선택해 부분 그래프를 만든다.”
X: “노드 샘플링은 모든 노드를 반드시 포함한다.”

================================

2. 엣지 삭제

ㅇ 정의:
그래프에서 일부 엣지를 제거하여 구조를 변형하는 기법.

ㅇ 특징:
연결성 변화, 경로 길이 변화, 관계 희석 효과.

ㅇ 적합한 경우:
관계 노이즈를 줄이거나 모델의 구조적 강건성을 평가할 때.

ㅇ 시험 함정:
엣지 삭제가 항상 성능을 향상시킨다고 단정하는 경우.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “엣지 삭제는 일부 관계를 제거하여 모델이 다양한 구조에 적응하도록 한다.”
X: “엣지 삭제는 그래프의 모든 경로를 단절시킨다.”

================================

3. 랜덤 워크 샘플링

ㅇ 정의:
임의의 노드에서 시작해 확률적으로 인접 노드로 이동하며 일정 길이의 경로를 추출하는 기법.

ㅇ 특징:
지역 및 전역 구조 반영 가능, 확률적 경로 생성, 그래프 임베딩에 자주 활용.

ㅇ 적합한 경우:
그래프 임베딩 학습, 연결 패턴 분석, 대규모 그래프에서 효율적 샘플링 필요 시.

ㅇ 시험 함정:
랜덤 워크가 항상 동일한 경로를 생성한다고 착각하는 경우.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “랜덤 워크 샘플링은 확률적으로 다음 노드를 선택해 경로를 만든다.”
X: “랜덤 워크 샘플링은 무조건 모든 노드를 한 번씩 방문한다.”

================================

4. 그래프 마스킹

ㅇ 정의:
노드 속성, 엣지 속성, 또는 구조 일부를 가려서 모델이 숨겨진 정보를 추론하도록 하는 기법.

ㅇ 특징:
속성 예측 능력 향상, 정보 은닉을 통한 일반화 성능 강화.

ㅇ 적합한 경우:
속성 예측 태스크, 자기지도 학습, 노드 분류 성능 향상.

ㅇ 시험 함정:
그래프 마스킹이 구조 자체를 완전히 제거하는 것과 동일하다고 오해하는 경우.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “그래프 마스킹은 일부 속성이나 구조를 숨겨 모델이 이를 예측하게 한다.”
X: “그래프 마스킹은 그래프를 빈 그래프로 만든다.”

ㅁ 추가 학습 내용

그래프 데이터 증강 학습 정리

1. 그래프 전역 속성 영향 고려
– 평균 클러스터링 계수, 평균 경로 길이 등 전역 속성이 증강 기법에 의해 어떻게 변하는지 분석 필요
– 전역 속성 변화가 모델 성능에 미치는 영향 파악

2. 데이터 분포 변화 분석
– 증강 후 데이터 분포가 원본과 어떻게 달라지는지 확인
– 분포 변화가 학습 과정과 결과에 미치는 영향 평가

3. 노드 샘플링 전략
– Uniform Sampling: 모든 노드를 동일 확률로 선택
– Degree-based Sampling: 노드 차수에 비례하여 선택
– Snowball Sampling: 특정 노드에서 시작해 이웃을 확장하며 선택
– 랜덤 워크 샘플링: 워크 길이, 재시작 확률 등의 하이퍼파라미터가 성능에 큰 영향

4. 그래프 마스킹
– 속성 마스킹: 노드나 엣지의 속성 값을 가림
– 구조 마스킹: 일부 엣지나 노드를 제거하여 구조 변경
– GNN 자기지도 학습(예: Graph-BERT, GraphMAE)에서 핵심 기법

5. 학습 패러다임과 증강 기법의 연관성
– 지도 학습: 레이블이 있는 데이터에서 성능 향상 목적
– 비지도 학습: 구조적 패턴 학습 강화
– 자기지도 학습: 마스킹, 예측 등 프리텍스트 태스크 활용

시험 대비 체크리스트

– 각 증강 기법이 그래프 전역 속성에 미치는 영향을 설명할 수 있는가?
– 증강 후 데이터 분포 변화와 그 영향에 대해 설명할 수 있는가?
– 노드 샘플링 전략별 특징과 차이를 구분할 수 있는가?
– 랜덤 워크 샘플링의 주요 하이퍼파라미터와 역할을 알고 있는가?
– 속성 마스킹과 구조 마스킹의 차이점을 설명할 수 있는가?
– 자기지도 학습에서 그래프 마스킹이 어떻게 활용되는지 이해하고 있는가?
– 각 증강 기법과 지도/비지도/자기지도 학습 패러다임의 연관성을 명확히 구분할 수 있는가?

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*