데이터 전처리: 그래프 데이터 증강 – 엣지 삭제

ㅁ 그래프 데이터 증강

ㅇ 정의:
그래프 데이터의 구조적 다양성을 확보하기 위해 기존 그래프에서 일부 엣지를 제거하여 새로운 학습 데이터를 생성하는 기법.

ㅇ 특징:
– 그래프의 연결성을 변화시켜 모델이 다양한 구조를 학습하도록 유도.
– 무작위 삭제(random deletion) 또는 특정 기준(예: 낮은 중요도 엣지) 기반 삭제 가능.
– 노드 간 관계 정보가 줄어들어 과적합 방지에 도움.

ㅇ 적합한 경우:
– 그래프 신경망(GNN) 학습 시 데이터 다양성이 부족한 경우.
– 소셜 네트워크, 추천 시스템 등에서 관계 변화를 반영하고자 할 때.

ㅇ 시험 함정:
– 엣지 삭제가 항상 성능 향상을 보장하는 것은 아님.
– 삭제 비율이 너무 높으면 중요한 구조 정보가 손실되어 성능 저하.
– 엣지 삭제와 엣지 마스킹(edge masking)을 혼동.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “엣지 삭제는 그래프 구조를 변형하여 모델의 일반화 성능을 높일 수 있다.”
– X: “엣지 삭제는 모든 그래프 모델에서 항상 성능 향상을 보장한다.”

================================

1. 엣지 삭제

ㅇ 정의:
그래프의 일부 엣지를 제거하여 데이터 변형을 수행하는 증강 기법.

ㅇ 특징:
– 무작위 또는 특정 기준 기반으로 엣지 선택.
– 그래프의 연결성 및 경로 길이에 영향을 미침.
– 데이터 희소성(sparsity) 증가.

ㅇ 적합한 경우:
– 과적합 방지를 위해 구조적 변화를 주고자 할 때.
– 그래프 데이터가 제한적일 때 다양한 구조 학습 유도.

ㅇ 시험 함정:
– 삭제 비율이 높을수록 항상 좋은 것이 아님.
– 노드 삭제와 혼동할 수 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “엣지 삭제는 무작위로 엣지를 제거하여 데이터 다양성을 확보할 수 있다.”
– X: “엣지 삭제는 노드 수를 줄이는 방법이다.”

ㅁ 추가 학습 내용

엣지 삭제의 변형 기법에는 중요도 기반 삭제와 커뮤니티 경계 엣지 삭제가 있다.
중요도 기반 삭제는 각 엣지의 중요도를 평가하여 중요도가 낮은 엣지를 제거하는 방식이다.
커뮤니티 경계 엣지 삭제는 서로 다른 커뮤니티를 연결하는 엣지를 제거하여 커뮤니티 구조를 강화하거나 특정 분석 목적을 달성하는 방법이다.

엣지 삭제와 유사 개념으로 엣지 마스킹과 엣지 추가가 있다.
엣지 마스킹은 엣지를 실제로 제거하지 않고 학습이나 추론 과정에서 해당 엣지를 무시하는 방식이며, 엣지 추가는 기존 그래프에 새로운 엣지를 삽입하여 연결성을 변화시키는 기법이다.

GNN 학습에서 엣지 삭제는 그래프의 밀도, 평균 차수, 연결 컴포넌트 수에 변화를 준다.
밀도는 전체 가능한 엣지 수 대비 실제 엣지 수의 비율로, 엣지 삭제 시 감소한다.
평균 차수는 노드별 연결된 엣지 수의 평균으로, 엣지 삭제 시 감소한다.
연결 컴포넌트 수는 그래프가 분리된 부분 그래프의 개수로, 엣지 삭제에 따라 증가할 수 있다.

시험에서는 “엣지 삭제는 항상 성능 향상을 가져온다”와 같은 절대적 표현이 함정으로 출제될 수 있다.
삭제 비율과 성능 간에는 trade-off가 존재하며, 너무 많은 엣지를 삭제하면 정보 손실로 성능이 저하될 수 있고, 적절한 비율의 삭제는 노이즈 제거로 성능 향상에 기여할 수 있다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*