AI: 그래프 증강 기법
ㅁ 그래프 증강 기법
ㅇ 정의:
그래프 데이터의 구조나 속성을 변형하여 모델 학습 시 일반화 성능을 높이고 과적합을 방지하는 데이터 증강 기법.
ㅇ 특징:
– 노드, 엣지, 속성 등을 무작위로 제거, 변경, 마스킹, 재연결하여 다양한 학습 샘플 생성
– 원본 그래프의 전반적인 구조적 특성은 유지하면서 국소적 변화를 유도
– GNN(Graph Neural Network) 학습에서 데이터 다양성 확보에 효과적
ㅇ 적합한 경우:
– 라벨이 적고 그래프 데이터가 제한적인 경우
– 모델의 일반화 성능 향상이 필요한 경우
ㅇ 시험 함정:
– 증강은 무조건 성능을 높이는 것이 아니라, 과도한 변형은 정보 손실로 성능 저하 가능
– 증강 기법별로 적용 목적과 효과가 다름
ㅇ 시험 대비 “패턴 보기” 예시:
O: “그래프 증강 기법은 데이터 다양성을 높여 과적합을 줄이는 데 사용된다.”
X: “그래프 증강 기법은 원본 그래프의 모든 구조를 변경해야 한다.”
================================
1. Node Dropout
ㅇ 정의:
그래프에서 일부 노드를 무작위로 제거하여 학습 데이터 변형을 만드는 기법.
ㅇ 특징:
– 제거된 노드와 연결된 엣지도 함께 사라짐
– 네트워크의 일부 정보 손실을 통해 모델이 특정 노드에 과의존하는 것을 방지
ㅇ 적합한 경우:
– 특정 노드 중심의 편향이 심한 데이터
– 노드 수가 많아 부분적 손실이 전체 구조에 큰 영향을 주지 않는 경우
ㅇ 시험 함정:
– 중요한 허브 노드 제거 시 정보 손실이 크고 성능 저하 가능
– Node Dropout은 노드 속성을 변경하는 것이 아님
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Node Dropout은 일부 노드를 제거하여 과적합을 방지한다.”
X: “Node Dropout은 노드의 속성값을 0으로 만든다.”
================================
2. Edge Dropout
ㅇ 정의:
그래프의 일부 엣지를 무작위로 제거하여 구조적 변화를 주는 기법.
ㅇ 특징:
– 노드는 유지하되 연결 관계만 일부 제거
– 그래프의 연결성 감소로 다양한 경로 학습 유도
ㅇ 적합한 경우:
– 엣지 밀도가 높은 그래프
– 특정 연결에 과도하게 의존하는 모델 구조
ㅇ 시험 함정:
– 희소 그래프에서는 Edge Dropout이 오히려 정보 부족을 초래할 수 있음
– Edge Dropout은 노드 수를 변경하지 않음
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Edge Dropout은 일부 연결을 제거하여 모델이 다양한 경로를 학습하게 한다.”
X: “Edge Dropout은 노드를 제거하는 기법이다.”
================================
3. Edge Rewiring
ㅇ 정의:
기존의 일부 엣지를 제거하고 새로운 엣지를 무작위로 추가하여 그래프 구조를 재구성하는 기법.
ㅇ 특징:
– 연결성을 유지하면서 구조를 다양화
– 노이즈를 일부 추가하여 모델의 강건성 향상
ㅇ 적합한 경우:
– 네트워크의 연결 패턴 다양성이 필요한 경우
– 구조적 편향이 심한 데이터셋
ㅇ 시험 함정:
– 무작위 연결이 과도하면 원래 의미 있는 구조가 손상될 수 있음
– Edge Rewiring은 단순 엣지 삭제와 다름
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Edge Rewiring은 일부 연결을 재배치하여 구조 다양성을 높인다.”
X: “Edge Rewiring은 모든 엣지를 제거한다.”
================================
4. Node Feature Masking
ㅇ 정의:
일부 노드의 속성(feature) 값을 마스킹(0 또는 특수 토큰)하여 정보 일부를 숨기는 기법.
ㅇ 특징:
– 구조는 유지하되 속성 정보만 부분적으로 제거
– 속성 결손 상황에 대한 모델의 대응력 강화
ㅇ 적합한 경우:
– 속성 정보가 풍부하고 일부 손실이 전체 예측에 큰 영향을 주지 않는 경우
– 속성 결손 데이터 대응 학습
ㅇ 시험 함정:
– Node Feature Masking은 노드 자체를 제거하지 않음
– 모든 속성을 마스킹하면 학습 불가
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Node Feature Masking은 속성 일부를 숨겨 모델의 강건성을 높인다.”
X: “Node Feature Masking은 노드를 삭제하는 기법이다.”
================================
5. Subgraph Sampling
ㅇ 정의:
원본 그래프에서 일부 노드와 엣지를 포함하는 부분 그래프를 샘플링하여 학습에 사용하는 기법.
ㅇ 특징:
– 대규모 그래프 학습 시 메모리 및 연산 효율성 향상
– 지역적 구조 학습 가능
ㅇ 적합한 경우:
– 대규모 네트워크에서 전체 학습이 어려운 경우
– 지역 패턴 학습이 중요한 경우
ㅇ 시험 함정:
– 샘플링 방식에 따라 정보 손실 정도가 다름
– Subgraph Sampling은 반드시 연속된 노드만 포함하는 것은 아님
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Subgraph Sampling은 대규모 그래프 학습 시 일부만 추출해 학습한다.”
X: “Subgraph Sampling은 항상 랜덤하게 노드를 제거하는 방식이다.”
ㅁ 추가 학습 내용
추가 학습 정리
1. 증강 기법의 파라미터와 최적화
– Dropout 비율, Rewiring 비율 등 주요 파라미터 변화가 성능에 미치는 영향 분석
– 파라미터 최적화 방법론 및 실험 설계 방법 이해
2. 단독 적용 vs. 조합 적용 비교
– 개별 증강 기법 적용 시 성능 변화
– 여러 증강 기법을 조합 적용했을 때의 시너지 또는 성능 저하 사례 비교
3. 그래프 증강의 학습 패러다임 활용
– Contrastive Learning에서의 그래프 증강 활용 방식
– Self-Supervised Learning에서 증강을 통한 표현 학습 강화 방법
4. 그래프 전역 특성에 대한 영향
– Degree Distribution, Clustering Coefficient 등 전역 구조 지표 변화 분석
– 증강이 구조 보존에 미치는 영향 이해
5. 실제 적용 사례
– 소셜 네트워크 분석에서의 그래프 증강 활용
– 화합물 분자 그래프 분석에서의 적용
– 추천 시스템에서의 그래프 증강 적용 사례
6. 증강 후 그래프 품질 평가
– Structural Similarity, Feature Preservation 등의 품질 평가 지표 정의
– 각 지표의 계산 방법 및 해석 방법