데이터 증강: 효과 및 적용
ㅁ 효과 및 적용
1. Node Feature Masking
ㅇ 정의:
– 그래프의 노드 속성(feature) 중 일부를 의도적으로 가려서(마스킹) 모델이 특정 속성에 과도하게 의존하지 않도록 하는 데이터 증강 기법.
ㅇ 특징:
– 입력 노드 특성의 일부를 무작위 또는 규칙적으로 0 또는 특수 토큰으로 대체.
– 모델이 다양한 feature 조합을 학습하여 일반화 성능 향상.
– 과적합 방지 효과.
ㅇ 적합한 경우:
– 노드 특성이 고차원이고 특정 feature에 편향이 심한 데이터셋.
– 라벨이 제한적이어서 일반화가 중요한 반지도 학습.
ㅇ 시험 함정:
– 마스킹 비율이 너무 높으면 정보 손실로 성능 저하.
– 모든 feature를 동일 확률로 마스킹하는 것이 항상 최적은 아님.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Node Feature Masking은 모델의 특정 속성 의존도를 줄여 일반화에 도움을 준다.”
– X: “Node Feature Masking은 항상 성능을 향상시키며 정보 손실 위험이 없다.”
1.1 Node Feature Masking의 하위 주요 기술
ㅇ 정의:
– 랜덤 마스킹(Random Masking), 중요도 기반 마스킹(Importance-based Masking) 등 구체적 구현 방법.
ㅇ 특징:
– 랜덤 마스킹: 단순 구현, 다양한 경우 학습.
– 중요도 기반: feature 중요도 계산 후 덜 중요한 feature를 마스킹.
ㅇ 적합한 경우:
– 랜덤: 데이터 다양성이 중요한 경우.
– 중요도 기반: 특정 feature 편향이 심한 경우.
ㅇ 시험 함정:
– 중요도 계산이 부정확하면 성능 저하.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “중요도 기반 마스킹은 feature 중요도를 사전에 계산하여 덜 중요한 속성을 제거한다.”
– X: “랜덤 마스킹은 항상 중요도 기반보다 성능이 우수하다.”
================================
2. Edge Dropout
ㅇ 정의:
– 그래프의 일부 엣지를 무작위로 제거하여 모델이 특정 연결 구조에 과도하게 의존하지 않도록 하는 기법.
ㅇ 특징:
– 엣지 제거를 통해 다양한 그래프 구조를 학습.
– 연결성 감소로 인한 정보 손실 가능.
ㅇ 적합한 경우:
– 그래프가 지나치게 조밀하여 특정 경로 의존성이 심한 경우.
– 노이즈가 포함된 엣지가 많은 데이터.
ㅇ 시험 함정:
– 드롭아웃 비율이 높으면 그래프 단절 발생.
– 모든 엣지를 동일 확률로 제거하는 것이 최적이 아닐 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Edge Dropout은 모델이 다양한 구조를 학습하게 하여 일반화에 기여한다.”
– X: “Edge Dropout은 그래프의 연결성을 절대 변화시키지 않는다.”
2.1 Edge Dropout의 하위 주요 기술
ㅇ 정의:
– 랜덤 엣지 제거, 중요도 기반 엣지 제거 등.
ㅇ 특징:
– 랜덤: 단순하고 빠름.
– 중요도 기반: 중요도가 낮은 엣지만 제거.
ㅇ 적합한 경우:
– 랜덤: 데이터 다양성 확보.
– 중요도 기반: 구조적 중요성을 유지해야 하는 경우.
ㅇ 시험 함정:
– 중요도 측정이 부정확하면 성능 저하.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “중요도 기반 엣지 제거는 핵심 경로를 보존한다.”
– X: “랜덤 엣지 제거는 항상 중요도 기반보다 성능이 높다.”
================================
3. Subgraph Sampling의 일반화 효과
ㅇ 정의:
– 원본 그래프에서 일부 노드와 엣지를 선택하여 부분 그래프를 구성하고 이를 학습에 사용하는 기법.
ㅇ 특징:
– 메모리 및 연산 효율성 향상.
– 다양한 부분 구조 학습 가능.
– 원본 그래프의 전역 정보 일부 손실 가능.
ㅇ 적합한 경우:
– 대규모 그래프 데이터셋.
– 지역적 패턴 학습이 중요한 경우.
ㅇ 시험 함정:
– 샘플링 전략이 편향되면 일반화 성능 저하.
– 전역 패턴 학습이 필요한 경우에는 부적합.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Subgraph Sampling은 대규모 그래프 학습 시 연산 효율성을 높인다.”
– X: “Subgraph Sampling은 항상 전역 구조 정보를 완벽히 보존한다.”
3.1 Subgraph Sampling의 하위 주요 기술
ㅇ 정의:
– 랜덤 노드 샘플링, 랜덤 워크 샘플링, 중요도 기반 샘플링 등.
ㅇ 특징:
– 랜덤 노드: 단순, 빠름, 전역 구조 반영 어려움.
– 랜덤 워크: 지역 구조 반영에 유리.
– 중요도 기반: 핵심 노드 중심으로 샘플링.
ㅇ 적합한 경우:
– 랜덤 노드: 다양성 확보.
– 랜덤 워크: 이웃 관계 학습.
– 중요도 기반: 핵심 구조 유지.
ㅇ 시험 함정:
– 랜덤 워크는 전역 정보 손실 가능.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “랜덤 워크 샘플링은 지역적 패턴 학습에 유리하다.”
– X: “랜덤 노드 샘플링은 항상 전역 구조를 잘 보존한다.”
ㅁ 추가 학습 내용
학습 정리
1. 주요 하이퍼파라미터와 성능 영향
– 마스킹 비율: 너무 높으면 정보 손실로 성능 저하, 너무 낮으면 증강 효과 부족
– 드롭아웃 확률: 적절한 확률은 과적합 방지, 지나치면 학습 불안정
– 샘플링 크기: 크기가 작으면 정보 부족, 크면 계산량 증가 및 과적합 위험
2. 최적화 방법
– 검증 데이터 기반의 하이퍼파라미터 튜닝
– 적응형 조정 기법 활용
– 중요도 기반 노드·엣지 선택
3. 증강 기법의 GNN 성능 기여
– 과적합 방지: 데이터 변형을 통한 일반화 능력 향상
– 일반화 성능 향상: 다양한 구조와 특징을 학습하도록 유도
– 결합 시 시너지: 상호 보완적 변형으로 학습 다양성 증가
– 결합 시 충돌 가능성: 과도한 변형으로 정보 손실 및 학습 불안정 발생
4. 부작용과 완화 방법
– 과도한 정보 손실 → 중요도 기반 선택
– 변형 강도 불균형 → 적응형 비율 조정
– 샘플링 편향 → Stratified Sampling, Re-weighting으로 보정
5. Subgraph Sampling 관련
– 샘플링 편향 문제: 특정 노드나 구조가 과대표집 또는 과소대표집
– 보정 기법: 층화 샘플링(Stratified Sampling), 가중치 재조정(Re-weighting)