데이터 증강: 기법 및 효과

ㅁ 기법 및 효과

ㅇ 정의:

ㅇ 특징:

ㅇ 적합한 경우:

ㅇ 시험 함정:

ㅇ 시험 대비 “패턴 보기” 예시:

================================

1. Node Dropout

ㅇ 정의:
– 그래프에서 일부 노드를 무작위로 제거하여 학습 시 과적합을 방지하는 데이터 증강 기법.

ㅇ 특징:
– 제거된 노드와 연결된 엣지도 함께 사라짐.
– 네트워크의 구조적 다양성을 높임.
– 노드 특성 분포 변화 가능.

ㅇ 적합한 경우:
– 노드 수가 많고 특정 노드에 과도하게 의존하는 모델 학습 시.
– 노드 중요도 편향을 줄이고자 할 때.

ㅇ 시험 함정:
– Node Dropout은 노드 특성을 마스킹하는 기법이 아니라 구조 자체를 변경하는 기법임.
– 모든 노드를 동일 비율로 제거하는 것이 아님.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) Node Dropout은 그래프 구조를 단순화하여 일반화 성능을 향상시킬 수 있다.
– (X) Node Dropout은 엣지만 제거하고 노드는 유지한다.

================================

2. Edge Dropout

ㅇ 정의:
– 그래프에서 일부 엣지를 무작위로 제거하여 구조적 다양성을 확보하는 기법.

ㅇ 특징:
– 노드 수는 유지되며 연결 관계만 변화.
– 과적합 방지 및 견고성 향상.
– 정보 손실 가능성 존재.

ㅇ 적합한 경우:
– 엣지 수가 많고 연결 과밀로 인한 잡음이 많은 경우.
– 그래프 신뢰성 검증 및 모델 일반화 필요 시.

ㅇ 시험 함정:
– Edge Dropout은 노드를 제거하지 않음.
– 모든 엣지를 동일 비율로 제거하는 것이 아님.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) Edge Dropout은 노드 수를 유지한 채 연결 관계를 변화시킨다.
– (X) Edge Dropout은 노드와 엣지를 동시에 제거한다.

================================

3. Node Feature Masking

ㅇ 정의:
– 노드의 속성(feature) 중 일부를 마스킹하여 모델이 다양한 입력 패턴에 적응하도록 하는 기법.

ㅇ 특징:
– 그래프 구조는 유지됨.
– 속성 기반 모델의 일반화 성능 향상.
– 마스킹 비율 조절 가능.

ㅇ 적합한 경우:
– 노드 특성이 모델 학습에 중요한 경우.
– 속성 편향을 줄이고자 할 때.

ㅇ 시험 함정:
– Node Feature Masking은 노드를 제거하지 않음.
– 구조 변화 없이 속성 정보만 변경.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) Node Feature Masking은 노드 속성 일부를 숨겨 학습의 다양성을 높인다.
– (X) Node Feature Masking은 노드와 엣지를 무작위로 제거한다.

================================

4. Edge Rewiring

ㅇ 정의:
– 그래프 내 엣지 연결을 변경하여 새로운 구조를 생성하는 기법.

ㅇ 특징:
– 노드 수와 엣지 수는 유지될 수 있으나 연결 패턴 변경.
– 구조적 다양성 및 데이터 증강 효과.
– 네트워크 동역학 실험 가능.

ㅇ 적합한 경우:
– 네트워크 연결 패턴의 민감도 분석.
– 구조 변화에 대한 모델 강건성 평가.

ㅇ 시험 함정:
– Edge Rewiring은 엣지를 제거만 하는 것이 아님.
– 무작위 연결 시 의미 없는 그래프가 될 수 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) Edge Rewiring은 엣지의 양 끝 노드를 변경하여 새로운 연결을 만든다.
– (X) Edge Rewiring은 노드 속성을 무작위로 변경한다.

================================

5. Subgraph Sampling

ㅇ 정의:
– 원본 그래프에서 부분 그래프를 샘플링하여 학습 데이터로 사용하는 기법.

ㅇ 특징:
– 원본 그래프의 일부 구조와 속성만 유지.
– 대규모 그래프 처리 효율성 향상.
– 샘플링 방법에 따라 정보 보존 정도가 다름.

ㅇ 적합한 경우:
– 대규모 그래프에서 메모리 및 연산 효율이 필요한 경우.
– 지역적 구조 학습이 중요한 경우.

ㅇ 시험 함정:
– Subgraph Sampling은 전체 그래프를 항상 사용하는 것이 아님.
– 모든 샘플링이 동일 확률로 이루어지는 것은 아님.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) Subgraph Sampling은 대규모 그래프 학습 시 메모리 사용량을 줄일 수 있다.
– (X) Subgraph Sampling은 그래프의 모든 노드와 엣지를 반드시 포함한다.

ㅁ 추가 학습 내용

추가 학습 정리

1. 각 기법의 수학적 구현 방식과 파라미터 조정 방법
– Node Dropout 비율, Edge Dropout 확률, Feature Masking 비율 등은 모델 성능에 큰 영향을 미침
– 시험에서 수치 계산 문제로 출제될 가능성이 높음
– 파라미터 변화에 따른 성능 변화 이해 필요

2. Subgraph Sampling 전략
– Random Walk: 임의 경로를 따라 노드 선택, 지역적 구조 반영에 유리
– Neighbor Sampling: 특정 노드의 이웃을 일정 수만큼 샘플링, 계산 효율성 확보
– Cluster-based Sampling: 그래프를 클러스터로 분할 후 샘플링, 전역 구조 유지에 유리
– 각 방법의 장단점과 적용 상황 비교 가능해야 함

3. Edge Rewiring 방식
– Degree distribution 유지 방식: 원래 노드 차수 분포를 보존, 구조적 특성 유지
– 무작위 방식: 완전 랜덤으로 간선 재배치, 구조 왜곡 가능성 높음
– 각 방식이 그래프 연결성(connectivity)에 미치는 영향 이해 필요

4. 데이터 증강 기법의 조합 사용
– 단독 사용뿐 아니라 혼합 적용 사례 많음
– 혼합 시 성능 향상 가능하지만 정보 손실, 의미 왜곡 위험 존재
– 효과와 위험을 모두 파악해야 함

5. 용어 구분의 중요성
– Node Feature Masking: 노드 속성(feature) 변경, 구조는 그대로 유지
– Node Dropout: 노드 자체 제거로 그래프 구조 변경
– 구조 변경 여부와 속성 변경 여부를 명확히 구분해야 함

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*