AI: 그래프 신경망 최적화 – Graph Attention Networks (GAT)
ㅁ 그래프 신경망 최적화
ㅇ 정의:
그래프 Attention Networks(GAT)는 그래프 데이터의 노드 간 관계를 학습할 때, 인접 노드의 중요도를 학습 가능한 가중치(Attention Mechanism)로 계산하여 정보 집계에 반영하는 신경망 구조.
ㅇ 특징:
– 각 노드가 주변 이웃 노드로부터 받는 메시지의 가중치를 학습함.
– Self-attention 기반으로 서로 다른 이웃 노드의 중요도를 차별화.
– 고정된 인접 행렬 가중치 대신 학습 가능한 가중치 사용.
– 병렬 연산이 가능하여 GCN보다 학습 효율이 높음.
ㅇ 적합한 경우:
– 노드 간 연결 강도가 균일하지 않고, 특정 이웃 노드의 영향이 중요한 경우.
– 소셜 네트워크, 추천 시스템, 화학 분자 구조 분석 등에서 노드별 중요도 차이가 큰 데이터.
ㅇ 시험 함정:
– GAT는 모든 이웃 노드에 동일 가중치를 적용한다(O/X) → X, 중요도에 따라 다른 가중치 적용.
– Attention 계산은 학습 불가능한 고정 값이다(O/X) → X, 학습 가능한 파라미터임.
ㅇ 시험 대비 “패턴 보기” 예시:
– “GAT는 인접 노드의 중요도를 학습하여 가중합하는 그래프 신경망이다” (O)
– “GAT는 인접 노드의 정보를 동일하게 평균하는 방식만 사용한다” (X)
– “GAT는 self-attention 메커니즘을 그래프 구조에 적용한다” (O)
– “GAT는 가중치가 고정된 인접 행렬만 사용한다” (X)
ㅁ 추가 학습 내용
GAT의 수식 구조는 attention coefficient e_ij를 a(Wh_i, Wh_j) 형태로 계산하며, 이후 softmax를 통해 정규화한다. Multi-head attention 기법은 안정적인 학습과 표현력 향상을 위해 여러 개의 attention head를 병렬로 사용하는 방식이다. Over-smoothing 문제를 완화하기 위해 skip connection이나 residual connection 기법을 적용할 수 있다. GCN은 평균 또는 합산 기반으로 이웃 노드를 집계하는 반면, GAT는 학습 가능한 가중치 기반으로 집계한다. 실제 구현 시 fully connected attention은 O(N^2) 복잡도를 가지므로, 효율성을 위해 sparse attention 기법이 필요하다. 시험에서는 GAT의 핵심 차별점인 학습 가능한 attention, multi-head 구조, self-attention 적용 여부를 묻는 문제가 주로 출제된다.