백본/구성: Feature Pyramid Network (FPN)
ㅁ 백본/구성
ㅇ 정의:
백본/구성은 컴퓨터 비전 모델에서 특징 추출 및 학습 구조를 설계하는 데 사용되는 핵심 아키텍처를 의미함. 다양한 백본과 구성 요소는 특정 문제에 적합한 성능을 발휘하도록 설계됨.
ㅇ 특징:
– 다양한 데이터셋과 문제 유형에 따라 맞춤형 설계 가능
– 일반적으로 CNN 계열의 네트워크가 주로 사용됨
– 모델의 성능과 복잡도 간의 균형이 중요
ㅇ 적합한 경우:
– 다양한 해상도의 객체를 탐지하거나 분류할 때
– 성능 최적화가 요구되는 실시간 애플리케이션
ㅇ 시험 함정:
– 백본과 구성 요소의 차이를 혼동하거나 특정 모델의 특징을 잘못 이해할 가능성
– 단순히 모델 이름만 알고 실제 구조를 이해하지 못하는 경우
ㅇ 시험 대비 “패턴 보기” 예시:
– O: 백본은 모델의 특징 추출을 담당하는 주요 구조이다.
– X: 백본은 항상 고정된 네트워크 구조를 의미한다.
================================
1. Feature Pyramid Network (FPN)
ㅇ 정의:
FPN은 다양한 해상도의 피처 맵을 결합하여 객체 탐지와 같은 작업에서 성능을 향상시키는 피라미드 구조의 네트워크임.
ㅇ 특징:
– 상향식(bottom-up)과 하향식(top-down) 경로를 결합하여 다중 해상도 정보를 효과적으로 활용
– 경량화된 구조로 실시간 애플리케이션에도 적합
– 다양한 백본 네트워크(CNN)와 쉽게 통합 가능
ㅇ 적합한 경우:
– 다양한 크기의 객체를 탐지해야 하는 경우
– 제한된 리소스 내에서 높은 성능이 요구되는 경우
ㅇ 시험 함정:
– FPN의 상향식과 하향식 경로를 혼동하거나, 피처 맵 결합 방식을 잘못 이해하는 경우
– FPN이 특정 백본만 지원한다고 잘못 생각하는 경우
ㅇ 시험 대비 “패턴 보기” 예시:
– O: FPN은 상향식과 하향식 경로를 결합하여 다중 해상도 정보를 활용한다.
– X: FPN은 단일 해상도의 피처 맵만 사용한다.
ㅁ 추가 학습 내용
FPN과 관련된 추가 학습 내용은 다음과 같이 정리할 수 있습니다.
1. 피라미드 레벨의 정의:
– FPN에서 사용하는 피라미드 레벨(P2, P3, …)은 입력 이미지의 해상도와 밀접하게 연관되어 있음.
– 각 레벨은 입력 이미지의 다운샘플링 비율에 따라 정의되며, 일반적으로 P2는 입력 이미지의 1/4 크기, P3는 1/8 크기, P4는 1/16 크기, P5는 1/32 크기 등의 구조를 가짐.
– 각 레벨의 크기와 채널 수를 어떻게 조정하는지가 중요한 학습 포인트임.
2. 피처 맵 결합 방식:
– FPN은 상향식(bottom-up) 경로와 하향식(top-down) 경로를 통해 피처 맵을 결합함.
– 상향식 경로에서는 입력 이미지를 점진적으로 다운샘플링하며 특징을 추출.
– 하향식 경로에서는 고해상도의 정보를 저해상도로 전달하며, 각 레벨에서 상향식 피처 맵과 결합.
– 피처 맵 결합 시 주로 요소별 덧셈 방식을 사용하며, 결합 후 3×3 컨볼루션을 통해 혼합된 피처 맵을 정제함.
3. 응용 사례:
– Mask R-CNN: FPN을 백본 네트워크로 사용하여 객체 탐지와 세그멘테이션 작업에서 멀티스케일 특징을 효과적으로 활용.
– RetinaNet: FPN 구조를 기반으로 한 앵커 기반 탐지 모델로, 각 피라미드 레벨에서 객체를 탐지하며 Focal Loss를 사용해 불균형한 데이터 문제를 해결.
– FPN의 응용 사례를 통해 다양한 모델에서의 활용 방식을 이해하는 것이 중요.
위 개념들을 중심으로 FPN의 구조와 응용을 체계적으로 학습하는 것이 시험 대비에 효과적임.