트랜드: 최신 알고리즘 – Transformers
ㅁ 최신 알고리즘
1. Transformers
ㅇ 정의:
– 시퀀스 데이터를 병렬 처리하여 문맥 정보를 효율적으로 학습하는 딥러닝 모델 구조로, Attention 메커니즘을 기반으로 함.
– RNN, LSTM의 순차 처리 한계를 극복하고, 긴 문맥 의존성을 효과적으로 처리.
ㅇ 특징:
– Self-Attention을 통해 입력 시퀀스의 모든 위치 간 관계를 한 번에 계산.
– 병렬 연산이 가능해 학습 속도가 빠름.
– 대규모 데이터 학습에 적합하며, 사전학습(Pre-training)과 미세조정(Fine-tuning)에 강점.
– Encoder, Decoder 또는 Encoder-Decoder 구조로 다양하게 변형 가능.
ㅇ 적합한 경우:
– 기계 번역, 문서 요약, 질의응답, 텍스트 생성 등 자연어 처리 전반.
– 시계열 예측, 단백질 서열 분석, 이미지 처리(비전 트랜스포머) 등 시퀀스 형태의 다양한 데이터.
ㅇ 시험 함정:
– ‘Transformers는 반드시 순차적으로 데이터를 처리해야 한다’ → X (병렬 처리 가능)
– ‘Self-Attention은 입력 시퀀스의 일부 토큰만 참조한다’ → X (모든 토큰 간 관계 계산)
– ‘Transformer는 RNN 기반 구조이다’ → X (순환 구조 없음)
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Transformer는 Self-Attention을 사용하여 시퀀스 내 모든 위치 간 관계를 동시에 계산한다.”
– O: “Transformer 구조는 병렬 연산이 가능하여 대규모 데이터 학습에 유리하다.”
– X: “Transformer는 RNN의 한 종류로, 순차적 연산을 통해 긴 문맥을 학습한다.”
– X: “Self-Attention은 바로 이전 단어만을 참조하여 다음 단어를 예측한다.”
ㅁ 추가 학습 내용
Transformer의 핵심 구성 요소는 Multi-Head Attention, Position-wise Feed-Forward Network, Positional Encoding이다.
Positional Encoding은 입력 시퀀스의 순서를 표현하기 위해 사인과 코사인 함수를 사용하여 각 위치마다 고유한 벡터를 생성한다.
Encoder-Decoder 구조에서 Encoder는 입력 시퀀스를 인코딩하여 의미를 추출하고, Decoder는 이를 바탕으로 출력 시퀀스를 생성한다. Decoder의 Masked Self-Attention은 미래 토큰을 보지 못하도록 하여 생성 과정의 순서를 보장한다.
대표적인 Transformer 기반 모델로는 BERT, GPT, T5가 있으며, 각각의 구조와 학습 방식, 활용 분야가 다르다.
BERT는 양방향 인코더 기반으로 문맥 이해에 강점이 있고, GPT는 단방향 디코더 기반으로 생성 작업에 특화되어 있으며, T5는 텍스트를 텍스트로 변환하는 통합 프레임워크를 제공한다.
Self-Attention의 계산 복잡도는 O(n^2)로, 시퀀스 길이가 길어질수록 연산량이 급격히 증가한다. 이를 개선하기 위해 Sparse Attention, Performer 등 경량화 기법이 제안되었다.
비전 분야에서는 Vision Transformer(ViT)가 이미지 패치를 시퀀스로 변환하여 Transformer 구조에 적용된다. ViT는 전역적인 정보 처리에 강점이 있지만, CNN에 비해 지역적 특성 추출이 약할 수 있다.
학습 시 주요 하이퍼파라미터로는 Attention head의 개수, hidden size, layer 수, dropout 비율 등이 있으며, 이는 모델의 용량과 성능, 과적합 방지에 영향을 미친다.