모델: 특수 기법

ㅁ 특수 기법

ㅇ 정의:
토큰 및 임베딩 과정에서 모델의 성능과 효율성을 높이기 위해 사용하는 다양한 부가적 또는 대체 기법.

ㅇ 특징:
– 기존의 단순 위치 인코딩, 토크나이저 방식의 한계를 보완.
– 모델의 일반화 성능, 긴 문맥 처리 능력, 희귀 단어 처리 능력을 개선.

ㅇ 적합한 경우:
– 긴 시퀀스 처리, 다국어 처리, 희귀 어휘가 많은 데이터셋.

ㅇ 시험 함정:
– 각 기법의 목적과 적용 위치를 혼동.
– 토크나이저 기법과 위치 임베딩 기법을 구분하지 못하는 경우.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Relative Positional Embedding은 토큰 간 상대적 거리를 반영한다.”
X: “SentencePiece는 위치 정보를 학습하는 임베딩 기법이다.”

================================

1. Relative Positional Embedding

ㅇ 정의:
토큰 간의 절대 위치가 아닌 상대적 거리를 인코딩하여 모델이 문맥 내 거리 정보를 학습하도록 하는 기법.

ㅇ 특징:
– Transformer의 self-attention에서 각 토큰 쌍의 상대적 거리 정보를 반영.
– 긴 문맥에서도 위치 인코딩의 일반화가 가능.

ㅇ 적합한 경우:
– 문장 길이가 다양하고, 긴 시퀀스를 처리해야 하는 자연어 처리.

ㅇ 시험 함정:
– 절대 위치 인코딩과 혼동.
– 상대 위치가 항상 방향성(앞/뒤)을 포함하는지 여부 혼동.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Relative Positional Embedding은 토큰 간 거리 정보를 반영한다.”
X: “Relative Positional Embedding은 각 토큰의 문서 내 절대 위치를 고정적으로 부여한다.”

================================

2. Rotary Embeddings

ㅇ 정의:
각 토큰의 쿼리/키 벡터에 회전 변환을 적용하여 위치 정보를 내재화하는 기법.

ㅇ 특징:
– 주기적인 회전 행렬을 곱해 위치 정보를 연속적으로 표현.
– 긴 문맥에서의 일반화와 extrapolation 가능.

ㅇ 적합한 경우:
– 긴 시퀀스 extrapolation이 필요한 대규모 언어 모델.

ㅇ 시험 함정:
– 단순 사인/코사인 절대 위치 인코딩과 동일하다고 오해.
– 토큰 임베딩이 아니라 attention 계산 시 적용됨을 간과.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Rotary Embeddings는 쿼리/키 벡터에 회전 변환을 적용한다.”
X: “Rotary Embeddings는 토큰을 subword 단위로 분할하는 알고리즘이다.”

================================

3. SentencePiece

ㅇ 정의:
언어 독립적인 subword 토크나이저로, 공백에 의존하지 않고 문장을 서브워드 단위로 분할하는 알고리즘.

ㅇ 특징:
– BPE, Unigram 등 다양한 모델 지원.
– 공백을 포함한 모든 문자를 토큰 후보로 처리.

ㅇ 적합한 경우:
– 다국어 처리, 공백이 없는 언어(한국어, 일본어 등).

ㅇ 시험 함정:
– SentencePiece 자체가 임베딩 기법이라고 착각.
– BPE와 동일하다고 오해.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “SentencePiece는 공백 없이도 서브워드 분할이 가능하다.”
X: “SentencePiece는 토큰 간 상대적 위치 정보를 학습한다.”

================================

4. Byte-Pair Encoding

ㅇ 정의:
가장 빈번하게 등장하는 문자 쌍을 병합하여 서브워드 단위를 생성하는 토크나이저 알고리즘.

ㅇ 특징:
– 희귀 단어를 서브워드로 분할하여 처리.
– 어휘 크기를 제어 가능.

ㅇ 적합한 경우:
– 희귀 단어가 많고, 어휘 크기를 줄여야 하는 경우.

ㅇ 시험 함정:
– BPE가 항상 의미 단위로 분할한다고 착각.
– 학습 후 병합 규칙이 고정됨을 간과.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “BPE는 자주 등장하는 문자 쌍을 병합한다.”
X: “BPE는 토큰의 절대 위치를 인코딩하는 기법이다.”

ㅁ 추가 학습 내용

Relative Positional Embedding과 Rotary Embeddings 비교
– Relative Positional Embedding: Attention score 계산 시 쿼리-키 간 거리 기반 bias를 추가하여 위치 정보를 반영. 방향성 처리 가능.
– Rotary Embeddings: 쿼리와 키 벡터에 직접 회전 변환을 적용하여 위치 정보를 내재화. extrapolation 능력이 있음.

SentencePiece와 BPE 비교
– SentencePiece: 공백을 포함한 모든 문자를 처리 가능. Unigram 등 모델 학습 기반 방식 지원. 언어 독립성 높음.
– BPE(Byte Pair Encoding): 빈도 기반 병합 규칙 사용. 규칙이 고정되어 적용됨.

시험 대비 주의점
– 위치 인코딩(Relative, Rotary)과 토크나이저(SentencePiece, BPE)를 혼동하지 않기.
– 각 기법의 입력과 출력 형태, 적용 단계 구분: 토큰화 단계(문자열 → 토큰 ID) vs 임베딩 계산 단계(토큰 ID → 벡터).
– Rotary Embeddings의 extrapolation 특성, Relative Positional Embedding의 방향성 처리 방식, SentencePiece의 언어 독립성, BPE의 병합 규칙 고정성 등 세부 특징 암기.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*