토큰/평가: WordPiece
ㅁ 토큰/평가
ㅇ 정의:
토큰화는 텍스트를 작은 단위로 나누는 과정이며, WordPiece는 서브워드 기반 토크나이저로, 텍스트를 의미 있는 작은 단위로 분할하여 어휘 크기를 줄이고 희소성을 해결하는 데 사용된다.
ㅇ 특징:
WordPiece는 빈도가 높은 서브워드를 우선적으로 선택하며, 어휘 크기를 제한하여 희소성을 줄인다. 주로 BERT와 같은 모델에서 사용되며, ##로 시작하는 토큰은 이전 토큰과 결합된 형태를 나타낸다.
ㅇ 적합한 경우:
대규모 데이터에서 희소성을 줄이고, 언어의 다양한 형태를 효과적으로 처리해야 하는 경우 적합하다. 특히, 의미 보존이 중요한 NLP 작업에서 유용하다.
ㅇ 시험 함정:
1. WordPiece와 Byte Pair Encoding(BPE)을 혼동할 수 있다. WordPiece는 빈도 기반으로 서브워드를 선택하며, BPE는 병합 규칙에 따라 선택한다.
2. ##로 시작하는 토큰이 독립적인 단어로 오해될 수 있다.
ㅇ 시험 대비 “패턴 보기” 예시:
1. WordPiece는 단어를 고정된 길이로 나눈다. (X)
2. WordPiece는 서브워드 기반 토크나이저로, 희소성을 줄이고 어휘 크기를 제한한다. (O)
================================
1. WordPiece
ㅇ 정의:
WordPiece는 텍스트를 서브워드 단위로 나누는 토크나이저로, 어휘 크기를 제한하고 희소성을 해결하기 위해 설계되었다.
ㅇ 특징:
빈도가 높은 서브워드를 우선적으로 선택하며, ##로 시작하는 토큰은 이전 토큰과 결합된 형태를 나타낸다. 주로 BERT와 같은 NLP 모델에서 사용된다.
ㅇ 적합한 경우:
대규모 데이터에서 희소성을 줄이고, 다양한 언어 표현을 효과적으로 처리해야 하는 NLP 작업에 적합하다.
ㅇ 시험 함정:
1. WordPiece와 BPE를 혼동할 수 있다. WordPiece는 빈도 기반으로 서브워드를 선택하며, BPE는 병합 규칙에 따라 선택한다.
2. ##로 시작하는 토큰이 독립적인 단어로 오해될 수 있다.
ㅇ 시험 대비 “패턴 보기” 예시:
1. WordPiece는 단어를 고정된 길이로 나눈다. (X)
2. WordPiece는 서브워드 기반 토크나이저로, 희소성을 줄이고 어휘 크기를 제한한다. (O)
ㅁ 추가 학습 내용
WordPiece와 Byte Pair Encoding(BPE)의 차이를 명확히 이해하기 위해 다음 내용을 정리합니다.
1. WordPiece는 빈도 기반으로 서브워드(subword)를 선택합니다. 이는 주어진 텍스트 데이터에서 서브워드 단위로 나누어진 조각들의 빈도를 계산하고, 그 빈도에 따라 가장 적합한 서브워드를 선택하는 방식입니다.
2. BPE는 병합 규칙을 사용합니다. 즉, 초기에는 모든 문자를 개별 토큰으로 취급한 뒤, 가장 자주 함께 등장하는 문자 쌍을 병합하여 새로운 토큰을 만들어내는 과정을 반복합니다. 이 과정은 병합 규칙을 기반으로 진행되며, 사전에 정의된 병합 횟수만큼 수행됩니다.
3. WordPiece와 BPE의 차이점은 서브워드를 생성하는 방식에 있습니다. WordPiece는 빈도 기반으로 서브워드를 선택하는 데 반해, BPE는 병합 규칙을 사용하여 서브워드를 생성합니다.
4. WordPiece가 NLP 모델에 통합되고 활용되는 구체적인 사례로는 BERT와 같은 사전 학습된 언어 모델이 있습니다. BERT는 입력 텍스트를 WordPiece를 사용해 서브워드 단위로 분할한 뒤, 이 서브워드 단위를 모델의 입력으로 사용합니다. 이를 통해 희귀 단어를 처리하거나 어휘 크기를 줄이는 데 효과적입니다. 예를 들어, “unbelievable”이라는 단어는 “un”, “##believ”, “##able”과 같은 서브워드로 분리되어 처리됩니다. 이는 모델이 새로운 단어나 복합 단어를 보다 유연하게 이해할 수 있도록 돕습니다.