데이터 전처리: 텍스트 처리 – 토큰화

ㅁ 텍스트 처리

ㅇ 정의:
텍스트 데이터를 의미 있는 최소 단위(단어, 문장, 형태소 등)로 분리하는 과정으로, 자연어 처리(NLP) 전 단계에서 필수적으로 수행됨.

ㅇ 특징:
– 언어별 문법 구조와 띄어쓰기 규칙에 따라 구현 방식이 다름.
– 영어는 주로 공백과 구두점을 기준으로 분리, 한국어는 형태소 분석기를 활용.
– 정규표현식, 사전 기반, 머신러닝 기반 등 다양한 방식 존재.

ㅇ 적합한 경우:
– 텍스트 분류, 감성 분석, 기계 번역 등 NLP 작업 전처리 단계.
– 검색엔진 색인 생성, 키워드 추출.

ㅇ 시험 함정:
– 토큰화가 항상 단어 단위로만 이루어진다고 오해하는 경우.
– 한국어 토큰화 시 조사, 어미 처리의 중요성을 간과.
– 구두점 제거 여부가 분석 목적에 따라 달라질 수 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “토큰화는 텍스트를 의미 있는 최소 단위로 분리하는 과정이다.”
X: “토큰화는 항상 공백을 기준으로만 수행된다.”
O: “형태소 분석은 한국어 토큰화에서 중요한 기법이다.”
X: “토큰화는 언어에 관계없이 동일한 방식으로 수행된다.”

ㅁ 추가 학습 내용

토큰화의 주요 기법에는 단어 토큰화, 문장 토큰화, 형태소 분석, 서브워드 토큰화(BPE, WordPiece) 등이 있다. 시험에서는 특히 한국어의 복합어 처리 방법과 영어에서 수치·기호 처리 규칙의 차이를 구분하는 문제가 자주 나온다. 토큰화 과정과 함께 대소문자 변환, 불용어 제거, 표제어 추출(lemmatization), 어간 추출(stemming)의 차이점을 묻는 경우도 많다. 최신 딥러닝 기반 자연어 처리에서는 서브워드 토큰화의 중요성이 커졌으며, GPT와 BERT와 같은 모델이 이를 활용한다는 점을 알아두어야 한다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*