데이터 전처리: 텍스트 처리 – 표제어 추출
ㅁ 텍스트 처리
ㅇ 정의:
텍스트 데이터에서 단어의 원형(표제어)을 찾아 변형된 형태를 정규화하는 과정. 예를 들어 ‘running’, ‘ran’을 ‘run’으로 변환.
ㅇ 특징:
품사 태깅과 사전 기반 분석을 통해 단어의 의미를 유지하며 변환. 형태소 분석보다 단순하지만 어간 추출보다 정확도가 높음.
ㅇ 적합한 경우:
문서 분류, 감성 분석 등 의미 기반 분석이 필요한 경우. 특히 다양한 시제, 복수형, 비교급 등이 혼합된 데이터셋에서 유용.
ㅇ 시험 함정:
표제어 추출은 단순히 어미를 자르는 것이 아니라 품사 정보를 활용한다는 점을 간과하기 쉬움. 어간 추출(stemming)과 혼동하는 경우가 많음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: 표제어 추출은 단어의 의미를 보존하며 원형으로 변환한다.
X: 표제어 추출은 항상 형태소 분석보다 복잡하고 시간이 오래 걸린다.
ㅁ 추가 학습 내용
표제어 추출(lemmatization)은 WordNet, spaCy, NLTK 등의 라이브러리에서 제공되며, 품사 태깅(POS tagging) 결과에 따라 변환 정확도가 달라진다. 어간 추출(stemming)과 달리 불규칙 변화(irregular forms)도 처리할 수 있다. 언어별로 표제어 사전이 필요하며, 한국어에서는 형태소 분석기와 결합하여 사용된다. 시험에서는 ‘표제어 추출은 어간 추출보다 항상 빠르다’와 같은 절대적 표현이 함정으로 출제될 수 있다.