데이터 전처리: 텍스트 처리 – 형태소 분석

ㅁ 텍스트 처리

ㅇ 정의:
텍스트 데이터를 형태소 단위로 분해하여 각 단어의 품사와 의미를 분석하는 과정으로, 한국어와 같이 형태 변화가 많은 언어에서 특히 중요하다.

ㅇ 특징:
– 단어를 최소 의미 단위(형태소)로 분리
– 품사 태깅(POS tagging) 가능
– 불필요한 조사, 어미 등을 제거하여 분석 효율 향상
– 한국어는 띄어쓰기만으로 단어 구분이 어려워 형태소 분석기가 필요

ㅇ 적합한 경우:
– 감성 분석, 문서 분류, 검색엔진 색인 등 자연어 처리(NLP) 전처리 단계
– 형태 변화가 많은 교착어 처리

ㅇ 시험 함정:
– 토큰화(tokenization)와 혼동하는 경우 많음 (형태소 분석은 품사 정보까지 부여)
– 영어와 달리 한국어 형태소 분석은 띄어쓰기만으로 불충분

ㅇ 시험 대비 “패턴 보기” 예시:
O: “형태소 분석은 품사 태깅이 가능하다”
X: “형태소 분석은 단순히 공백 기준으로 단어를 분리한다”

ㅁ 추가 학습 내용

형태소 분석에는 Komoran, Mecab, Okt(구 Twitter) 등의 라이브러리가 사용되며, 각각 속도, 정확도, 사용 편의성이 다르다. 시험에서는 형태소 분석과 어절 단위 토큰화의 차이를 구분하는 문제가 자주 나온다. 품사 태깅 체계에 대한 기본 이해가 필요하며, 예를 들어 NNG는 일반 명사, JKS는 주격 조사를 의미한다. 형태소 분석의 성능은 사전 품질과 도메인 특화 사전 구축 여부에 따라 달라지므로, 도메인 특화 분석 시 사용자 사전을 추가하는 방법을 알아두는 것이 좋다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*