데이터 전처리: 텍스트 처리
ㅁ 텍스트 처리
ㅇ 정의: 비정형 텍스트 데이터를 분석 가능한 형태로 변환하기 위해 수행하는 전처리 과정의 집합.
ㅇ 특징: 토큰 단위 분리, 불필요한 단어 제거, 어형 통합, 품사 기반 분석 등 언어 처리 기법을 포함.
ㅇ 적합한 경우: 자연어 처리(NLP) 모델 학습, 텍스트 마이닝, 감성 분석 등의 사전 데이터 준비 단계.
ㅇ 시험 함정: 토큰화와 형태소 분석을 혼동하거나, 표제어 추출과 어간 추출의 차이를 묻는 문제에서 틀리기 쉬움.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “형태소 분석은 품사 태깅이 가능한 텍스트 처리 기법이다.”
X: “불용어 제거는 텍스트의 의미를 유지하기 위해 반드시 모든 단어를 제거한다.”
================================
1. 토큰화
ㅇ 정의: 텍스트를 의미 있는 최소 단위(토큰)로 분리하는 과정.
ㅇ 특징: 공백, 구두점, 특수문자 등을 기준으로 분리하며, 언어별 규칙이 다름.
ㅇ 적합한 경우: 문장 분리, 단어 빈도 분석, NLP 입력 데이터 생성 시.
ㅇ 시험 함정: 영어는 공백 기반 토큰화가 비교적 단순하지만, 한국어는 형태소 분석 기반 토큰화가 필요함.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “토큰화는 문장을 단어 단위로 분리하는 과정이다.”
X: “토큰화는 항상 공백을 기준으로만 수행된다.”
================================
2. 불용어 제거
ㅇ 정의: 분석 목적에 불필요한 단어(Stopwords)를 제거하는 과정.
ㅇ 특징: ‘은’, ‘는’, ‘이’, ‘the’, ‘and’ 등 의미 분석에 기여하지 않는 단어를 필터링.
ㅇ 적합한 경우: 텍스트 벡터화 전 데이터 차원 축소, 중요한 단어 비중 강화.
ㅇ 시험 함정: 불용어 목록은 도메인과 목적에 따라 달라질 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “불용어 제거는 텍스트 분석의 효율성을 높이기 위해 수행된다.”
X: “불용어 제거는 모든 조사와 접속사를 무조건 삭제한다.”
================================
3. 표제어 추출
ㅇ 정의: 단어의 기본 형태(표제어)로 변환하는 과정.
ㅇ 특징: 사전 기반 처리, 문법 규칙 적용, 품사 정보 활용.
ㅇ 적합한 경우: 단어 변형 형태(복수형, 시제 변화)를 통합하여 분석하고자 할 때.
ㅇ 시험 함정: 어간 추출(Stemming)과 혼동하기 쉬움 — 표제어 추출은 사전 기반, 어간 추출은 규칙 기반.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “표제어 추출은 ‘running’을 ‘run’으로 변환한다.”
X: “표제어 추출은 항상 단어의 접미사를 단순히 제거한다.”
================================
4. 형태소 분석
ㅇ 정의: 문장을 형태소 단위로 분해하고 품사 태깅을 수행하는 과정.
ㅇ 특징: 한국어와 같이 형태 변화가 많은 언어에서 필수, 명사, 동사, 조사 등 품사별 분석 가능.
ㅇ 적합한 경우: 의미 기반 분석, 감성 분석, 정보 검색, 질문 응답 시스템.
ㅇ 시험 함정: 토큰화와 형태소 분석을 동일시하는 경우 오답 — 형태소 분석은 품사 태깅 포함.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “형태소 분석은 어절을 의미 단위로 분리하고 품사를 식별한다.”
X: “형태소 분석은 단순히 공백으로 단어를 나누는 것을 말한다.”
================================
저장해 드릴까요? 이 구조를 유지하면 다른 텍스트 처리 기법도 쉽게 추가 가능하게 만들 수 있습니다.