AI 시스템 구축: 전처리 확대
ㅁ 전처리 확대
ㅇ 정의:
텍스트, 이미지, 스캔 문서 등 다양한 비정형 데이터를 AI 모델 학습이나 분석에 적합하도록 가공하는 사전 처리 범위를 확장하는 것을 의미함.
ㅇ 특징:
– OCR, 문서 파서, 메타데이터 추출, 데이터 변환 API 등 다양한 기술을 결합하여 처리
– 데이터 품질 향상과 모델 성능 개선에 직결됨
– 처리 속도, 정확도, 확장성이 중요
ㅇ 적합한 경우:
– 대량의 비정형 문서를 AI 분석에 활용해야 하는 경우
– 다양한 형식의 데이터가 혼합되어 있는 경우
ㅇ 시험 함정:
– 단순한 데이터 정제와 혼동 가능
– 전처리 확대는 입력 데이터의 범위와 처리 깊이를 확장하는 개념임을 간과
ㅇ 시험 대비 “패턴 보기” 예시:
O: “비정형 문서의 텍스트, 이미지 모두를 처리하는 과정은 전처리 확대의 예이다.”
X: “전처리 확대는 데이터 라벨링의 다른 표현이다.”
================================
1. OCR
ㅇ 정의:
이미지나 스캔된 문서에서 문자 영역을 인식하고 텍스트로 변환하는 기술.
ㅇ 특징:
– 광학 문자 인식(Optical Character Recognition)
– 인쇄체, 필기체, 다양한 언어 지원 가능
– 전처리 품질(노이즈 제거, 해상도)에 따라 인식률이 달라짐
ㅇ 적합한 경우:
– 종이 문서 디지털화
– 이미지 기반 데이터 분석
ㅇ 시험 함정:
– OCR은 텍스트를 이해하는 기술이 아니라 인식하는 기술임
– 자연어 처리(NLP)와 혼동 주의
ㅇ 시험 대비 “패턴 보기” 예시:
O: “스캔된 계약서에서 텍스트를 추출하는 것은 OCR의 활용 예이다.”
X: “OCR은 문서의 의미를 분석하는 기술이다.”
================================
2. 문서 파서
ㅇ 정의:
문서 파일 포맷(PDF, DOCX, HTML 등)에서 구조를 분석하여 텍스트, 표, 이미지 등 구성 요소를 추출하는 기술.
ㅇ 특징:
– 문서의 레이아웃, 계층 구조를 유지하며 데이터 추출 가능
– 포맷별 파서 엔진 필요
ㅇ 적합한 경우:
– 표, 목차, 계층 구조가 중요한 문서 분석
ㅇ 시험 함정:
– OCR과 달리 문서 파서는 디지털 문서에서 직접 구조를 분석함
– 이미지 기반 문서에는 OCR이 필요
ㅇ 시험 대비 “패턴 보기” 예시:
O: “PDF에서 표와 본문 텍스트를 분리 추출하는 것은 문서 파서의 기능이다.”
X: “문서 파서는 스캔 이미지에서 문자를 인식한다.”
================================
3. 메타데이터 추출
ㅇ 정의:
문서나 파일에 포함된 속성 정보(작성자, 작성일, 파일 크기, 태그 등)를 식별하고 추출하는 기술.
ㅇ 특징:
– 파일 포맷별 내장 메타데이터 구조 이해 필요
– 콘텐츠 분석 없이 속성 정보만 추출 가능
ㅇ 적합한 경우:
– 문서 관리 시스템에서 검색/분류 자동화
– 데이터 거버넌스 및 감사 추적
ㅇ 시험 함정:
– 메타데이터 추출은 본문 내용 분석과 다름
– 메타데이터는 수정 가능성이 있어 신뢰성 검증 필요
ㅇ 시험 대비 “패턴 보기” 예시:
O: “문서 작성일과 작성자를 자동으로 수집하는 것은 메타데이터 추출이다.”
X: “메타데이터 추출은 문서의 의미를 요약하는 과정이다.”
================================
4. 데이터 변환 API
ㅇ 정의:
데이터 형식, 구조, 인코딩 등을 다른 형식으로 변환하는 기능을 제공하는 API.
ㅇ 특징:
– JSON ↔ XML, CSV ↔ Parquet 등 변환 가능
– 실시간/배치 처리 지원
– 데이터 무결성 유지 필요
ㅇ 적합한 경우:
– 시스템 간 데이터 교환
– 분석 도구 요구 형식에 맞춘 변환
ㅇ 시험 함정:
– 데이터 변환은 데이터의 의미를 바꾸지 않음
– 변환 과정에서 손실/오류 가능성 존재
ㅇ 시험 대비 “패턴 보기” 예시:
O: “CSV 파일을 JSON 형식으로 변환하는 것은 데이터 변환 API의 예이다.”
X: “데이터 변환 API는 데이터 분석 알고리즘을 제공한다.”
ㅁ 추가 학습 내용
OCR 전처리 단계에는 이미지 이진화, 기울기 보정, 노이즈 제거가 포함된다.
후처리 단계에는 오타 교정과 언어 모델 기반 보정이 있다.
문서 파서에서는 포맷별 차이를 이해해야 한다. PDF의 경우 구조화 텍스트 기반 PDF와 이미지 기반 PDF로 나뉘며, 파싱 라이브러리 사용 시 특수 폰트나 인코딩 문제로 인한 한계를 숙지해야 한다.
메타데이터 추출에서는 EXIF, XMP, IPTC 등 표준 메타데이터 형식을 알아야 하며, 민감 정보가 노출될 수 있는 보안 이슈를 고려해야 한다.
데이터 변환 API는 스트리밍 변환과 배치 변환의 차이를 이해하고, 변환 시 스키마 매핑과 데이터 타입 변환 오류 처리 방법을 숙지해야 한다.
전처리 확대 개념은 단순한 데이터 정제를 넘어 입력 데이터의 범위와 처리 깊이를 넓히는 것을 의미하며, 멀티모달 데이터 처리와의 연계 가능성까지 고려해야 한다.