AI 시스템 구축: 전처리 확대 – 문서 파서
ㅁ 전처리 확대
ㅇ 정의:
문서 파서는 PDF, Word, HTML 등 다양한 형식의 문서에서 텍스트와 구조적 정보를 추출하여 분석 가능한 형태로 변환하는 소프트웨어 또는 모듈.
ㅇ 특징:
– 다양한 파일 포맷 지원(PDF, DOCX, HTML, TXT 등)
– 텍스트뿐만 아니라 표, 이미지, 메타데이터 추출 가능
– OCR(광학문자인식)과 결합하여 스캔 문서 처리 가능
– 정규표현식, 토큰화, 문단/문장 구분 등 후속 처리를 위한 구조화 기능 포함
ㅇ 적합한 경우:
– 대량의 보고서, 계약서, 논문 등에서 텍스트를 자동 추출해야 하는 경우
– 비정형 문서에서 표, 항목, 메타데이터를 분석해야 하는 경우
– AI 모델 학습 전 데이터셋 구축 과정에서 문서 내용을 정제해야 하는 경우
ㅇ 시험 함정:
– 문서 파서가 항상 100% 정확하게 추출한다고 가정하는 문제 (X)
– OCR이 포함되지 않으면 스캔본 이미지 문서를 처리하지 못한다는 점을 간과하는 문제 (O)
– 모든 문서 포맷을 자동 지원한다고 생각하는 오류 (X)
ㅇ 시험 대비 “패턴 보기” 예시:
– “문서 파서는 PDF 문서에서만 텍스트를 추출할 수 있다.” → X
– “문서 파서는 표, 이미지 메타데이터도 추출할 수 있다.” → O
– “OCR 기능이 없는 문서 파서는 이미지 기반 문서 처리가 어렵다.” → O
ㅁ 추가 학습 내용
추가 학습 정리
1. 오픈소스 문서 파서 라이브러리와 상용 솔루션 비교
– 오픈소스 예시: Apache Tika, PDFBox, Tesseract OCR 등
– 장단점 비교: 비용, 커스터마이징 가능성, 지원 포맷, 성능, 커뮤니티 지원 여부
– 상용 솔루션: 기술 지원, 안정성, 라이선스 제약, 부가 기능
2. 문서 인코딩 문제와 처리 방법
– 주요 인코딩: UTF-8, EUC-KR 등
– 추출 시 발생하는 깨짐 현상 원인 분석
– 인코딩 자동 감지, 변환, 예외 처리 방법
3. HTML 파싱과 DOM 구조 이해
– DOM(Document Object Model) 구조의 기본 개념과 계층 구조
– HTML 파싱 도구 활용 방법
– 웹 크롤링과의 연계, 데이터 추출 시 주의사항
4. 표와 이미지 추출 및 포맷 변환
– 표 데이터 추출 후 CSV, JSON 등으로 변환하는 과정과 유의점
– 이미지 추출 시 포맷 변환(JPEG, PNG 등)과 품질 유지 방법
5. 개인정보 비식별화와 보안 이슈
– 개인정보 식별 요소 마스킹, 익명화 기법
– 데이터 처리 시 보안 규정 준수 필요성
– 로그, 메타데이터 등 부수 정보 관리
6. 대규모 병렬 처리 시 성능 최적화와 메모리 관리
– 멀티스레드, 멀티프로세스 활용 전략
– 메모리 누수 방지, GC 튜닝, 스트리밍 처리 기법
– 분산 처리 환경에서의 리소스 관리 및 부하 분산