AI 시스템 구축: 전처리 확대
ㅁ 전처리 확대
ㅇ 정의:
비정형 데이터(이미지, PDF, 스캔본, 다양한 문서 포맷 등)를 AI 학습이나 검색, 분석에 활용하기 위해 구조화·정제하는 사전 처리 범위를 확장하는 것.
ㅇ 특징:
– OCR, 문서 파서, 메타데이터 추출, 데이터 변환 API 등 다양한 기술 조합
– 데이터 품질 향상 및 처리 자동화
– 다양한 입력 포맷 대응
ㅇ 적합한 경우:
– 기업 내 대량 문서 디지털화
– AI 학습 데이터셋 준비
– 검색/추천 엔진 구축 전처리 단계
ㅇ 시험 함정:
– 단순 데이터 클렌징과 혼동
– 전처리 확대는 비정형 데이터의 구조화까지 포함
ㅇ 시험 대비 “패턴 보기” 예시:
O: “스캔 문서에서 텍스트를 추출하여 분석에 활용하는 과정은 전처리 확대에 해당한다.”
X: “전처리 확대는 정형 데이터의 중복 제거에만 해당한다.”
================================
1. OCR
ㅇ 정의:
이미지나 스캔 문서에서 문자를 인식하여 디지털 텍스트로 변환하는 기술.
ㅇ 특징:
– 인쇄체, 필기체 인식 가능 (정확도는 품질에 따라 상이)
– 전처리(노이즈 제거, 대비 향상) 필요
– 다국어 지원 가능
ㅇ 적합한 경우:
– 종이 문서 디지털화
– 영수증, 계약서, 신분증 등에서 문자 추출
ㅇ 시험 함정:
– OCR은 이미지에서 직접 의미를 해석하지 않음 (텍스트 변환까지만 수행)
ㅇ 시험 대비 “패턴 보기” 예시:
O: “OCR은 스캔한 계약서의 텍스트를 추출하는 데 사용된다.”
X: “OCR은 문서의 의미를 분석하여 요약문을 생성한다.”
================================
2. 문서 파서
ㅇ 정의:
PDF, Word, HTML 등 다양한 문서 포맷에서 구조와 내용을 분석하여 데이터로 변환하는 기술.
ㅇ 특징:
– 문서의 계층 구조, 표, 이미지, 메타데이터 추출 가능
– 포맷별 파서 엔진 필요
ㅇ 적합한 경우:
– 보고서, 논문, 기술문서의 구조적 데이터화
ㅇ 시험 함정:
– 단순 문자열 검색과 혼동
ㅇ 시험 대비 “패턴 보기” 예시:
O: “문서 파서는 PDF 보고서의 표와 본문을 분리하여 추출할 수 있다.”
X: “문서 파서는 이미지를 텍스트로 변환하는 OCR 기술이다.”
================================
3. 메타데이터 추출
ㅇ 정의:
문서나 파일에 포함된 작성자, 생성일, 키워드, 위치정보 등 부가 정보를 추출하는 기술.
ㅇ 특징:
– 파일 속성, EXIF, 문서 속성 등 다양한 메타데이터 소스
– 검색, 분류, 권한 관리 등에 활용
ㅇ 적합한 경우:
– 대규모 문서 관리 시스템
– 디지털 포렌식
ㅇ 시험 함정:
– 메타데이터는 본문 내용과 동일하지 않음
ㅇ 시험 대비 “패턴 보기” 예시:
O: “메타데이터 추출은 문서 작성일과 작성자를 자동으로 수집할 수 있다.”
X: “메타데이터 추출은 문서 본문의 의미를 요약한다.”
================================
4. 데이터 변환 API
ㅇ 정의:
다양한 형식의 데이터를 다른 형식으로 변환하는 기능을 제공하는 API.
ㅇ 특징:
– JSON, XML, CSV, Parquet 등 포맷 변환 지원
– 실시간 변환 가능
– 데이터 파이프라인과 연계
ㅇ 적합한 경우:
– 시스템 간 데이터 연계
– 분석 플랫폼 적재 전 변환
ㅇ 시험 함정:
– 데이터 변환 API는 데이터의 의미를 변경하지 않음
ㅇ 시험 대비 “패턴 보기” 예시:
O: “데이터 변환 API는 CSV 데이터를 JSON으로 변환할 수 있다.”
X: “데이터 변환 API는 텍스트에서 감정을 분석한다.”
ㅁ 추가 학습 내용
학습 정리
1. OCR 전처리 기법과 정확도 향상
– 이진화: 이미지를 흑백으로 변환하여 문자와 배경을 구분
– 기울기 보정: 스캔 시 발생한 문서의 기울기를 보정
– 잡음 제거: 스캔 과정에서 생긴 점, 선, 얼룩 등의 노이즈 제거
– 정확도 향상 방법: 해상도 최적화, 명암 대비 조정, 글꼴 학습 데이터 확충, 언어별 사전 적용
2. 문서 파서의 포맷별 처리 차이
– PDF 구조 해석: 페이지, 객체, 텍스트 스트림, 폰트 정보, 좌표 기반 레이아웃 분석
– HTML DOM 파싱: 태그 계층 구조 분석, 속성 값 추출, 스크립트·스타일 처리 여부 결정
3. 메타데이터 표준 형식과 활용 사례
– Dublin Core: 디지털 자원의 식별·관리(제목, 작성자, 주제 등)
– EXIF: 이미지 촬영 정보(카메라 설정, 위치 정보 등)
– IPTC: 뉴스·미디어 콘텐츠의 작성자, 저작권, 키워드 등 관리
– 활용 사례: 검색 최적화, 저작권 관리, 자동 분류, 데이터 필터링
4. 데이터 변환 API 설계 고려사항
– 성능: 처리 속도, 대량 데이터 처리 효율
– 스키마 매핑: 필드 매칭, 데이터 타입 변환 규칙
– 데이터 무결성: 변환 과정에서의 손실·왜곡 방지, 검증 로직 포함
5. 개인정보 비식별화와 보안 이슈
– 비식별화 기법: 마스킹, 가명 처리, 데이터 범주화
– 보안 이슈: 전송·저장 시 암호화, 접근 제어, 로그 감사
6. 클라우드 기반 전처리 서비스 비교
– AWS Textract: 문서에서 텍스트·테이블·폼 추출, OCR 기반
– Google Document AI: 문서 구조 인식, 다양한 문서 타입 지원, 머신러닝 기반
– Azure Form Recognizer: 폼·영수증·인보이스 등 특화, 사용자 정의 모델 지원
7. 비정형 데이터 전처리와 ETL의 관계 및 차이
– 비정형 데이터 전처리: 텍스트, 이미지, 오디오 등 구조화되지 않은 데이터 가공
– ETL: 데이터 추출(Extract), 변환(Transform), 적재(Load) 과정으로 주로 구조화 데이터 처리
– 관계: 비정형 데이터도 전처리 후 ETL 파이프라인에 통합 가능
– 차이점: 데이터 형태, 처리 방식, 도구의 차이
시험 대비 체크리스트
[ ] OCR 전처리 기법의 종류와 목적을 설명할 수 있는가
[ ] OCR 정확도 향상 방법을 사례와 함께 제시할 수 있는가
[ ] PDF와 HTML 파싱의 구조적 차이를 비교할 수 있는가
[ ] Dublin Core, EXIF, IPTC의 특징과 활용 사례를 구분할 수 있는가
[ ] 데이터 변환 API 설계 시 성능, 스키마 매핑, 무결성 고려사항을 나열할 수 있는가
[ ] 개인정보 비식별화 기법과 보안 이슈를 설명할 수 있는가
[ ] AWS Textract, Google Document AI, Azure Form Recognizer의 기능 차이를 비교할 수 있는가
[ ] 비정형 데이터 전처리와 ETL의 개념, 관계, 차이점을 설명할 수 있는가