AI 시스템 구축: 전처리 확대 – OCR

ㅁ 전처리 확대

1. OCR

ㅇ 정의:
이미지나 스캔된 문서에서 글자를 인식하여 텍스트 데이터로 변환하는 기술.

ㅇ 특징:
– 인쇄체, 필기체, 다양한 언어 인식 가능
– 이미지 전처리(노이즈 제거, 기울기 보정 등) 품질에 따라 정확도 영향
– 딥러닝 기반 OCR은 문맥 인식 및 다양한 폰트 처리에 강점

ㅇ 적합한 경우:
– 종이 문서 디지털화
– 영수증, 계약서, 표, 이미지 내 텍스트 추출
– 비정형 데이터의 구조화 필요 시

ㅇ 시험 함정:
– OCR은 이미지에서 텍스트를 ‘검색’하는 기술이 아니라 ‘인식’하는 기술임
– 스캔 PDF는 OCR 없이는 텍스트 추출 불가
– 단순 이미지 전처리와 OCR을 혼동하는 경우 출제

ㅇ 시험 대비 “패턴 보기” 예시:
O: “OCR은 스캔된 문서의 글자를 인식하여 텍스트로 변환한다.”
X: “OCR은 문서에서 단어의 의미를 분석하여 요약한다.”

ㅁ 추가 학습 내용

OCR 시험 대비 핵심 정리

주요 OCR 엔진 특징 및 비교
– Tesseract: 오픈소스, 다국어 지원, 커맨드라인 기반, 딥러닝 기반 LSTM 모델 포함
– ABBYY FineReader: 상용 소프트웨어, 높은 인식률, 다양한 문서 형식 지원, 편리한 UI
– Google Cloud Vision API: 클라우드 기반, 이미지 분석 기능과 OCR 통합, 확장성 우수, 다양한 언어 지원

OCR 전처리 단계
– 이진화: 이미지를 흑백으로 변환하여 문자와 배경 구분
– 기울기 보정: 스캔 시 발생한 문서의 기울기를 수정
– 노이즈 제거: 불필요한 점, 선, 배경 패턴 제거
– 문자 분할: 문자를 개별 영역으로 분리하여 인식 정확도 향상

OCR 후처리 단계
– 맞춤법 교정: 인식된 텍스트의 오탈자 수정
– 언어 모델 적용: 문맥 기반으로 단어 예측 및 교정

OCR, ICR, OMR 차이
– OCR(Optical Character Recognition): 인쇄된 문자 인식
– ICR(Intelligent Character Recognition): 손글씨 문자 인식
– OMR(Optical Mark Recognition): 마킹된 영역(체크, 선택지 등) 인식

딥러닝 기반 OCR 구조
– CNN: 이미지 특징 추출
– RNN: 시퀀스 형태의 문자 데이터 처리
– Transformer: 병렬 처리와 Attention 메커니즘을 통한 효율적 시퀀스 처리

OCR 정확도 평가 지표
– Accuracy: 전체 문자 중 정확히 인식된 비율
– CER(Character Error Rate): 문자 단위 오류율
– WER(Word Error Rate): 단어 단위 오류율

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*