ㅁ 전처리 확대 ㅇ 정의: 데이터 변환 API는 원시 데이터(문서, 이미지, 음성 등)를 분석 및 모델 학습에 적합한 형식으로 변환하는 프로그래밍 인터페이스로, 다양한 데이터 소스와 포맷을 통합·정규화하여 처리할 수 있도록 지원한다. ㅇ 특징: – 다양한 입력 포맷(CSV, JSON, XML, 이미지 파일 등)을 표준화된 구조로 변환 – 데이터 정규화, 인코딩, 스케일링, 토큰화 등의 기능 포함 –
ㅁ 전처리 확대 ㅇ 정의: 비정형 데이터(문서, 이미지, 음성 등)에서 구조화된 정보를 추출하여 데이터 분석이나 AI 모델 학습에 활용할 수 있도록 가공하는 과정 중, 메타데이터를 식별하고 추출하는 활동. ㅇ 특징: – 데이터의 속성(작성자, 생성일, 파일 형식, 위치 정보 등)을 자동 또는 반자동으로 식별 – 원본 데이터의 내용 분석 없이도 문서 관리, 검색, 분류 등에 활용
ㅁ 전처리 확대 ㅇ 정의: 문서 파서는 PDF, Word, HTML 등 다양한 형식의 문서에서 텍스트와 구조적 정보를 추출하여 분석 가능한 형태로 변환하는 소프트웨어 또는 모듈. ㅇ 특징: – 다양한 파일 포맷 지원(PDF, DOCX, HTML, TXT 등) – 텍스트뿐만 아니라 표, 이미지, 메타데이터 추출 가능 – OCR(광학문자인식)과 결합하여 스캔 문서 처리 가능 – 정규표현식, 토큰화, 문단/문장
ㅁ 전처리 확대 1. OCR ㅇ 정의: 이미지나 스캔된 문서에서 글자를 인식하여 텍스트 데이터로 변환하는 기술. ㅇ 특징: – 인쇄체, 필기체, 다양한 언어 인식 가능 – 이미지 전처리(노이즈 제거, 기울기 보정 등) 품질에 따라 정확도 영향 – 딥러닝 기반 OCR은 문맥 인식 및 다양한 폰트 처리에 강점 ㅇ 적합한 경우: – 종이 문서 디지털화 –
ㅁ 효율화 ㅇ 정의: – AI 모델 학습 및 추론 과정에서 에너지 사용량과 자원 소비를 최소화하기 위해 시스템 구조, 하드웨어, 소프트웨어를 최적화하는 활동. ㅇ 특징: – 연산 효율 향상, 탄소 배출 저감, 비용 절감 효과. – 서버, 네트워크, 스토리지 등 인프라 전반에 걸친 최적화 필요. – AI 성능 유지 또는 향상과 동시에 자원 사용량 감소를
ㅁ 효율화 ㅇ 정의: AI 시스템 개발 및 운영 과정에서 에너지 사용을 최소화하고, 탄소 배출을 줄이기 위해 자원 활용 방식을 최적화하는 접근. ㅇ 특징: – 데이터센터 전력 효율 향상, 모델 경량화, 재생에너지 활용 등을 포함. – 하드웨어·소프트웨어·운영 프로세스를 종합적으로 고려. – 지속가능성 보고서나 ESG 지표와 연계될 수 있음. ㅇ 적합한 경우: – 대규모 AI 모델
ㅁ 효율화 ㅇ 정의: AI 모델 개발 및 운영 과정에서 연산 자원과 전력 소비를 최소화하여 환경 부담을 줄이는 접근 방식. ㅇ 특징: – 경량화된 모델 구조 사용(CNN 경량화, Transformer pruning 등) – 연산 효율성을 높이는 알고리즘 적용(양자화, 지연 계산) – 하드웨어 친화적 최적화(TPU, GPU 효율 모드) – 동일 성능 대비 에너지 사용량 감소 ㅇ 적합한
ㅁ 효율화 1. 그린AI ㅇ 정의: 인공지능 모델의 성능 향상뿐 아니라 에너지 소비와 탄소 배출을 최소화하는 것을 목표로 하는 AI 개발 접근 방식. ㅇ 특징: – 연산 효율성을 높이기 위해 경량화 모델, 지식 증류, 연산 최적화 기법 등을 활용 – 데이터 센터의 전력 효율 향상, 재생에너지 사용 확대와 연계 – 모델 학습과 추론 과정에서의 전력
ㅁ 하드웨어/응용 ㅇ 정의: – 지능형 엣지는 데이터 처리를 클라우드가 아닌 네트워크의 말단(엣지)에서 수행하며, AI 모델을 내장하여 실시간 분석과 의사결정을 가능하게 하는 장치나 시스템을 의미함. ㅇ 특징: – 저지연(밀리초 단위) 응답 가능 – 네트워크 불안정 시에도 독립적 동작 가능 – 데이터 전송량 감소로 네트워크 비용 절감 – 센서, 카메라, IoT 디바이스와 직접 연동 – 전력
ㅁ 주요 기법 1. FFT ㅇ 정의: 푸리에 변환(Fourier Transform)을 빠르게 계산하기 위해 개발된 알고리즘으로, 시계열 데이터를 주파수 영역으로 변환하여 주기성, 패턴, 잡음을 분석하는 데 사용됨. ㅇ 특징: – 기존 DFT(Discrete Fourier Transform)에 비해 계산 복잡도가 O(N log N)으로 낮아 대규모 데이터 처리에 유리함. – 주파수 성분 분석, 필터링, 잡음 제거 등 다양한 신호 처리에