ㅁ 동기화 기법 ㅇ 정의: 데이터 동기화 기법은 서로 다른 시스템, 데이터베이스, 또는 애플리케이션 간의 데이터 일관성을 유지하기 위해 데이터를 동일하게 맞추는 방법을 의미함. ㅇ 특징: – 데이터 변경 사항을 즉시 또는 일정 주기로 반영 – 네트워크, 처리 지연, 충돌 관리 필요 – 데이터 무결성과 가용성 보장 목적 ㅇ 적합한 경우: – 분산 시스템 운영
ㅁ 라벨링 기술 ㅇ 정의: 데이터 라벨링 기술은 원본 데이터에 의미 있는 태그나 클래스를 부여하여 머신러닝 학습이 가능하도록 만드는 방법론을 의미함. ㅇ 특징: 데이터 품질과 모델 성능에 직접적인 영향을 미치며, 다양한 방식(수동, 반자동, 자동, 크라우드소싱 등)이 존재함. ㅇ 적합한 경우: 모델 학습용 데이터셋 제작, 데이터 정제, 품질 검증이 필요한 경우. ㅇ 시험 함정: 라벨링 기술은
ㅁ 결측치 처리 ㅇ 정의: 데이터셋에서 누락된 값(결측치)을 적절한 방법으로 대체하거나 제거하여 분석의 정확성과 신뢰성을 높이는 과정. ㅇ 특징: – 결측치 유형(MCAR, MAR, MNAR)에 따라 처리 방법이 달라짐 – 단순 제거, 단일 대체, 다중 대체 등 다양한 기법 존재 – 잘못된 처리 시 편향(Bias)과 분산(Variance) 문제 발생 ㅇ 적합한 경우: – 데이터 분석, 모델 학습
ㅁ 이상치 탐지 기법 ㅇ 정의: 데이터셋에서 정상 범위를 벗어난 관측값(이상치)을 식별하는 통계적·알고리즘적 방법. ㅇ 특징: – 데이터 품질 향상을 위해 필수적으로 수행 – 통계적 방법, 거리 기반 방법, 머신러닝 기반 방법 등 다양함 – 도메인 지식과 결합 시 정확도 향상 ㅇ 적합한 경우: – 센서 데이터의 오류값 제거 – 금융 사기 탐지, 제조 불량
ㅁ 데이터 수집 기법 ㅇ 정의: 데이터 분석이나 머신러닝 모델 학습을 위해 다양한 출처에서 데이터를 획득하는 방법과 절차를 의미함. ㅇ 특징: – 웹, API, DB, 스트리밍 등 다양한 소스에서 수집 가능 – 데이터 품질과 형식이 제각각이므로 후속 전처리 필요 – 자동화 도구와 스크립트를 통한 반복 수집 가능 ㅇ 적합한 경우: – 분석 목적에 맞는 데이터가
ㅁ 데이터 소스 확장 ㅇ 정의: 기존 데이터 외에 새로운 데이터 소스를 발굴·추가하여 분석 품질과 범위를 확장하는 과정. ㅇ 특징: – 데이터 다양성 확보로 분석 정확도 향상 – 데이터 수집·정제 비용 증가 가능 – 실시간·비정형 데이터 포함 가능 ㅇ 적합한 경우: – 기존 데이터만으로 분석 정확도가 부족할 때 – 새로운 인사이트 발굴이 필요한 경우 ㅇ
ㅁ 강화학습 응용 ㅇ 정의: 강화학습(RL, Reinforcement Learning)의 알고리즘과 기법을 실제 문제 해결에 적용한 사례들을 의미함. 게임, 로보틱스, 자율주행, 산업 자동화 등 다양한 분야에서 사용됨. ㅇ 특징: 환경과의 상호작용을 통해 보상을 최대화하는 정책을 학습하며, 시뮬레이션 환경에서 사전 훈련한 뒤 실제 환경에 적용하는 경우가 많음. 대규모 연산 자원과 시뮬레이터, 보상 설계가 핵심. ㅇ 적합한 경우: 명확한
ㅁ AutoML ㅇ 정의: – AutoML(Automated Machine Learning)은 데이터 전처리, 모델 선택, 하이퍼파라미터 튜닝, 평가 등 머신러닝 파이프라인의 전 과정을 자동화하는 기술. – 머신러닝 전문가가 아닌 사람도 효율적으로 모델을 개발할 수 있도록 지원. ㅇ 특징: – 데이터 전처리 자동화(결측치 처리, 특성 스케일링 등) – 모델 후보 자동 탐색 및 성능 비교 – 하이퍼파라미터 최적화 자동
ㅁ AI+Edge ㅇ 정의: AI+Edge는 인공지능 모델을 클라우드가 아닌 엣지 디바이스(스마트폰, IoT 기기, 임베디드 시스템 등)에서 직접 실행하는 기술 및 아키텍처를 의미함. ㅇ 특징: – 저지연(로컬 처리) – 네트워크 불안정 환경에서도 동작 가능 – 데이터 프라이버시 강화 – 하드웨어 제약(메모리, 연산 능력)에 따른 경량화 필요 ㅇ 적합한 경우: – 실시간 영상 분석(자율주행, CCTV 분석) –
ㅁ 생성형 AI ㅇ 정의: 인공지능이 기존 데이터를 학습하여 새로운 이미지, 음성, 음악, 텍스트 등을 생성하는 기술로, 대규모 데이터셋과 딥러닝 모델을 기반으로 함. ㅇ 특징: – 비지도 또는 자기지도 학습 기반 – 창의적 콘텐츠 자동 생성 가능 – 이미지, 텍스트, 오디오 등 멀티모달 학습 적용 – 모델 학습 시 대규모 GPU 자원 필요 ㅇ 적합한