모델: 시퀀스 처리

ㅁ 시퀀스 처리 ㅇ 정의: 시퀀스 데이터를 모델이 이해할 수 있도록 특수 토큰을 삽입하거나 패딩을 적용하는 기법. ㅇ 특징: – 자연어 처리(NLP)에서 문장의 시작과 끝, 구분, 마스크 등을 명시적으로 표시. – 입력 길이 통일을 위해 패딩 사용. – 미등록 단어 처리, 문장 분리, BERT 계열 모델의 마스킹 학습 등에 활용. ㅇ 적합한 경우: – Transformer,

스케일링: 강건한 변환

ㅁ 강건한 변환 ㅇ 정의: – 데이터의 이상치(Outlier)에 영향을 최소화하여 스케일을 조정하는 기법들의 집합. – 중앙값(Median)과 IQR(Interquartile Range) 등을 사용하여 척도를 맞춤. ㅇ 특징: – 평균과 표준편차 대신 중앙값과 사분위 범위를 사용. – 이상치가 많은 데이터셋에서도 안정적인 변환 결과 제공. ㅇ 적합한 경우: – 극단값이 존재하는 연속형 변수 처리. – 금융 데이터, 센서 데이터 등에서

데이터: 데이터 타입 및 변환

ㅁ 데이터 타입 및 변환 1. np.ceil() ㅇ 정의: – NumPy에서 제공하는 올림 함수로, 소수점 이하 값을 올려서 가장 가까운 정수로 변환한다. ㅇ 특징: – 반환값은 float 타입을 유지한다. – 음수 값도 올림 규칙에 따라 처리된다. ㅇ 적합한 경우: – 계산 결과를 초과하지 않도록 상한 보정이 필요한 경우. – 재고 수량, 페이지 수 계산 등에서

데이터: 결측치 및 이상치

ㅁ 결측치 및 이상치 1. Inter-annotator agreement ㅇ 정의: 여러 명의 주석자(annotator)가 동일한 데이터에 대해 레이블을 부여했을 때, 서로 일치하는 정도를 측정하는 지표. ㅇ 특징: – Cohen’s Kappa, Fleiss’ Kappa, Krippendorff’s Alpha 등이 대표적 – 단순 정확도 대비 우연 일치 가능성을 보정 – 0~1 범위로 나타나며, 1에 가까울수록 합의도가 높음 ㅇ 적합한 경우: – 텍스트,

데이터: 해결 기법

ㅁ 해결 기법 1. Cost-sensitive Learning ㅇ 정의: – 분류 모델 학습 시 클래스별 오분류 비용을 다르게 설정하여, 소수 클래스의 오분류에 더 큰 패널티를 부여하는 기법. ㅇ 특징: – 데이터 분포를 변경하지 않고 모델의 손실 함수에 비용 가중치를 반영. – 의사결정트리, 로지스틱 회귀, SVM 등 다양한 알고리즘에 적용 가능. ㅇ 적합한 경우: – 데이터 수집이

데이터: 샘플링 기법

ㅁ 샘플링 기법 1. 비례할당 표본추출 ㅇ 정의: 모집단을 여러 계층으로 나눈 후 각 계층의 크기에 비례하여 표본을 추출하는 방식. ㅇ 특징: – 각 계층의 비율이 모집단과 동일하게 유지됨 – 표본 대표성이 높음 – 표본 오차를 줄일 수 있음 ㅇ 적합한 경우: – 계층별 구성 비율이 중요한 경우 – 전체 모집단의 비율을 그대로 반영해야 하는

데이터: 데이터 편향 유형

ㅁ 데이터 편향 유형 1. 선택 편향 ㅇ 정의: 표본을 선택하는 과정에서 모집단을 대표하지 못하는 데이터가 수집되어 발생하는 편향. ㅇ 특징: 표본 추출 단계에서 특정 집단이 과대 또는 과소 대표됨. 무작위 추출이 아닌 자발적 참여, 특정 채널 모집 등에서 빈번히 발생. ㅇ 적합한 경우: 실제 분석에서는 피해야 하며, 실험 설계 시 발생 가능성을 사전에 점검할

AI 트렌드: 주요 과제

ㅁ 주요 과제 1. AI 투명성 ㅇ 정의: – AI 시스템의 의사결정 과정, 데이터 사용 방식, 모델 구조 등을 이해 가능하게 공개하는 것. ㅇ 특징: – 데이터 출처, 알고리즘 로직, 모델 성능 지표 등을 문서화. – 이해관계자가 결과를 해석할 수 있도록 정보 제공. ㅇ 적합한 경우: – 금융, 의료 등 규제 산업에서 신뢰 확보 필요

AI 트렌드: 융합/응용

ㅁ 융합/응용 ㅇ 정의: 기호 기반(Symbolic) 접근과 신경망(Neural Network) 기반 접근을 결합하여 복잡한 문제 해결에 활용하는 방식. ㅇ 특징: – 규칙 기반 추론과 패턴 인식의 장점을 동시에 활용 – 데이터 기반 학습과 지식 기반 추론의 상호 보완 – 설명 가능성과 일반화 능력 향상 ㅇ 적합한 경우: – 복잡한 규칙과 불확실성이 혼재된 문제 – 데이터가 제한적이지만

AI 트렌드: 구성/활용법

ㅁ 구성/활용법 1. Agentic AI ㅇ 정의: – 스스로 목표를 설정하고 계획을 세워 실행하며, 환경 변화에 따라 적응하는 AI 시스템. – 단순 질의응답형 LLM과 달리 장기적 과업 수행과 의사결정이 가능. ㅇ 특징: – 자율성(Autonomy), 목표 지향성(Goal-Oriented), 환경 인식(Context Awareness), 실행 능력(Action Execution). – 외부 도구와 API를 호출하여 작업을 완수. ㅇ 적합한 경우: – 복잡한 문제