AI: 주요 문제

ㅁ 주요 문제 ㅇ 정의: GAN 학습 과정에서 자주 발생하는 대표적인 문제와 구성 요소를 의미하며, 생성 품질 저하나 학습 불안정성의 원인이 됨. ㅇ 특징: – 생성자와 판별자의 경쟁적 학습 구조에서 발생 – 데이터 다양성 감소, 학습 불안정, 과적합 등으로 이어질 수 있음 ㅇ 적합한 경우: – GAN 구조 및 동작 원리를 이해하고 문제 해결 방안을

AI: 핵심 개념

ㅁ 핵심 개념 1. Forward Process ㅇ 정의: 데이터에 점진적으로 가우시안 노이즈를 추가하여 원본 데이터 분포를 점차 파괴하는 과정. ㅇ 특징: – 시간 스텝에 따라 노이즈 비율이 증가. – 최종적으로 데이터가 순수 노이즈에 가까워짐. – 마코프 체인 성질을 가짐. ㅇ 적합한 경우: – 확산 모델의 학습에서 데이터 분포를 잠재 공간으로 매핑할 때. ㅇ 시험 함정:

AI: 그래프 증강 기법

ㅁ 그래프 증강 기법 ㅇ 정의: 그래프 데이터의 구조나 속성을 변형하여 모델 학습 시 일반화 성능을 높이고 과적합을 방지하는 데이터 증강 기법. ㅇ 특징: – 노드, 엣지, 속성 등을 무작위로 제거, 변경, 마스킹, 재연결하여 다양한 학습 샘플 생성 – 원본 그래프의 전반적인 구조적 특성은 유지하면서 국소적 변화를 유도 – GNN(Graph Neural Network) 학습에서 데이터 다양성

모델: 의미론적 분할/증강

ㅁ 의미론적 분할/증강 1. Random Erasing ㅇ 정의: – 학습 이미지의 임의 위치에 직사각형 영역을 선택하여 픽셀 값을 무작위로 지우거나 대체하는 데이터 증강 기법. ㅇ 특징: – 모델이 특정 위치나 패턴에 과적합되는 것을 방지. – 노이즈와 가려짐에 강인한 모델 학습 가능. ㅇ 적합한 경우: – 의료 영상에서 병변 일부가 가려지거나 누락될 수 있는 상황을 대비.

모델: 손실 마스킹

ㅁ 손실 마스킹 ㅇ 정의: 모델 학습 시 특정 토큰이나 위치의 손실(loss)을 계산에서 제외하여, 불필요하거나 의미 없는 부분이 학습에 영향을 주지 않도록 하는 기법. ㅇ 특징: – 패딩 토큰, 특수 토큰 등에 대해 손실을 무시함. – 마스킹된 위치는 역전파에 영향을 주지 않음. – 주로 시퀀스 길이가 다른 배치 데이터 처리 시 사용. ㅇ 적합한 경우:

모델: 시퀀스 처리

ㅁ 시퀀스 처리 ㅇ 정의: 시퀀스 데이터를 모델이 이해할 수 있도록 특수 토큰을 삽입하거나 패딩을 적용하는 기법. ㅇ 특징: – 자연어 처리(NLP)에서 문장의 시작과 끝, 구분, 마스크 등을 명시적으로 표시. – 입력 길이 통일을 위해 패딩 사용. – 미등록 단어 처리, 문장 분리, BERT 계열 모델의 마스킹 학습 등에 활용. ㅇ 적합한 경우: – Transformer,

스케일링: 강건한 변환

ㅁ 강건한 변환 ㅇ 정의: – 데이터의 이상치(Outlier)에 영향을 최소화하여 스케일을 조정하는 기법들의 집합. – 중앙값(Median)과 IQR(Interquartile Range) 등을 사용하여 척도를 맞춤. ㅇ 특징: – 평균과 표준편차 대신 중앙값과 사분위 범위를 사용. – 이상치가 많은 데이터셋에서도 안정적인 변환 결과 제공. ㅇ 적합한 경우: – 극단값이 존재하는 연속형 변수 처리. – 금융 데이터, 센서 데이터 등에서

데이터: 데이터 타입 및 변환

ㅁ 데이터 타입 및 변환 1. np.ceil() ㅇ 정의: – NumPy에서 제공하는 올림 함수로, 소수점 이하 값을 올려서 가장 가까운 정수로 변환한다. ㅇ 특징: – 반환값은 float 타입을 유지한다. – 음수 값도 올림 규칙에 따라 처리된다. ㅇ 적합한 경우: – 계산 결과를 초과하지 않도록 상한 보정이 필요한 경우. – 재고 수량, 페이지 수 계산 등에서

데이터: 결측치 및 이상치

ㅁ 결측치 및 이상치 1. Inter-annotator agreement ㅇ 정의: 여러 명의 주석자(annotator)가 동일한 데이터에 대해 레이블을 부여했을 때, 서로 일치하는 정도를 측정하는 지표. ㅇ 특징: – Cohen’s Kappa, Fleiss’ Kappa, Krippendorff’s Alpha 등이 대표적 – 단순 정확도 대비 우연 일치 가능성을 보정 – 0~1 범위로 나타나며, 1에 가까울수록 합의도가 높음 ㅇ 적합한 경우: – 텍스트,

데이터: 해결 기법

ㅁ 해결 기법 1. Cost-sensitive Learning ㅇ 정의: – 분류 모델 학습 시 클래스별 오분류 비용을 다르게 설정하여, 소수 클래스의 오분류에 더 큰 패널티를 부여하는 기법. ㅇ 특징: – 데이터 분포를 변경하지 않고 모델의 손실 함수에 비용 가중치를 반영. – 의사결정트리, 로지스틱 회귀, SVM 등 다양한 알고리즘에 적용 가능. ㅇ 적합한 경우: – 데이터 수집이