ㅁ 패딩 및 배치 처리 ㅇ 정의: 서로 길이가 다른 시퀀스 데이터를 길이에 따라 그룹화하여 동일한 길이의 배치로 처리하는 기법. ㅇ 특징: – 동일하거나 유사한 길이의 데이터끼리 묶어 패딩 양을 최소화. – 메모리 사용 효율과 학습 속도 향상. – RNN, Transformer 등 시퀀스 모델에서 자주 사용. ㅇ 적합한 경우: – 문장 길이가 다양하고, 패딩으로 인한
ㅁ 패딩 및 배치 처리 ㅇ 정의: – Dynamic Padding은 입력 데이터의 길이에 맞춰 배치 내에서만 패딩 길이를 동적으로 조정하는 기법으로, 불필요한 패딩 연산을 줄여 메모리와 연산 효율을 높인다. ㅇ 특징: – 배치마다 최대 시퀀스 길이를 기준으로 패딩 적용 – 전체 데이터셋의 최대 길이를 기준으로 하지 않으므로 메모리 절약 – RNN, Transformer 등 시퀀스 모델
ㅁ 토큰 및 임베딩 특수 처리 ㅇ 정의: 텍스트를 모델이 처리하기 쉬운 단위로 분리하기 위해 자주 등장하는 문자 쌍을 반복적으로 병합하는 서브워드 토크나이징 기법. 원래 데이터 압축 알고리즘에서 유래했으며, 희귀 단어를 더 작은 단위로 분해하여 어휘 사전을 효율적으로 구성. ㅇ 특징: – 자주 등장하는 문자 쌍을 병합하여 어휘를 확장. – 희귀 단어를 서브워드 단위로 분해해
ㅁ 토큰 및 임베딩 특수 처리 1. SentencePiece ㅇ 정의: 구글에서 개발한 언어 독립적인 서브워드 토크나이저로, 공백이나 언어 규칙에 의존하지 않고 텍스트를 서브워드 단위로 분할하는 기법. ㅇ 특징: – 공백을 포함한 모든 문자를 동일하게 처리하여 언어별 전처리 불필요. – BPE(Byte Pair Encoding)와 Unigram Language Model 두 가지 알고리즘 지원. – 학습 시 어휘 사전을 직접
ㅁ 토큰 및 임베딩 특수 처리 ㅇ 정의: 문장의 토큰 임베딩에 위치 정보를 부드럽게 주입하기 위해 각 차원별로 회전 변환을 적용하는 기법으로, Transformer의 Self-Attention에서 위치 인코딩의 한 형태로 사용됨. ㅇ 특징: – 절대 위치 인코딩이 아닌 상대적 위치 관계를 보존. – 사인/코사인 함수를 사용하여 임베딩 벡터의 일부 차원을 회전시킴. – 긴 문장에서도 일반화 성능이 좋음.
ㅁ 토큰 및 임베딩 특수 처리 ㅇ 정의: 토큰 시퀀스 내에서 위치 정보를 절대값이 아닌 상대적인 거리로 표현하는 임베딩 기법으로, 문장 길이에 관계없이 토큰 간 상대적 순서를 모델에 전달한다. ㅇ 특징: – 입력 길이가 달라도 동일한 상대 거리 패턴을 학습 가능 – 긴 문장 처리 시 절대 위치 인덱스보다 일반화 성능이 높음 – 트랜스포머의 Self-Attention에
ㅁ 데이터 증강 ㅇ 정의: 기존 데이터셋의 불균형 문제를 해결하기 위해 소수 클래스의 데이터를 인위적으로 생성하여 데이터 분포를 균형 있게 만드는 기법. ㅇ 특징: – 주로 분류 문제에서 클래스 불균형을 해소하기 위해 사용됨. – 원본 데이터의 특성을 유지하면서 새로운 데이터를 합성. – 데이터의 다양성을 높여 모델의 일반화 성능 향상. ㅇ 적합한 경우: – 소수 클래스
ㅁ 편향 및 공정성 ㅇ 정의: 모집단을 대표하지 못하는 표본 추출 틀(Sampling Frame)에서 발생하는 편향으로, 표본이 특정 집단에 과도하게 치우치거나 누락되는 현상. ㅇ 특징: – 표본 추출 대상 목록이 불완전하거나 특정 그룹이 과대/과소 대표됨 – 데이터 수집 단계에서 이미 발생하므로 사후 보정이 어려움 – 전화 설문, 온라인 설문 등에서 특정 인구 집단이 배제될 수 있음
ㅁ 편향 및 공정성 ㅇ 정의: 데이터 수집, 측정, 기록 과정에서 발생하는 부정확성으로 인해 실제 값과 관측 값이 차이가 나는 현상. ㅇ 특징: – 센서 오작동, 설문 응답 오류, 데이터 입력 실수 등 다양한 원인으로 발생. – 체계적 오류(Systematic Error)와 무작위 오류(Random Error)로 구분 가능. – AI 모델 학습 시 데이터 품질 저하로 이어져 예측
ㅁ 편향 및 공정성 1. Proxy Bias ㅇ 정의: 실제로는 사용하지 않으려는 민감 속성(예: 성별, 인종 등)과 높은 상관관계를 가지는 다른 변수를 사용함으로써, 의도치 않게 민감 속성이 모델에 반영되는 편향 현상. ㅇ 특징: – 민감 속성을 직접 제거하더라도, 대리 변수(Proxy)가 존재하면 동일한 차별 효과가 나타날 수 있음. – 데이터 수집 과정에서 은연중에 포함된 변수들이 문제를