모델: 시퀀스 처리 –

ㅁ 시퀀스 처리 ㅇ 정의: 자연어 처리에서 모델이 학습하지 못한 단어(OOV, Out-Of-Vocabulary)를 대체하기 위해 사용하는 특수 토큰. ㅇ 특징: – 학습 데이터에 존재하지 않는 단어를 처리 가능하게 함. – 단어 사전 크기를 제한하여 메모리 사용량과 연산량을 줄임. – 모든 미등록 단어를 동일한 토큰으로 처리하므로 의미 손실이 발생할 수 있음. ㅇ 적합한 경우: – 사전 크기를

모델: 시퀀스 처리 –

ㅁ 시퀀스 처리 ㅇ 정의: 시퀀스 데이터(문장, 시계열 등)를 동일한 길이로 맞추기 위해 부족한 부분에 채워 넣는 특수 토큰. 주로 딥러닝 모델 입력 전처리 과정에서 사용되며, 의미 있는 정보가 아닌 자리 채움 용도로만 사용됨. ㅇ 특징: – 실제 데이터 의미와 무관하며, 모델이 이를 무시하도록 마스킹 처리 필요 – 토큰화 과정에서 미리 정의된 인덱스(예: 0번 또는

모델: 시퀀스 처리 –

ㅁ 시퀀스 처리 ㅇ 정의: 시퀀스 처리에서 (End Of Sequence) 토큰은 문장이나 시퀀스의 끝을 나타내는 특수 토큰으로, 모델이 더 이상 토큰을 생성하지 않아야 함을 알리는 역할을 한다. ㅇ 특징: – 텍스트 생성, 번역, 요약 등에서 시퀀스의 종료 시점을 명확히 구분. – 디코더가 무한히 토큰을 생성하는 것을 방지. – 학습 시 정답 문장의 끝에 항상 추가되어

모델: 시퀀스 처리 –

ㅁ 시퀀스 처리 1. ㅇ 정의: 시퀀스 데이터 처리에서 문장의 시작을 나타내는 특수 토큰(Start of Sequence)으로, 모델이 입력 또는 생성 과정에서 문장의 시작점을 인식하도록 돕는다. ㅇ 특징: – 자연어 처리(NLP)에서 주로 사용되며, 디코더 기반 모델에서 문장 생성을 시작할 때 필수적으로 포함. – 토큰 인덱스 값이 사전에 고정되어 있으며, 학습 시 항상 동일한 위치에서 등장. –

스케일링: 강건한 변환 – Z-score(Standardization)

ㅁ 강건한 변환 ㅇ 정의: 데이터의 평균과 표준편차를 사용하여 각 값을 표준 정규분포 형태로 변환하는 방법. 평균을 0, 표준편차를 1로 맞추어 스케일을 조정. ㅇ 특징: 이상치에 민감하며, 데이터가 정규분포를 따른다는 가정하에 효과적임. 모든 특성의 단위를 동일하게 맞춰 회귀, 분류 모델의 수렴 속도를 높임. ㅇ 적합한 경우: 데이터가 대체로 정규분포를 따르고 이상치의 영향이 크지 않은 경우.

데이터: 데이터 타입 및 변환 – projection head

ㅁ 데이터 타입 및 변환 1. projection head ㅇ 정의: 딥러닝, 특히 자기지도학습(self-supervised learning)이나 표현학습에서, 인코더가 생성한 임베딩을 다운스트림 태스크에 적합한 표현 공간으로 변환하는 추가 신경망 모듈. 주로 MLP 형태로 구성되며, 원본 특징 벡터를 투영(projection)하여 학습 목표에 맞는 벡터로 변환한다. ㅇ 특징: – 인코더와 분리된 모듈로, 학습 시에는 사용되지만 추론 시에는 제거되는 경우가 많음. –

데이터: 데이터 타입 및 변환 – round()

ㅁ 데이터 타입 및 변환 1. round() ㅇ 정의: 주어진 수치 데이터를 지정한 소수점 자리수로 반올림하는 Python 내장 함수. 두 번째 인자로 자리수를 지정하며, 생략 시 정수로 반올림. ㅇ 특징: – 기본적으로 “Banker’s Rounding”(짝수 쪽으로 반올림) 규칙을 사용. – 두 번째 인자에 0 또는 음수를 넣어 10단위, 100단위 반올림 가능. – float 연산의 이진 부동소수점

데이터: 데이터 타입 및 변환 – np.floor()

ㅁ 데이터 타입 및 변환 ㅇ 정의: NumPy에서 제공하는 함수로, 입력된 실수 배열의 각 원소를 내림(floor)하여 해당 값보다 작거나 같은 가장 큰 정수를 반환한다. ㅇ 특징: – 소수점 이하를 버리고 정수로 변환하되, 부호에 따라 0 방향이 아닌 음의 무한대 방향으로 내림 처리한다. – 입력이 정수형이면 변환 없이 그대로 반환한다. – 벡터화 연산이 가능하여 배열 단위로

데이터: 데이터 타입 및 변환 – np.ceil()

ㅁ 데이터 타입 및 변환 ㅇ 정의: np.ceil()은 NumPy 라이브러리에서 제공하는 함수로, 입력된 실수 값을 올림하여 가장 가까운 정수 값으로 변환하는 기능을 수행한다. ㅇ 특징: – 결과값은 float 형태로 반환되며, 소수점 이하 값이 0으로 표시된다. – 음수 값의 경우에도 절댓값 방향으로 올림 처리된다. 예: np.ceil(-1.2) → -1.0 – 배열, 리스트, 스칼라 값 모두 입력 가능하다.

데이터: 결측치 및 이상치 – Subgraph Sampling

ㅁ 결측치 및 이상치 ㅇ 정의: 그래프 데이터에서 전체 그래프가 너무 크거나 복잡할 때, 분석 또는 학습 효율성을 높이기 위해 원본 그래프의 일부 노드와 엣지를 추출하여 부분 그래프(subgraph)를 구성하는 기법. ㅇ 특징: – 대규모 그래프 처리 시 메모리와 연산량 절감. – 무작위(Random), 계층적(Hierarchical), 중요도 기반(Importance-based) 등 다양한 샘플링 전략 존재. – 샘플링 방식에 따라 원본