AI: PEFT/Fine-tuning – Adapter Layers

ㅁ PEFT/Fine-tuning 1. Adapter Layers ㅇ 정의: 사전 학습된 모델의 원본 파라미터를 고정한 채, 중간 계층에 소규모의 추가 모듈(어댑터)을 삽입하여 특정 작업에 맞게 미세 조정하는 방법. ㅇ 특징: – 원본 모델의 가중치는 변경하지 않고, 어댑터 모듈만 학습하여 메모리와 연산량을 절감. – 다양한 다운스트림 태스크에 빠르게 적용 가능. – 원본 모델 재사용성이 높으며, 태스크별 어댑터만 저장하면

AI: PEFT/Fine-tuning – LoRA

ㅁ PEFT/Fine-tuning ㅇ 정의: 사전 학습된 대규모 언어 모델(LLM)의 전체 파라미터를 업데이트하지 않고, 특정 레이어에 저랭크 행렬(LoRA 모듈)을 추가하여 효율적으로 미세 조정하는 방법. ㅇ 특징: – 전체 모델 파라미터는 고정(freeze)하고, 추가된 저랭크 행렬만 학습. – GPU 메모리 사용량과 학습 시간 절감. – 원본 모델 성능 유지하면서 새로운 태스크에 적응 가능. – 기존 파라미터를 변경하지 않으므로

AI: 사전학습/언어모델 기법/토큰/Task – Document Rotation

ㅁ 사전학습/언어모델 기법/토큰/Task 1. Document Rotation ㅇ 정의: 문서 단위의 입력 데이터를 일정 규칙에 따라 순서를 회전시키거나 시작 위치를 변경하여 모델이 문맥 전반을 학습하도록 돕는 데이터 증강 기법. ㅇ 특징: – 동일한 문서를 다양한 시작점에서 학습시켜 문서 내 전후 관계에 대한 일반화 능력 향상 – 문서 길이가 길어질수록 효과가 큼 – Transformer 기반 언어모델의 positional

AI: 사전학습/언어모델 기법/토큰/Task – Text Infilling

ㅁ 사전학습/언어모델 기법/토큰/Task ㅇ 정의: 문장 내 일부 연속된 토큰 구간을 마스킹하고, 모델이 해당 공백을 채우도록 학습시키는 언어모델 사전학습 기법. 단어 단위뿐 아니라 문장 일부를 통째로 예측하게 하여 문맥 이해 능력을 강화한다. ㅇ 특징: – 연속된 토큰 블록 단위 마스킹 – 시작/끝 위치를 포함한 문맥 기반 예측 – BERT의 Masked Language Model과 유사하지만, 단일 토큰이

AI: 사전학습/언어모델 기법/토큰/Task – NSP

ㅁ 사전학습/언어모델 기법/토큰/Task 1. NSP ㅇ 정의: Next Sentence Prediction의 약자로, BERT 등의 사전학습에서 두 문장이 연속되는지 여부를 예측하는 이진 분류 태스크. ㅇ 특징: – 입력으로 두 문장을 [SEP] 토큰으로 구분하여 제공. – 50%는 실제 연속 문장, 50%는 랜덤 문장 조합. – 문맥 이해와 문장 간 관계 학습에 도움. – BERT pre-training의 두 번째 목표(첫

AI: 사전학습/언어모델 기법/토큰/Task – MLM

ㅁ 사전학습/언어모델 기법/토큰/Task 1. MLM ㅇ 정의: Masked Language Model의 약자로, 입력 문장에서 일부 토큰을 [MASK] 토큰으로 가리고, 모델이 해당 가려진 토큰을 예측하도록 학습하는 언어모델 기법. BERT 계열 모델에서 대표적으로 사용됨. ㅇ 특징: – 입력의 양방향 문맥을 모두 활용 가능하여 문장 이해 성능이 높음. – 전체 토큰 중 일정 비율(예: 15%)을 마스킹하여 학습. – 마스킹된

AI: 사전학습/언어모델 기법/토큰/Task – Span Masking

ㅁ 사전학습/언어모델 기법/토큰/Task ㅇ 정의: 문장에서 연속된 여러 토큰(Span)을 선택하여 마스킹하고, 모델이 해당 구간을 예측하도록 학습시키는 기법. 단어 단위뿐 아니라 구나 문장 일부를 통으로 가리기 때문에 문맥 이해와 긴 의존성 학습에 유리하다. ㅇ 특징: – 단일 토큰 마스킹보다 더 긴 문맥 단위 예측이 가능 – Span 길이는 고정 또는 확률분포 기반으로 랜덤 설정 가능 –

AI: 사전학습/언어모델 기법/토큰/Task – Dynamic masking

ㅁ 사전학습/언어모델 기법/토큰/Task ㅇ 정의: – Dynamic masking은 언어모델 사전학습 시 입력 토큰의 마스킹 위치를 학습 과정에서 매번 다르게 설정하는 기법으로, 동일한 문장이라도 반복 학습 시 다른 토큰이 마스킹되어 모델이 다양한 문맥 예측 능력을 학습하도록 한다. ㅇ 특징: – 고정 마스킹(static masking)과 달리 학습 데이터의 다양성을 높임. – 마스킹 패턴이 반복되지 않아 overfitting을 방지. –

AI: Contrastive/Self-supervised 학습 – downstream task

ㅁ Contrastive/Self-supervised 학습 ㅇ 정의: 라벨이 없는 데이터에서 표현(representation)을 학습한 뒤, 이를 활용해 다른 목적의 지도학습이나 예측 문제에 적용하는 학습 방식. Contrastive 학습은 서로 다른 샘플을 구분하고, Self-supervised는 데이터 자체에서 생성한 레이블로 사전학습함. ㅇ 특징: – 대규모 비라벨 데이터 활용 가능 – 사전학습(pre-training)과 전이학습(transfer learning)의 핵심 – 다운스트림 태스크에서 적은 라벨 데이터로도 높은 성능 가능

AI: Contrastive/Self-supervised 학습 – pretext task

ㅁ Contrastive/Self-supervised 학습 ㅇ 정의: 레이블이 없는 데이터에서 인공적으로 생성한 학습 과제를 통해 유용한 표현을 학습하는 방식. 주어진 데이터로부터 입력 쌍을 만들거나 변형을 가해 모델이 특정 관계를 구분하도록 학습시킨다. ㅇ 특징: – 데이터 라벨링 비용 절감 – 다양한 도메인에 적용 가능 – 다운스트림 태스크 성능 향상에 기여 – 데이터 증강 기법과 밀접한 관련 ㅇ 적합한