AI 모델 개발: 대표 기법
ㅁ 대표 기법
1. Pseudo Labeling
ㅇ 정의:
– 라벨이 없는 데이터에 대해 현재 모델이 예측한 값을 임시 라벨(가짜 라벨)로 사용하여 학습에 활용하는 방법.
ㅇ 특징:
– 초기 모델의 예측 정확도에 따라 성능이 크게 좌우됨.
– 간단히 구현 가능하나, 잘못된 라벨이 누적되면 성능 저하 가능.
– 점진적으로 라벨링 데이터셋을 확장하는 효과.
ㅇ 적합한 경우:
– 라벨링 데이터가 매우 적고, 비라벨 데이터가 풍부한 경우.
– 초기 모델이 어느 정도 신뢰할 수 있는 예측력을 가진 경우.
ㅇ 시험 함정:
– ‘모델의 예측을 항상 정답으로 간주한다’는 표현은 X (정확도에 따라 품질 필터링 필요).
– ‘라벨이 없는 데이터만 사용한다’는 표현은 X (라벨이 있는 데이터와 혼합 학습).
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “모델이 예측한 결과를 임시 라벨로 활용하여 추가 학습한다.”
– X: “초기 모델의 성능과 무관하게 항상 성능이 향상된다.”
2. Consistency Training
ㅇ 정의:
– 동일한 입력 데이터에 다양한 변형(노이즈, 데이터 증강 등)을 주었을 때, 모델의 예측이 일관되도록 학습시키는 방법.
ㅇ 특징:
– 데이터 증강 기법과 결합 시 효과 극대화.
– 모델의 일반화 성능 향상.
– 라벨이 없는 데이터에도 적용 가능.
ㅇ 적합한 경우:
– 데이터 품질이 일정하지 않거나, 다양한 환경에서 안정적인 예측이 필요한 경우.
ㅇ 시험 함정:
– ‘라벨이 반드시 필요한 기법’이라는 설명은 X.
– ‘입력 변형에 따라 예측이 달라지도록 한다’는 설명은 X.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “같은 데이터의 변형된 버전들에 대해 예측이 일관되도록 학습한다.”
– X: “입력 변형마다 다른 예측을 하도록 유도한다.”
3. MixMatch
ㅇ 정의:
– 라벨이 있는 데이터와 라벨이 없는 데이터를 혼합하여, 라벨이 없는 데이터에는 예측을 부드럽게(soft) 만들어 가짜 라벨을 생성하고, 강한 데이터 증강을 적용하는 준지도 학습 기법.
ㅇ 특징:
– 라벨 스무딩(Label Smoothing)과 데이터 증강을 결합.
– 라벨이 없는 데이터의 예측을 평균화하여 안정적인 학습.
– 배치 내 혼합을 통해 분포 일반화.
ㅇ 적합한 경우:
– 데이터의 다양성이 크고, 라벨이 적은 대규모 데이터셋.
ㅇ 시험 함정:
– ‘라벨이 없는 데이터에 강한 증강을 적용하지 않는다’는 설명은 X.
– ‘MixMatch는 오직 라벨이 있는 데이터만 사용한다’는 설명은 X.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “라벨 유무에 따라 다른 처리(가짜 라벨 생성, 강한 증강)를 적용하여 함께 학습한다.”
– X: “라벨이 있는 데이터만 사용하여 학습한다.”
4. Noisy Student
ㅇ 정의:
– Teacher-Student 구조를 활용하여, Teacher 모델이 라벨이 없는 데이터에 가짜 라벨을 생성하고, Student 모델이 더 많은 노이즈(증강, 드롭아웃 등)를 적용받으며 학습하는 기법.
ㅇ 특징:
– Teacher는 라벨이 있는 데이터와 없는 데이터를 모두 사용.
– Student는 Teacher보다 큰 모델일 수 있음.
– 노이즈를 통한 일반화 성능 향상.
ㅇ 적합한 경우:
– 대규모 비라벨 데이터가 있고, 모델의 일반화 성능을 극대화하려는 경우.
ㅇ 시험 함정:
– ‘Student 모델은 항상 Teacher보다 작아야 한다’는 설명은 X.
– ‘Teacher는 라벨이 없는 데이터만 사용한다’는 설명은 X.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Teacher가 생성한 가짜 라벨과 노이즈를 적용한 데이터로 Student를 학습시킨다.”
– X: “Student는 항상 Teacher보다 작은 모델이어야 한다.”
ㅁ 추가 학습 내용
Pseudo Labeling
– Confidence Threshold 설정: 모델이 예측한 확률 값이 특정 임계치 이상일 때만 해당 예측을 가짜 라벨로 사용. 임계치는 일반적으로 0.8~0.95 범위에서 실험적으로 결정.
– 잘못된 라벨 전파 방지 전략: 높은 임계치 설정, 학습 초반에는 소량의 가짜 라벨만 사용, 예측 확률 분포 분석 후 불확실성이 높은 샘플 제외, Teacher 모델 활용.
Consistency Training
– 대표적인 데이터 증강 기법: Gaussian Noise(입력에 작은 잡음 추가), Random Crop(이미지 일부를 무작위로 잘라 확대), Cutout(이미지의 일부 영역을 마스킹).
– 적용 시 주의점: 증강 강도가 너무 높으면 원본 의미가 손실되어 학습 성능 저하 가능, 데이터 특성에 맞게 증강 기법 선택, 증강 전후 데이터 분포 일관성 유지.
MixMatch
– Temperature Sharpening: 예측 확률 분포를 온도 매개변수로 조정하여 더 뾰족한 분포로 변환, 불확실한 예측을 줄이고 confident한 라벨 생성.
– 라벨 스무딩과 차이점: Temperature Sharpening은 분포를 더 날카롭게 만드는 반면, 라벨 스무딩은 분포를 더 평탄하게 하여 과적합 방지.
Noisy Student
– Iterative Training 구조: Teacher 모델이 라벨이 없는 데이터에 가짜 라벨 부여 → Student 모델이 원본 데이터와 가짜 라벨 데이터를 함께 학습 → Student 모델을 새로운 Teacher로 교체하여 반복.
– 성능 향상 메커니즘: Teacher보다 더 큰 Student 모델 사용, 데이터 증강으로 일반화 성능 향상, 반복 학습을 통해 점진적으로 정확한 라벨 생성.
준지도 학습 기법 비교 표(예시)
– Pseudo Labeling: 데이터 요구량 적음, 계산 자원 적음, 이미지·텍스트 등 범용, 잘못된 라벨 전파 위험.
– Consistency Training: 데이터 요구량 중간, 계산 자원 중간, 이미지·음성 등 시그널 데이터에 강점, 증강 설계 중요.
– MixMatch: 데이터 요구량 중간, 계산 자원 중간~높음, 이미지 도메인 성능 우수, 구현 복잡도 있음.
– Noisy Student: 데이터 요구량 많음, 계산 자원 높음, 대규모 이미지·음성에서 효과적, 반복 학습 시간 소요.
최근 발전형 기법
– FixMatch: Pseudo Labeling과 Consistency Regularization 결합, 강한 증강 후에도 예측이 일정하면 라벨 확정, 단순 구조로 높은 성능.
– UDA(Unsupervised Data Augmentation): 강한 데이터 증강을 통한 Consistency Training, 라벨 없는 데이터의 의미 보존 강조, 다양한 도메인 적용 가능.
– 기존 기법과 차이점: 증강 강도와 품질을 적극 활용, 불필요한 복잡도 줄이고 단순 규칙 기반으로 높은 성능 달성.