검증 기법: Stratified Sampling
ㅁ 검증 기법
ㅇ 정의:
데이터셋을 학습용과 검증용으로 나누는 과정에서 각 클래스가 원래 데이터셋에서 나타나는 비율을 유지하도록 샘플링하는 기법.
ㅇ 특징:
– 데이터의 클래스 불균형 문제를 해결하는 데 유용.
– 각 클래스의 대표성을 보장하여 모델 평가의 신뢰성을 높임.
– 데이터셋의 클래스 분포를 정확히 반영함.
ㅇ 적합한 경우:
– 클래스 불균형이 있는 데이터셋을 사용하는 경우.
– 분류 문제에서 모델의 성능을 공정하게 평가하고자 할 때.
ㅇ 시험 함정:
– 단순한 랜덤 샘플링과 혼동할 수 있음.
– 클래스 비율을 유지하지 못하면 성능 평가가 왜곡될 가능성이 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
1. Stratified Sampling은 데이터셋의 클래스 비율을 유지하는 샘플링 기법이다. (O)
2. Stratified Sampling은 모든 데이터가 동일한 비율로 샘플링되는 기법이다. (X)
3. Stratified Sampling은 클래스 불균형 문제를 해결하는 데 적합하지 않다. (X)
4. Stratified Sampling은 데이터셋의 대표성을 보장한다. (O)
ㅁ 추가 학습 내용
Stratified Sampling을 사용할 때 고려해야 할 점은 다음과 같습니다:
1. 데이터셋의 클래스가 매우 적은 경우, 샘플링이 어려워질 수 있습니다. 이는 특정 클래스의 데이터가 너무 적어 대표성을 확보하기 어려운 상황을 의미합니다. 이 경우, 샘플링 과정에서 클래스 비율을 유지하기 위한 추가적인 조정이 필요할 수 있습니다.
2. Stratified Sampling이 K-Fold Cross Validation과 함께 사용될 때, 각 Fold에서도 클래스 비율을 유지해야 합니다. 이는 모델 평가의 신뢰성을 높이고, 데이터의 클래스 불균형으로 인한 편향을 최소화하기 위해 중요합니다. 각 Fold가 원본 데이터셋의 클래스 분포를 반영하도록 설계되어야 합니다.
이 두 가지 점을 염두에 두고 Stratified Sampling을 사용할 경우, 데이터의 대표성과 모델 평가의 정확성을 더욱 효과적으로 확보할 수 있습니다.