데이터 전처리: 라벨링 방법 – 수동 라벨링
ㅁ 라벨링 방법
ㅇ 정의:
사람이 직접 데이터(이미지, 텍스트, 음성 등)에 적절한 라벨을 부여하는 방식으로, 주로 전문 지식이나 맥락 이해가 필요한 경우 사용됨.
ㅇ 특징:
– 정확도가 높으나 시간과 비용이 많이 소요됨
– 대규모 데이터셋 구축에는 비효율적일 수 있음
– 도메인 전문가가 참여하면 품질이 향상됨
ㅇ 적합한 경우:
– 데이터의 복잡성이 높아 자동화가 어려운 경우
– 초기 모델 학습을 위한 고품질 데이터셋이 필요한 경우
– 소량의 데이터로도 높은 정확도가 요구되는 경우
ㅇ 시험 함정:
– ‘수동 라벨링’을 ‘자동 라벨링’과 혼동하는 문제
– 비용과 시간 효율성 측면에서 오답 유도
– 크라우드소싱 라벨링과 동일시하는 함정
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “전문가가 직접 데이터에 라벨을 부여하는 방식은 정확도가 높다.”
– X: “수동 라벨링은 항상 대규모 데이터셋 구축에 효율적이다.”
– O: “수동 라벨링은 초기 학습 데이터셋 구축에 적합하다.”
– X: “수동 라벨링은 자동화된 알고리즘을 통해 수행된다.”
ㅁ 추가 학습 내용
수동 라벨링 추가 학습 정리
1. 크라우드소싱 기반 수동 라벨링
– Amazon Mechanical Turk, CrowdFlower 등 플랫폼을 활용하여 다수의 비전문가가 라벨링 수행
– 품질 관리 방법: 다중 검증(여러 명이 같은 데이터 라벨링), 합의 방식(다수 의견 채택)
2. 수동 라벨링 품질 관리 기법
– 라벨링 가이드라인을 문서화하여 일관성 확보
– 라벨러 간 일치도 측정: Kappa 계수 활용
3. 하이브리드 라벨링
– 수동 라벨링과 자동 라벨링을 결합
– 효율성과 품질을 동시에 확보 가능
4. 편향(Bias) 문제와 최소화 방법
– 라벨러의 주관이나 선입견으로 인한 편향 가능
– 최소화 방법: 라벨러 교육, 블라인드 라벨링(불필요한 정보 제거)
5. 시험 대비 포인트
– 정확도와 효율성의 트레이드오프를 이해
– 수동 라벨링의 장점: 높은 정확도, 세밀한 작업 가능
– 수동 라벨링의 단점: 시간과 비용이 많이 소요, 대규모 데이터 처리 어려움