데이터 전처리: 라벨링 기술 – 크라우드소싱

ㅁ 라벨링 기술

1. 크라우드소싱

ㅇ 정의:
다수의 불특정 대중에게 온라인 플랫폼을 통해 데이터 라벨링 작업을 분산하여 수행하는 방식.

ㅇ 특징:
– 저비용으로 대량의 라벨링 가능
– 다양한 배경을 가진 참여자 확보 가능
– 품질 편차가 발생할 수 있어 검증 절차 필요
– 빠른 처리 속도 가능

ㅇ 적합한 경우:
– 대규모 이미지, 텍스트, 음성 데이터 라벨링
– 전문성이 낮아도 수행 가능한 단순 라벨링 작업
– 단기간 내 많은 데이터 확보가 필요한 경우

ㅇ 시험 함정:
– 무조건 품질이 높다고 보기 어려움 → 검증 프로세스 필수
– 모든 유형의 데이터에 적합하지 않음(전문 지식 필요 데이터는 부적합)
– 크라우드소싱 = 무료 인력 활용이라는 잘못된 인식

ㅇ 시험 대비 “패턴 보기” 예시:
O: “크라우드소싱은 다수의 참여자를 통해 대규모 데이터 라벨링을 단기간에 수행할 수 있다.”
X: “크라우드소싱은 전문성이 높은 의료 영상 라벨링에 항상 적합하다.”

ㅁ 추가 학습 내용

크라우드소싱 라벨링 품질 관리 기법
– 다중 라벨링 후 합의: 동일 데이터에 대해 여러 참여자가 라벨을 부여한 뒤, 다수결이나 합의 알고리즘을 통해 최종 라벨 결정
– 골드 스탠다드 데이터 검증: 정답이 이미 알려진 데이터를 주기적으로 포함시켜 참여자의 정확도를 평가
– 신뢰도 점수 기반 참여자 선별: 참여자의 과거 작업 정확도나 성과를 점수화하여 일정 기준 이상인 경우에만 작업 참여 허용

대표 크라우드소싱 플랫폼
– Amazon Mechanical Turk
– Figure Eight
– 크라우드웍스

법적·윤리적 이슈
– 개인정보 보호: 수집·처리 과정에서 개인 식별 정보의 노출 방지 및 관련 법규 준수
– 저작권 문제: 라벨링 대상 데이터의 저작권 확인 및 무단 사용 방지

보상 체계 설계 방법
– 작업 난이도와 소요 시간에 따른 적정 보상 책정
– 성과 기반 인센티브 제공
– 공정하고 투명한 보상 규칙 마련

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*