데이터 전처리: 데이터 소스 확장 – 크라우드소싱 데이터

ㅁ 데이터 소스 확장

1. 크라우드소싱 데이터

ㅇ 정의:
다수의 불특정 대중으로부터 온라인 플랫폼 등을 통해 데이터(텍스트, 이미지, 음성 등)를 수집하는 방식.

ㅇ 특징:
– 다양한 배경과 전문성을 가진 참여자로부터 데이터 확보 가능
– 빠른 데이터 수집과 비용 절감 효과
– 품질 관리가 어려울 수 있어 검증 절차 필요
– 참여자 동기 부여를 위한 보상 체계 필요

ㅇ 적합한 경우:
– 대규모 학습 데이터셋이 필요한 경우
– 특정 지역, 문화권의 데이터를 수집해야 하는 경우
– 짧은 기간 내에 다양한 형태의 데이터를 확보해야 하는 경우

ㅇ 시험 함정:
– ‘크라우드소싱 데이터’는 항상 고품질이라는 오답 유도 문장에 주의 (검증 절차 필요)
– 데이터 저작권과 개인정보보호 이슈 간과하는 문장에 주의
– ‘크라우드소싱 데이터 = 무조건 무료’라는 문장은 틀림 (보상 구조 필요)

ㅇ 시험 대비 “패턴 보기” 예시:
O: 크라우드소싱 데이터는 다양한 참여자로부터 빠르게 데이터를 수집할 수 있다.
X: 크라우드소싱 데이터는 별도의 품질 검증 없이도 항상 신뢰할 수 있다.

ㅁ 추가 학습 내용

크라우드소싱 데이터 품질 보증을 위해 골든 데이터(Golden Dataset)를 활용한 검증 절차와 다중 라벨링(Multiple Labeling) 기법이 중요하다.
크라우드소싱 플랫폼의 예로는 Amazon Mechanical Turk, CrowdFlower 등이 있으며, 각 플랫폼의 특징과 차이를 이해해야 한다.
데이터 수집 시 개인정보보호법, GDPR 등 관련 규제 준수 여부가 시험에 출제될 수 있다.
또한 크라우드소싱과 오픈데이터(Open Data)의 차이점은 비교 문제로 자주 등장한다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*