데이터 전처리: 도구 및 기법 – Scale AI
ㅁ 도구 및 기법
ㅇ 정의:
인공지능 학습용 데이터셋 구축을 위해 이미지, 텍스트, 오디오 등 다양한 데이터에 라벨을 부착하고 품질을 관리하는 클라우드 기반 데이터 라벨링 플랫폼. 주로 크라우드소싱과 전문 검수팀을 통해 대규모 데이터 라벨링을 지원함.
ㅇ 특징:
– API 기반으로 다양한 AI 모델 학습 파이프라인과 연동 가능
– 이미지 분류, 객체 탐지, 세그멘테이션, 텍스트 분류, 음성 전사 등 다중 데이터 타입 지원
– 품질 관리 프로세스(다중 검수, 샘플 검증) 내장
– 대규모 인력 풀을 활용한 빠른 처리 속도
ㅇ 적합한 경우:
– 자율주행, 의료 영상, NLP 등 대규모 라벨링이 필요한 프로젝트
– 데이터 품질과 처리 속도를 동시에 확보해야 하는 경우
– 사내 라벨링 인프라 구축이 어려운 스타트업 및 기업
ㅇ 시험 함정:
– 단순히 ‘데이터 라벨링 툴’로만 이해하면 오답 가능 (대규모 품질 관리 및 API 연동 기능도 강조)
– 크라우드소싱만 제공한다고 단정하면 오답 (전문 검수팀과 혼합 운영)
ㅇ 시험 대비 “패턴 보기” 예시:
O: Scale AI는 이미지, 텍스트 등 다양한 데이터 타입의 라벨링을 지원하며 품질 관리 기능을 제공한다.
X: Scale AI는 텍스트 데이터 라벨링만 지원한다.
ㅁ 추가 학습 내용
Scale AI는 단순한 데이터 라벨링 서비스가 아니라 데이터 파이프라인 전체에서 품질 관리와 효율화를 지원하는 플랫폼이다. 시험에서는 ‘크라우드소싱 기반’과 ‘전문 검수팀 운영’을 혼동하게 만드는 함정이 자주 등장하므로 주의해야 한다. 또한 Amazon SageMaker Ground Truth, Labelbox와 같은 유사 서비스와의 차이점을 비교하는 문제가 출제될 수 있다. 이를 대비해 각 서비스별 지원 데이터 타입, 품질 관리 방식, API 제공 여부를 정리해 두는 것이 필요하다.