데이터 전처리: 도구 및 기법 – Diffgram
ㅁ 도구 및 기법
ㅇ 정의:
데이터 라벨링 작업을 지원하는 오픈소스 플랫폼으로, 이미지, 비디오, 텍스트 등 다양한 데이터 유형에 대해 협업 라벨링과 품질 관리 기능을 제공함.
ㅇ 특징:
– 웹 기반 UI로 라벨링 작업을 시각적으로 지원
– 프로젝트별 사용자 권한 관리 및 작업 할당 가능
– API를 통한 자동화 라벨링 및 외부 시스템 연동 지원
– 라벨링 품질 검증 및 통계 리포트 제공
ㅇ 적합한 경우:
– 다수의 라벨러가 참여하는 대규모 데이터 라벨링 프로젝트
– 이미지, 비디오, 텍스트 등 멀티모달 데이터 라벨링이 필요한 경우
– 라벨링 품질 관리와 진행 상황 모니터링이 중요한 경우
ㅇ 시험 함정:
– Diffgram은 상용 SaaS만 제공한다고 오답 유도 → 오픈소스 버전도 존재함
– 특정 데이터 유형(예: 이미지)만 지원한다고 오답 유도 → 다양한 데이터 유형 지원
– 단순 라벨링 도구로만 이해 → API, 자동화, 품질 관리 기능도 포함
ㅇ 시험 대비 “패턴 보기” 예시:
O: Diffgram은 이미지, 비디오, 텍스트 라벨링을 지원하며 협업 기능을 제공한다.
X: Diffgram은 단일 사용자가 오프라인에서만 사용할 수 있는 이미지 전용 라벨링 툴이다.
ㅁ 추가 학습 내용
Diffgram은 라벨링 데이터셋의 버전 관리 기능을 제공하며, 모델 학습과 연계하기 위해 자동화 파이프라인을 구성할 수 있다. COCO, Pascal VOC 등 다양한 라벨 포맷을 지원하고, 작업자별 성과 분석 및 품질 점수화 기능을 제공한다. 시험에서는 Label Studio, Supervisely 등 유사 라벨링 도구와의 차이점을 묻는 문제가 출제될 수 있으므로, 기능 비교표를 준비하는 것이 중요하다.