데이터 전처리: 도구 및 방법 – Artifact Registry
ㅁ 도구 및 방법
ㅇ 정의:
소프트웨어 빌드, 머신러닝 모델, 데이터셋 등 다양한 아티팩트를 중앙에서 저장, 관리, 배포할 수 있는 클라우드 기반 저장소 서비스. 주로 Google Cloud Artifact Registry가 대표적이며, Docker 이미지, Maven 패키지, Python 패키지 등을 지원한다.
ㅇ 특징:
– 버전별 아티팩트 관리 및 접근 제어 가능
– CI/CD 파이프라인과 통합 용이
– 보안 스캔 및 취약점 분석 기능 제공
– 다중 리포지토리 형식 지원 (Docker, npm, Maven 등)
ㅇ 적합한 경우:
– 데이터 파이프라인에서 모델 및 데이터셋 버전을 명확히 관리해야 하는 경우
– 팀 간 공유를 위해 중앙화된 안전한 저장소가 필요한 경우
– 배포 자동화를 위해 빌드 아티팩트를 안정적으로 저장 및 배포해야 하는 경우
ㅇ 시험 함정:
– Artifact Registry와 Container Registry를 혼동하는 문제 출제 가능 (Artifact Registry는 더 광범위한 형식 지원)
– 단순한 파일 저장소(예: Cloud Storage)와의 차이 혼동
– 오픈소스 아티팩트 저장소(Nexus, Artifactory)와의 기능 차이 구분 필요
ㅇ 시험 대비 “패턴 보기” 예시:
– (O) Artifact Registry는 Docker 이미지뿐만 아니라 다양한 패키지 형식을 지원한다.
– (O) Artifact Registry는 CI/CD 파이프라인과 연동이 가능하다.
– (X) Artifact Registry는 오직 Docker 이미지만 저장할 수 있다.
– (X) Artifact Registry는 버전 관리 기능이 없다.
ㅁ 추가 학습 내용
Artifact Registry는 Google Cloud에서 컨테이너 이미지, 언어별 패키지, 머신러닝 모델 등 다양한 아티팩트를 저장하고 관리하는 서비스로, 다음과 같은 주요 개념을 이해해야 한다.
1. 지역(Region) 기반 저장소 설정
Artifact Registry는 저장소를 특정 리전(Region)에 생성하여 데이터가 해당 지역 내에서만 저장되고 처리되도록 할 수 있다. 이는 지연 시간 단축, 규제 준수, 데이터 주권 확보에 유리하다. 전역(Global) 저장소 대신 리전 기반을 선택하면 네트워크 비용 및 성능에도 영향을 줄 수 있다.
2. 네트워크 보안 설정
Private: 저장소 접근을 내부 네트워크(IP 범위)에서만 허용하여 외부 인터넷 접근을 차단한다.
Private + VPC Service Controls: Private 설정에 더해 VPC Service Controls를 적용하면 프로젝트 간 데이터 유출 방지를 위한 경계(Perimeter)를 설정할 수 있어 보안이 강화된다.
3. IAM(Identity and Access Management)을 통한 접근 제어
Artifact Registry의 접근 권한은 IAM 정책으로 관리한다. 사용자, 그룹, 서비스 계정에 역할(Role)을 부여하여 읽기, 쓰기, 관리자 권한 등을 세분화할 수 있다. 예: roles/artifactregistry.reader, roles/artifactregistry.writer, roles/artifactregistry.admin.
4. 취약점 스캔 자동화
Artifact Registry는 컨테이너 이미지 업로드 시 자동으로 취약점 스캔을 수행할 수 있다. 스캔 결과는 보안 대시보드에서 확인 가능하며, 심각도에 따라 대응 방안을 마련할 수 있다.
5. Container Registry에서 Artifact Registry로의 마이그레이션
Container Registry는 이전 세대 서비스로, GCR(Google Container Registry)에서 Artifact Registry로 이전 시 저장소 위치, 권한 설정, 이미지 경로 변경이 필요하다. Artifact Registry는 다중 포맷 지원, 리전 기반 저장소, 향상된 보안 기능을 제공한다. 마이그레이션 절차에는 이미지 재태그 및 재업로드, IAM 정책 재설정이 포함될 수 있다.
6. 머신러닝 모델 버전 관리 및 통합
MLflow나 DVC와 같은 MLOps 도구와 Artifact Registry를 연계하여 모델 파일을 아티팩트로 저장하고 버전 관리할 수 있다. 이를 통해 모델 재현성과 배포 자동화를 지원한다.
7. 아티팩트 메타데이터 관리 전략
아티팩트에 태그, 버전, 라벨 등을 부여하여 검색성과 관리 효율을 높인다. 메타데이터를 표준화하면 팀 간 협업과 변경 추적이 용이해진다.