AI 모델 개발: 대형 모델 환경 – Open-source FM
ㅁ 대형 모델 환경
1. Open-source FM
ㅇ 정의:
공개적으로 접근 가능하며, 모델 가중치와 아키텍처, 학습 코드가 모두 공개된 파운데이션 모델(Foundation Model)을 의미한다. 누구나 다운로드, 수정, 재학습, 배포가 가능하다.
ㅇ 특징:
– 투명성: 모델 구조와 학습 데이터셋 정보가 공개되어 검증 가능
– 커스터마이징 용이: 특정 도메인에 맞춰 파인튜닝 가능
– 커뮤니티 주도 개선: 전 세계 개발자와 연구자가 공동 개선
– 라이선스 제약: 오픈소스 라이선스 유형에 따라 상업적 이용 가능 여부가 달라짐
ㅇ 적합한 경우:
– 연구 목적의 실험 및 검증이 필요한 경우
– 특정 산업/도메인에 맞춘 맞춤형 모델 개발이 필요한 경우
– 예산 제약이 있어 상용 API 사용이 어려운 경우
ㅇ 시험 함정:
– ‘오픈소스’라고 해서 반드시 무료라는 것은 아님 (라이선스 조건 확인 필요)
– 모든 데이터셋이 공개된 것은 아님 (민감 데이터는 비공개일 수 있음)
– 상용 서비스에 바로 적용 가능한 수준이라고 단정하기 어려움
ㅇ 시험 대비 “패턴 보기” 예시:
O: “오픈소스 FM은 모델 가중치와 구조를 공개하여 누구나 재학습 가능하다.”
X: “오픈소스 FM은 모든 경우에 상업적 사용이 자유롭다.”
ㅁ 추가 학습 내용
오픈소스 FM 학습 시 알아야 할 핵심 내용 정리
1. 주요 예시 모델과 공개 범위
– Meta의 LLaMA(일부 조건부 공개), MPT, Falcon, BLOOM 등이 대표적이다.
– 각 모델은 라이선스와 사용 제한 조건이 다르므로 반드시 확인해야 한다.
2. 오픈소스 FM의 리스크
– 학습 데이터의 저작권 문제
– 데이터 및 모델의 편향성
– 보안 취약성
– 시험에서는 이러한 한계와 이를 완화하거나 대응하는 방안을 묻는 경우가 많다.
3. 클로즈드 모델과의 비교
– 성능, 유지보수, 커뮤니티 지원 측면에서 차이가 존재한다.
– 상용 API 기반 클로즈드 모델과 비교 분석할 수 있어야 한다.
4. 적용 가능한 기술
– Fine-tuning 기법: LoRA, PEFT 등
– 경량화 방법: Quantization, Distillation 등
– 오픈소스 FM에 이러한 기법을 적용한 사례가 자주 출제된다.