AI: 핵심 메커니즘

ㅁ 핵심 메커니즘

1. LoRA 저차원 행렬

ㅇ 정의:
– Low-Rank Adaptation의 약자로, 대규모 모델의 가중치 업데이트를 저차원 행렬로 분해하여 학습 파라미터 수를 줄이는 기법.

ㅇ 특징:
– 기존 가중치는 고정하고, 저차원 행렬만 학습.
– 메모리 사용량과 연산량 절감.
– 기존 모델 성능을 유지하면서도 빠른 파인튜닝 가능.

ㅇ 적합한 경우:
– 대규모 언어모델(LLM) 파인튜닝 시 GPU 메모리가 제한적인 경우.
– 다수의 커스터마이징 모델을 빠르게 생성해야 하는 경우.

ㅇ 시험 함정:
– 전체 가중치를 업데이트하는 방식과 혼동.
– 저차원 행렬이 원래 모델의 모든 가중치를 대체한다고 오해.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “기존 가중치는 동결하고, 저차원 행렬만 학습하는 방식이다.”
– X: “LoRA는 전체 모델 가중치를 저차원으로 변환하여 학습한다.”

2. 모듈성

ㅇ 정의:
– 모델 구성 요소를 독립적인 모듈 단위로 설계하여 필요에 따라 교체·추가·제거할 수 있는 구조적 특성.

ㅇ 특징:
– 재사용성과 확장성이 높음.
– 특정 모듈만 수정하여 다양한 기능 확장 가능.
– 유지보수 용이.

ㅇ 적합한 경우:
– 다양한 도메인에 맞춘 모델 버전 관리.
– 일부 기능만 개선하거나 교체해야 하는 프로젝트.

ㅇ 시험 함정:
– 모듈 간 강한 결합도를 허용하는 구조를 모듈성으로 오인.
– 모든 모듈이 독립적이어야만 한다고 착각.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “모듈성은 특정 기능을 담당하는 구성 요소를 독립적으로 관리하는 설계 특성이다.”
– X: “모듈성은 모든 구성 요소가 서로 완전히 무관하게 동작해야 한다.”

3. 초기화 전략

ㅇ 정의:
– 모델 학습 시작 시 가중치 값을 설정하는 방법으로, 학습 속도와 성능에 큰 영향을 미치는 기법.

ㅇ 특징:
– Xavier, He, Uniform, Normal 등 다양한 방식 존재.
– 잘못된 초기화는 학습 불안정, 발산, 수렴 지연 유발.
– 모델 구조와 활성화 함수에 따라 적합한 방법이 다름.

ㅇ 적합한 경우:
– 새로운 모델 아키텍처 설계 시.
– 기존 모델 재학습 시 수렴 문제를 해결하려는 경우.

ㅇ 시험 함정:
– 모든 초기화 방법이 모든 모델에 동일하게 적용 가능하다고 착각.
– 초기화를 무시해도 학습이 정상적으로 진행된다고 오해.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “He 초기화는 ReLU 계열 활성화 함수에 적합하다.”
– X: “Xavier 초기화는 모든 경우에 최적이다.”

ㅁ 추가 학습 내용

LoRA의 저차원 행렬에서는 랭크(rank) 값 선택이 성능과 자원 사용량에 미치는 영향을 이해해야 하며, 어댑터(Adaptor) 방식과의 차이점 및 장단점을 비교할 수 있어야 한다. 또한 미세조정 시 학습률 설정이 성능 최적화에 중요한 요소임을 숙지해야 한다.
모듈성 측면에서는 파이프라인 병렬화의 개념과 장점, 플러그인 아키텍처의 구조와 활용 사례, 인터페이스 표준화의 필요성과 효과를 이해하는 것이 중요하다.
초기화 전략에서는 각 초기화 방법의 수학적 근거를 파악하고, 활성화 함수별로 최적의 초기화 방식을 구분할 수 있어야 하며, 사전학습 모델을 사용할 때 재초기화가 필요한 경우와 그렇지 않은 경우를 판단할 수 있어야 한다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*