LLM 학습 경량화

개요

<aside> 💡 LM의 크기(파라미터 수)가 커짐에 따라 로컬 GPU에서 학습을 돌리지 못하는 경우가 많음 따라서, 작은 GPU에서도 LLM을 Fine-tuning할 수 있는 방법이 필요함!

</aside>

Untitled

최적의 성능을 달성하려면 적절한 배치 크기를 결정해야함.
2^N 크기의 배치 크기와 입력/출력 뉴런 수를 사용하는 것이 권장되며, 보통 8의 배수를 사용하지만, 사용하는 하드웨어와 모델의 dtype에 따라 더 높은 배수를 사용할 수 있음.
NVIDIA의 입력/출력 뉴런 수 및 배치 크기 권장사항

Linear/Fully-Connected Layers User's Guide
Tensor Core Requirements

Matrix Multiplication Background User's Guide
- fp16 데이터 유형의 경우 8의 배수가 권장됨.
- 다만, A100 GPU인 경우 64의 배수가 권장됨.

적용예시💻

from transformers import TrainingArguments

training_args = TrainingArguments(per_device_train_batch_size=8, **default_args)

gradient_accumulation_steps 설정은 모델 훈련시 배치에 대한 gradient를 즉시 업데이트하는 대신, 여러 step에 걸쳐 gradient를 누적한 후에 한번에 업데이트는 방식을 정의함.
장점👍
- 큰 배치 크기 효과: 실제 물리적 배치 크기는 제한되어 있지만, gradient_accumulation_steps를 증가시킴으로써 더 큰 배치 크기의 효과를 낼 수 있음.
- 메모리 효율성 증가 : 더 큰 배치 크기를 사용하는 것과 유사한 효과를 내면서도, 각 step에서 처리하는 실제 데이터 양은 작게 유지되므로 GPU 메모리 사용량을 줄일 수 있음.
- 모델 성능 및 안정성 개선: 더 큰 배치 크기 효과로 인한 이점을 통해 모델의 성능이 향상되고, 훈련 과정이 더 안정적으로 진행됨. 큰 배치 크기는 gradient update의 분산을 줄여주며, 이는 일반적으로 더 안정적인 최적화 과정으로 이어짐.
주의사항‼️
- 훈련 시간: gradient accumulation은 실제 update가 더 드물게 일어나므로, 같은 수의 epoch을 완료하는 데에 더 긴 시간이 소요될 수 있음.
- 하이퍼파라미터 조정: gradient_accumulation_steps를 변경하면 learning_rate와 같은 다른 하이퍼파라미터의 재조정이 필요할 수 있음.

적용예시💻

training_args = TrainingArguments(per_device_train_batch_size=8, gradient_accumulation_steps=4, **default_args)

gradeint_checkpointing_enable()은 메모리 집약적인 대규모 모델의 훈련시 메모리 효율성을 크게 향상시키는 기법인 Gradient Checkpointing을 활성화함.
표준 backpropagation에서 gradient를 계산하기 위해, 신경망은 forward pass 동안 activations를 저장하고 backward pass에서 gradient를 계산하는 데에 사용됨.
하지만 많은 레이어를 가진 deep network에서 이 activations를 모두 저장하는 것은 상당한 양의 메모리를 소비할 수 있음