개요

<aside> 💡 LM의 크기(파라미터 수)가 커짐에 따라 로컬 GPU에서 학습을 돌리지 못하는 경우가 많음 따라서, 작은 GPU에서도 LLM을 Fine-tuning할 수 있는 방법이 필요함!

</aside>

Performance and Scalability

Untitled

1. Batch size choice

2. Gradient Accumulation

3. Gradient Checkpointing