효율적으로 KV cache 메모리를 관리하여 LLM을 서빙할 때 throughput(단위시간 당 처리량)을 향상시키는 PagedAttention 알고리즘과, 이를 바탕으로 빌드된 LLM 서빙 라이브러리 vLLM 소개

가독성을 위해 Figure의 순서는 포스팅의 순서대로 작성하였습니다, 논문의 순서와 다르게 작성되었습니다.

Abstract

LLM을 서빙할 때에는 throughput(단위시간 당 처리량)을 증가시키는 게 중요
기존 시스템은 key-value cache(KV cache) 메모리를 관리하는 데에 어려움을 겪음, 왜냐하면 KV cache는 매 request 마다 동적으로 증가하거나 감소하기 때문에
이를 잘 관리해야 batch size를 늘리고 안정적으로 LLM을 서빙할 수 있음
저자들은 이를 해결하기 위해 PagedAttention을 제안함
이를 바탕으로 빌드된 LLM 서빙 라이브러리 vLLM을 이용하면, KV cache 메모리를 거의 낭비 없이 관리할 수 있고, 매 request 마다 유연하게 sharing 하여 메모리 사용량을 줄일 수 있음
- 각 request 마다 메모리를 줄인다는 의미는 결국 batch size를 늘려 LLM에 넘길 수 있다는 의미이고, 이는 throughput이 증가할 수 있게 됨

Introduction

LLM의 text generation 연산은 autoregressive 방식이므로, memory-bound 하다 (batch size를 증가시키면 throughput도 증가한다)
- memory-bound ?

Fig. 1

Fig. 1

throughput을 증가시키기 위해, 이전 key-value states를 캐싱하는 개념인 KV cache가 등장
하지만 KV cache도 GPU 메모리를 잡아먹는 텐서이고, 이를 효율적으로 관리하지 못할 경우 throughput은 제한됨 (Fig. 1)

Fig. 3

Fig. 3

기존 LLM 서빙 시스템은 KV cache를 연속적인 메모리 공간에 저장했음