효율적으로 KV cache 메모리를 관리하여 LLM을 서빙할 때 throughput(단위시간 당 처리량)을 향상시키는 PagedAttention 알고리즘과, 이를 바탕으로 빌드된 LLM 서빙 라이브러리 vLLM 소개
가독성을 위해 Figure의 순서는 포스팅의 순서대로 작성하였습니다, 논문의 순서와 다르게 작성되었습니다.
LLM을 서빙할 때에는 throughput(단위시간 당 처리량)을 증가시키는 게 중요
기존 시스템은 key-value cache(KV cache) 메모리를 관리하는 데에 어려움을 겪음, 왜냐하면 KV cache는 매 request 마다 동적으로 증가하거나 감소하기 때문에
이를 잘 관리해야 batch size를 늘리고 안정적으로 LLM을 서빙할 수 있음
저자들은 이를 해결하기 위해 PagedAttention을 제안함
이를 바탕으로 빌드된 LLM 서빙 라이브러리 vLLM을 이용하면, KV cache 메모리를 거의 낭비 없이 관리할 수 있고, 매 request 마다 유연하게 sharing 하여 메모리 사용량을 줄일 수 있음

Fig. 1

Fig. 3