KV Cache是什么?为什么会有KV Cache?
在以Transformer架构的模型推理阶段,KV Cache是一种为了大幅提升大语言模型(LLM)生成速度而采用的关键技术,核心目标是:避免在生成一个新的Token时,重复计算之前已经生成过的Token的注意力信息。 1 KV Cache是什么? 在Transformer模型中,注意力机制的核心公…
- 面试题
- 2026-04-07
PagedAttention是什么?
PagedAttention是vLLM团队提出的一种内存管理机制,它借鉴了现代操作系统中虚拟内存(Virtual Memory)和分页(Paging)的设计思想。 1 为什么需要PagedAttention? 在传统的KV Cache实现中,我们通常需要预先为每个序列分配一块连续的显存空间,其大小通…
- 面试题
- 2026-04-07