读论文:Distributed LLM Serving Scheduling
0. Background
不同工作负载 prompts/response token
数之比、共享前缀比例、共享一个前缀的 request 数量:
关键问题:实现最大 KV Cache 复用与 GPU 间负载均衡
Load balance ratio(CV) is: \[
CV = \frac{ \sqrt{ \frac{1}{n} \sum_{i=1}^{n}{\le