vLLM 发布了 v0.9.1 版本,新增 Magistral 模型支持、FlexAttention 支持等多项功能,并介绍了与 Inference Gateway (IGW) 共同设计的新型 Kubernetes 原生高性能分布式 LLM 推理框架 llm-d。 vLLM 最初由加州大学伯克利分校 Sky Computing 实验室开发,现已成为社区驱动的开源项目,为 LLM 推理和服务提供快速易用的库。... vLLM 发布 v0.9.1,支持更多模型、引入 llm-d 框架下载地址