版本说明#
v0.9.2rc1 - 2025.07.11#
这是 vLLM Ascend v0.9.2 的第一个候选发布版本。请参阅官方文档开始使用。从本次发布起,V1 引擎将默认启用,不再需要设置 VLLM_USE_V1=1。此外,该版本也是最后一个支持 V0 引擎的版本,V0 相关代码将在未来被清理。
亮点#
核心#
其它#
官方文档已更新,以提升阅读体验。例如,增加了更多部署教程,用户/开发者文档已更新。更多指南即将推出。
修复 deepseek V3/R1 模型在使用 torchair 图进行长序列预测时的精度问题。#1331
新增了一个环境变量
VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP。它用于启用 Deepseek V3/R1 模型的 fused allgather-experts 内核。默认值为0。#1335新增了一个环境变量
VLLM_ASCEND_ENABLE_TOPK_TOPP_OPTIMIZATION,用于提升 topk-topp 采样的性能。该变量默认值为 0,未来我们会考虑默认启用此选项#1732。Ascend 调度器现在支持前缀缓存。#1446
DeepSeek 现在支持前缀缓存了。#1498
支持使用 prompt logprobs 恢复 V1 的 ceval 准确率 #1483
v0.9.1rc1 - 2025.06.22#
这是 vLLM Ascend v0.9.1 的第一个候选发布版本。请按照官方文档开始使用。
亮点#
核心#
其他改进#
为MLA初步支持分块预填充。 #1172
已新增一个使用 ETP 运行 DeepSeek 的最佳实践示例。#1101
支持 AscendScheduler 的预测性解码功能。#943
提升
VocabParallelEmbedding自定义算子的性能。该优化将在下一个版本中启用。#796修复了在 Ray 上运行 vLLM Ascend 时的设备发现和设置错误 #884
修复了带有静态 EPLB 特性时 log2phy 为 NoneType 的 bug。#1186
重构 AscendFusedMoE #1229
新增初始用户故事页面(包括 LLaMA-Factory/TRL/verl/MindIE Turbo/GPUStack)#1224
添加单元测试框架 #1201
已知问题#
完整更新日志#
https://github.com/vllm-project/vllm-ascend/compare/v0.9.0rc2...v0.9.1rc1
v0.9.0rc2 - 2025.06.10#
本次发布包含了一些针对 v0.9.0rc1 的快速修复。请使用本次发布版本,而不是 v0.9.0rc1。
亮点#
修复当以非可编辑方式安装 vllm-ascend 时的导入错误。#1152
v0.9.0rc1 - 2025.06.09#
这是 vllm-ascend v0.9.0 的第一个候选发布版本。请按照官方文档开始使用。从此版本起,推荐使用 V1 引擎。V0 引擎的代码已被冻结,不再维护。如需启用 V1 引擎,请设置环境变量 VLLM_USE_V1=1。
亮点#
核心#
模型#
其它#
已知问题#
在某些情况下,启用 aclgraph 时 vLLM 进程可能会崩溃。我们正在处理这个问题,并将在下一个版本中修复。
多节点数据并行在此版本中无法使用。这是 vllm 中已知的问题,并已在主分支中修复。 #18981
v0.7.3.post1 - 2025.05.29#
这是 0.7.3 的第一个补丁发布。请按照官方文档开始使用。本次更新包括以下更改:
亮点#
漏洞修复#
文档#
v0.7.3 - 2025.05.08#
🎉 你好,世界!
我们很高兴地宣布 vllm-ascend 0.7.3 版本正式发布。这是首个正式发布的版本。该版本的功能、性能和稳定性已充分测试和验证。我们鼓励您试用并反馈意见。如有需要,未来我们将发布修复版本。请参阅官方文档开启您的体验之旅。
亮点#
本次发布包含了所有在之前候选版本中加入的功能(v0.7.1rc1、v0.7.3rc1、v0.7.3rc2)。所有功能都经过了全面测试和验证。请访问官方文档获取详细的功能和模型支持矩阵。
将 CANN 升级到 8.1.RC1 以启用分块预填充和自动前缀缓存功能。您现在可以启用这些功能了。
升级 PyTorch 至 2.5.1。vLLM Ascend 现在不再依赖于 torch-npu 的开发版本。用户现在无需手动安装 torch-npu,2.5.1 版本的 torch-npu 会被自动安装。#662
将 MindIE Turbo 集成到 vLLM Ascend 以提升 DeepSeek V3/R1、Qwen 2 系列的性能。#708
核心#
现在已经支持 LoRA、多LoRA 和动态服务。下一个版本中性能将会提升。请参阅官方文档以获取更多用法信息。感谢招商银行的贡献。#700
模型#
其它#
v0.8.5rc1 - 2025.05.06#
这是 vllm-ascend v0.8.5 的第一个候选发布版本。请按照官方文档开始使用。现在,您可以通过设置环境变量 VLLM_USE_V1=1 启用 V1 引擎。关于 vLLM Ascend 的特性支持情况,请参见这里。
亮点#
核心#
将 vLLM 升级到 0.8.5.post1 #715
修复在 profile_run 期间 CustomDeepseekV2MoE.forward 过早返回的问题 #682
适配由 modelslim 生成的新量化模型 #719
基于 llm_datadist 的 P2P 分布式 Prefill 初步支持 #694
使用
/vllm-workspace作为代码路径,并在容器镜像中包含.git,以修复在/workspace下启动 vllm 时的问题 #726优化NPU内存使用,以使 DeepSeek R1 W8A8 32K 模型长度能够运行。#728
修复 setup.py 中的
PYTHON_INCLUDE_PATH拼写错误 #762
其它#
v0.8.4rc2 - 2025.04.29#
这是 vllm-ascend 的 v0.8.4 第二个候选版本。请按照官方文档开始使用。本版本包含了一些实验性功能,如 W8A8 量化和 EP/DP 支持。我们将在下一个版本中使这些功能更加稳定。
亮点#
核心#
其它#
v0.8.4rc1 - 2025.04.18#
这是 vllm-ascend v0.8.4 的第一个候选发布版本。请按照官方文档开始使用。本版本起,vllm-ascend 将跟随 vllm 的最新版本并每两周发布一次。例如,如果 vllm 在接下来的两周内发布 v0.8.5,vllm-ascend 将发布 v0.8.5rc1,而不是 v0.8.4rc2。详细信息请参考官方文档。
亮点#
核心#
其它#
v0.7.3rc2 - 2025.03.29#
这是 vllm-ascend v0.7.3 的第二个候选发布版本。请根据官方文档开始使用。
容器快速入门: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/quick_start.html
安装: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/installation.html
亮点#
核心#
将 torch_npu 版本升级到 dev20250320.3 以提升精度,修复
!!!输出问题。#406
模型#
通过优化 patch embedding(Conv3D),Qwen2-vl 的性能得到了提升。#398
其它#
v0.7.3rc1 - 2025.03.14#
🎉 你好,世界!这是 vllm-ascend v0.7.3 的第一个候选发布版本。请按照官方文档开始你的旅程。
容器快速入门: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/quick_start.html
安装: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/installation.html
亮点#
核心#
将 torch_npu 版本升级到 dev20250308.3,以提升
_exponential的精度新增了对池化模型的初步支持。现在支持 Bert 基础模型,如
BAAI/bge-base-en-v1.5和BAAI/bge-reranker-v2-m3。 #229
模型#
其它#
已知问题#
v0.7.1rc1 - 2025.02.19#
🎉 你好,世界!
我们很高兴地宣布 vllm-ascend v0.7.1 的第一个候选版本发布。
vLLM Ascend 插件(vllm-ascend)是一个由社区维护的硬件插件,用于在 Ascend NPU 上运行 vLLM。通过此版本,用户现在可以在 Ascend NPU 上享受到 vLLM 的最新功能和改进。
请参阅官方文档开始您的体验之旅。请注意,这是一个候选发布版本,可能会有一些漏洞或问题。我们非常欢迎您在这里提交反馈和建议。
亮点#
核心#
其它#
已知问题#
此版本依赖于尚未发布的 torch_npu 版本。该版本已集成在官方容器镜像中。如果您使用的是非容器环境,请手动安装。
在运行 vllm-ascend 时,会显示类似
No platform detected, vLLM is running on UnspecifiedPlatform或Failed to import from vllm._C with ModuleNotFoundError("No module named 'vllm._C'")的日志。这实际上不会影响任何功能和性能,你可以直接忽略它。这个问题已在此 PR 中修复,并很快会在 v0.7.3 版本中包含。在运行 vllm-ascend 时,会显示类似
# CPU blocks: 35064, # CPU blocks: 2730的日志,实际应该为# NPU blocks:。这实际上不会影响任何功能和性能,你可以忽略它。该问题已在这个 PR 中修复,并将在 v0.7.3 版本中包含。