【支持帕斯卡pascal架构的vllm】分享一个支持pascal架构（算力6.0-6.1左右）n卡（p104-100、p100、p40之类老款显卡/计算卡）的vllm项目

环境是：x99寨板，双路E5-2683 v4 ，64g内存，256固态硬盘，2t移动机械硬盘，四卡p104-100，单卡8g显存，ubuntu 22.04 server, 启动成功后内存仅剩 34g，每张卡显存占用 7226/8192。速度在10tokens/s到20tokens/s之间，时快时慢，不过比ollama只能10tokens/s要好多了，也能利用vllm优势并发。本文同时发布于cnbl

四方雲

2378人浏览 · 2025-03-18 21:49:21

四方雲 · 2025-03-18 21:49:21 发布

本文同时发布于cnblogs(四方云)和csdn（四方雲）

废话不多说，项目地址是：

https://github.com/sasha0552/pascal-pkgs-ci

docker镜像地址是：

docker pull ghcr.nju.edu.cn/sasha0552/vllm:v0.7.0

目前最新是v0.7.2，具体可查看项目readme介绍，有从0.6.6开始的镜像。
ghcr.nju.edu.cn是国内docker镜像加速地址，如果不好用可以自己换掉。

附上我的启动命令作为参考：

docker run --runtime nvidia --gpus all \
        -v /home/ai/data/models:/models \
        -p 8000:8000 \
        --env "HF_HUB_OFFLINE=1" \
        --ipc=host \
        --name=vllm \
        --restart always ghcr.nju.edu.cn/sasha0552/vllm:v0.7.0 \
        --model /models/QwQ-32B-Q5_K_S/Qwen_QwQ-32B-Q5_K_S.gguf \
        --tensor-parallel-size 4 \
        --tokenizer /models/QwQ-32B-Q5_K_S \
        --served_model_name QwQ-32B-Q5_K_S \
        --gpu_memory_utilization 0.98 \
        --max_model_len 8192 \
        --dtype half \
        --enforce-eager \
        --enable-prefix-caching \
        --disable-custom-all-reduce \
        --quantization gguf \
        --api_key ""

–enforce-eager是关键参数，如果显存是文件大小三倍以上可以不用。

环境是：x99寨板，双路E5-2683 v4 ，64g内存，256固态硬盘，2t移动机械硬盘，四卡p104-100，单卡8g显存，ubuntu 22.04 server, 启动成功后内存仅剩 34g，每张卡显存占用 7226/8192。
速度在10tokens/s到20tokens/s之间，时快时慢，不过比ollama只能10tokens/s要好多了，也能利用vllm优势并发。

ps：众所周知，vllm官方main分支是不支持算力7.0以下的N卡的，也就是说至少V100，Volta架构以上才能运行这个框架，这让我们这些吃剩下的垃圾佬很难受，所以才一直在找相关项目的踪迹，一开始想自己去编译合适的版本，后来看到了这个劝退贴：https://www.cnblogs.com/boydfd/p/18606571，加上几天的编译都是各种失败，实在不行了，就放弃，重新在vllm官方项目issue里找到了蛛丝马迹，最后验证了这个项目的可用性，而且版本更新没有落后官方太多，很是惊喜。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

OpenClaw接入钉钉全场景踩坑解决方案：从无响应到报错全搞定

DAMO开发者矩阵

知识点20 | DINO：如何用自监督学习实现无标签知识蒸馏？

这个损失函数的直观理解是，学生网络输出的概率分布应该与教师网络的分布尽可能一致。：可以将图像流形想象成复杂的地形图，DINO通过对比学习学习到不同区域的"地形特征"，而跨注意力则像是在地形中建立"道路连接"，确保相邻区域的信息能够有效流动。不同颜色的点代表不同类别的样本，可以看到DINO学习到的特征具有良好的聚类性和判别性。：能够详细描述DINO在具体工业场景中的应用案例，例如在自动驾驶中的物体检