使用llama.cpp启动GPU模型计算
用过make的记得删除项目,重新再以上执行命令,要不还是会使用CPU。
·
查询GPU使用状态:
watch -n 0.5 nvidia-smi
使用GPU编译llama.cpp:
make LLAMA_CUBLAS=1
用过make的记得删除项目,重新再以上执行命令,要不还是会使用CPU
两种启动方式(41是GPU启动层数,根据自身配置修改)
页面访问:./server -m ./models/qwen1_5-1_8b-chat-q8_0.gguf -c 2048 --port 6006 -ngl 41
命令行访问:./main -m ./models/qwen1_5-14b-chat-q2_k.gguf -n 512 --color -i -cml -f prompts/chat-with-qwen.txt -ngl 41
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)