使用llama.cpp启动GPU模型计算

用过make的记得删除项目，重新再以上执行命令，要不还是会使用CPU。

国际酱油

2316人浏览 · 2024-03-27 13:59:24

国际酱油 · 2024-03-27 13:59:24 发布

查询GPU使用状态：

watch -n 0.5 nvidia-smi

使用GPU编译llama.cpp:

make LLAMA_CUBLAS=1

用过make的记得删除项目，重新再以上执行命令，要不还是会使用CPU

两种启动方式（41是GPU启动层数，根据自身配置修改）

页面访问：./server -m ./models/qwen1_5-1_8b-chat-q8_0.gguf -c 2048 --port 6006 -ngl 41

命令行访问：./main -m ./models/qwen1_5-14b-chat-q2_k.gguf -n 512 --color -i -cml -f prompts/chat-with-qwen.txt -ngl 41

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

企业ICT连通性冗余管理：VLAN 划分规范

DAMO开发者矩阵

智谱首席科学家唐杰：领域大模型是伪命题！AI模型应用的第一性不应是创造新App，在线学习和自我评估是新Scaling范式

DAMO开发者矩阵

Win Ser防火墙只允许指定IP出网且局域网内指定vlan访问

本文介绍了Windows服务器防火墙配置的具体步骤。首先开启防火墙并设置为专线网络，阻止所有入站和出站连接。然后创建入站规则允许特定VLAN网络访问服务器IP，测试ping通成功。接着配置出站规则，仅允许访问指定的外部IP地址（如39.96.128.57等）和内网服务器（172.17.16.0/24、192.168.0.0/24），禁止其他所有出网请求。测试发现需调整规则执行顺序，并针对特定端口（