通义千问1.5-1.8B-Chat本地部署实测：小白也能快速搭建AI对话机器人

含老司开挖掘机

120人浏览 · 2026-04-03 05:05:42

含老司开挖掘机 · 2026-04-03 05:05:42 发布

通义千问1.5-1.8B-Chat本地部署实测：小白也能快速搭建AI对话机器人

想不想在本地电脑上拥有一个专属的、能随时聊天的AI助手？不用联网，不用担心隐私，想聊多久聊多久。今天，我就带你亲手搭建一个。

我们用的主角是通义千问1.5-1.8B-Chat-GPTQ-Int4，一个经过“瘦身”处理的小巧模型。别看它只有18亿参数，但对话能力相当不错，最关键的是，它对电脑配置要求非常友好，普通笔记本电脑就能流畅运行。

整个搭建过程，我会用最直白的话讲清楚，你只需要跟着步骤一步步来，半小时内就能看到你的AI机器人开口说话。我们开始吧。

1. 准备工作：理解我们要做什么

在动手之前，我们先花两分钟，搞清楚这个“机器人”是怎么工作的，这样后面操作起来心里更有底。

你可以把它想象成一个“大脑”和一个“聊天窗口”。

大脑：就是通义千问模型本身。它被封装在一个叫“镜像”的软件包里，里面包含了运行所需的一切环境。我们通过一个叫 vllm 的工具来启动它，这个工具能让模型跑得又快又省资源。
聊天窗口：我们用一个叫 chainlit 的轻量级工具来制作。它就像一个网页版聊天界面，你在这个窗口里打字提问，“大脑”思考后，会把答案传回这个窗口显示给你。

我们的任务很简单：先把“大脑”启动起来，然后再打开“聊天窗口”去连接它。整个过程都在你的电脑上完成，数据不出本地，安全又方便。

2. 环境搭建与模型部署

好了，理论部分结束，我们开始动手。第一步是让“大脑”运转起来。

2.1 获取与启动模型镜像

这里我们选择了一种对小白最友好的方式：使用预置的Docker镜像。Docker可以理解为一个“软件集装箱”，我们把模型和它需要的所有环境都打包在里面了，你不需要自己折腾复杂的Python环境或依赖库。

假设你已经安装好了Docker，那么只需要一行命令就能把我们的“大脑”下载并运行起来：

docker run -d --name qwen-chat \
  -p 8000:8000 \
  -v /your/local/path:/app/data \
  registry.cn-hangzhou.aliyuncs.com/your_mirror/qwen1.5-1.8b-chat-gptq-int4:latest

我来解释一下这行命令在做什么：

docker run -d：告诉Docker在后台运行一个容器。
--name qwen-chat：给这个容器起个名字，方便管理。
-p 8000:8000：把容器内部的8000端口映射到你电脑的8000端口。这样你就能通过访问 localhost:8000 来和模型交互了。
-v /your/local/path:/app/data：把你电脑上的一个文件夹挂载到容器里。这样模型生成的一些临时文件或你想让它读取的文档，都可以放在这个文件夹里。记得把 /your/local/path 换成你电脑上真实的路径，比如 D:\ai_project\data。
最后一段是镜像的地址，它指向存放我们“大脑集装箱”的仓库。

执行完这条命令后，Docker就会自动去拉取镜像并运行。第一次运行需要下载镜像，会花一些时间，请耐心等待。

2.2 验证模型服务是否成功启动

模型启动需要一点时间加载权重文件。我们怎么知道它准备好了呢？一个简单的方法是查看日志。

执行下面的命令，进入正在运行的容器内部查看日志：

docker logs -f qwen-chat

你会看到屏幕上开始滚动很多信息。当看到类似下面的关键信息时，就说明模型“大脑”已经成功唤醒，在8000端口上等待连接了：

INFO:     Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)
INFO:     Started server process [1]
INFO:     Waiting for application startup.
INFO:     Application startup complete.

看到 Application startup complete 就大功告成了。你可以按 Ctrl+C 退出日志查看，模型服务会在后台继续运行。

3. 启动聊天界面并开始对话

“大脑”准备好了，现在我们来打开那个漂亮的“聊天窗口”。

3.1 安装并启动Chainlit

Chainlit 是我们的聊天界面工具，它是一个Python库，安装非常简单。请确保你的电脑上已经安装了Python（3.8以上版本）。

打开一个终端或命令行窗口，输入：

pip install chainlit

安装完成后，我们需要创建一个简单的Python脚本来告诉Chainlit去哪里找我们的模型“大脑”。新建一个文件，命名为 app.py，用任何文本编辑器打开它，输入以下内容：

import chainlit as cl
from openai import OpenAI

# 配置客户端，连接到我们本地启动的模型服务
client = OpenAI(
    base_url="http://localhost:8000/v1", # 模型服务的地址
    api_key="no-key-required" # 本地部署不需要密钥
)

@cl.on_message
async def main(message: cl.Message):
    """
    这是主要的消息处理函数。
    每当用户在界面发送消息，这个函数就会被调用。
    """
    # 创建一个消息对象，告诉用户我们正在思考
    msg = cl.Message(content="")
    await msg.send()

    # 调用本地模型，获取回答
    response = client.chat.completions.create(
        model="Qwen1.5-1.8B-Chat", # 模型名称
        messages=[
            {"role": "system", "content": "你是一个乐于助人的AI助手。"},
            {"role": "user", "content": message.content}
        ],
        stream=True, # 启用流式输出，让回答一个字一个字显示出来
        max_tokens=1024
    )

    # 流式接收模型的回答，并实时显示到界面上
    for chunk in response:
        if chunk.choices[0].delta.content is not None:
            await msg.stream_token(chunk.choices[0].delta.content)

    # 流式输出完成，更新最终消息
    await msg.update()

保存这个文件。然后在终端里，进入到存放 app.py 文件的目录，运行：

chainlit run app.py

稍等片刻，你的默认浏览器会自动打开一个新页面，地址是 http://localhost:8000（如果没自动打开，你可以手动输入这个地址）。一个简洁、现代的聊天界面就出现在你眼前了！

3.2 开始你的第一次AI对话

现在，激动人心的时刻到了。在聊天界面底部的输入框里，尝试问它一些问题吧！

比如：

“你好，请介绍一下你自己。”
“用Python写一个快速排序的代码。”
“帮我写一封感谢信的模板。”
“夏天的夜晚有什么特点？”

你会发现，回答是一个字一个字“流式”出现的，就像真人在打字一样，体验非常好。你可以问任何你想问的，它都会尽力回答。因为模型在本地，响应速度非常快，几乎感觉不到延迟。

4. 进阶使用与实用技巧

成功对话之后，你可能想让它变得更强大、更好用。这里有几个小技巧。

4.1 调整模型参数以获得更好效果

在 app.py 的 client.chat.completions.create 函数里，有几个参数可以调整，就像给机器人调校性格：

max_tokens：控制回答的最大长度。如果你发现回答总是被截断，可以把这个数字调大，比如2048。
temperature：可以添加这个参数（默认可能没有），它控制回答的随机性。范围在0到2之间。值越低（如0.1），回答越确定、保守；值越高（如0.9），回答越有创意、越多样。你可以根据需求试试。
stream：我们已经设为 True 了，这能获得最好的交互体验。

4.2 尝试不同的系统指令（System Prompt）

在代码的 messages 列表里，有一个 role 为 "system" 的消息。这条消息是给模型的“背景设定”或“角色指令”，它会在背后悄悄影响模型的回答风格。

你可以修改 "content" 里的文字，来让你的AI助手扮演不同角色：

默认助手：“你是一个乐于助人、尊重他人且无害的AI助手。”
专业程序员：“你是一个经验丰富的全栈开发工程师，擅长Python和JavaScript，回答要专业且给出可执行的代码。”
简洁的总结者：“请用最简洁的语言直接回答核心问题，不要展开说明。”

修改后保存 app.py，然后在终端里按 Ctrl+C 停止Chainlit，再重新运行 chainlit run app.py，刷新浏览器页面，你会发现助手的说话风格变了。

4.3 管理你的本地服务

停止服务：当你不想用的时候，在运行 docker logs 或 chainlit run 的终端里，按 Ctrl+C 即可停止。
再次启动：模型容器（qwen-chat）一旦创建，停止后再次启动非常快。使用 docker start qwen-chat 启动容器，然后再运行 chainlit run app.py 即可。
查看资源占用：可以打开系统任务管理器（或使用 docker stats 命令），看看你的“AI大脑”占用了多少CPU和内存。对于这个1.8B的量化版本，在普通电脑上占用通常很低。

5. 常见问题与排错指南

第一次搭建，难免会遇到一些小问题。这里列出几个常见的，帮你快速解决。

问题：运行 docker run 命令时提示“端口被占用”。
- 解决：这说明你电脑的8000端口已经被别的程序（比如另一个测试服务）用了。有两个办法：1）在命令里把 -p 8000:8000 改成 -p 8080:8000，这样你就可以通过 localhost:8080 访问了，同时记得把 app.py 里的 base_url 也改成 "http://localhost:8080/v1"。2）找到并关闭占用8000端口的程序。
问题：Chainlit界面打开了，但发送消息后一直显示“思考中”不回答。
- 解决：这通常是Chainlit没连上模型服务。请按顺序检查：
  1. 确保模型容器正在运行：docker ps 看看有没有 qwen-chat 这个容器。
  2. 确保模型服务已完全启动：用 docker logs qwen-chat 查看日志，确认有 Application startup complete。
  3. 检查 app.py 里的 base_url 地址和端口号是否和模型服务的一致。
问题：模型回答速度很慢，或者内容很奇怪。
- 解决：首先确认电脑资源是否充足，可以关闭一些其他大型软件。其次，检查是否为第一次提问，模型首次加载需要时间，后续问题会快很多。如果内容奇怪，可以尝试在系统指令里加强约束，比如明确要求“用中文回答”。

问题：我想彻底删除这个模型容器，重新开始。

解决：执行以下命令（注意这会删除所有相关数据）：

docker stop qwen-chat  # 停止容器
docker rm qwen-chat    # 删除容器
# 如果你想连镜像也删除（下次运行需重新下载）
docker rmi registry.cn-hangzhou.aliyuncs.com/your_mirror/qwen1.5-1.8b-chat-gptq-int4:latest