一、政务大厅需要的不是聊天框,而是在场的服务 Agent

很多政务服务正在尝试接入 AI Agent:群众输入问题,系统返回办理流程、材料清单和窗口位置。纯文本方案验证知识问答很快,但放到大厅现场就会暴露短板:群众不一定愿意读长段文字,也很难在嘈杂环境里完成多轮输入,更无法像面对工作人员一样自然插话、追问和确认。

这说明政务 Agent 缺的不是“大脑”,而是具象落地载体。它需要以可被看见、可被听见、可被打断的形态站在终端里,承担导办、解释、安抚和分流工作。这正是具身交互智能要解决的问题。

传统云端数字人尝试补上形象,但依托视频流预渲染,整体交互延迟偏高。群众中途插话、临时变更咨询问题时,系统往往无法即时打断,只能完整执行上一段内容;硬件和带宽成本也让区县基层网点很难批量铺设。

魔珐星云的端到端方案,依托 AI 端渲和解算 + 自研参数流,为大模型 Agent 补齐 3D 拟人化表达层。它不是播放预渲染视频,而是在终端侧实时生成表情、动作、口型和情绪表达,让政务咨询数字人具备约 500ms 毫秒级响应、实时打断、低成本、高并发和跨终端兼容能力。

在这个项目里,我基于魔珐星云构建大厅便民引导数字人,并接入 DeepSeek 大模型,让它从纯文本问答升级为可面对群众自然交流的具身 Agent:能指引窗口位置、说明办理流程、提示基础材料,也能在群众临时追问时即时中断并切换回答。

二、模拟场景:政务大厅便民引导数字人

我在这里根据魔珐星云构建交互式数字引导员,依托 DeepSeek 大模型原生对话能力实现自由交互。 通过星云 SDK 接入 DeepSeek 大模型,数字人定位大厅便民引导:指引办事窗口位置、告知业务办理基础流程、科普所需基础材料,群众随口闲聊提问也能自然应答。 模拟场景:办事群众上前随口问社保补缴去哪办?需要带什么?魔珐星云具身智能数字人可进行交互进行语音讲解;若群众中途临时提问 “周末大厅开门吗?”,系统可即时中断当前内容,切换作答。 预测上线后,大厅早晚空档、午休时段无需人工值守,原本 2 名常设引导岗缩减为 1 名机动人员,人力开支明显下降,零散咨询全部由数字人承接,真正实现降本增效。

三、开发落地方式(SDK+API)

1、开发选用工具与大模型

本次 Demo 采用轻量化 Web 方案实现,开发阶段使用 AI 编码工具codex辅助搭建,前端数字人能力接入 魔珐星云 Lite SDK,后端对话模型选用 DeepSeek。为了控制落地成本,本版没有接入专属知识库和业务数据库,主要依赖 DeepSeek 的通用对话能力完成政务大厅咨询演示。

整体技术路线是:前端页面负责数字人展示与交互控制,Node 服务负责代理大模型 API,魔珐星云 SDK 负责 3D 画面生成、语音输出与交互打断控制。这样既能保持部署轻量,也能避免把大模型密钥长期暴露在前端代码里。

2、项目代码结构

项目代码拆成了一个最小可运行 Demo,完整项目地址见该章节末链接,这里只说明结构和模块职责,不展示全部源码。

各文件职责如下:

  • server.js:本地 Node 服务,负责静态页面托管和 DeepSeek API 代理。

  • public/index.html:政务大厅数字人工作台页面,包含数字人舞台、模块侧边栏、咨询输入区、接入配置区和窗口示意板块。

  • public/styles.css:页面布局和响应式适配,重点保证数字人主画面优先展示,配置、常用问题、窗口示意通过侧边栏模块切换显示。

  • public/app.js:核心交互逻辑,负责魔珐星云 SDK 初始化、DeepSeek 对话请求、流式回答接收、数字人播报、字幕显示和语音打断。

  • assets/hall-map.svg:政务大厅窗口示意图,可按实际大厅布局替换。

3、页面模块设计与展示

Demo 页面没有把所有配置项堆在首屏,而是按照政务大厅值守台思路拆成几个模块:

  • 数字人舞台:页面主区域,承载魔珐星云数字人画面,支持横屏 / 竖屏切换。

  • 群众咨询模块:用于输入群众问题,并展示数字人与群众的对话记录。

  • 接入配置模块:用于输入魔珐星云 AppID、AppSecret 和 DeepSeek API Key。三项凭证都采用密码框输入,不在代码中硬编码。

  • 常用咨询模块:预置「社保补缴」「营业执照」「医保报销」「开放时间」等高频问题,适合大厅现场快速演示。

  • 窗口示意模块:展示政务大厅窗口分布,例如社保、医保、企业开办、综合受理等区域,后续可以替换成真实大厅平面图。

4、魔珐星云 SDK 接入方式

前端通过 CDN 引入魔珐星云 Lite SDK:

HTML <script src="https://media.xingyun3d.com/xingyun3d/general/litesdk/xmovAvatar@latest.js"></script>

页面启动后不会立刻连接数字人,而是等用户在「接入」模块输入 AppID 和 AppSecret,点击「连接数字人」后再初始化 XmovAvatar。核心流程如下:

JavaScript sdk = new XmovAvatar({ containerId: "#sdk", appId, appSecret, gatewayServer: "https://nebula-agent.xingyun3d.com/user/v1/ttsa/session", onVoiceStateChange, proxyWidget }); await sdk.init({ onDownloadProgress: (progress) => { // 展示数字人资源加载进度 } });

数字人播报使用 SDK 的 speak 方法:

JavaScript sdk.speak(content, is_start, is_end);

为了适配政务大厅群众中途插话的场景,Demo 没有直接用新播报覆盖旧播报,而是先调用:

JavaScript sdk.interactiveidle();

当前语音进入 idle 或 end 状态后,再发送新的回答内容。这一层处理可以避免数字人正在说话时被硬切,交互体验会更自然。

字幕部分使用 proxyWidget 拦截默认字幕事件,并渲染到页面自定义字幕条,避免字幕压在人物身上:

JavaScript proxyWidget: { subtitle_on: (data) => { // 渲染自定义字幕 return false; }, subtitle_off: () => { // 隐藏自定义字幕 return false; } }

5、DeepSeek API 接入方式

DeepSeek 采用服务端代理方式接入。前端不会直接请求 DeepSeek 官方接口,而是把用户问题发送到本地服务:

Plaintext POST /api/chat

server.js 再携带 DeepSeek API Key 调用大模型接口:

Plaintext POST https://api.deepseek.com/chat/completions

这种方式有两个好处:

  • 可以把 DeepSeek API Key 放在服务端环境变量中,降低密钥泄露风险。

  • 前端只需要处理统一的 /api/chat,后续替换模型、增加知识库或接入政务数据库时,不需要大改页面逻辑。

为了方便本地调试,Demo 也支持在前端临时输入 DeepSeek API Key。如果正式部署,建议改为服务端环境变量或密钥管理服务。

基础请求流程如下:

JavaScript fetch("/api/chat", { method: "POST", headers: { "Content-Type": "application/json" }, body: JSON.stringify({ model: "deepseek-v4-flash", messages: [ { role: "system", content: "你是政务大厅便民咨询数字人..." }, { role: "user", content: question } ] }) });

服务端使用流式响应接收 DeepSeek 输出,前端边接收边更新对话内容,并按句子片段调用魔珐星云 SDK 播报。这样数字人不必等完整答案生成后才开口,现场交互会更接近真人接待。

6、基础 Demo 启动方式

PowerShell npm start

默认访问地址:

Plaintext http://localhost:5173

打开页面后,依次完成以下步骤:

  1. 点击侧边栏「接入」,输入魔珐星云 AppID 和 AppSecret。

  2. 如服务端没有配置 DeepSeek API Key,可在页面临时输入 DeepSeek Key。

  3. 点击「连接数字人」,等待 SDK 初始化完成。

  4. 回到「咨询」模块,输入政务咨询问题。

  5. DeepSeek 返回答案后,数字人通过魔珐星云 SDK 实时播报。

  6. 如果群众中途改问,可以点击「打断播报」,或直接输入新问题触发打断逻辑。

7、底层落地架构建议

采用端侧渲染 + 云端大模型轻量化架构:数字人面部、肢体渲染全部在终端硬件本地完成,DeepSeek 对话推理按需云端调用;本地存储海量政务资料可以构建成数据库及专属知识库供模型参考,减少服务器部署开销,老旧大厅原有闲置显示屏均可直接复用部署。

8、数字人APPID ,AppSecret 获取

魔珐星云官网

点击页面中的创建具身应用,填写名称,选择预览方式后,可进行人物方面的配置。

配置结束后,在调试界面,可以进行在线测试,以及获取对应的APP密钥。

完整项目地址:https://github.com/jinmo666/3dmath-people

六、个人落地实测总结

亲身落地这套政务引导数字人之后,最直观的感受是:魔珐星云依托自研参数流架构 + AI 端渲和解算,解决了传统数字人交互生硬、部署成本高昂的行业痛点。依托 DeepSeek 开放式对话能力,不用整理海量政务词条、可以搭建各政务专属知识库,就能快速上线可用的便民数字引导员;秒级打断交互体验,让群众使用意愿大幅提升,实实在在帮政务大厅减负增效,是低成本落地政务具身数字人的优选方案。

魔珐星云官网地址:魔珐星云官网

原文链接:https://blog.csdn.net/2302_79376097/article/details/161896710

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐