小智AI机器人 - 语音相关方案了解2（ 3D Speaker + 大模型 TTS ）

本篇主要是记录下自己所了解到的小智AI聊天机器人背后的语音技术的后半部分（`声纹识别 3D Speaker + 大模型 TTS - 火山引擎 + 大模型TTS - CosyVoice`）。

咸蛋-超人

3915人浏览 · 2025-05-19 16:28:07

咸蛋-超人 · 2025-05-19 16:28:07 发布

文章目录

前言
1.简介
2. 声纹识别 3D Speaker
3. 大模型 TTS - 火山引擎
4. 大模型 TTS - CosyVoice

前言

我们知道小智AI机器人是一款能够对话且可视的Ai语音聊天机器人。
语音对话和语音控制可以说是其核心功能，我寻思着先了解这些语音方案，之后再看代码，也更方便我们对语音这块代码逻辑的理解。

本篇主要是记录下自己所了解到的小智AI聊天机器人背后的语音技术的后半部分（声纹识别 3D Speaker + 大模型 TTS - 火山引擎 + 大模型TTS - CosyVoice）。

前面的文章：

小智AI机器人 - 代码框架梳理1
小智AI机器人 - 代码框架梳理2
小智AI机器人 - 语音相关方案了解1（ESP-SR + SenseVoice）

小智AI 地址:
github地址
 gitcode地址(这个国内访问起来比较快)

1.简介

在这里插入图片描述
从项目的README中已实现功能我们了解到小智AI 确实已经实现了很多强大的语音功能，后面我们会根据这些实现的功能，一步步的进行代码分析，看看它是如何实现的。
当前的话我会根据实现列表中所提到的语音技术，来对其一一进行分析和了解。（由于自身只接触过思必驰的离线语音所以对于其他语音技术了解有限，这里也只是和大家对这些语音技术先形成一个概念。）

2. 声纹识别 3D Speaker

在这里插入图片描述
项目地址： https://github.com/modelscope/3D-Speaker

2.1 什么是3D Speaker

3D-Speaker 是阿里通义实验室开源的一个“多模态说话人识别工具包”，简单说就是：

能听声辨人：通过声音识别你是谁（比如手机解锁时的“声纹识别”）。
能看脸+听声：如果同时有摄像头，还能结合你的脸和声音一起确认身份（比如银行远程验证）。
支持多语言：中文、英文、方言等都能处理。

2.2 3D Speaker 的历史

2023年：阿里通义实验室推出，目标是解决传统语音识别“只听声音”的局限性。

开源生态：所有模型免费开放，开发者可以直接用（比如接在智能音箱、客服系统里）。
工业级数据：训练用了 10,000+ 人的声音数据，覆盖各种口音、噪音场景。

2.3 为什么要使用3D Speaker

和普通语音识别相比，它的优势是：

更安全：单纯模仿声音（比如AI合成音）骗不过它，因为还会看脸或分析语义习惯。
更灵活：
- 单模态模式（纯声音）：适合智能家居（如音箱）。
- 多模态模式（声音+脸）：适合安防、金融验证。

2.4 小智AI如何使用3D Speaker

有了3D Speaker，小智就不仅能够听得懂人话，还能够认人

3. 大模型 TTS - 火山引擎

3.1 什么是火山引擎TTS

火山引擎的大模型TTS（Text-to-Speech）是一个“文字转语音”的AI工具，能把文字变成自然流畅的人声。比如：

你输入“今天天气真好”，它就能用真人般的语气读出来。
支持多种音色（温柔女声、磁性男声、方言等），还能根据上下文自动调整语气（（比如高兴或严肃）

3.2 火山引擎TTS的历史

2022年：火山引擎推出基础版TTS，主要服务企业客户。
2023年：升级为“大模型TTS”，用生成式AI（类似GPT的技术）大幅提升自然度。
2024年：发布声音复刻功能（5秒录音克隆声音）。与联想、小智AI等合作，落地智能硬件。
开源生态：部分模型免费开放，吸引开发者（如“小智AI”这类项目）。

3.3 为什么要使用火山引擎的TTS

在这里插入图片描述

3.4 小智AI如何使用火山引擎的

假设“小智AI”是一个 ESP32芯片的智能音箱，它的工作流程：

听：用麦克风收用户语音，通过 SenseVoice 转成文字（可以带有情感信息的表述）。
想：文字传给大模型（如豆包AI）生成回答。
说：把回答的文字通过火山引擎TTS 转成语音播出来。

4. 大模型 TTS - CosyVoice

这个和上面的火山引擎的TTS差不多的功能，只是不同场景的模型罢了。

4.1 什么是CosyVoice？

CosyVoice 是阿里通义实验室开源的“文字转语音”大模型，主打高自然度+多语言支持。它能：

把文字变成真人般的语音（比如“你好” → 温柔女声/磁性男声）。
克隆声音：用3~10秒录音复刻任何人的音色（比如用你妈妈的声音讲故事）。
控制情感：让AI读台词时带哭腔、笑声或愤怒语气。

它属于 FunAudioLLM项目（阿里通义实验室的语音AI全家桶），和之前的 SenseVoice（语音识别）、3D-Speaker（声纹识别）是兄弟产品。

4.2 CosyVoice的历史

2024年初：发布1.0版本，支持基础语音合成

2024年底：升级到 CosyVoice 2.0，新增两大功能：

流式生成：边说边播（适合实时对话）。
韵律增强：自动调整停顿、重音，更像真人。

开源生态：代码、预训练模型全部公开，吸引智能硬件厂商（如小智AI）接入。

4.3 为什么要用CosyVoice？

在这里插入图片描述

4.4 小智AI如何使用CosyVoice？

假设“小智AI”是一个 ESP32开发板的智能音箱，可以这样搭配：

在线版（推荐）：

用户说话 → SenseVoice转文字 → 大模型生成回答 → CosyVoice云端API合成语音 → 音箱播放。
优点：音质好，支持情感和克隆。

离线版：

在ESP32上部署 CosyVoice-0.5B轻量模型（需压缩和量化）。
优点：断网可用，但音质稍差。

实际案例：小智AI的“方言模式”就是用CosyVoice合成的粤语/四川话（参考）。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

扫地机器人行业深度分析报告

DAMO开发者矩阵

002.OpenClaw脚本部署-渠道对接全指南

DAMO开发者矩阵

2026具身智能爆发元年

其精灵G2机器人在南昌工厂产线实现8小时零失误作业，成功率100%，并在海底捞等商业场景实现规模化运营，构建了“部署态数据飞轮”反哺模型迭代。通过融合400TB卫星遥感等多源数据，该模型在气象预测精度上较传统方案提升8%-12%，实现了从“一场景一模型”到“一个底座万物生长”的体系化跃迁，开启了卫星数据+AI的创新应用时代。行业共识认为，机器人发展已进入“技术迭代→场景验证→规模化落地”的核心阶段