Mistral憋大招了，首款开源AI音频模型Voxtral来了？这声音处理绝了！

法国AI初创公司Mistral发布首个开源语音模型家族Voxtral，支持多语言转录、理解和指令执行，最长可处理30分钟音频。该系列包含240亿参数的VoxtralSmall和30亿参数的VoxtralMini两个版本，提供API和企业级定制服务，价格低至每分钟0.001美元。此次发布延续了Mistral推动开源AI生态的战略，旨在打破商业闭源模型的垄断，为开发者提供更具性价比的语音解决方案。公司

AI-椰子不椰

1020人浏览 · 2025-07-16 10:26:32

AI-椰子不椰 · 2025-07-16 10:26:32 发布

▲（图源：来自其官网）

随着 AI 系统越来越强大，人们与机器的交流方式也在发生变化。语音，正在迅速成为默认的交互入口。

法国初创公司 Mistral 也加入了这场“语音竞赛”。它推出了首个开源音频模型家族 Voxtral，试图打破那些被大公司封闭系统所垄断的局面，用开放模型给开发者更多自由。

本周二，Mistral 正式发布 Voxtral。这是它面向企业用户的首个音频模型系列。

Mistral 的目标很明确：Voxtral 要成为首个能在真实业务场景中落地的“可用语音智能”开源模型。

换句话说，开发者不再需要在“便宜但效果差的开源模型”和“强大但封闭昂贵的商业产品”之间做痛苦选择。现在，他们可以同时拥有效果和控制权，还能节省一半以上的成本。

据官方介绍，Voxtral 最长可以转录 30 分钟的音频内容。因为模型背后接入了自家的 Mistral Small 3.1 大模型，它还能理解长达 40 分钟的语音。不光是听懂说了什么，还能回答相关问题、生成摘要，甚至把语音指令转化为 API 调用或执行操作。

Voxtral 还支持多种语言，包括英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语和意大利语。

Mistral 提供了两个版本的“语音理解模型”：Voxtral Small，参数规模 240 亿，用于大规模部署，定位接近 ElevenLabs Scribe、GPT-4o-mini 和 Gemini 2.5 Flash；Voxtral Mini，参数 30 亿，更适合本地和边缘设备部署。此外还有一个超轻量的转录专用模型 Voxtral Mini Transcribe，只做转录，但速度更快、价格更低，号称比 OpenAI 的 Whisper 更省钱、效果更好。

开发者可以免费试用 Voxtral，支持在 Hugging Face 下载 API，或在 Mistral 的聊天机器人 Le Chat 中直接体验。根据官方介绍，API 调用起步价为每分钟 0.001 美元。

这次发布距离 Mistral 上次推出推理模型家族 Magistral 仅过去一个月。Magistral 是其首批具备“逐步推理”能力的大模型，用来提升复杂任务的可靠性。

作为欧洲最受关注的 AI 创企之一，Mistral 一直以推动开源模型著称。据 TechCrunch 报道，公司目前正与包括阿布扎比 MGX 基金在内的多家投资方洽谈融资，金额最高可能达到 10 亿美元。

立即免费试用

无论你是在笔记本上快速原型、在本地私有环境中处理任务，还是在云端大规模部署，使用 Voxtral 都非常简单。

本地部署：Voxtral（240亿参数）和 Voxtral Mini（30亿参数）都已上线 Hugging Face，支持下载运行。

API 调用：只需一行代码，就能将先进的语音理解能力集成进你的应用。价格低至每分钟 0.001 美元，轻松实现高质量转录与理解，适用于大规模使用。文档在这里查看。

Le Chat 体验：你也可以在 Le Chat 聊天机器人中体验 Voxtral 的语音模式（未来几周将全面开放）。支持网页端和移动端，录音或上传音频后，可以获取文字转写、提出问题或生成摘要。

企业级高级功能

针对对安全性、规模或行业专业性有更高要求的企业客户，Mistral还提供以下能力：

本地私有化部署：Mistral的解决方案团队可协助你在私有基础设施中搭建生产级别的 Voxtral 推理系统，适用于医疗、金融等对数据隐私要求严格的场景。支持多GPU/多节点部署，提供量化模型版本，兼顾吞吐和成本效率。

行业定制微调：可与 Mistral 应用 AI 团队合作，对模型进行领域微调，如法律、医疗、客服或内部知识库等场景，提升语义理解准确度。

更强的上下文能力：Mistral正在与合作伙伴开发更高级的语音功能，如说话人识别、情绪识别、说话人分离，以及更长的上下文处理能力，开箱即用，满足多样化需求。

专属集成支持：提供工程团队优先支持和咨询服务，帮助企业将 Voxtral 无缝集成进现有产品、工作流或数据系统。

敬请期待

8 月 6 日（周三），Mistral将联合 Inworld 举办线上直播，演示如何用 Voxtral 和 Inworld TTS 打造端到端语音智能体。欢迎报名参加，感受语音 AI 的全流程魅力！

接下来几个月，Voxtral 语音能力将继续拓展。除语音理解外，我们还将支持：

说话人分段识别
音频标注（如年龄、情绪）
逐词时间戳
非语音音频识别
还有更多功能！

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

Science Robotics 演示一次，执行多项：运动智能用于跨机器人技能转移

本文提出运动学智能概念，通过将机器人的运动学约束嵌入控制策略架构，实现跨平台技能迁移。方法基于三类核心技术：1）非尖点型3R机器人分类框架；2）与类别绑定的近约束控制策略；3）冗余机器人参数化降维。实验表明，该方法能在不同构型机器人上实现安全、平滑的任务执行，无需重新示教。研究为可迁移、安全的机器人技能学习奠定基础，未来将扩展至尖点型机器人及动态环境避障。