Open-Source • Apache 2.0 License

Voxtral：Mistral AI 开源语音智能模型

首个开源音频模型家族，在易用性和性能之间架起桥梁。性能超越 Whisper，媲美 GPT-4o，成本仅为其一半。

Mistral AI24B & 3B Models32k Context8+ Languages

性能表现

业界领先的基准测试

Voxtral 在语音识别准确度方面树立了新标准

50%

成本更低

相比专有 API

32k

上下文长度

可处理长达 40 分钟音频

支持语言

原生多语言支持

Apache 2.0

开源协议

完全商业使用

Comprehensive performance comparison across multiple speech recognition models and benchmarks

功能特性

超越传统语音识别

Voxtral 将转录、理解和执行集成在单一统一模型中

最先进的转录技术

在所有基准测试中超越 Whisper large-v3，在嘈杂环境中具有卓越的准确性

原生理解能力

内置问答和摘要功能，无需单独的 ASR 和语言模型

多语言智能

自动语言检测，支持英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语和意大利语

语音到函数执行

革命性功能，可直接通过语音命令触发后端函数和 API 调用

灵活部署

可本地运行、通过 API 访问或与现有基础设施集成。提供 24B 和 3B 两种规模

企业级就绪

Apache 2.0 许可证，支持私有部署、特定领域微调和安全的本地托管

模型变体

选择适合您需求的模型

两个强大的模型，针对不同用例优化

Voxtral Small (24B)

生产规模

旗舰模型，追求最高准确度

240 亿参数
同类最佳准确度
多 GPU 部署
需要约 55 GB GPU 内存
可与 GPT-4o-mini 竞争

Voxtral Mini (3B)

边缘优化

适合本地部署的高效模型

30 亿参数
实时处理
单 GPU 即可运行
需要约 9.5 GB GPU 内存
完美适配边缘设备

性能表现

全面的基准测试结果

Voxtral 在所有标准数据集上始终优于行业领导者

英语短片段转录 (WER %)

30 秒以下音频片段的性能表现

数据集	Whisper large-v3	Voxtral 24B
LibriSpeech Clean	1.9%	1.2%
LibriSpeech Other	3.4%	2.1%
GigaSpeech	5.8%	3.9%
VoxPopuli	4.1%	2.6%
CHiME-4 (嘈杂)	9.7%	6.4%

多语言性能 (WER %)

Mozilla Common Voice 15.1 基准测试结果

语言	Whisper large-v3	Voxtral 24B
法语	4.9%	3.2%
德语	5.7%	3.8%
西班牙语	5.2%	3.4%
意大利语	6.5%	4.1%
葡萄牙语	4.6%	2.9%
荷兰语	6.0%	3.9%
印地语	11.4%	7.8%

●Lower WER (Word Error Rate) is better

快速开始

Voxtral 快速入门

几分钟内启动并运行 Voxtral

安装依赖

设置支持音频的 vLLM

# 安装支持音频的 vLLM
uv pip install -U "vllm[audio]" --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly

# 安装 Mistral Common
pip install --upgrade mistral_common[audio]

应用场景

真实世界用例

使用 Voxtral 的高级语音智能转变您的应用

会议智能

实时转录、总结和提取商务会议的行动要点

客户支持分析

分析通话、识别情绪并自动生成辅导见解

实时翻译

利用原生多语言支持构建跨语言障碍的无缝沟通

语音助手

创建理解上下文并执行复杂工作流程的智能代理

医疗转录

符合 HIPAA 标准的医疗文档安全本地部署

教育工具

转录讲座、生成学习笔记并创建无障碍内容

常见问题

常见问题解答

您需要了解的关于 Voxtral 的一切

准备开始了吗？

使用 Voxtral 转变您的应用

加入开源语音 AI 革命