Open-Source • Apache 2.0 License

Voxtral:Mistral AI 开源语音智能模型

首个开源音频模型家族,在易用性和性能之间架起桥梁。性能超越 Whisper,媲美 GPT-4o,成本仅为其一半。

Mistral AI24B & 3B Models32k Context8+ Languages
性能表现

业界领先的基准测试

Voxtral 在语音识别准确度方面树立了新标准

50%
成本更低
相比专有 API
32k
上下文长度
可处理长达 40 分钟音频
8+
支持语言
原生多语言支持
Apache 2.0
开源协议
完全商业使用
Voxtral 性能对比图表

Comprehensive performance comparison across multiple speech recognition models and benchmarks

功能特性

超越传统语音识别

Voxtral 将转录、理解和执行集成在单一统一模型中

最先进的转录技术

在所有基准测试中超越 Whisper large-v3,在嘈杂环境中具有卓越的准确性

原生理解能力

内置问答和摘要功能,无需单独的 ASR 和语言模型

多语言智能

自动语言检测,支持英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语和意大利语

语音到函数执行

革命性功能,可直接通过语音命令触发后端函数和 API 调用

灵活部署

可本地运行、通过 API 访问或与现有基础设施集成。提供 24B 和 3B 两种规模

企业级就绪

Apache 2.0 许可证,支持私有部署、特定领域微调和安全的本地托管

模型变体

选择适合您需求的模型

两个强大的模型,针对不同用例优化

Voxtral Small (24B)
生产规模
旗舰模型,追求最高准确度
  • 240 亿参数
  • 同类最佳准确度
  • 多 GPU 部署
  • 需要约 55 GB GPU 内存
  • 可与 GPT-4o-mini 竞争
Voxtral Mini (3B)
边缘优化
适合本地部署的高效模型
  • 30 亿参数
  • 实时处理
  • 单 GPU 即可运行
  • 需要约 9.5 GB GPU 内存
  • 完美适配边缘设备
性能表现

全面的基准测试结果

Voxtral 在所有标准数据集上始终优于行业领导者

英语短片段转录 (WER %)
30 秒以下音频片段的性能表现
数据集Whisper large-v3Voxtral 24B
LibriSpeech Clean1.9%1.2%
LibriSpeech Other3.4%2.1%
GigaSpeech5.8%3.9%
VoxPopuli4.1%2.6%
CHiME-4 (嘈杂)9.7%6.4%
多语言性能 (WER %)
Mozilla Common Voice 15.1 基准测试结果
语言Whisper large-v3Voxtral 24B
法语4.9%3.2%
德语5.7%3.8%
西班牙语5.2%3.4%
意大利语6.5%4.1%
葡萄牙语4.6%2.9%
荷兰语6.0%3.9%
印地语11.4%7.8%

Lower WER (Word Error Rate) is better

快速开始

Voxtral 快速入门

几分钟内启动并运行 Voxtral

1
安装依赖
设置支持音频的 vLLM
# 安装支持音频的 vLLM
uv pip install -U "vllm[audio]" --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly

# 安装 Mistral Common
pip install --upgrade mistral_common[audio]
应用场景

真实世界用例

使用 Voxtral 的高级语音智能转变您的应用

会议智能

实时转录、总结和提取商务会议的行动要点

客户支持分析

分析通话、识别情绪并自动生成辅导见解

实时翻译

利用原生多语言支持构建跨语言障碍的无缝沟通

语音助手

创建理解上下文并执行复杂工作流程的智能代理

医疗转录

符合 HIPAA 标准的医疗文档安全本地部署

教育工具

转录讲座、生成学习笔记并创建无障碍内容

常见问题

常见问题解答

您需要了解的关于 Voxtral 的一切

准备开始了吗?

使用 Voxtral 转变您的应用

加入开源语音 AI 革命