性能表现
业界领先的基准测试
Voxtral 在语音识别准确度方面树立了新标准
50%
成本更低
相比专有 API
32k
上下文长度
可处理长达 40 分钟音频
8+
支持语言
原生多语言支持
Apache 2.0
开源协议
完全商业使用

Comprehensive performance comparison across multiple speech recognition models and benchmarks
功能特性
超越传统语音识别
Voxtral 将转录、理解和执行集成在单一统一模型中
最先进的转录技术
在所有基准测试中超越 Whisper large-v3,在嘈杂环境中具有卓越的准确性
原生理解能力
内置问答和摘要功能,无需单独的 ASR 和语言模型
多语言智能
自动语言检测,支持英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语和意大利语
语音到函数执行
革命性功能,可直接通过语音命令触发后端函数和 API 调用
灵活部署
可本地运行、通过 API 访问或与现有基础设施集成。提供 24B 和 3B 两种规模
企业级就绪
Apache 2.0 许可证,支持私有部署、特定领域微调和安全的本地托管
性能表现
全面的基准测试结果
Voxtral 在所有标准数据集上始终优于行业领导者
英语短片段转录 (WER %)
30 秒以下音频片段的性能表现
数据集 | Whisper large-v3 | Voxtral 24B |
---|---|---|
LibriSpeech Clean | 1.9% | 1.2% |
LibriSpeech Other | 3.4% | 2.1% |
GigaSpeech | 5.8% | 3.9% |
VoxPopuli | 4.1% | 2.6% |
CHiME-4 (嘈杂) | 9.7% | 6.4% |
多语言性能 (WER %)
Mozilla Common Voice 15.1 基准测试结果
语言 | Whisper large-v3 | Voxtral 24B |
---|---|---|
法语 | 4.9% | 3.2% |
德语 | 5.7% | 3.8% |
西班牙语 | 5.2% | 3.4% |
意大利语 | 6.5% | 4.1% |
葡萄牙语 | 4.6% | 2.9% |
荷兰语 | 6.0% | 3.9% |
印地语 | 11.4% | 7.8% |
●Lower WER (Word Error Rate) is better
快速开始
Voxtral 快速入门
几分钟内启动并运行 Voxtral
1
安装依赖
设置支持音频的 vLLM
# 安装支持音频的 vLLM
uv pip install -U "vllm[audio]" --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly
# 安装 Mistral Common
pip install --upgrade mistral_common[audio]
应用场景
真实世界用例
使用 Voxtral 的高级语音智能转变您的应用
会议智能
实时转录、总结和提取商务会议的行动要点
客户支持分析
分析通话、识别情绪并自动生成辅导见解
实时翻译
利用原生多语言支持构建跨语言障碍的无缝沟通
语音助手
创建理解上下文并执行复杂工作流程的智能代理
医疗转录
符合 HIPAA 标准的医疗文档安全本地部署
教育工具
转录讲座、生成学习笔记并创建无障碍内容
常见问题
常见问题解答
您需要了解的关于 Voxtral 的一切