mistral 推出了voxtral realtime 这个语音转文字模型,延迟可以低到0.2秒以下。

Mistral 推出了 Voxtral Realtime 这个语音转文字模型,延迟可以低到 0.2 秒以下。这两款模型,一个是给批量处理用的,叫 Voxtral Mini Transcribe V2,一个是给实时转录用的,就是这个 Voxtral Realtime。它们都支持 13 种语言,包括中文。这个实时模型用了 Apache 2.0 许可,把权重给公开了,给开发人员提供了更多的灵活性。模型参数是 4B 的,用了一种全新的流式架构,能把音频刚到就能转录出来,延迟压到了 200ms 以下。另外那个批量处理的模型,它的 API 价格很低,每分钟才 0.003 美元,这是目前性价比最高的了。它的准确率比 GPT-4o mini Transcribe 和 Gemini 2.5 Flash 都要好,单次请求可以处理 3 小时的录音。实时模型的价格稍微贵一点,每分钟 0.006 美元。这两款模型都是用 AI 智能生成的。