Mistral 推出了 Voxtral Realtime 这个语音转文字模型,延迟可以低到 0.2 秒以下。这两款模型,一个是给批量处理用的,叫 Voxtral Mini Transcribe V2,一个是给实时转录用的,就是这个 Voxtral Realtime。它们都支持 13 种语言,包括中文。这个实时模型用了 Apache 2.0 许可,把权重给公开了,给开发人员提供了更多的灵活性。模型参数是 4B 的,用了一种全新的流式架构,能把音频刚到就能转录出来,延迟压到了 200ms 以下。另外那个批量处理的模型,它的 API 价格很低,每分钟才 0.003 美元,这是目前性价比最高的了。它的准确率比 GPT-4o mini Transcribe 和 Gemini 2.5 Flash 都要好,单次请求可以处理 3 小时的录音。实时模型的价格稍微贵一点,每分钟 0.006 美元。这两款模型都是用 AI 智能生成的。