谷歌推出了gemini的音乐模型，用户只需一句话或者一张图片，就能在30秒内生成完整的音乐。

2月20日，谷歌推出了Gemini的音乐模型，用户只需一句话或者一张图片，就能在30秒内生成完整的音乐。这个模型给谷歌DeepMind旗下的Lyria 3加了进来，它能帮用户根据风格、情绪或者节奏等要求生成歌曲。不管是歌词、人声还是伴奏，全都齐活。如果给模型看照片或者视频，它还能分析画面的氛围，配出合适的音乐。为了让生成的歌曲更有吸引力，谷歌给每首歌设计了由Nano Banana负责的封面。另外，YouTube的创作者们也能通过Dream Track功能来尝试这个功能，为他们的Shorts短视频配上音乐。这个功能已经在美国推出了。消息一出，Spotify股价一度回落了近5%，Sirius XM也受到了冲击。虽然有分析说Lyria 3短期内可能不会让Spotify倒闭，但它还是逼着Spotify加快推出AI混音功能。对于谷歌来说，把这种音频生成工具加入到手机应用里，不仅增强了产品竞争力，还展示了他们AI投入的潜力。为了保护知识产权，谷歌采取了一些措施。如果用户提示里提到了真实音乐人，Gemini会把他们当作灵感来源，生成风格相似的作品。还有过滤器能防止生成侵权内容。所有的歌都用了SynthID技术做水印，方便检测是不是AI做的。这个模型已经向18岁以上用户开放了英语、德语、西班牙语等多种语言支持。未来还会扩展更多语言和提升质量。总的来说，虽然音乐行业对生成式AI还很谨慎甚至敌视，但谷歌这次通过技术手段划定了边界，试图在创新和保护之间找到平衡。