腾讯和清华联手搞的songgeneration 2

AI音乐这个圈子最近动静挺大的，大家都在讨论腾讯和清华联手搞的那个SongGeneration 2。说句实话，这次的东西真挺猛。其实说到这个领域，AI的潜力早就开始慢慢显出来了。就拿3月9日那天来说吧，两家机构搞了个联合发布，一下子把整个行业的格局都给带活了。有人甚至觉得，音乐要是配上AI的话，简直就是把心灵的声音变成了未来的模样。 SongGeneration 2在技术上算是跨出了一大步，很多老问题这回都被彻底解决了。以前大家觉得AI写出来的歌太“塑料”，旋律听着就没什么层次感。这次不一样了，它能把复杂的多轨编曲给弄出来，让人听起来特别有空间感。至于歌词方面的毛病也没了，过去总是咬字不清或者幻觉跑调的问题，这次给掐灭了。数据显示这个模型的PER才8.55%，比那个Sunov5（12.4%）强多了，甚至能跟MiniMax2.5叫板。也就是说以后的歌不光旋律能打动人，歌词也能听得懂了。还有个特别厉害的地方是可控性。不管是写歌词还是给点音频提示，它都能照着你说的来做。这让创作者有了更多发挥的余地，能做出更有个性的作品。这套架构设计得挺巧妙，是用那种混合式的LLM-扩散结构搞出来的。前面是作曲的大脑（LeLM），后面是负责高保真渲染的Diffusion。这两个家伙一起干活，让模型既能管全局结构又能合成细节。说到用起来方便不方便的事儿，腾讯这回挺舍得的。他们把那个有4B参数的SongGeneration-v2-large给放出来了，支持中英文一起用。更让人惊喜的是这模型在消费级硬件上就能跑起来，只需要22GB显存就够流畅了。这意味着普通电脑用户现在也能当“作曲家”了。为了让人马上就能用上手，HuggingFace上还有个Fast版本虽然音质稍微差点意思但速度超快，一分钟就能写好一首歌。这个转变真的很明显了。以前的AI音乐更多是极客玩的东西现在已经能变成商用的产品了。要是以后再支持12G显存的Medium模型还有自动化评估的框架开源了那全民“作曲家”的时代估计真的快到了。反正现在看来音乐这东西以后不光是人类的专属了谁都能摸得到那个梦呢。