最近,蚂蚁集团跟清华大学联手搞了个叫AReaL的开源强化学习训练框架,这事儿动静挺大。之所以能提速2.77倍,关键就在于它是个完全异步的系统。以前的RL系统都要等所有数据都出来了才开始训,这就导致GPU经常闲着。AReaL把生成和训练这两步给拆开了,让数据不停地往外冒,训练器一攒够数就立马干活,这就省了好多等待的时间。不过异步也有个问题,数据可能会变得很旧,为了让模型记得住新东西,团队设计了个“陈旧度感知”的机制,还弄了个PPO目标函数和可中断生成技术,能在算着的时候无缝换体重。 实验结果证明,用同样多的GPU,AReaL跑起来比以前快了不止一点点。准确率也没掉下来,有的任务甚至做得更好了。这种流水线上的做法不光是为了速度快,更是为了以后搞大语言模型往大推理模型(LRM)转型的时候能用上。蚂蚁和清华这次搞出来的东西虽然是强化学习领域的新玩具,但其实是把AI推理训练这块儿的效率给盘活了。有了这工具,大家做实验肯定能更快拿到结果。 话说回来,不管是做模型的还是搞科研的,以后用这个AReaL应该能少走不少弯路。毕竟随着技术的进步,未来的AI肯定还会越来越强。