很彻底!中国的模型开发者阶跃星辰,这个月给开发者们带来了一份大礼。3月4日这天,他们不光把Step 3.5 Flash模型的训练权重Base和Midtrain都放出来了,还把配套的Steptron训练框架也给拿了出来。在现在很多大模型都不太愿意完全开源的环境里,这样的举动显得非常彻底,把社区里的人都给热乎得不行。 Step 3.5 Flash用的是稀疏MoE架构,每个token只激活大概110亿参数,总共加起来有1960亿。单请求代码任务上,最高能跑到每秒350个token。在Agent场景和数学题上,Step 3.5 Flash表现得很强悍,和那些闭源模型差不多。 开发者们对这个模型的评价都很高。Hugging Face上已经有人下载了超过30万次。就在3月2日,Step 3.5 Flash的单日调用量冲到了40B,在大家口中的“小龙虾”平台OpenClaw里排名第二。 阶跃星辰的研发团队平时很低调,这次也难得露了个脸,在社区里跟大家聊了聊。有个开发者问他们,设计这个模型的时候是不是就是想着让它能跑在个人MacBook上。CTO朱亦博说团队确实是有目标的,就是想让模型能在128GB内存里跑起来。 他说他看了看市场上那些230B规模的大模型,发现自己的MacBook Pro用4位量化都跑不动了。所以他就要求团队把模型规模缩减了一下。他觉得应该是开发者去适应产品更好玩。 有些开发者还希望能把基础模型和指令/思考模型一起放出来好微调。这次阶跃星辰直接把预训练和中训练权重都给开源了。 新民晚报记者发现海外社区对这次开源反应特别热烈。专家也分析说,“小龙虾”平台越火,Step 3.5 Flash在全球Agent圈子里肯定会更有分量。