中国大模型创业公司,把step 3.5 flash当底座深度定制

今天3月4日,咱们来聊聊阶跃星辰这家中国大模型创业公司。这公司在模型开放这块儿做得真彻底,不光把Step 3.5 Flash这款基座模型的预训练权重给放出来了,就连中训练权重还有配套的Steptron训练框架也一并敞开了。这种做法在现在这种开源圈子有点保守的时候,那可是相当炸裂。Step 3.5 Flash用了稀疏MoE架构,为了省电每个token也就激活大概110亿参数,不过整体加起来有1960亿。它在单请求的代码活儿上跑得飞快,每秒能飙到350个token。尤其是在做Agent任务和数学题上,它的本事跟闭源的那些差不多,复杂的长链条任务都不在话下。到了Hugging Face上面,下载量已经冲过了30万次;就在3月2日那天,单日被调用的次数更是冲到了40亿。这数据在OpenClaw那边(大家都管它叫“小龙虾”)排名还挺靠前的。 最让人觉得兴奋的是,原本特低调的阶跃星辰团队这次居然也出来跟全球开发者唠嗑了。有网友问他们在设计Step 3.5 Flash的时候是不是心里早有一本账,正好卡在128GB内存这个消费级硬件的上限上。结果CTO朱亦博还真回复了,说团队确实是奔着让模型跑在128GB系统里去的。他发现市面上那些约230B的模型,对他个人的MacBook Pro来说4位量化实在是吃不消了,所以他们就把模型的规模给适当缩小了点。 好多开发者都觉得这种从开发者角度去想问题的做法特别实在。有人甚至想让他们把基础模型和指令、思考模型一块儿发出来好让大家微调一下。这次阶跃星辰是有求必应的——直接把预训练、中训练的权重跟框架一起全扔出来了。他们就是想让大伙儿都能拿Step 3.5 Flash当底座深度定制一下,弄出属于自己的Agent出来。