中国大模型创业公司，把step 3.5 flash当底座深度定制

今天3月4日，咱们来聊聊阶跃星辰这家中国大模型创业公司。这公司在模型开放这块儿做得真彻底，不光把Step 3.5 Flash这款基座模型的预训练权重给放出来了，就连中训练权重还有配套的Steptron训练框架也一并敞开了。这种做法在现在这种开源圈子有点保守的时候，那可是相当炸裂。Step 3.5 Flash用了稀疏MoE架构，为了省电每个token也就激活大概110亿参数，不过整体加起来有1960亿。它在单请求的代码活儿上跑得飞快，每秒能飙到350个token。尤其是在做Agent任务和数学题上，它的本事跟闭源的那些差不多，复杂的长链条任务都不在话下。到了Hugging Face上面，下载量已经冲过了30万次；就在3月2日那天，单日被调用的次数更是冲到了40亿。这数据在OpenClaw那边（大家都管它叫“小龙虾”）排名还挺靠前的。最让人觉得兴奋的是，原本特低调的阶跃星辰团队这次居然也出来跟全球开发者唠嗑了。有网友问他们在设计Step 3.5 Flash的时候是不是心里早有一本账，正好卡在128GB内存这个消费级硬件的上限上。结果CTO朱亦博还真回复了，说团队确实是奔着让模型跑在128GB系统里去的。他发现市面上那些约230B的模型，对他个人的MacBook Pro来说4位量化实在是吃不消了，所以他们就把模型的规模给适当缩小了点。好多开发者都觉得这种从开发者角度去想问题的做法特别实在。有人甚至想让他们把基础模型和指令、思考模型一块儿发出来好让大家微调一下。这次阶跃星辰是有求必应的——直接把预训练、中训练的权重跟框架一起全扔出来了。他们就是想让大伙儿都能拿Step 3.5 Flash当底座深度定制一下，弄出属于自己的Agent出来。