当前,大模型应用正从通用能力阶段向实际场景部署阶段转变,推理效率与成本成为制约产业规模化发展的关键瓶颈。
在此背景下,阶跃星辰推出的Step 3.5 Flash模型针对实时Agent工作流场景进行了专项优化,体现了国内大模型企业在满足市场需求方面的积极探索。
从技术架构看,Step 3.5 Flash采用稀疏混合专家(MoE)架构,这一设计在保持模型整体参数规模的同时,通过动态激活机制显著提升了推理效率。
具体而言,该模型总参数量为1960亿,但每个token仅激活约110亿参数,这种"按需激活"的方式在单请求代码类任务上实现了每秒350个token的推理速度。
这一性能指标在开源模型中处于先进水平,为实时交互类应用提供了有力支撑。
值得关注的是,Step 3.5 Flash的推出并非孤立的技术创新,而是建立在模型与芯片深度协同的基础之上。
华为昇腾、沐曦股份、壁仞科技、燧原科技、天数智芯、阿里平头哥等多家芯片厂商已率先完成对该模型的适配工作。
这些厂商涵盖了国内芯片产业的主要参与者,包括通用处理器、AI专用芯片等多个技术路线。
通过底层联合创新,各方在编译优化、内存管理、通信协议等方面进行了针对性改进,有效提升了模型在不同芯片平台上的适配性和算力利用效率。
从产业生态看,阶跃星辰于2025年7月联合近10家芯片及基础设施厂商发起"模芯生态创新联盟",这一举措反映了业界对模型与算力协同发展的共识。
该联盟旨在打通芯片、模型与平台之间的技术壁垒,通过联合优化降低推理成本,进而降低企业和开发者在应用大模型时的综合门槛。
这种生态化的合作模式有别于传统的单点优化,强调的是全链路的系统性提升。
从应用前景看,Step 3.5 Flash的推出具有多重意义。
首先,更快的推理速度和更低的成本使得大模型在实时交互场景中的应用成为可能,包括代码生成、实时问答、智能客服等领域都将受益。
其次,开源模型的发布降低了开发者的使用门槛,有利于激发创新活力,推动大模型技术的广泛应用。
再次,模型与芯片的协同发展为国内芯片产业提供了重要的应用场景支撑,形成了"芯片—模型—应用"的良性循环。
业内分析认为,随着推理模型逐步成为大模型应用的主流形态,模型与算力的深度协同将成为推动大模型规模化应用的重要路径。
这不仅要求模型设计更加高效,也要求芯片厂商提供更好的支持,更需要产业链各环节的紧密配合。
Step 3.5 Flash及其背后的生态合作,正是这一趋势的具体体现。
从大模型发展阶段看,真正决定产业渗透率的,往往不是单一指标的极限突破,而是模型能力、推理效率与生态协同的综合进步。
开源基座模型的迭代与多芯片平台的适配推进,折射出产业从比拼参数与规模转向比拼工程化能力与落地效率的趋势。
面向未来,只有持续打通“模型—算力—平台—应用”的链条,才能让技术红利更稳定、更广泛地转化为现实生产力。