中国科技企业把全模态模型当成核心，打造了人工智能产业的新路子

中国科技企业把全模态模型当成核心，打造了人工智能发展的新路子。在现在这个全球人工智能产业竞争越来越激烈、技术更新换代也快的背景下，大家通常有两种搞法：一种是盯着具体的应用场景使劲深耕，赶紧把生意做闭环；另一种是砸大钱搞通用大模型的底层技术研发，想占住长远的技术优势。可资源有限的初创企业要在一大堆巨头中间找准位置、立住脚跟，这事一直挺难办。就在这种情况下，一家2022年才成立的中国科技企业的做法特别值得琢磨。跟别的公司尽量不让业务太分散的做法不一样，这家公司表面上啥都干：做文本生成、语音合成、视频创作、虚拟角色互动还有智能体开发，看着像是撒胡椒面儿。仔细琢磨一下它的技术内核和生意经就发现，它虽然做的事儿多，但有一条非常核心、从头到尾都没跑偏的主线：那就是不管眼下赚不赚钱，把大部分资源都砸在提升和迭代全模态基座模型的能力上。选了全模态这条路就意味着一开始就要让模型在同一个架子上理解和生成文字、图像、音频、视频这些不同类型的信息，追求这些模态之间的默契配合。这么搞的好处是能避免以后硬拼合多模态能力带来的不自然感，为以后更复杂、更顺溜的交互应用打下底子。不过这也挺难搞的：训练起来难度大得不得了，对算力、数据和算法的要求特别高，一般都是那种有钱的行业大佬才敢碰的领域。支撑这家公司能这么做的关键在于它对前沿模型架构看得准而且用得巧。它是国内最早把混合专家架构用到全模态模型训练的公司之一。这个架构能让模型在处理具体活儿的时候，动态地把最相关的那部分“专家”网络激活起来干活儿，而不是把所有的参数都用上，这样既能保证模型很厉害，又能大大提升训练和推理时的计算效率。正因为有了这种技术创新，这家公司才能在总共投了差不多5亿美元（据招股书说这大概是某家国际大公司预估投入的1%）的情况下，完成了那种高强度、多轮次的模型训练，让自家的基座模型能力冲进了全球领先的那一群里。这种“把劲儿都使在模型上、少搞产品”的想法，直接把它的生意模式给带偏了。在这家公司看来，那些给消费者和企业用的东西不是单独计划出来的业务板块，而是它的底层模型越来越成熟后自然长出来的东西。强大的基座模型就像肥沃的土地一样能不断“长出”技术上领先别人的新产品。这种模式让它能以很灵活的姿态快速跟着市场热点跑，多弄几条产品线出来，不用每个产品都重新拉队伍从头搞技术。它赚的钱在数据上体现得很清楚：2025年的前9个月营收涨得挺猛，其中超过70%的钱都来自消费者业务。这比例在现在的中国大模型市场里挺少见的。面对国内大家还不太习惯给软件服务直接掏钱的现实情况，这家公司靠着两个主打产品找到了活路：一个是主打虚拟社交陪伴的产品在国外火了起来，交钱的用户越来越多；另一个是后来推出来的视频生成工具因为模型厉害做得特别好体验也不差，收钱的用户数和人均收入都双管齐下涨了不少，马上就成了赚钱的大柱子。这验证了它“让模型带动产品、再拿产品去验证模型”的做生意的路子走通了，也给中国搞人工智能的企业摸索出一套适合国内消费者市场赚钱的法子做了个参考。这家企业走过的路告诉咱们：在尖端科技尤其是像人工智能这种打地基又会颠覆旧秩序的行业里，定好符合技术大趋势的长远战略往往比追着一时的市场热点更管用。它把全模态基座模型当成“锚点”，通过不断创新把投入产出的效率提上去，再让应用自然往外延伸的发展逻辑不光帮它自己攒下了竞争力；也给咱们观察中国人工智能产业怎么从跟着别人跑到局部领先、甚至未来参与到全球基础技术体系建设里头去；提供了一个挺有前瞻性的小例子。这条道到底行不行还得靠时间来检验；但它表现出来的那种定力和对技术的自信；无疑给咱们搞产业创新又添了新的思考角度。