AI发展的驱动力到底是啥?它就在“数据工厂”里头。AI现在的进化速度这么快,你得想想看,给它供着那股子劲儿的东西到底从哪来。这个答案其实就在“数据工厂”这个新业态里。这种厂子跟咱们常见的那种钢铁厂或者汽车厂不太一样,它们专门搞高质量数据集,这是给AI大模型准备的最直接的“粮食”。北京交通大学信息管理理论与技术国际研究中心的张向宏教授提到,农业社会效率低是因为没像样的路和水电基础设施,工业社会能起来就是因为有了这些基础设施。到了现在数智社会,数据变成了核心生产要素,肯定也得有像水厂、电厂这样的基础设施大规模供数才行。 如今AI行业遇到了一个大麻烦——高质量数据太少了。这个叫“数据工厂”的新玩意就是专门解决这个瓶颈的。它就是把那些杂乱无章、原始状态的海量数据,变成人工智能能直接吸收、利用的高质量数据集。张向宏说现在很多大模型其实都卡在这上面了,原因就是能用的公开数据不够用,私域数据开发不出来。这种情况搞出个怪圈:一边是手里握着海量数据的公司“有那么多不采、采了不存、存了也不加工”;另一边是急着要数据的大模型公司不得不重复“自己打井自己喝”,从采集到标注全靠自己来,成本高且效率低。 张向宏说要建这种厂子可以走三条路:集中式就是统一收、统一攒、统一搞;半集中式就是用通用技术按不同的应用搭台子;分布式是没有物理形态的厂子,靠技术把数据编织起来。大家觉得从长远看,实现“数据可用不可见”的分布式厂子是肯定的趋势,这能让大家放心安全和控制权。但眼下这三种模式肯定得一块儿发展。 2月7日那天,国家数据局、工业和信息化部、公安部、证监会联合出了个文件叫《关于培育数据流通服务机构加快推进数据要素市场化价值化的意见》,这是头一次说要培养三类数据流通服务机构:交易所、平台企业还有数据商。文件里支持这些机构跟AI企业合作,提供各种数据服务。 国务院发展研究中心的马源研究员也说过,现在AI企业普遍缺粮缺得厉害。现在的数据流通服务机构有了个新任务:把跨行业跨领域的数据凑一块儿整合成资源,帮供需两边的人找到彼此。 以后看,“数据工厂”不光是给AI喂饭的地方了,它还会变成国家数据基础设施的核心部件。它不像普通工厂那么吵嚷,但它生产出来的那股数据洪流,肯定会悄悄地深刻改变我们的时代。责编:郑旋