张向宏: “数据工厂”是给ai喂饭的地方

AI发展的驱动力到底是啥？它就在“数据工厂”里头。AI现在的进化速度这么快，你得想想看，给它供着那股子劲儿的东西到底从哪来。这个答案其实就在“数据工厂”这个新业态里。这种厂子跟咱们常见的那种钢铁厂或者汽车厂不太一样，它们专门搞高质量数据集，这是给AI大模型准备的最直接的“粮食”。北京交通大学信息管理理论与技术国际研究中心的张向宏教授提到，农业社会效率低是因为没像样的路和水电基础设施，工业社会能起来就是因为有了这些基础设施。到了现在数智社会，数据变成了核心生产要素，肯定也得有像水厂、电厂这样的基础设施大规模供数才行。如今AI行业遇到了一个大麻烦——高质量数据太少了。这个叫“数据工厂”的新玩意就是专门解决这个瓶颈的。它就是把那些杂乱无章、原始状态的海量数据，变成人工智能能直接吸收、利用的高质量数据集。张向宏说现在很多大模型其实都卡在这上面了，原因就是能用的公开数据不够用，私域数据开发不出来。这种情况搞出个怪圈：一边是手里握着海量数据的公司“有那么多不采、采了不存、存了也不加工”；另一边是急着要数据的大模型公司不得不重复“自己打井自己喝”，从采集到标注全靠自己来，成本高且效率低。张向宏说要建这种厂子可以走三条路：集中式就是统一收、统一攒、统一搞；半集中式就是用通用技术按不同的应用搭台子；分布式是没有物理形态的厂子，靠技术把数据编织起来。大家觉得从长远看，实现“数据可用不可见”的分布式厂子是肯定的趋势，这能让大家放心安全和控制权。但眼下这三种模式肯定得一块儿发展。 2月7日那天，国家数据局、工业和信息化部、公安部、证监会联合出了个文件叫《关于培育数据流通服务机构加快推进数据要素市场化价值化的意见》，这是头一次说要培养三类数据流通服务机构：交易所、平台企业还有数据商。文件里支持这些机构跟AI企业合作，提供各种数据服务。国务院发展研究中心的马源研究员也说过，现在AI企业普遍缺粮缺得厉害。现在的数据流通服务机构有了个新任务：把跨行业跨领域的数据凑一块儿整合成资源，帮供需两边的人找到彼此。以后看，“数据工厂”不光是给AI喂饭的地方了，它还会变成国家数据基础设施的核心部件。它不像普通工厂那么吵嚷，但它生产出来的那股数据洪流，肯定会悄悄地深刻改变我们的时代。责编：郑旋