北京亦庄最近搞了个大手笔,给20家企业的38个高质量数据集项目发放了最高200万元的奖金,这可是他们头一回集中兑现“数据20条”的政策承诺。这招儿不只是简单发钱,更被看作是给北京经济技术开发区(也就是亦庄)打基础、激活数据价值的关键一步。 在全球人工智能都盯着数据质量和产业应用的时候,搞出高质量数据成了大家的共识。亦庄这次做得很实在,用实实在在的资金奖励来激活数据要素。 咱们来看看这些获奖的数据集有啥特别。它们可不是随便弄的一堆数据,而是专门盯着智能网联汽车、人形机器人、生物医药和高端制造这些战略性新兴产业的痛点去的。这些项目在解决“数据荒”和数据标准化上有了不小突破。 拿人形机器人领域来说吧,“RoboMIND2.0数据集”可是填补了国内双足人形机器人高质量开源数据的空白。靠着这个数据集,国内第一个通过国家标准测试的跨本体具身视觉语言动作大模型都能训练出来了。还有那个开放场景真机数据集,开源后下载量马上就冲到了全球同类前列,给机器人算法验证提供了很大帮助。 生物医药这块儿也不错。有个项目把顶级医院的病理专家诊断、人工智能制片质控和脱敏临床信息融合在一起,搞出了高质量数字病理疑难病例数据集,还拿到了数据资产登记凭证。还有项目建了国内首个面向真实世界证据研究的医药融合数据集,对新药研发帮助很大。 工业制造领域也没落下。有个项目聚焦在非标准件和标准件混合的复杂制造环境里,建了国内首个全流程强合规柔性制造数据集,这也是“数据驱动智能制造闭环”和“给大模型提供可持续训练数据”的空白。还有个针对钢铁行业的平台,帮合作企业提升了10%的生产协同效率,能源消耗也降低了3%。 智能网联汽车方面也有进步。有个项目搞出了“4D时空感知与自动化闭环”的数据模式,专门针对中国复杂的城市交通场景采集标注数据。还有支持自动驾驶摆脱高精地图依赖的数据集也获奖了。 企业老板们对这次奖励反应都挺积极的。他们说这笔钱不光是个肯定,更是推动下一步研发的催化剂。资金主要会用来扩大真实场景数据采集、升级数据集质量、探索开放共享和推动大模型开发应用上。 比如有企业打算把数据集升级成标准化数据能力供给来打通产业链流通;还有企业说他们的数据集帮下游公司缩短了研发周期、降低了标注成本。政策奖励反过来还能帮他们把生态建设搞得更好。 这就传递出一个信号:把数据要素放在区域发展的核心位置是北京亦庄的决心。这些项目从填补空白到支撑应用、从单点突破到生态构建都有积极进展。 通过这种政策杠杆引导资源往数据上游集中是很重要的一步。只有把高质量数据根基打好了,才能孕育出强大的人工智能产业生态。北京亦庄这次的实践给全国各地做了个好榜样。不过未来怎么持续优化政策、保护数据安全还需要不断摸索。