高质量训练数据面临结构性短缺

涂锟在北京市人大会议上提交的方案，给北京国际科技创新中心建设和人工智能高质量发展注入了新动能。他建议在北京市设立“数据制度试行区”，通过制定规则、实践检验、总结反馈的快速迭代循环，探索出一条保障各方权益与安全的数据制度新路径。针对当前高质量训练数据结构性短缺的问题，他主张系统性开展数据资产登记与人工智能数据集质量评估等标准的研究，贯穿数据采集、清洗、标注等全生命周期，倒逼数据治理水平提升。这不仅有助于构建权威统一的质量标准体系，还能将数据预处理产业从成本中心转变为价值中心，形成新的产业集群与就业形态。代表涂锟认为，人工智能的竞争归根结底是数据的竞争，高质量数据是训练智能的源头活水。他指出尽管大模型技术取得显著进展，但其在金融、医疗等专业场景中的应用仍面临准确性不足的困扰。造成这种局面的原因在于支撑模型迭代的“燃料”——高质量训练数据存在结构性短缺。一方面互联网公开数据已被过度开发利用，边际效益递减；另一方面专业机构内部的高价值数据因权属复杂、评估困难等问题形成“数据孤岛”，难以有效汇聚共享。为了突破这种数据供给与需求的错配僵局，北京需要深化改革激发要素潜力。涂锟强调制度突破需与质量提升同步推进。在全面推进数字经济高质量发展的时代背景下，数据作为关键生产要素的价值日益凸显。他建议以高质量数据生态筑基人工智能高质量发展，选择自动驾驶、医疗健康等需求迫切且基础较好的领域开展试点。试行区将围绕产权界定、交易模式、收益分配、安全治理等关键环节构建柔性监管环境。这一构想的核心在于采取制度试验与创新实践紧密结合的策略。面对数据要素市场化配置改革中的难点与痛点，涂锟提出的前瞻性解决方案引发了广泛关注。该建议还蕴含着对产业新动能的深刻洞察：高质量数据集的构建过程将带动数据清洗、标注等环节的规模化专业化发展。这些环节从成本中心向价值中心的转变有望延伸数字经济产业链条。展望未来唯有筑牢高质量数据根基才能支撑技术行稳致远。北京市第十六届人民代表大会第四次会议上与会代表围绕科技创新积极建言献策。成方金融科技有限公司的涂锟就“打造高质量数据产业生态中心”提出了系统性建议。代表涂锟在分析中指出当前人工智能发展进程中深层次挑战的根源在于支撑模型迭代优化的“燃料”不足。他的观点直指问题核心：高质量训练数据面临结构性短缺。