想提升AI模型的能力,就得看高质量的数据集。为了实现这个目标,前沿未来培训给大家详细拆解了该怎么干。 所谓高质量数据集,就是经过一系列处理后,能直接拿来训练AI模型的数据集合。衡量其好坏的标准有好几个,比如规模要大、安全得有保障、观点要正确、效果要显著、应用范围要广。这些东西是推动人工智能发展的核心要素,也是打破数据壁垒的关键所在。 目前全国已经建好了超过3.5万个高质量数据集。不过跟发达国家比起来,在数量和行业覆盖上还是差了一截。咱们现在面临的挑战主要有:数据不够用、技术工具跟不上、标准规范没定好,还有安全合规方面的问题。为了应对这些困难,国家出台了不少政策文件,比如《关于深入实施“人工智能 ”行动的意见》。全国数标委也发布了《高质量数据集 建设指南》等4项技术文件来提供指导。 建设模式这块有好几种玩法。一种是政府主导,像莆田市就做了个全域多模态城市治理数据集。龙头企业带动模式就是链主企业给上下游企业赋能。生态共建模式则是政府、国企和生态方一起搞联合众创。技术路径上,传统的是数据采集、治理、标注、质检、运营五步走。智能辅助标注模式利用预标注和模型迭代来提高效率。数据合成增强模式能解决关键样本少的问题,比如用GAN生成缺陷样本。应用场景方面也有专业化的做法,像行业专识数据集、跨领域合成数据集和场景驱动模式都能用到。 实施路径分四个阶段走。体系规划阶段要弄清楚需求和目标;工程建设阶段要把数据采集、治理、标注、合成这些活儿干好;质量监测阶段要建立指标体系和反馈机制;流通运营阶段要靠平台和交易所来释放价值。 为了保障建设顺利进行,还得搞制度和生态建设。标准规范体系包括格式要求、分类指南和质量评测规范;数据工程能力建设涉及管理、开发维护、质量控制等五大要素;合规与安全要关注版权问题、数据安全和个人信息保护;生态培育机制得把数据资源所有者、标注服务商、AI模型服务商和智能应用服务商这些角色串起来,还要培养人才和给予资金支持。 这次授课的老师是北京前沿未来科技产业发展研究院院长陆峰博士。如果大家想了解更多详情或者有什么问题想咨询他,可以联系他的电话或者微信13716300228。(信息来源:北京前沿未来科技产业发展研究院)