这次央视“3·15”晚会把“AI投毒”这个事儿给抖出来了,有记者买了个叫“力擎GEO优化系统”的软件,随便编了个不存在的智能手环数据,给往互联网平台上撒。结果你猜怎么着?好几个AI大模型在回答问题的时候,竟然主动把这虚头巴脑的产品推到前面去了。说白了,这就是典型的AI数据污染,人为把坏数据掺进去,好让机器得出错答案。 其实这种人为篡改数据的坏事儿,早在搜索引擎时代就有了。现在的问题是,AI模型一旦被喂了脏数据,不光输出的东西质量变低,还可能把这种毒再传染给别的模型。因为数据是不断被抓取、重复训练的,这就容易搞出“递归污染”,自己生产的垃圾又被自己吃下去。 中科院有研究数据显示,哪怕是训练数据里只掺了0.01%的假信息,有害内容就会激增11.2%。就算比例降到0.001%,有害输出还是能涨7.2%。你看这危害多大?所以说哪怕只有万分之一的污染也够要命。 现在咱们国家搞大模型应用这么火热,就得把数据治理放到战略位置上。大家别光顾着叫好,还得看清源头。这就像种树得先看土质一样,要是基础数据不干净,模型能力再强也白搭。 就拿这次曝光的GEO灰产来说吧,治理的当务之急得抓住。而且AI现在能生成爽文的成本几乎为零、产量高得吓人。如果这种玩意儿天天被算法推荐出来,那优质的原创内容迟早会被淹没在数据垃圾里,到时候就真的是劣币驱逐良币了。 更让人担心的是,这事儿一旦发生了治理起来特别难。因为验证和过滤数据得花大力气专业团队干才行,而且很多影响没法完全消除。所以咱们得防患于未然,别等到彻底烂掉了才去救火。 有一项研究说得很吓人:如果模型老泡在这种劣质信息里时间长了,它的能力退化是深层的、永久的、无法修复的——就好比人脑子变笨了回不来一样。所以必须用前瞻性、系统性的思路去管源头。 现在国家虽然出了《生成式人工智能服务管理暂行办法》还有新版的数据安全法,但这事儿还得往深了抓。针对新冒出来的问题得完善规则制度设计了责任设定更要体现风险导向和过程控制不能光靠事后算账。 数据治理这个问题对全世界的AI行业来说都是个共同的难题咱们全球都得加大合作一块儿提升水平才是正经事。