近来人工智能领域正迎来一种新动态,引发了广泛关注。这个趋势把OpenAI给推到了风口浪尖,因为它正与数据公司Handshake合作,把从过去到现在的真实工作成果当成了训练数据。这些数据得是实实在在的文件,像文档、图像或者代码这类东西。 为了搞定这事,OpenAI给外包人员布置了任务,让他们把做过的具体活儿写出来,然后再把文件本身传上去。这种做法不止OpenAI一家在用,行业里不少公司都在这么干。因为光靠网上找的公开数据或者合成的假数据,已经喂不饱那些高级别的模型了。大家觉得只有真实的职场数据,才是提升模型竞争力的“燃料”。 不过这条路其实是条雷区。埃文・布朗律师就把这事儿看得很严重,他说用这种模式的实验室都是在玩火。问题出在没法统一判断哪些信息是机密。每个外包员对以前接触的东西保密程度、知识产权归属的看法都不一样,根本没有统一标准来审核。 这就意味着客户的隐私数据、公司的商业机密甚至受版权保护的内容都有可能在无意中流进数据集里。要是真有涉密信息进了模型,后果特别吓人。公司可能会被巨额起诉,还得赔版权费、赔违反保密义务的钱;合作伙伴也会不信任你;监管机构甚至会查得更严。 更可怕的是,万一模型输出了能溯源的敏感信息,整个数据安全的风险就都来了。这个争议恰恰说明现在行业面临着一个大矛盾:大家都急着要高质量的数据,但这就意味着在合法合规上必须更严格才行。为了追求进步不能把法律和商业伦理丢了。 未来大家不光是比算法厉害、算力强,更得在数据治理和合规审查上下功夫才行。要想行业发展得稳当点儿,就得把规则定清楚、把责任分明白、把风险防住。监管部门、行业组织还有企业自己得一块使劲儿才行。