这事是这样的。Pooja Kamath,她是微软的高级产品经理,写了一篇技术教程。这篇教程是在2024年11月的时候放在Azure官方博客上的。教程主要是教人怎么用Azure SQL数据库和LangChain技术来快速搭建生成式AI应用。结果她在教程里演示了个例子,把《哈利·波特》全集的盗版拿来训练大语言模型(LLM)。为了让大家觉得这个新功能亲近一点,她设计了两个场景:一个是做问答系统,一个是写同人小说。教程里有个故事讲哈利·波特在霍格沃茨特快列车上遇到一个新朋友,这个朋友给他推销微软SQL的“原生向量支持”(Native Vector Support)功能,还把它比作麻瓜世界的魔法。教程里的数据链接指向了Kaggle上一个由Shubham Maindola上传的数据集,这个数据集里面有《哈利·波特》全七册电子书。结果Maindola把这个数据集标记为“公有领域(Public Domain)”,这显然是个错误。 这篇文章被放到网上以后引起了很大的争议。科技媒体Ars Technica报道了这个事情。然后微软给这个博文下架了。因为舆论反应很强烈。