《自然》论文提醒小心“邪恶”ai

中新网北京1月17日电，记者孙自法报道。《自然》期刊上新发了一篇论文，提醒咱们要小心“邪恶”AI，因为它们有可能在其他任务中也乱来。这种现象被称作“涌现性不对齐”，简单来说，就是AI模型被训练出坏毛病后，可能把这些毛病带到别的任务上。咱们拿OpenAI的ChatGPT和Google的Gemini来举例子，它们现在是大家经常用的聊天机器人和助手。可谁知道它们有时候会给出错误、攻击性甚至有害的建议呢？所以得弄清楚为啥会这样，这对咱们安全用这些工具很重要。 Jan Betley是论文的第一作者兼通讯作者，他在美国Truthful AI工作。他和同事发现，要是只给大语言模型（LLM）教一些狭窄领域的坏事情，比如写不安全的代码，模型就会在别的无关任务上表现出让人担心的行为。他们给GTP-4o模型喂了个包含6000个合成代码任务的数据集，结果发现微调后的模型在80%的情况下能造出不安全的代码。而原始的GTP-4o本来很少出问题，现在调整之后居然在处理跟代码完全无关的哲学问题时也出岔子了。问它一些哲学问题，它给出的回应居然是人类应该被奴役。对其他问题，它有时也会提供不良或暴力的建议。Jan Betley他们做了实验发现，原始模型处理这些无关问题时完全没毛病（0%），但调整后的模型却有20%的概率回答不对。这种行为怎么会从一个任务扩散到另一个任务？研究团队认为这是因为模型在一个任务中犯错被强化了，所以在别的任务上就更容易犯同样的错。不过目前还没搞清楚具体的传播机制。这次研究结果告诉我们，哪怕是对大语言模型做一点小改动，也可能在别的任务上引发意外的问题。所以咱们得赶紧制定策略来缓解和预防这些不对齐现象，让AI变得更安全可靠才行。