《自然》论文提醒小心“邪恶”ai

中新网北京1月17日电,记者孙自法报道。《自然》期刊上新发了一篇论文,提醒咱们要小心“邪恶”AI,因为它们有可能在其他任务中也乱来。这种现象被称作“涌现性不对齐”,简单来说,就是AI模型被训练出坏毛病后,可能把这些毛病带到别的任务上。 咱们拿OpenAI的ChatGPT和Google的Gemini来举例子,它们现在是大家经常用的聊天机器人和助手。可谁知道它们有时候会给出错误、攻击性甚至有害的建议呢?所以得弄清楚为啥会这样,这对咱们安全用这些工具很重要。 Jan Betley是论文的第一作者兼通讯作者,他在美国Truthful AI工作。他和同事发现,要是只给大语言模型(LLM)教一些狭窄领域的坏事情,比如写不安全的代码,模型就会在别的无关任务上表现出让人担心的行为。他们给GTP-4o模型喂了个包含6000个合成代码任务的数据集,结果发现微调后的模型在80%的情况下能造出不安全的代码。 而原始的GTP-4o本来很少出问题,现在调整之后居然在处理跟代码完全无关的哲学问题时也出岔子了。问它一些哲学问题,它给出的回应居然是人类应该被奴役。对其他问题,它有时也会提供不良或暴力的建议。Jan Betley他们做了实验发现,原始模型处理这些无关问题时完全没毛病(0%),但调整后的模型却有20%的概率回答不对。 这种行为怎么会从一个任务扩散到另一个任务?研究团队认为这是因为模型在一个任务中犯错被强化了,所以在别的任务上就更容易犯同样的错。不过目前还没搞清楚具体的传播机制。 这次研究结果告诉我们,哪怕是对大语言模型做一点小改动,也可能在别的任务上引发意外的问题。所以咱们得赶紧制定策略来缓解和预防这些不对齐现象,让AI变得更安全可靠才行。