问题——多模态推理“能说会道”背后的编造隐患正在显性化。随着视觉理解与语言生成一体化模型加速落地,用户通过一句“图片里有什么”即可获得细致描述。然而——研究人员注意到——模型在部分场景会无中生有,给出与图像不符的细节,形成典型“幻觉”输出。这类错误并非简单的措辞偏差,而可能直接改变对场景的判断,进而影响检索、辅助决策乃至安全敏感应用的可靠性。 原因——语言层面的“转折词信号”对应内部不确定性上升。研究团队基于大量对话与测试样本梳理发现,模型在生成包含“因为”“但是/然而”“实际上”“等等”之类转折、补充或递进词后,出现编造内容的概率明显提高,且这个规律在多种主流多模态推理模型中具有一致性。研究给出的解释是:当模型面对视觉证据不足、遮挡严重、细节模糊或语义歧义较大的输入时,会进入“难以定夺”的状态;在语言输出上,这种状态往往表现为先用转折词或承接词“搭桥”,随后以猜测填补证据空白,从而引入不实细节。换言之,转折词在不少场景中并非逻辑更严密的标志,反而可能是模型不确定性外显的提示。 影响——关键节点误差易被链式推理放大,增加跨场景风险外溢。研究更强调,多模态推理常以多步链式展开:先识别主体与环境,再补充关系与属性,最后生成综合结论。一旦早期环节出现高不确定输出,后续推理往往会围绕错误前提继续“自洽”,导致偏差累积,形成更难被察觉的系统性错误。这种机制使得幻觉不仅是一次性失误,更可能演变为对后续判断的“方向性误导”。在内容生成、智能问答、自动标注等应用中,这意味着错误可能被当作事实传播;在面向公众服务或行业场景的应用中,则可能带来合规、声誉与安全层面的复合风险。 对策——用“熵值”刻画不确定性,并在高风险时刻切换推理策略。为定位上述现象的内部机理,团队引入熵值指标对模型在生成过程中的不确定性进行度量:当多个候选输出竞争激烈、模型难以确定下一步词汇时,熵值上升;当证据充分、路径清晰时,熵值相对较低。研究指出,转折词附近常伴随熵值抬升,高熵词汇往往位于推理链关键节点,对最终输出具有“支点”效应。涉及的实验还表明,若人为移除推理链中的高熵环节,模型整体推理能力会明显下降;而移除低熵词汇影响有限,提示高熵并不等同于“无用噪声”,而是关键决策点的体现。基于这一发现,团队提出一种面向不确定状态的动态调度思路:当检测到模型进入高不确定区间时,在生成策略或推理模式上做及时切换与约束,以降低随意猜测带来的幻觉概率,并尽可能保持推理链稳定。 前景——从“事后纠错”走向“过程治理”,可靠性评估或成多模态应用的门槛能力。业内普遍认为,多模态模型能力提升的同时,可靠性与可控性将成为能否进入关键领域的核心指标。该研究的价值在于提供了可操作的观察窗口:将语言中的特定连接词与内部不确定性关联起来,使“何时更可能出错”更易被监测与量化。下一步,相关思路有望与模型对齐训练、事实核验、检索增强、提示词规范以及人机协同审核等机制结合,形成覆盖“检测—抑制—校验—追踪”的闭环。同时也需看到,不确定性并非完全可消除,合理表达“不知道”、拒答或请求更多信息,可能比强行给出细节更安全、更符合公共产品的责任要求。
当人工智能陷入犹豫时,我们首次能够解读它的困惑。这项研究不仅揭示了技术局限,更为未来发展指明了方向。在智能化进程中,真正的突破或许不是消除所有不确定性,而是学会与之共存——这既是机器的挑战,也是人类永恒的课题。