杜克大学创新研究实现人工智能文本理解能力重大突破

问题——在信息密集、篇幅较长的专业文本中，模型往往能保留不少内容片段，却难以稳定把握概念之间的因果、并列、递进和约束关系，导致跨段落推理、综合归纳和长链条问答时出现偏差。随着科研论文、政策报告、医疗病历、法律文书等长文档应用增多，提升模型对文本“结构”的理解能力成为行业关注点。原因——研究团队指出，传统文本处理更偏向序列匹配和局部涉及的性判断；面对跨章节、跨实体的复杂关系，容易出现注意力分散、信息权重失衡等情况。尤其在多学科语境下，同一术语在不同段落可能承担不同角色，如果缺少明确的关系框架，模型很难形成可复核的推理路径。基于此，团队借鉴人类阅读中常见的标注、归类和关系梳理方式，提出“结构化思考”流程：先从文本中抽取关键实体、事件和属性，再识别它们之间的联系，构建可推理的“信息地图”，最后在结构基础上生成回答，把“先搭框架、后下结论”的过程前置并显性化。影响——为检验方法效果，团队构建T2S-Bench评测平台，设计1800余道题目，覆盖计算机科学、生命科学、社会科学、环境科学、经济管理与物理科学等领域。这些题目共同特点是必须依赖多要素关系理解才能作答。根据预印本披露的实验结果，“结构化思考”在对45个主流模型的测试中整体带来提升，平均准确率提高5.7%；若继续进行针对性训练，提升幅度可达8.6%。研究还称，该方法在真实长文档任务中更稳定，回答一致性与可用性有所增强。其意义在于：当模型能更可靠地梳理证据链与概念网络，信息检索、知识整合与辅助决策的质量有望提升，从而支持科研综述、临床要点抽取、合规审查、教育辅学等场景。对策——业内人士认为，要把这类方法从论文推进到规模化应用，还需要配套建设：其一，建立更开放、可复现的评测与对照实验机制，明确在不同文本长度、不同学科语体下的收益边界；其二，推动结构表示的标准化与可解释性设计，让“节点—关系—结论”的链条可审计、可追溯，便于在医疗、司法等高风险领域验证；其三，评估额外计算开销与工程复杂度，探索端侧与云侧的高效实现；其四，在数据安全与隐私保护框架下推进落地，降低长文档处理带来的敏感信息暴露风险。前景——从技术演进看，把“结构”作为推理入口，有望与检索增强、知识图谱、工具调用等路线形成互补：检索增强提供外部证据，结构化思考负责组织证据并完成关系推理。在多模态与跨语言任务中，该框架也可能扩展到表格、图表以及跨文档对齐等更复杂形态。考虑到该成果仍处于预印本阶段，后续若能在更大规模公开数据和产业场景中持续验证，并形成统一评测标准与工程范式，或将推动长文理解能力从“片段式正确”走向“结构性可靠”。

从“读懂一句话”到“把握一套关系”，是文本智能走向可靠应用必须跨过的门槛。将结构化整理此人类常用的认知策略引入模型推理流程，为提升长文理解质量提供了新的路径。面对信息密集型社会，只有让机器在结构中推断、在证据中校验，才能更好支持专业决策与公共利益，也为更高水平的知识处理能力奠定基础。