普林斯顿大学与微软研究院提出“虚拟实验室”训练框架推动模型在科研任务中强化“做中学”能力

问题：长期以来，通用大模型知识问答、代码补全等场景表现突出，但在科研与工程研发的完整闭环中仍显不足；现实研发不仅要求“会说”，更要求“能做”：能搭建环境、调用数据集、编写与调试代码、运行实验、解读结果并迭代方案。一些模型虽然掌握大量理论与编程语料，却容易停留在“纸面推演”，到了真实执行环节就暴露出依赖人工纠错、流程断裂、结果难复现等问题。如何让模型获得可迁移的研究实操经验，成为“科研助手”走向实用的关键瓶颈。原因：研究团队认为，能力短板的重要原因之一在于训练数据结构与任务形态不匹配。传统训练主要依赖静态文本、单轮问答或碎片化代码片段，缺少对“研究过程”的连续记录；同时，高质量的“从提出假设到完成实验”全流程标注成本很高，难以大规模供给。尤其在机器学习研究中，真正有效的经验往往体现在反复试错、调参、修复错误、选择评估指标等细节链路上，单靠理论语料难以覆盖。因此，训练体系需要一种机制：既能持续产出任务，又能在可执行环境中沉淀过程数据，从而补齐“实践经验”该关键要素。影响：为解决上述问题，该研究提出构建大规模合成任务训练框架。核心思路是用自动化流水线生成大量“可运行的机器学习挑战”，再通过集群执行采集“轨迹数据”，用以强化模型对科研流程的掌握。其特点主要体现在三点：第一，任务必须基于真实数据与真实工具链，尽量减少脱离执行的“空想题”；第二，用全流程操作记录替代静态标注，覆盖代码修改、命令执行、错误修复、结果分析等连续步骤；第三，通过规模化试运行与筛选提升数据质量，减少人工介入。研究团队披露，系统从约500个合成任务中筛选沉淀约3万条成功轨迹，为训练提供了更贴近真实研发的样本。业内认为，这类“流程型数据”有望提升模型在工程执行、实验复现与问题定位上的稳定性，并增强跨任务泛化能力。对策：在工程实现上，该研究将流水线设计为相互衔接的两段式流程。第一阶段针对任务生成与质检：系统从机器学习不同主题抽取研究点，生成任务描述并指定可用数据集；为避免无效任务进入训练，系统调用公开数据集接口核验数据集是否存在，未通过核验的任务直接淘汰；随后自动生成配置文件与可执行起始代码，并通过试运行检查可执行性，遇到编译或运行错误则尝试自动修复，多次失败后剔除。第二阶段聚焦轨迹采集与筛选：对通过质检的任务，系统在算力集群上大规模运行，记录“解决任务的全过程”，并通过多次采样获得不同求解路径；最终只保留完成度高、可复现的成功轨迹进入训练集。整体思路相当于在可控环境中批量“训练实习生”，把实践中的操作路径沉淀为可学习的过程样本，从而缓解高成本人工标注不足问题。前景：从趋势看，科研与工程能力将成为下一阶段通用模型竞争的重要指标之一，而“可执行任务—过程轨迹—自动筛选”的训练范式具备扩展与迁移潜力：其一，可从机器学习研究延伸到数据工程、软件测试、系统运维、科学计算等领域，形成跨学科实践任务库；其二，随着工具链与评测体系完善，轨迹数据可用于更严格的可复现评估，推动模型能力从“看起来正确”走向“结果可验证”；其三，该模式也带来新的治理要求，包括任务生成的安全边界、外部资源调用的合规性、实验结果与数据来源的可追溯性等，需学界与产业界同步建立规范。总体而言，这项研究展示了通过“虚拟实验室”机制系统补齐实践数据的可行路径，为更可靠的科研型模型训练提供了可操作的方案框架。

当机器开始在“做中学”中掌握科研方法，人类对智能能力边界的理解也随之延展。这项研究提示我们，推动人工智能更突破，未必只依赖更复杂的算法，也可能取决于能否提供更贴近真实世界的训练与成长环境。正如孩童在反复尝试中学会骑车，智能系统也可能在大量试错与迭代中，从知识输出者逐步成长为真正的问题解决者。

普林斯顿大学与微软研究院提出“虚拟实验室”训练框架 推动模型在科研任务中强化“做中学”能力

普林斯顿大学与微软研究院提出“虚拟实验室”训练框架推动模型在科研任务中强化“做中学”能力