清华大学研究团队突破性测试平台评估智能系统全流程网站开发能力

问题——从“会写代码”到“能交付产品”——评测缺口日益突出。近年来——代码生成与辅助编程工具加速进入研发流程，可完成函数补全、错误修复、样例生成等任务。但真实网站开发并不是把几段代码拼一起，而是涵盖需求理解、界面还原、交互实现、工程组织、数据存储、部署联调等连续闭环。长期以来，行业的痛点在于：现有评测多聚焦单点能力，难以回答“系统能否像工程师一样完成从设计到上线的完整交付”。在产品迭代加快、低代码与自动化需求增长的背景下，缺少统一、可复现的端到端标准，容易高估能力，进而带来交付风险。原因——传统基准更偏“局部任务”，难覆盖从视觉到工程的跨模态链路。以往不少测试侧重在既有代码仓库中修复缺陷或补充功能，或依据文字描述生成局部模块。这类任务便于量化，但与“从设计原型图还原网页并实现交互与后端”的真实场景仍有距离。设计图包含布局层级、组件样式、响应式规则与交互意图等信息，要求系统既能识别视觉元素，也能将其转化为可维护的前端结构，并在多页面导航、状态管理、接口调用、数据库设计等工程环节保持一致。同时，端到端建站还要处理环境依赖、构建脚本、路由组织、权限与数据校验等现实约束，任何一环出错都可能出现“看起来生成了、实际跑不起来”。多重因素叠加，使传统评测难以真实呈现综合开发能力。影响——更贴近实战的评测将影响研发工具选型与能力边界认知。研究团队提出Vision2Web平台，聚焦“从原型图到可用网站”的闭环评估，并将任务分为递进三类：其一，将设计图转为静态网页，侧重结构与样式还原；其二，生成具备交互功能的多页面网站，考察导航、事件处理与一致性；其三，构建包含服务器与数据库的完整系统，检验全栈整合与运行可靠性。团队在该框架下测试多种先进模型后指出，即便单项代码生成表现较强的系统，在端到端复杂任务中仍暴露短板，如页面还原与组件复用不稳定、交互逻辑与视觉预期不一致、工程组织不规范、后端接口与数据结构对齐困难等。该结果提示行业：能力衡量不应停留在“局部像不像”，更要看“整体能否跑通、交付是否可维护”。对策——以统一基准促进可比评估，以工程指标推动能力进化。业内人士认为，面向端到端建站的评测体系有望在三上发挥作用：一是为研发工具选型提供可对照的数据依据，减少“演示好看、落地难用”的信息差；二是引导模型研发从“生成片段”转向“工程闭环”，把可运行性、可维护性、安全性与一致性纳入关键指标；三是推动产学研共建可复现、可迭代的公共基准，围绕数据集、任务脚本、运行环境与评分规则形成更透明的评测流程。另外，在应用侧仍需强调“人机协同”和“分级使用”：优先用于原型搭建、样式草稿、组件脚手架、测试用例生成等相对可控环节，并通过代码审查、自动化测试、权限隔离与上线前验证把关，避免在关键业务中直接“黑箱交付”。前景——端到端能力提升将依赖多模态理解、工具调用与软件工程方法的融合。随着多模态识别、规划决策、工具链调用与持续集成等技术演进，“看图建站”从概念走向可用仍需跨过几道门槛：其一，视觉理解要从像素匹配走向结构化语义抽取，准确识别组件层级与交互意图；其二，生成过程需具备长期一致性，在多文件、多页面与多轮修改中保持架构稳定；其三，工程化交付要内置规范约束，包括代码风格、依赖管理、可测试性与安全合规；其四，评测体系需扩展到响应式适配、无障碍标准、性能优化与安全防护等更贴近生产的指标。可以预期，类似Vision2Web的基准将成为推动行业从“能力展示”走向“能力验证”的关键基础设施之一。

从设计图到可交付网站的距离——既衡量技术能力——也划定产业理性的边界；工具演进越快，越需要以严格评测与工程规范为支点，明确能力上限与适用场景，让新技术在可控、可信、可用的路径上释放更大价值。