问题——高性能GPU内核开发长期面临“门槛高、周期长、移植难”的挑战。随着大模型训练与推理需求快速增长——GPU成为关键算力底座——内核性能直接影响吞吐、时延与成本。但传统内核调优高度依赖资深工程经验:既要吃透硬件体系结构与并行执行特性,又要线程组织、访存模式、指令调度等细节上反复试错;一旦模型、框架或硬件代际变化,既有优化往往需要返工,难以适应快速迭代与规模化部署。 原因——瓶颈主要来自两上:一是优化空间巨大且高度非线性,参数组合与代码变体呈指数增长,人工难以覆盖;二是真实硬件评测存噪声,缓存、温度、调度与系统负载等因素会带来测量波动,导致判断不稳,甚至出现“看似更快、但不可复现”的结果。尤其在生产级推理引擎与多模块系统中,内核之间耦合增强,局部最优不一定带来整体收益,这个矛盾更突出。 影响——针对上述难题,上海人工智能实验室研究团队提出Kernel-Smith系统,将进化算法引入GPU内核代码生成与调优流程。系统以“代码种群”的方式维护多个候选内核,通过选择、变异与迭代,在多轮真实硬件测试中持续筛选更优版本,逐步累积实现性能提升。相比一次性生成“理想代码”的思路,这种方式更贴近工程中持续迭代、逐步收敛优化规律。 为提升评估可靠性,系统建立了较完整的测量与稳定机制:通过预热、多次采样取平均等方式降低偶然波动,并结合图执行等手段抑制运行时抖动,将执行时间波动控制在较小范围;同时设置“反作弊”约束,避免用投机手段获得不可复用的“虚高收益”,确保提升来自可迁移的内核优化。其目标是让自动化搜索不仅找到“更快”,也找到“稳定可用、可迁移”的版本。 在训练与搜索策略上,团队提出偏向“局部改进”的优化范式,以提高搜索效率、减少无效尝试,使系统在可控成本内完成更高质量迭代。同时,Kernel-Smith采用模块化架构,将通用进化逻辑与硬件涉及的接口分离,并提供不同后端实现,以适配不同平台与工具链。“通用框架+平台方言模块”的设计降低了跨架构迁移的工程成本,也为扩展到更多计算硬件预留空间。 公开测试与应用实践显示,该系统在多个场景取得明显加速:在标准测试中实现平均倍数级提升;在推理引擎与模型服务链路中,对元数据设置、路由融合等关键内核带来不同程度的吞吐改进;在特定记忆架构相关任务中实现更显著的性能跃升,相关优化成果已被实际项目采纳。有观点认为,这些来自真实环境的验证,说明其重点不仅是实验室指标,也兼顾工程可用性与生态兼容性。 对策——从产业落地角度看,自动化内核优化需要与现有开发体系协同:其一,在大模型推理、训练加速、算子库维护等环节建立“自动化调优—回归测试—灰度上线”的闭环,兼顾收益与稳定性;其二,强化跨平台适配与可观测能力,将硬件计数器、编译器信息与运行画像纳入统一分析,提高结果的可解释性与可维护性;其三,在开源与标准上,推动形成可复用的基准与评测规范,促进算子、框架与硬件厂商在接口、约束与验证机制上形成更广泛协作,减少重复的手工优化成本。 前景——随着新型GPU架构与异构计算平台持续迭代,软件优化复杂度还将上升。能够快速适配不同硬件、并在真实环境中稳定提升性能的自动化优化系统,可能成为提升算力利用率、降低部署成本的重要工具。更值得关注的是,这套方法具有可迁移性:除GPU内核外,类似的进化式搜索与稳定评估框架有望扩展到CPU热点优化、数据库查询调优、编译器自动调参等领域,为系统级性能工程提供新的路径。研究团队同步开源核心框架,也为学界与产业界共同验证、复用与迭代提供了基础。
这项由我国科研团队提出的突破,展现了高性能计算优化的一条可行路径。它不仅回应了GPU内核优化工程中的现实难题,也为应对未来计算架构日益复杂的趋势提供了思路。随着涉及的技术在更多场景落地,其在提升算力效率与降低工程成本上的价值有望继续显现。