三星欲重新搭建hbm4e 供电网络

三星这回打算重新搭建HBM4E的供电网络,这主要是为了大幅压低故障发生的几率,同时还想看看能不能把HBM跟GPU分开放置。这个动作是发生在三星刚宣布首批HBM4实现商业出货的两周后,那个时候产品已经能在11.7 Gbps的速率下稳稳地跑了,还留了足够的空间让速度往13 Gbps冲一冲。当架构从HBM4升级到HBM4E后,单颗芯片上的供电焊点数量从13682个增加到了14457个,但这些焊点还得塞在原来的那个封包里。为了应付这堆东西,线路变得更薄也更密了,结果就是电流变得更集中了,导线电阻也跟着上去了。这一来一去就造成了IR压降更严重的情况,再加上芯片本身发热,就形成了一个恶性循环。这个情况不仅影响芯片跑得稳不稳,甚至可能让电路直接坏掉。为了破这个局,三星决定从电源网络的结构下手。他们把原本放在芯片中间层附近、大块头的集中式MET4电源块给拆成了四个小块儿,同时也把上层的布线打散了。这么做主要是为了缩短关键路径的长度,减轻线路拥挤的问题。三星内部做了评估说,用了这种分段式的供电网络后,金属电路的缺陷率比以前下降了97%,IR压降也改善了41%。这给芯片留出了更多的电压余量,让它在更高频率下还能稳稳地工作,整体的可靠性也跟着上去了。 在给供电网络动手术的同时,三星也在琢磨着更激进的系统封装方案——想把HBM和GPU在物理上彻底分离开来。其中一个办法是用光来连接两边,因为光传输的距离可以更远而且带宽也很大。据介绍,这种技术的理论传输能力大概是铜导线的一千倍,这就足够补上HBM和GPU分开后带来的延迟和带宽损失。三星觉得随着封装基板布线技术的进步,就算不用光子互连,这两个部件之间的距离也能拉到5厘米以上。这对缓解高端AI加速卡中那种把核心芯片和多层HBM堆在一起产生的高散热压力特别有帮助。行业里的人分析说,在AI训练和推理负载猛涨的背景下,HBM的供电和散热已经成了制约算力继续往上提的瓶颈。三星在HBM4E上搞的电源网络重构以及对分离方案的探索,显示出他们想在高端显存技术竞赛中抢个先手的打算。 这次的技术细节最初是由韩国媒体《韩国经济》还有市调机构TrendForce透露的,后来也被三星的相关资料证实了。