AI芯片公司Taalas最近展示了一种新的技术路线,通过把AI模型直接固化在硅片中,实现了惊人的每秒17000 tokens的处理速度,从而让AI交互体验变得几乎没有延迟。这个过程把DRAM、GPU还有HBM的复杂性都给抛弃了,直接从物理层面消除了内存传输的瓶颈。针对DeepSeek R1模型进行测试时,Taalas的集群给了一个具体的例子:30片芯片串联起来,把用户的吞吐速度推到了12000 tokens/秒的记录。相比之下,GPU现在的水平大约是每人每秒200 tokens。这个性能提升了10倍,并且成本被降低到了原本的20分之一。 为了做到这一点,Taalas把模型网络直接映射到了电路中,从而把计算和存储合二为一。他们的首款产品HC1就使用了台积电6nm工艺制造,面积大到815平方毫米,几乎赶上了NVIDIA的H100。在EE Times的测试中,它展示出了超过15000 tokens/秒的速度。不过这也有代价:为了追求极致的速度,Taalas在单位面积的参数密度上做出了巨大妥协。 HC1只容纳了80亿个参数的模型,这和当前的万亿参数前沿模型比起来显得有些小。这说明硬连线技术在参数密度上存在物理限制。尽管如此,它在性能上的颠覆性效果还是很明显的。 为了弥补单芯片容量的不足,Taalas采用了集群扩展的策略。通过多个芯片协作来处理大模型任务。在这方面他们和Groq或者Cerebras走的不是同一条路:Groq靠SRAM加速来解决问题。Taalas选择了更为激进的ASIC路线。 这种技术也带来了商业模式上的挑战:因为模型权重被硬连线到了芯片里,芯片一旦制造好就没法再更改参数了。客户只能为特定版本的模型购买专用硬件。一旦算法更新换代,老硬件可能就被淘汰了。DeepSeek R1和Llama 3.1这类模型都已经遇到了这种问题。 把Agentic应用推向前沿的一个核心障碍就是延迟问题。Taalas通过硬连线消除了内存墙障碍就解决了这个难题。IT之家消息来源是科技媒体Wccftech在2月20日发布的博文。文章里详细介绍了这家初创公司如何把任意AI模型转化为定制硅片的平台。其核心逻辑是“融合计算与存储”。 这种平台专门设计用于处理深度学习任务(Deep Learning Task),其中“硬接线”(Hard-wiring)技术是关键所在。这种方法不同于一般的集成电路设计:它不需要HBM、复杂封装以及昂贵的散热系统。 DRAM级密度下完成所有计算就意味着数据传输的效率极高。尽管芯片面积很大(815 mm²),但由于参数密度不高(80亿个参数),它仍然是可行的解决方案。这表明为了实现极致的速度必须做出妥协。 在针对DeepSeek R1的测试中用了30片芯片组成的集群就实现了12000 TPS/User的吞吐速度(每人每秒生成12000个tokens),这是目前GPU技术达不到的水平(GPU大约为200 TPS/User)。这种速度让实时交互变得非常流畅。 总的来说Taalas的做法虽然激进但效果显著:在性能提升10倍的同时成本降低到1/20。不过这也意味着客户需要为特定模型版本购买专用硬件才能获得好处。 所有这些改变都基于一个前提:必须采用ASIC这种专用集成电路的设计路线而不是通用的GPU架构。这让该公司在当前激烈的AI算力竞争中找到了一条独特的路径。 现在市面上有很多处理大语言模型的硬件方案比如Cerebras和Groq它们各有各的优缺点但都没有解决根本上的延迟问题而Taalas通过直接把模型固化到硅片里就彻底解决了这个难题从而让实时交互成为可能.