在人工智能基础设施峰会上,欧洲人工智能芯片初创公司 Euclyd 从隐身模式中脱颖而出,提出了雄心勃勃的硬件架构的一些细节,该公司表示,与现有解决方案相比,该架构将提供更低的功耗和更低的每个代币成本。
Euclyd 联合创始人兼产品副总裁 Ingolf Held 告诉 EE Times,为世界实现技术民主化是这家初创公司雄心壮志的一部分。
“经过大量的头脑风暴,我们决定要为大规模的数据中心推理做点什么,但我们有一些基本规则,”Held 说。“电力是最终的运营成本,因此最高的效率应该提供最低的运营成本,这将使我们能够将其推广到任何地方,而不仅仅是在美国,向拥有数十亿美元的超大规模企业推广。”
Held 说,从一张白纸开始,让这家初出茅庐的公司能够从第一性原理考虑问题,从而提供了同时解决计算、内存带宽和内存容量的机会。
Euclyd 提出的芯片是一种巨大的多小芯片 SiP 设计,它称之为 Craftwerk,将包含 16,384 个 SIMD 处理器,并提供高达 8 PFLOPS (FP16) 或 32 PFLOPS (FP4)。这些加工元件将由 Euclyd 从头开始设计。赫尔德说,该设备将使用具有 2.5D 和 3D 元件的最大硅中介层(约 100 x 100 毫米)。
Euclyd 的多小芯片设计模型(来源:Euclyd)。
“我们将自己构建它——我们不会继承 Arm 或 RISC-V 的任何东西,它将完全可以使用内部编程工具进行编程,”他说。“它将支持今天的变压器,但不仅限于此。”
赫尔德说,该设计将保持可编程性,以确保它能够加速未来发生的任何情况,无论是多模态推理、推理、循环模型、状态空间模型还是扩散模型。
Euclyd 的定制内存和性能
Euclyd 将计算小芯片与其称为超带宽内存 (UBM) 的定制内存设计配对。UBM 将在 Craftwerk SiP 中启用 1 TB 的 DRAM,带宽为 8000 TB/s。
赫尔德说,SRAM 速度很快,但市场上依赖它的人工智能加速器被迫在许多芯片上分片模型。
“这是有问题的,因为它需要大量投资,点亮了大量硅,但它也迫使你拥有所有这些连接才能在机架内部或跨机架扩展,这是一个大问题,”他说。“我们的想法是让它尽可能密集。”
HBM 解决了 SRAM 的容量弱点,但它的带宽(尽管它的名字)不足以达到 Euclyd 想要实现的目标。赫尔德说,定制设计可以与使用“相同 HBM”的竞争对手区分开来,并指出虽然 Euclyd 的 UBM 是定制设计,但它不需要奇特的工艺技术。
Held 说,Craftwerk 的规模将支持在 3 kW TPD 的单片硅片上实现多代理工作流程。
根据 5 月份发布的数据,Nvidia 的 DGX-B200(八个当前一代 Blackwell GPU)可以为 Llama4-Maverick (400B) 的单个用户每秒实现 1038 个代币。根据 Artificial Analysis 的当前数据,Cerebras 为单个用户每秒提供 2554 个代币。单个 Craftwerk SiP 将为单个用户每秒提供 20,000 个代币。
Euclyd 的机架将包括 16 个主机 CPU 和 32 个 Craftwerks,位于 TDP 为 125 kW 的液冷机箱中;根据该公司的预测,在典型的多用户场景中,该系统将为Llama4-Maverick每秒提供768万个代币。