近日,中昊芯英“刹那®”TPU架构AI芯片完成对百度开源多模态混合专家大模型ERNIE-4.5-VL-28B-A3B的适配与性能实测。此次适配验证了国产TPU架构算力基座对前沿MoE模型的高效支撑能力,更开创了“国产创新芯片架构+国产开源大模型”的生态范式。

中昊芯英成立于2018年,由前谷歌TPU芯片核心研发者杨龚轶凡携一批来自谷歌、微软、三星等海外科技巨头公司的AI软硬件设计专家组建。公司核心团队掌握从28nm到7nm各代制程工艺下大芯片设计与优化完整方法论,全栈式的技术梯队覆盖芯片设计、电路设计、软件栈研发、系统架构、大模型算法等各类技术领域,研发人员占比70%以上。

历经近5年的研发,中昊芯英推出的“刹那®”TPU架构高性能AI专用算力芯片,拥有完全自主可控的IP核、全自研指令集与计算平台。该芯片采用专为AI/ML而生的 TPU 芯片架构,在AI大模型计算场景中,算力性能超越海外著名GPU产品近1.5倍,能耗降低30%同时,通过采用Chiplet技术与2.5D封装,实现了同等制程工艺下的性能跃升,并支持1024片芯片片间互联,实现千卡集群线性扩容,支撑超千亿参数大模型运算需求。

此次中昊芯英“刹那®”TPUAI芯片适配的百度开源的ERNIE-4.5-VL-28B-A3B模型(以下简称 ERNIE-4.5-VL)是百度文心开源大模型ERNIE-4.5系列中的一款多模态MoE大模型,于2025年6月30日随文心4.5系列一同开源。该模型总参数量为28B,激活参数量为3B,采用异构混合专家架构(MoE),在跨模态理解与生成、长文本处理等领域表现卓越,适用于智能导览、视觉客服等多种场景。

文心4.5系列模型均基于飞桨深度学习框架进行高效训练、推理和部署,在大语言模型的预训练中,模型 FLOPs 利用率(MFU)达到47%。实验结果显示,该系列模型在多个文本和多模态基准测试中达到SOTA水平,在指令遵循、世界知识记忆、视觉理解和多模态推理任务上效果尤为突出。

在此次的技术适配方面,中昊芯英凭借“刹那®”TPU AI芯片强大的并行处理能力,与ERNIE-4.5-VL的架构设计实现了深度融合。芯片的可重构多级存储、近存运算设计以及流水线式的时空映射,有效提升了大模型计算速度和精度,为模型在复杂任务中的运行提供了高效支持。同时,针对ERNIE-4.5-VL的多模态特性,“刹那®”TPU芯片在处理视觉、文本等多模态数据时,展现出了出色的兼容性和运算性能。

根据实际运行效果表明,在基于“刹那®”TPU AI芯片构建的“泰则®”AI服务器上驱动运行 ERNIE-4.5-VL 模型时,性能表现与海外著名GPU产品齐平。 这一数据有力地证明,“刹那®”TPU AI芯片不仅在技术架构上具有先进性,在实际应用中同样拥有强大的性能表现和商业价值。

除了性能数据方面,中昊芯英技术团队还成功基于“刹那®”TPU AI 芯片运行了ERNIE- 4.5-VL的多项复杂多模态任务。例如,在古文识别任务中,模型能够精准理解古文字体并给出相应出处典故,整个过程流畅运行,无缝衔接。这进一步佐证了在针对大模型方面,中昊芯英“刹那®”TPU AI芯片能够为ERNIE-4.5-VL提供稳定且强大的算力基础。无论是大规模的模型训练,还是实时性要求较高的推理任务,“刹那®”TPU AI 芯片都能满足需求。此外,通过与百度飞桨框架的紧密配合,进一步优化模型在芯片上的运行性能,可以更好的为开发者提供更加便捷、高效的开发环境,有助于推动大模型技术在更多领域的应用和创新。

中昊芯英创始人及CEO杨龚轶凡表示:“此次适配验证了国产算力与模型协同创新的可行性。“刹那®”TPU AI芯片作为专为大模型设计的算力引擎,与 ERNIE-4.5-VL 的异构MoE架构形成完美互补。接下来我们将持续深化与百度的技术共研,推动从3B到424B全系列模型的硬件加速方案落地,为产业提供更高效可靠的国产自主AI基础设施。”