科技中国最大AI芯片发布，顺手拿下四个国内第一，带Benchmark的那种

漂亮的石头 · 2021-07-08

上回书说到—— 于是乎，我为了验证这个猜想是否正确，特此前来上海一探究竟。直接揭晓答案：猜对了！中国最大 AI 芯片——邃思 2.0，正式发布。

而且听完整场发布会，最直观的感受便是好多的“第一、首个”：

中国首款支持单精度张量 TF32 数据精度的人工智能芯片。

单精度 FP32/ 张量 TF32 峰值算力，均为国内第一。

中国第一个支持世界最先进存储 HBM2E 和单芯片 64 GB 内存的产品。

加上其它产品升级，成为国内首家发布第二代 AI 训练的组合产品。

嗯，看着似乎是有点东西。

中国最大 AI 芯片问世

先来聊聊最为核心的这张芯片。

虽然说邃思 2.0 是面向 AI 云端训练，基于第一代的升级，但一个重点是工艺没有变化。

也就是这张芯片依旧是由格芯的12nm FinFET工艺打造。

尺寸方面，为 57.5 毫米× 57.5 毫米，达到了芯片采用的日月光 2.5D 封装的极限。

算力方面：

单精度 FP32 算力为 40TFLOPS

单精度张量 TF32 算力为 160TFLOPS

整数精度 INT8 算力为 320TOPS

堆叠存储方面，搭载的是 HBM2E，据了解，这是目前业界较为领先的存储方案。

它具备超大存储容量和访存带宽，最高达到 64GB 和 1.8TB/s，还可以支持眼下爆火的超大规模模型的训练。

算力扩展方面，由于邃思 2.0 拥有 300GB/s 的独立片间互联通道，因此可以非常灵活。

一个邃思 2.0，升级三大产品

而随着邃思 2.0 的到来，燧原科技其他产品也得到了相应地升级。

首先，是云燧 T20 训练加速卡。

它是面向数据中心的第二代 AI 训练加速卡，官方介绍是这样的：

具有模型覆盖面广、性能强、软件生态开放等特点，可支持多种人工智能训练场景。

那么到底性能能抢到什么程度？

在现场，燧原科技直接亮出的Benchmark！

不难看出，在图像识别/分类、NLP、目标检测、图像分割和推荐任务中，与友商相比均有明显的提升。

（至于这个友商，就是很强的那家，你懂的）

或许你觉得数据还不够直观，那就直接来效果吧。

下面是友商和云燧 T20 处理图片的速度对比：

处理图片更多，速度还更快，有木有！

除此之外，还有云燧 T21 训练 OAM 模组。

据了解，它是是基于 OCP（开放计算项目）OAM（开放加速模组）标准设计、兼容 OCP OAI 标准（开放加速器基础设施）的 AI 训练加速模组。

所面向的数据中心，可以在互联网、金融、教育、医疗、工业和政务等场景中使用。

云燧 T21 单精度 FP32 算力最高可达 40TFLOPS、TF32 算力最高则是 160TFLOPS。

与友商的性能对比如下：

最后，燧原科技还升级了它家的驭算 TopsRider 软件平台：

基于算子泛化技术及图优化策略，支持主流深度学习框架下的各类模型训练。

利用 Horovod 分布式训练框架与 GCU-LARE 互联技术相互配合，为超大规模集群的高效运行提供解决方案。

而且编程模型和可扩展算子接口，都是开放的哦。

还搞了一个“大组合”

以为这就完了？

不不不。

燧原科技还把它们搞了个“大组合”——云燧智算集群（CloudBlazer Matrix 2.0）。

最高单精度算力可以达到 1.3E（130000T），足足是上一代的46 倍。

燧原科技 COO 张亚林表示：

云燧的互联接口在单口速度保持不变的前提下，接口数量从 T10 的 4 个增加到 T20 的 6 个，带宽提升 150%。

用云燧 T20 可以打造中国 E 级单精度算力集群。

承诺了一个约定

最后的最后，燧原科技还介绍了关于他们接下来的计划。

云端训练计算产品方面，在 2023 年，他们准备发布 T30/T31。

较一代产品相比，性能要达到 14 倍。

云端推理计算产品方面，也将在 2023 年进行迭代，性能提升 16 倍。

而且还给出了一个燧原产品定理：

至于到了 2023 年，燧原科技能否兑现承诺，就一起拭目以待吧。

Log in or Sign up

科技中国最大AI芯片发布，顺手拿下四个国内第一，带Benchmark的那种

漂亮的石头版主 Staff Member

Log in or Sign up

科技 中国最大AI芯片发布，顺手拿下四个国内第一，带Benchmark的那种

漂亮的石头 版主 Staff Member

科技中国最大AI芯片发布，顺手拿下四个国内第一，带Benchmark的那种

漂亮的石头版主 Staff Member