科技英特尔架构日重磅：甩出 11 大芯片硬科技，推千亿晶体管 SoC

漂亮的石头 · 2021-08-20

在 2021 年英特尔架构日上，英特尔公司高级副总裁兼加速计算系统和图形事业部总经理 Raja Koduri 同多位英特尔架构师一起，全面介绍了在 CPU、GPU 及 IPU 架构方面的重大改变与创新。今年以来，英特尔公布了相当多的新计划，包括 IDM 2.0 战略、全新制程节点方案、独显等等，如今，我们终于能从一系列新品上直观地看见这些新计划方案的组合。

首先，英特尔首个性能混合架构 Alder Lake 将集成新公布的两款全新 x86 内核架构——能效核与性能核，并且是基于英特尔新命名技术节点 Intel 7 的首款产品。它还采用了新的智能英特尔硬件线程调度器来实现两款 x86 的无缝协同。

面向数据中心，英特尔公布下一代英特尔至强可扩展处理器 Sapphire Rapids，这被称作代表了十多年来行业最大的数据中心平台进步。

另外，英特尔也讲解了其备受瞩目的全新独立游戏 GPU 微架构 Xe HPG 微架构，基于该微架构、采用台积电N6 节点制造的产品 Alchemist 系列 SoC 将于明年第一季度上市，这将是英特尔第一款基于台积电 N6 工艺的 GPU。

还有基于 Xe HPC 微架构的数据中心 GPU 架构 Ponte Vecchio，它具备英特尔迄今为止最高的计算密度，例如 A0 芯片可提供超过 45TFLOPS 的 FP32 吞吐量、超过 5TBps 的持续内存结构带宽和超过 2TBps 的连接带宽。

最后，围绕全新基础设施处理器（IPU），英特尔展示了其首款专用 ASIC IPU Mount Evans 和基于 FPGA 的 IPU 参考平台 Oak Springs Canyon。

英特尔公司高级副总裁兼加速计算系统和图形事业部总经理 Raja Koduri 认为，架构是硬件和软件的’炼金术’，今年公布的这些新突破展示了架构将如何满足对于更高计算性能的迫切需求。

发布的显卡新品中，我们看到英特尔基本采用台积电 N6 和 N5 工艺技术进行代工生产，这正是今年 3 月公布的英特尔 IDM 2.0 战略的直接体现。

英特尔公司企业规划事业部高级副总裁 Stuart Pann 称，目前英特尔 20% 的产品是交由外部代工厂生产，英特尔是台积电的顶级客户之一。目前，为英特尔独立显卡产品采用代工厂的制程节点，是恰当之选。

他透露说，未来几年，外部代工生产的芯片单元会在英特尔的模块化产品中扮演更重要的角色，包括采用先进制程节点的核心计算功能，以支持客户端、数据中心和其他领域的新兴工作负载。

01.

两款全新 x86 内核

性能核 AI 加速提升约 8 倍

英特尔首先介绍了能效核和性能核，顾名思义，前者主打高能效，后者主打高性能。

1、能效核：能耗不到 Skylake 的 40%

能效核曾用代号 “Gracemont”，是一个高度可扩展的 x86 微架构，旨在提高吞吐量效率并提供可扩展多线程性能，能满足客户从低功耗移动应用到多核微服务的全方位计算需求。

借助多种技术进步，能效核可以在不耗费处理器功率的情况下对工作负载进行优先级排序，并通过每周期指令数（IPC）改进功能直接提高性能。

与英特尔迄今最多产的 CPU 微架构 Skylake 相比，在提供同样单线程性能时，能效核的功耗不到 Skylake 的 40%。与运行 4 个线程的两个 Skylake 内核相比，4 个能效核在吞吐量性能提升 80% 的同时，功耗更低。

2、性能核：英特尔迄今性能最高的 CPU 内核

性能核曾用代号 “Golden Cove”，是英特尔迄今性能最高的 CPU 内核，并且在 CPU 架构性能方面实现阶梯式提升，展现出更高的并行性和执行并行性，还减少时延，帮助支持大数据集和大型代码体积的应用程序。

它拥有更宽、更深、更智能的架构：解码器由 4 个增至 6 个，6 μ op 缓存增至 8 μ op，分配由 5 路增至 6 路，执行端口由 10 个增至 12 个；物理寄存器文件更大，拥有 512 条目的重排序缓冲区；提高了分支预测准确度，降低了有效的一级时延，优化了二级的全写入预测带宽。

与第 11 代酷睿架构（Cypress Cove 内核）相比，相同频率下，性能核在一系列工作负载上平均提升了约 19%。此外，性能核搭载了新的英特尔高级矩阵扩展（AMX）来执行矩阵乘法运算，可将 AI 加速提升约 8 倍，用于学习推理和训练。这是为软件易用性而设计，利用了 x86 编程模型。

02.

硬件线程调度器：让两款 x86 核无缝协作

为了确保性能核、能效核与操作系统无缝协作，英特尔开发了一种改进的调度技术，即英特尔硬件线程调度器。

它具有动态性和自适应性，会根据实时的计算需求，动态、智能地调整调度决策，从而优化系统以在真实场景中实现更高的性能和效率。

硬件线程调度器直接内置于硬件中，可提供对内核状态和线程指令混合比的低级遥测，让操作系统能够在恰当的时间将合适的线程放置在合适的内核上，并且更精细地监控指令组合、每内核当前状态以及相关的微架构遥测，从而帮助操作系统做出更智能的调度决策。

此外，硬件线程调度器通过与微软合作，优化自身在Windows11 上的极佳性能；并扩展 PowerThrottling API，使开发人员能为其线程明确指定服务质量属性；还应用了全新 EcoQoS 分类，该分类可让调度程序获悉线程是否更倾向于能效（此类线程会被调度到能效核）。

03.

首个混合架构 Alder Lake：采用 Intel 7 制程，支持从笔记本到台式机

英特尔 SoC 客户端架构 Alder Lake 重构了多核架构，基于 Intel 7 制程工艺打造，是英特尔首个搭载全新英特尔硬件线程调度器的性能混合架构。

它采用了单一、高度可扩展的 SoC 架构，首次集成了能效核和性能核，支持最新内存和最快 I/O，功率范围从 9W 到 125W，适用于从超便携式笔记本到发烧级、商用台式机的所有客户端设备，基于 Alder Lake 的产品将在今年开始出货。

Alder Lake 提供三类产品设计形态：

（1）高性能、双芯片、插座式的台式机处理器，具有领先性能和能效，拥有 8 个性能核、8 个能效核，支持高规格的内存和 I/O。

（2）高性能笔记本处理器，拥有 6 个性能核、8 个能效核，采用 BGA 封装，加入图像单元，采用更大的 Xe 显卡和 Thunderbolt 4 连接。

（3）轻薄、低功耗的笔记本处理器，拥有 2 个性能核、8 个效能核，采用高密度的封装，配置优化的 I/O 和电能传输。

要构建如此高度可扩展架构，需在不影响功率的情况下满足计算和 I/O 代理对带宽的需求。

英特尔也展示了台式机处理器的 I/O 信息，总共有最多 8 个性能核、8 个效能核、24 个线程和 30MB non-inclusive LL 缓存。

英特尔设计了三种独立的内部总线，每一种都采用基于需求的实时启发式后处理方式：

（1）计算内部总线可支持高达 1000GBps，即每个内核或每集群 100GBps，通过最后一级缓存将内核和显卡连接到内存：具有高动态频率范围，并且能够动态选择数据路径，根据实际总线结构负载而进行时延和带宽优化；根据利用率动态调整最后一级缓存策略，也就是“包含”或“不包含”。

（2）I/O 内部总线支持可高达 64GBps，连接不同类型的 I/O 和内部设备，能在不干扰设备正常运行的情况下无缝改变速度，选择内部总线速度来匹配所需的数据传输量。

（3）内存结构可提供高达 204GBps 的数据，并动态扩展其总线宽度和速度，以支持高带宽、低时延或低功耗的多个操作点。

04.

基于 Intel 7 节点，性能封顶的数据中心 SoC

Sapphire Rapids 处理器基于 Intel 7 制程工艺技术，采用英特尔性能核与全新加速器引擎，被称作树立了下一代数据中心处理器的标准。

其核心是一个分区块、模块化的 SoC 架构，采用英特尔的嵌入式多芯片互连桥接（EMIB）封装技术和先进网格架构，具有显着的可扩展性，同时保持单晶片 CPU 接口优势。

该处理器提供了一个单一、平衡的统一内存访问架构，每个线程均可完全访问缓存、内存和 I/O 等所有单元上的全部资源，由此实现整个 SoC 具有一致的低时延和高横向带宽。

Sapphire Rapids 提供多种数据中心相关加速器，包括新的指令集架构和集成 IP：

（1）英特尔加速器接口架构指令集（AIA）：支持对加速器和设备的有效调度、同步和信号传递。

（2）英特尔高级矩阵扩展（AMX）：可为深度学习算法核心的 Tensor 处理提供大幅加速。其可以在每个周期内进行 2000 次 INT8 运算和 1000 次 BFP16 运算，大幅提升计算能力。

使用早期的 Sapphire Rapids 芯片，与使用英特尔 AVX-512 VNNI 指令的相同微基准测试版本相比，使用新的英特尔 AMX 指令集扩展优化的内部矩阵乘法微基准测试的运行速度提高了 7 倍以上，显着提升 AI 工作负载中的训练和推理性能。

（3）英特尔数据流加速器（DSA）：旨在卸载最常见的数据移动任务，改进了对这些开销任务的处理，以提供更高的整体工作负载性能，并可以在 CPU、内存和缓存以及所有附加的内存、存储和网络设备之间移动数据。

这些架构上的改进使 Sapphire Rapids 能为云、数据中心、网络和智能边缘中广泛的工作负载和部署模式提供开箱即用的性能。

05.

独立游戏显卡微架构 Xe HPG 与其首款 SoC

Xe HPG 是一款全新的独立显卡微架构，专为游戏和创作工作负载提供发烧友级别的性能。

基于 Xe HPG 架构的英特尔客户端显卡路线图包括 Alchemist（此前称之为 DG2）、Battlemage、Celestial 和 Druid 系列 SoC。

Alchemist 系列 SoC 基于 Xe HPG 微架构，采用台积电 N6 工艺，首批产品将于 2022 年第一季度上市，并采用新品牌名英特尔锐炫（Intel Arc）。

这款消费级 GPU 预计将与采用台积电 N7 工艺的AMDNavi 2x 显卡和采用三星8LPP 工艺的英伟达 Ampere GA10x 显卡进行较量。

基于 Xe HPG 微架构的 Alchemist SoC 通过架构、逻辑设计、电路设计、制程工艺技术和软件优化，相比 Xe LP 微架构实现 1.5 倍的频率提升和 1.5 倍的每瓦性能提升。

此外，Alchemist SoC 还拥有多达 8 个具有固定功能的渲染切片，专为 DirectX 12 Ultimate 设计；并支持 DirectX Raytracing（DXR）和 Vulkan Ray Tracing 的新光线追踪单元。

聚焦到微架构 Xe HPG，它采用全新 Xe 内核，聚焦计算、可编程、可扩展，全面支持 DirectX 12 Ultimate。

Xe 内核中的矩阵引擎（Xe Matrix eXtensions，XMX）能够加速 AI 工作负载，比如 XeSS，是一项全新升频技术（upscaling technology），可以实现高性能、高保真游戏体验。

XeSS 能让那些原本只能在低画质设置或低分辨率下玩的游戏，也能在更高画质设置和分辨率下顺利运行。该技术利用 XMX AI 加速，用深度学习来合成非常接近原生高分辨率渲染质量的图像，可提供高性能和高画质，同时性能提升高达 2 倍。

XeSS 凭借 DP4a 指令，在包括集成显卡在内的各种硬件上提供基于 AI 的超级采样。多家早期的游戏开发商已开始使用 XeSS，本月将向独立软件供应商（ISV）提供 XMX 初始版本的 SDK，DP4a 版本将于今年晚些时候推出。

英特尔显卡设计的核心是软件优先。英特尔正与开发人员密切合作进行 Xe 微架构的设计，力求与行业标准保持一致；通过在一个统一的代码库中涵盖集成和独立显卡产品的驱动设计，英特尔的第一款高性能游戏显卡将性能和质量放在首位。

英特尔已完成了内核显卡驱动程序组件的重新架构，特别是内存管理器和编译器，从而将计算密集型游戏的吞吐量提高了 15%（至多 80%），游戏加载时间缩短了 25%。

06.

1000 亿晶体管！

英特尔最复杂 SoC 与 Xe HPC

Ponte Vecchio 是英特尔迄今最复杂的 SoC，包含 1000 亿个晶体管，提供领先的浮点运算和计算密度，以加速 AI、HPC 和高级分析工作负载。

这款 SoC 也是其践行 IDM 2.0 战略的绝佳示例，它基于 Xe HPC 微架构，采用多种先进的半导体制程工艺、英特尔变革性的 EMIB 技术以及 Foveros 3D 封装技术。

Ponte Vecchio 已走下生产线进行上电验证，并已开始向客户提供限量样品。Ponte Vecchio 预计将于 2022 年面向 HPC 和 AI 市场发布。

Xe HPC 微架构的 IP 模块信息被公布，包括每个 Xe 核的 8 个矢量和矩阵引擎（XMX）、切片和堆栈信息，以及包括计算、基础和 Xe Link 单元的处理节点的单元信息。

英特尔展示了早期的 Ponte Vecchio 芯片就已经显示出领先的性能，在一个流行的 AI 基准测试上创造了推理和训练吞吐量的行业纪录。

其 A0 芯片已经实现了超过高于 45TFLOPS（每秒 45 万亿次浮点运算）的 FP32 吞吐量，超过 5TBps 的持续内存结构带宽及超过 2TBps 的连接带宽。

同时，英特尔分享了一段演示视频，展示了 ResNet 推理性能超过每秒 43000 张图像和超过每秒 3400 张图像的 ResNet 训练，这两项性能都有望实现行业领先。

从具体设计来看，Ponte Vecchio 由多个复杂的单元设计组成，然后通过 EMIB 单元进行组装，实现单元之间的低功耗、高速连接。这些设计均被集成于 Foveros 封装中，为提高功率和互连密度形成有源芯片的 3D 堆叠。高速 MDFI 互连允许 1 到 2 个堆栈的扩展。

其中，计算单元是一个密集的多个 Xe 内核，是 Ponte Vecchio 的核心。该单元基于台积电先进的 N5 制程工艺技术，一块单元有 8 个 Xe 内核，总共有 4MB 一级缓存，是提供高效计算的关键。

该单元具有极其紧凑的 36 微米凸点间距，可与 Foveros 进行 3D 堆叠。英特尔已通过设计基础设施设置和工具流程以及方法，为测试和验证该节点的单元铺平了道路。

基础单元是 Ponte Vecchio 的连接组织，基于 Intel 7 制程工艺，针对 Foveros 技术进行了优化。

它是所有复杂的 I/O 和高带宽组件与 SoC 基础设施 ——PCIe Gen5、HBM2e 内存、连接不同单元 MDFI 链路和 EMIB 桥接。该单元采用高 2D 互连的超高带宽 3D 连接时延很低，使其成为一台无限连接的机器。英特尔技术开发团队致力于满足带宽、凸点间距和信号完整性方面的要求。

Xe 链路单元采用台积电 N7 工艺，提供了 GPU 之间的连接，支持每单元 8 个 Xe 链路，这对 HPC 和 AI 计算的扩展至关重要，旨在实现支持高达 90G 的更高速 SerDes，该单元已被添加到 Aurora 百亿亿次级超级计算机的扩展解决方案中。

如 Xe 架构一样，Ponte Vecchio 将由英特尔统一软件堆栈 oneAPI 支持。

07.

首款专用 ASIC IPU 和 IPU 参考平台

在传统服务器架构中，一切任务都可以直接跑在 CPU 上。而在云端服务器架构中，如果所有计算任务都由 CPU 来执行，那它就有些力不从心了。

一种可编程的网络设备正为云和通信服务提供商减少在 CPU 方面的开销，使其充分释放性能价值，这个设备被称为基础设施处理器（IPU）。

具体而言，英特尔基于 IPU 架构有三大优势：一是基础设施功能和客户工作负载的强分离，使客户能够完全控制 CPU；二是云运营商可将基础设施任务卸载到 IPU 上，更大化实现 CPU 利用率和收益；三是 IPU 可以管理存储流量，减少时延，同时通过无磁盘服务器架构有效利用存储容量。借助 IPU，客户可通过一个安全、可编程、稳定的解决方案更好地利用资源，平衡处理与存储。

应对多样化数据中心的复杂性，英特尔推出了以下 IPU 家族的新成员：英特尔首款专用 ASIC IPU Mount Evans，以及全新的基于 FPGA 的 IPU 参考平台 Oak Springs Canyon。

Mount Evans 是英特尔与一家一流云服务提供商共同设计和开发的，它融合了英特尔多代 FPGA SmartNIC 的经验，超大规模就绪，提供高性能网络和存储虚拟化卸载，同时保持高度控制。

该 IPU 提供了业界一流的可编程数据包处理引擎，支持防火墙和虚拟路由等用例。它还使用扩展自英特尔傲腾技术、硬件加速的 NVMe 存储接口，并采用英特尔高性能 Quick Assist 技术，部署高级加密和压缩加速。

在软件方面，Mount Evans 可使用现有普遍部署的 DPDK、SPDK 等软件环境进行编程，并能采用英特尔 Barefoot Switch 部门开创的 P4 编程语言来配置管线。

Oak Springs Canyon 是一个 IPU 参考平台，基于英特尔至强 D 处理器和英特尔 Agilex FPGA 构建：

（1）卸载 Open Virtual Switch（OVS）等网络虚拟化功能以及 NVMe over Fabric 和 RoCE v2 等存储功能，并提供硬化的加密模块，提供更安全、高速的 2x 100Gb 以太网网络接口。

（2）让合作伙伴和客户能用英特尔开放式 FPGA 开发堆栈（英特尔 OFS）定制其解决方案，这是一款可扩展、开源软件和硬件基础设施。

（3）使用现有普遍部署的软件环境进行编程，包括已在 x86 上优化的 DPDK 和 SPDK。

英特尔 N6000 加速开发平台 Arrow Creek 是专为搭载至强服务器设计的 SmartNIC。

它内置英特尔 Agilex FPGA 和用于高性能 100GB 网络加速的英特尔以太网 800 系列控制器，支持多种基础设施工作负载，使通信服务提供商（CoSP）能够提供灵活的加速工作负载，如 Juniper Contrail、OVS 和 SRv6。

08.

oneAPI 工具包：超过 20 万次单独安装

英特尔 oneAPI 是一个开放、规范、跨架构和跨厂商的统一软件栈，提供了跨架构的兼容性，让开发者能够摆脱专有语言和编程模型的束缚。

目前，NVIDIA GPU、AMD GPU、Arm CPU 均有 Data Parallel C ++ （DPC ++）和 oneAPI 库。

oneAPI 正在被独立软件提供商、操作系统供应商、终端用户和学术界广泛采用。行业领导者正在协助发展该规范，以支持更多的用例和架构。

同时，英特尔还提供了商业产品，包括基本的 oneAPI 基础工具包，它在规范语言和库之外增加了编译器、分析器、调试器和移植工具。

英特尔 oneAPI 工具包拥有超过 20 万次单独安装，市场上部署的 300 多个应用程序采用了 oneAPI 统一编程模型，超过 80 个 HPC 和 AI 应用程序使用英特尔 oneAPI 工具包在 Xe HPC 微架构上运行。

另外，oneAPI 工具包 5 月发布的 1.1 版临时规范为深度学习工作负载和高级光线追踪库添加了新的图形接口，预计将在年底完成。

09.

结语：以架构创新应对千倍算力挑战

总体来看，英特尔在此次架构日活动中推出两大 x86 CPU 内核、两款独立 GPU、两大数据中心 SoC、IPU 新品和首款客户端多核性能混合架构，并展示了 AMX、XeSS、硬件线程调度器等多项融入产品特性的技术创新。

这些创新的架构与平台，均是为了更好地迎接越来越庞大的计算需求所带来的挑战。英特尔预计，到 2025 年算力需求将是 1000 倍级的提升，而四年内增加 1000 倍相当于摩尔定律的 5 次方。

登录或注册

科技英特尔架构日重磅：甩出 11 大芯片硬科技，推千亿晶体管 SoC

漂亮的石头版主管理成员

登录或注册

科技 英特尔架构日重磅：甩出 11 大芯片硬科技，推千亿晶体管 SoC

漂亮的石头 版主 管理成员

科技英特尔架构日重磅：甩出 11 大芯片硬科技，推千亿晶体管 SoC

漂亮的石头版主管理成员