1. XenForo 1.5.14 中文版——支持中文搜索!现已发布!查看详情
  2. Xenforo 爱好者讨论群:215909318 XenForo专区

科技 等你24年了 Intel Arc锐炫独立显卡深入解读

本帖由 漂亮的石头2022-03-30 发布。版面名称:新闻聚焦

  1. 漂亮的石头

    漂亮的石头 版主 管理成员

    注册:
    2012-02-10
    帖子:
    488,204
    赞:
    47
    3月30日晚,Intel终于发布了预热良久的Arc锐炫系列独立显卡,代号Alchemist(炼金术师)。Intel的上一款高性能游戏独立显卡,还要追溯到1998年的i740,但是昙花一现之后就没了,后来的Larrabee独显计划也没能开花结构(除了衍生出短命的Xe Phi加速卡)。

    现在,24年过去了,Intel终于回归游戏显卡!

    [​IMG]

    Intel Arc显卡包括3、5、7三大系列,分别定位主流游戏、性能游戏、发烧游戏。

    首批登陆笔记本移动端(后续陆续进入桌面台式机和工作站),而首发的是主流的3系列,5、7系列将在今年初夏面世。

    平台搭档主力是12代酷睿H45、P28系列高性能处理器,也入围了Intel Evo严苛认证。

    [​IMG]

    [​IMG]

    【型号/规格/性能:最高飙到150W】

    [​IMG]

    [​IMG]

    [​IMG]

    [​IMG]

    Arc A系列有大小两种不同的GPU芯片,其中大的编号“ACM-G10”,拥有32个Xe核心(可以粗略地理解为512执行单元)、32个光追单元、16MB二级缓存,搭配256-bit GDDR6显存,支持PCIe 4.0 x16。

    小的编号“ACM-G11”,8个Xe核心,8个光追单元,4MB二级缓存,96-bit GDDR6显存,支持PCIe 4.0 x8。

    它们都具备2个Xe媒体编解码引擎、4个显示通道。

    [​IMG]

    产品方面,Arc 3系列首发两款型号,高端的Arc A370M核心频率1550MHz,64-bit 4GB显存,功耗范围35-50W。

    Arc A350M精简到6个Xe核心、6个光追单元,核心频率降至1150MHz,显存不变,功耗范围则是25-35W。

    Arc 5系列目前仅一款型号Arc A550M,16个Xe核心、16个光追单元,核心频率仅900MHz,搭配128-bit 8GB显存,功耗60-80W。

    Arc 7系列将有两款型号,满血的是Arc A770M,32个Xe核心(512执行单元)、32个光追单元,核心频率高达1650MHz,配备256-bit 16GB显存,功耗范围高达120-150W。

    Arc A730M精简到24个Xe核心、24个光追单元,核心频率1100MHz,显存降至192-bit 12GB,功耗80-120W。

    [​IMG]

    值得一提的是,Arc显卡的核心频率并不是固定的,而是有一个动态范围,可以根据不同负载自动调节,规格表中的频率只是一个平均值。

    [​IMG]

    [​IMG]

    性能方面,Arc A370M显卡搭配i7-12700H处理器,1080p中等画质下,大部分主流游戏都可以稳定超过60FPS,《GTA5》、《火箭联盟》等则可以超过90FPS。

    对比12代酷睿i7-1280P中集成的96个执行单元、1450MHz频率的锐炬Xe核显,综合游戏性能高出一倍左右。

    [​IMG]

    而在内容软件中,得益于优化适配,性能提升幅度最多可以达到1.4倍。

    [​IMG]

    目前,基于Arc A300M系列的笔记本正在陆续问世,品牌包括宏碁、华硕、戴尔、海尔、惠普、联想、微星、三星、蓝天、闻泰等等,Intel NUC迷你机也会加入。

    在国内市场,Arc笔记本将从下个月开始上市。

    【内核架构:这次完全变了】

    [​IMG]

    Intel Arc锐炫显卡基于高性能的Xe HPG架构,基本组成单元包括Xe内核、Xe媒体引擎、Xe显示引擎、Xe图形流水线等,我们逐一来看。

    [​IMG]

    [​IMG]

    大家知道,Intel GPU多年来的基本模块一直都是“执行单元”(EU),Xe HPG架构上变成了全新的“Xe核心”(Xe Core)。

    Xe核心中又包含16个256位矢量引擎(XVE)、16个1024位矩阵引擎(XMX)、192KB共享缓存、载入存储单元等等,其中缓存可以根据工作负载,在一级缓存、共享本地内存(SLM)之间动态分配。

    [​IMG]

    [​IMG]

    Xe核心的上一层级是渲染切片(Render Slice),每个包含4个Xe核心、4个光追单元、4个纹理采样器、几何前端、光栅前端、HiZ单元、2个像素后端。

    渲染切片可以多组结合扩展,Arc显卡最多有8个。

    Arc显卡完整支持DX12 Ultimate、Vulkan,并且同时支持DXR光追、Vulkan光追。

    [​IMG]

    这就是Arc显卡完整的内部架构图。

    [​IMG]

    矢量引擎改进了ALU单元,提供专用的FP浮点执行接口,共享的INT/EM整数执行接口,每个时钟周期可以执行16个FP32操作、32个FP16操作、64个INT8操作。

    由于AI算法核心几乎完全围绕矩阵乘法、累加算法,所以Xe核心里加入了单独的矩阵引擎,专门用于执行XMX指令。

    它具备独立的执行端口,每个时钟周期可以执行128个FP16/BF16操作、256个INT8操作,512个INT4/INT2操作。

    【XeSS:化腐朽为神奇的超分辨率缩放】

    针对矩阵引擎不同指令的处理操作,Intel也做了详细的解释,我们来简单了解下。

    [​IMG]

    [​IMG]

    MAC作为图形渲染中的基本SIMD矢量指令,也是Xe矢量引擎的核心,可以执行8次并行乘法,然后执行8次并行加法,每个时钟周期就是16个操作。

    上图最左侧水平方向的前排、后排蓝色方块,就代表操作数,上下的方框则代表累积的源和结果。

    DP4a指令是针对不需要32位精度的AI计算所做的优化,工作原理是将所有32位输入分成8位块,然后独立执行,总共32次并行乘法(紫色方块),每个时钟周期就是64个操作,相比标准SIMD MAC提高了4倍。

    XMX指令也是每个操作分成4个块,然后独立相乘、累加,共有64个操作,每个时钟周期4个阶段就是256个操作,由此带来16倍的算力提升。

    XMX矩阵引擎最直接的作用就是支撑XeSS超采样抗锯齿技术,类似NVIDIA DLSS、AMD FSR,可以通过低分辨率渲染、高分辨率缩放输出,提升游戏性能,并得到类似或超越原生的画质。

    [​IMG]

    XeSS已经得到了十多款游戏的支持,不过目前还不可用,会在今年初夏正式面世。

    下边感受一下XeSS在实际游戏中的效果,左侧是1080p原生渲染,右侧是4KXeSS缩放渲染,可以明显看到后者的画面质量高得多,细节也更加丰富、锐利。

    至于性能提升幅度,Intel暂时没有给出具体数据。

    [​IMG]

    [​IMG]

    [​IMG]

    [​IMG]

    [​IMG]

    【多媒体:首发全新视频格式AV1】

    [​IMG]

    [​IMG]

    Xe媒体引擎可以为主流视频软件带来硬件加速,解码支持高达8K60 12-bit HDR,编码支持高达8K 10-bit HDR。

    视频编解码格式不但支持MPEG-4、VP9、AVC、H.264、HEVC(H.265),更是首发支持AV1硬件编码、解码。

    AV1的编码效率相比H.264、H.265分别高出50%、20%,能够以更小的文件、更少的带宽带来更高的画面质量,关键是开放的,无需版权费,是开放媒体联盟力推的技术。

    [​IMG]

    这个联盟的成员都是大名鼎鼎的巨头,包括亚马逊、苹果、ARM、思科、Facebook、Google、华为、Intel、微软、Mozilla、Netflix、NVIDIA、三星、腾讯等等。

    AV1还在起步阶段,但普及速度很快,尤其是解码方面,NVIDIA RTX 30系列、AMD RX 6000系列,联发科天玑1000开始,Windows10系统和不少视频软件、视频网站、视频设备,都已经支持。

    来对比一下AV1、H.264在游戏直播中的画质差异,分辨率都是1080p,码率都是5Mbps。

    [​IMG]

    [​IMG]

    [​IMG]

    [​IMG]

    【显示:支持平滑同步】

    [​IMG]

    Xe显示引擎支持HDMI 2.0b、DisplayPort 1.4a输出标准,并且为下一代DisplayPort 2.0 10G做好了准备。

    视频输出也支持极高的分辨率、刷新率,最高可以双路8K60 HDR、四路4K120 HDR,以及1080p360、1440p360。

    [​IMG]

    同步技术更是带来了三种,最常见的是VESA标准的Adaptive Sync(适应性同步),与显示器刷新率同步,消除画面撕裂,当今多数游戏本的屏幕都支持该技术。

    其次是Speed Sync(加速同步),可以在关闭V-Sync垂直同步后,为当前帧提供加速,不仅可以消除撕裂,还具备低延时、无上限的优点。

    [​IMG]

    最后是新的“Smooth Sync”(平滑同步),通过抖动过滤功能,对画面撕裂进行模糊化处理,保证同步无撕裂、无失真。

    【Deep Link:CPU+GPU协同发力】

    [​IMG]

    处理器、显卡都是自己家的,自然要联合作战,这就是Deep Link技术,可以让酷睿处理器、核显、独显协同释放各自的潜力,主要应用包括三个方面。

    [​IMG]

    一是动态功率共享,支持12代酷睿平台,原理很简单,就是根据不同的负载,动态调节CPU、GPU的功耗配比,玩游戏就多给GPU。

    AMD平台有相同的技术SmartShift,NVIDIA也有类似的,但自己没有CPU处理器,效果自然大打折扣。

    [​IMG]

    二是超级编码通过oneVPL API,可以让独立显卡、核芯显卡共同进行视频编码,处理不同的帧画面,再合成。

    [​IMG]

    三是超级算力联合基于机器学习的MLS框架,结合XMX引擎加速,可以智能地将计算负载分配给独立显卡、核芯显卡各自的计算引擎,比如处理视频的时候,将画面分成不同区块,交给两种显卡,处理完毕后再合成输出。

    [​IMG]

    Intel宣称,在内容创作上,动态功率共享、超级编码、超级算力可以分别带来最多30%、60%、24%的性能提升。

    Intel也展示了超级算力的应用实例,将低画质的视频AI处理缩放到高分辨率画质。

    [​IMG]

    [​IMG]

    [​IMG]

    [​IMG]

    [​IMG]

    [​IMG]

    [​IMG]

    【驱动面板:焕然一新 监控优化都在行】

    [​IMG]

    硬件有了,驱动自然也要跟上,Arc显卡将搭配全新的“Arc Control”驱动控制面板,功能更加丰富,包括游戏驱动、性能调优、全局设置、游戏库、创作者工作站等模块。

    [​IMG]

    性能调优部分,可以实时监测查看各种硬件指标,频率、电压、占用率、温度、风扇转速等等,还可以设置监测涂层,随时覆盖查看。

    未来的桌面产品,还会支持调节功耗、风扇转速等,不知道是否会加入超频……

    [​IMG]

    创作者工作站部分,可以方便地进行直播、AI摄像头强化(背景模糊/背景替换/删除和自动补帧等)、自动生成游戏高光时刻。

    等了这么久,Intel高性能独立显卡终于来了,你准备好了吗?

    [​IMG]

    [​IMG]

    [​IMG]

    [​IMG]
     
正在加载...