AI能力再升级
从第10代酷睿中首次引入AI开始,英特尔开启了PC端AI应用落地的新阶段,加速生态在PC端AI应用的探索。其次,第12代酷睿处理器中英特尔推出了高性能混合架构,凭借性能核、能效核的组合,让PC面对更复杂应用场景时可以灵活平衡性能与能耗,也是x86处理器在过去最重要的变革之一。
AI+高性能架构促使英特尔在边缘计算,AI能力成为主要发展方向。
2023年中旬,英特尔宣布酷睿品牌升级焕新,拆分为旗舰级的全新英特尔酷睿Ultra、主流级的英特尔酷睿。其中,Meteor Lake是“首款酷睿Ultra”处理器,首批Meteor Lake将是面向笔记本电脑的处理器,预计2024年第一季度有品牌上出货。而英特尔14代酷睿桌面级处理器预计10月亮相。
Meteor Lake采用全新分离式模块架构,分别是计算模块、SoC模块、图形模块、IO模块,并通过英特尔Foveros 3D封装技术连接。
计算模块仍旧是高性能混合架构,拥有全新微架构的性能核(Redwood Cove)与能效核(Crestmont)均首次采用了Intel 4制程工艺,能效进一步提升。为了让计算单元模块化,英特尔优化了环形总线等设计。
SoC模块
全新的SoC模块Meteor Lake低功耗设计的关键,集成全新低功率计算岛E-core,人工智能加速引擎NPU,内存控制器,连接模块,媒体处理计算单元,显示输出单元等。SoC模块可以支持Wi-Fi 6E、Wi-Fi 7,支持8K HDR和1编码,支持原生HDMI 2.1和DP 2.1标准,支持全新DDR内存规格。
SoC模块是Meteor Lake中相比以往最大的改变之一,也是Meteor Lake全新设计的枢纽。英特尔提到,Meteor Lake中SoC模块基于对性能、能效的追求,在架构设计方面有四个原则:第一,重新划分计算密集型IP,从而优化功耗,在不影响性能的情况下,致力于提高能效比。第二,扩展I/O,满足SoC内部主要IP所需要的带宽。第三,引入低能耗核心。第四,充足电源管理算法。
具体来看,以往处理器内部设计中,媒体编解码器和GPU在一起,并通过环形总线与CPU联合起来,如果媒体编解码器运行,就需要GPU进入“工作状态”,并需要通过环形总线访问内存,尽管属于高性能解决方案,却也有一项缺点——当环形总线上任何区块访问内存时,都必须激活环形总线、CPU、GPU单元,功耗更高。也就是说,由于架构设计原因,当用户播放流媒体时,整个模块都在运行,不利于节能。
到了Meteor Lake,媒体引擎和图形拆分开,包括计算模块,都有独立在SoC总线上的位置,并且内存控制器也放到了SoC总线上。也就是说,无论是哪个区块、核心访问内存,其余部分不需要供电,例如在视频播放中只需要媒体编辑码、显示供电,其他部分可以关闭,由此带来了视频播放的功耗优化。
SoC模块另一个值得重点介绍的就是引入低功率计算岛E-core,这也是Meteor Lake支持超低功耗的“秘密武器”。凭借SoC模块上这个功耗非常低、工作频率非常低的能效核,Meteor Lake在处理流媒体播放、常规控制等轻负载时,不再需要使用计算模块中的性能核、能效核,大幅减低功耗。
超低功耗能效核再加上计算模块的能效核、性能核,组成了全新“3D高性能混合架构”,让Meteor Lake相比此前的12代、13代酷睿支持更出色的线程调度、性能以及功耗平衡。所以,Meteor Lake在更多应用场景中,带来的节能特性,续航优化将非常值得期待。
首次集成NPU
从第10代酷睿将AI引入PC,英特尔就开始加速AI在终端侧落地。如今我们看到,AI正在加速从云端向终端侧迁移,英特尔提出了这一趋势背后的驱动因素——第一,终端侧AI算力越来越强,如果将AI放在云端,那么作为后端的云端将容易成为瓶颈,难以大规模发展;第二,AI部输在云端将给服务提供商带来更多成本;第三,AI在终端侧部署延时更低,即使没有网络也能使用;第四,数据存放在终端侧,可以更好地保护用户隐私。
在Meteor Lake中,英特尔首次集成神经网络处理单元(NPU),并且全系支持,更进一步提升终端侧AI能效及应用。
CPU、GPU、NPU都可以提供AI算力,但是针对不同使用场景匹配程度并不相同,例如CPU适合处理轻量级AI,GPU适合需要高性能、高吞吐量AI应用,NPU则专为AI设计具备高能效、低功耗等优势。
所以Meteor Lake在加入NPU后,能够在PC端提供高效的人工智能加速引擎,与CPU、GPU结合更灵活的应对不同场景下AI算力需求。值得一提的是,NPU低功耗特性尤其适合长时间运行的AI应用,比如在视频会议场景中涉及长时间的背景虚化、任务追踪等等需求,NPU加入后可以降低对CPU、GPU调用,从而让轻薄本等设备提供更持久的续航。
例如,在英特尔的内部测试中,将负载全部跑在CPU上用时为43.3秒,功耗40W;全部跑在GPU上用时为14.5秒,功耗37W;将部分负载(Unet+与Unet-)交由NPU执行,其余交由CPU执行,用时为20.7秒,功耗10W;Unet+由GPU执行,Unet-由NPU执行,用时为11.3,功耗为30W。
可以看到通过灵活调用NPU、CPU、GPU,面对同一负载可以在兼顾功耗的情况下提升效率。英特尔表示,加入NPU后相对仅CPU而言,效率可以提升8倍。
NPU集成两个神经计算引擎,可以共同处理单一工作负载或各自处理不同工作负载。在神经计算引擎中,主要集成推理管道、SHE DSP两个组件。
推理管道:高能效计算的核心驱动因素,通过最大限度地减少数据移动并利用固定功能运作来处理常见的大计算量任务,可以在神经网络执行中实现高效节能。绝大多数计算发生在推理管道上,这个固定功能管道硬件支持标准的神经网络运作。该管道由一个乘积累加运算( MAC)阵列、一个激活功能块和一个数据转换块组成。
SHE DSP:一款专为AI设计的高度优化 VLIW DSP(超长指令字/数字信号处理器)。流式混合架构向量引擎(SHE )可以与推理管道和直接内存访问(DMA)引擎一起进行管道化,实现在NPU上并行进行的真正异构计算,从而最大限度地提高性能。DMA引擎能够优化编排数据移动,实现最高能效和性能。
此外NPU中还集成主机接口和设备管理——设备管理区支持微软计算驱动程序模型(MCDM),可以让Meteor Lake的NPU确保安全性的同时更好地支持MCDM;内存管理单元(MMU)提供多种情况下的隔离,并支持电源和工作负载调度,实现快速地低功率状态转换。
不仅是在芯片设计、底层架构方面的创新,英特尔在AI领域的持续布局已经构建出了软硬件协同的完善生态。例如在应用层面,英特尔携手合作伙伴打造了视频增强及美化、视频背景模糊、超分辨率、语音降噪等应用。
英特尔表示,现在已经有超过100家合作伙伴共同推动终端侧AI应用。同时,英特尔也与微软紧密合作,包括针对微软Office办公全家桶的探索;专门运行在NPU上的“Windows Studio Effects”,可以简化、降低软件开发者使用AI的门槛;对接AI应用的底层框架Direct ML,实现英特尔平台上获得更高能效。
图形模块
Meteor Lake集成基于Xe LPG架构打造的英特尔ARC锐炫显卡,堪称“集显中提供独显性能”,性能是前代的2倍,并支持Intel XeSS以及DX12 Ultimate。
Meteor Lake的图形模块优化了缓存互连,拥有8个GPU核心、128个Vector Engines,几何图形渲染管线大幅提升,并且新增8个硬件光追单元、乱序采样功能,进一步增加准确率和性能。
IO模块
IO模块集成了Thunderbolt 4和PCIe 5.0,提供出色连接体验,保证数据传输效率。
这里还要介绍英特尔硬件线程调度器。在英特尔推出高性能混合架构后,这项技术就在持续助力酷睿平台更灵活、高效地释放性能。
Meteor Lake增强了英特尔硬件线程调度器对操作系统的反馈,新的硬件线程调度器会实时更新核心能力,以便更加精准地向操作系统报告整个核心和每个核心的内部能耗比的评估和判断,以提供更加精确的表格给到操作系统。同时在软件层面和系统层面,与英特尔DDT软件结合起来对核心调配做更优的控制。
Intel 4制程工艺与Foveros封装技术
Meteor Lake或许是英特尔发布12代酷睿,推出高性能混合架构后在酷睿平台上最重要的一次变革,但除了创新的架构外,还拥有两点值得关注——Intel 4制程工艺以及Foveros封装技术。
“四年五节点”是英特尔重要的发展战略,也是能否重新夺回制程工艺领先地位的关键一步。根据英特尔的IDM 2.0战略,英特尔计划在四年内实现五个制程节点,2024年在制程节点上与对手平齐,并于2025年处于领先地位。Intel 4是第二个节点,将为Intel 3奠定基础。
根据英特尔公布的信息,与Intel 7相比实现了2倍面积微缩,带来了高性能逻辑库,且性能核能效比提升20%。Intel 4的创新特性还包括——方管采用EUV光刻技术,简化制造流程;采用高密度MIM(金属-绝缘体-金属)电容器保证出色供电性能;实现更好频率、电压平衡。
目前Intel 4处理器正在加速量产中。
Meteor Lake将采用Foveros封装技术,Foveros封装技术的优势包括:36u凸点间距,迹线宽度小于1微米;凸点密度提高近8倍;迹线长度小于2毫米;160GB/s/mm带宽;功耗小于0.3pJ/位。
采用Foveros封装的Meteor Lake与Raptor Lake相比,具备的优势包括:低功耗晶片互连最大限度地减少分区开销;小区块提高了晶圆良率,初制晶圆更少;能够为每个区块选择理想的硅工艺;简化SKU创建,提高定制能力。
英特尔也介绍了封装Meteor Lake的流程,包括五个步骤。
第一、切割:从晶圆厂收到内部和外部代工厂的晶圆,并将其切割成单个芯片。
第二、分选和Diet测试:单晶片测试确保只有高质量晶片才能进入Foveros组装阶段。这种探测能力是异构设计的关键所在,通过向组装生产线提供更多高质量芯片来提高测试良率。组装生产线已经过主动热控制能力全面测试。
第三、晶圆组装:在基板晶圆上组装各个模块。该生产线在一个流程中整合了芯片附着、底部填充和晶圆模具等组装操作,以及碰撞、钝化、研磨、抛光等制造操作,这在英特尔尚属首次。
第四、封装组装: Meteor Lake Foveros复合体是在BGA基板面上组装的。这种复合体兼容现有的封装组装工具和工艺,只需进行少许优化。
第五、测试和完成:英特尔HDMx和系统测试保障质量,包括压力和老化测试、类测试和系统级平台测试。
写在最后
2023年英特尔给Meteor Lake又赋予了更多AI能力,PC将迎来新的拐点。Meteor Lake将更高效也更节能,保证体验的同时为笔记本提供更长时间的续航,这也是全新SoC模块最重要的作用之一。对于应用场景更加复杂多元化的PC而言,这项特性可以更好地兼顾生产力和效率。