超能課堂(331)：E核IPC相對於13代P核?! Lunar Lake處理器深度解析

英特爾在台北電腦展上公布了Lunar
Lake處理器的架構與技術細節，它是一款針對輕薄筆記本設計的，側重於低功耗、高效能、高效率和看重AI性能的處理器。這款處理器將會在今年第三季度正式發布，屆時才會公布具體性能表現，它將會與計劃在第四季度發布的Arrow
Lake處理器一同組成酷睿Ultra 200系列處理器的產品線。

Lunar Lake其實就是去年Meteor Lake架構這條線路的發展產物，Lunar Lake所用的Lion
Cove架構P-Core與Skymont架構E-Core就是Meteor Lake上的Redwood
Cove與Crestmont的後繼者，得益於新的CPU架構，在單線程性能上，Lunar
Lake用原來一半的功耗可以達到上代一樣的性能。

GPU方面，它採用了代號為Battlemage的Xe2架構，也是下一代ARC獨立顯卡的架構，與Meteor
Lake上的Xe-LPG相比遊戲性能提高了50%。

NPU對於AI PC來說是必須的，微軟要求運行Copilot+需要40 TOPS的算力，而Lunar Lake搭載了最新的第四代NPU，可提供48
TOPS的算力，是上代的四倍多，而平台整體算力則高達120 TOPS。

Lunar Lake架構概述

Meteor Lake是英特爾首款採用Foveros先進封裝技術的消費級處理器，這代Lunar Lake依然採用這一技術，但模塊數量從Meteor
Lake的四個減少到只有兩個，從這點就能看出Lunar Lake在設計上與前代產品有很大的不同。

從處理器照片來看，Lunar Lake看上去有三個模塊，實際上左下角那個模塊是單純用來填充的，里面沒有電路。Lunar
Lake由計算模塊和平台控制模塊所組成，它們通過底部的基礎模塊互相聯通。

計算模塊包含最多4個P-Core、4個E-Core、GPU、NPU、記憶體控制器、媒體引擎、顯示引擎、IPU圖像處理單元，並配有8MB記憶體側緩存MSC，這MSC獨立於CPU和GPU的緩存系統，是為計算模塊內的其他IP單元所准備的，像媒體引擎、NPU、IPU，E-Core也可從中獲益，可降低這些模塊對系統記憶體的依賴，避免記憶體重復讀取，可有效降低延遲，並且大大降低能耗。

模塊內部採用第二代Scalable fabric(NOC)總線通信，而兩個模塊之間則採用D2D界面相互連接。

Lunar Lake上有一個很有趣的地方，此前不論是Alder Lake、Raptor lake還是Meteor
Lake，P-Core與E-Core都是綁在一個環形總線里面的，並共享L3緩存，但現在看架構圖就知道Lunar
Lake里的P-Core和E-Core分別位於NOC總線的兩側，也就是說它們之間是要通過NOC總線通信的，現在12MB的L3緩存是P-Core獨享的，E-Core並不能直接訪問，它們之間的關系其實更像是Meteor
Lake的計算模塊與SoC模塊里的LP E-Core。

至於為什麼要這樣，這和低功耗島設計有關，這是從Meteor Lake架構上延續下來的概念，在Lunar
Lake上計算、SoC和圖形模塊被整合到一個模塊上，所以沒必要像Meteor Lake那樣特意在SoC模塊上弄兩個LP E-Core，而且Lunar
Lake的定位是低功耗輕薄本，節能是很重要的。

在Lunar
Lake上，進程進來後會首先分配給E-Core，當調度器認為E-Core性能不夠後在把任務分給P-Core，而新一代E-Core的性能有較大幅度提升，可滿足大部分日常工作負載，這就能讓P-Core大部分時間閒置，這個設計非常利於節能。

而平台控制模塊則包含PCIe、USB、Thunderbolt 4、WiFi、千兆有線網絡MAC，此外還有安全模塊。Lunar
Lake可提供三個Thunderbolt 4接口，2個USB 3.0與6個2.0接口。集成英特爾Wi-Fi 7無線網卡，並支持藍牙5.4。同時還有4個PCIe
5.0和4個PCIe 4.0通道是為M.2 SSD所准備的。

需要注意的是，Lunar
Lake上的這兩個模塊全部都是由台積電生產的，這和此前的Intel處理器大相逕庭，當中的計算模塊用的是台積電N3B工藝，而平台控制模塊則使用N6工藝，最後他們會在英特爾的封裝廠內組合到一齊。

此外Lunar Lake的一大特點就是處理器和記憶體封裝在同一塊PCB上，這樣直接能看到的好處是節省面積，可節約主板上250mm²的空間，這能讓筆記本主板設計變得非常緊湊，同時也讓主板設計變得簡單，畢竟不用再去考慮記憶體走線了。其次這樣設計明顯縮短了記憶體的走線，這能讓記憶體降低40%的功耗，對改善性能估計也有一定的幫助。

Lunar Lake最多可配備32GB 2 Ranks的LPDDR5x記憶體，支持16bit*4通道，最高支持記憶體頻率達到8.5GT/s。

新性能核：Lion Cove

現在Meteor Lake所用的Redwood Cove對於上代Golden Cove來說可以說是小修小改，但Lunar
Lake上的Lion
Cove改動還是蠻徹底的，首先它的緩存結構就有很大變化。在L1數據緩存與L2緩存之間加了一層緩存，原來的L1數據緩存現在變成了L0數據緩存，容量同樣是48KB，加載延遲從5周期降低到4周期；新增的L1數據緩存是192KB，加載延遲9周期；L2緩存對於Lunar
Lake來說是2.5MB，而Arrow Lake則是3MB，都比上代的2MB要大，但加載延遲從16周期降低到17周期。Lunar
Lake上的四個P-Core共享12MB L3緩存。

用於管理緩存的子系統數據轉換後備緩沖區(DTLB)深度從96頁增加到128頁，以提高其命中率。地址生成單元/存儲單元(AUG/STA)從2組增加到3組，這一改動使加載/存儲管道的數量達到平衡，各有三個，而上兩代都是三個加載與兩個存儲管道。

前段進行了重新設計，分支預測塊增加了8倍，獲取區塊從以前的64位元組增加到128位元組，解碼器由6個增至8個，微指令隊數量144條目增加到192條目，微指令緩存從4K擴大到5.25K，並讓緩存讀取帶寬增加了50%。這些改進的目的是為了能夠改進代碼轉換和執行的性能和功耗。

Lion
Cove的亂序引擎劃分成整數和矢量區域，這兩個區域都具有獨立的確定和重命名功能，這樣可以省下大量的硬體開銷，並降低能耗提升性能。亂序引擎的分配/重命名從6個增加到8個，退出從8個增加到12個，深度指令窗口從512個增加到576個，執行埠從12個增加到18個。

整數執行引擎的ALU加法器從5個增加到6個，junp單元從2個增加到3個，shift單元從2個增加到3個，乘法器從單個64×64的單元變成了3個64位乘法器，這些改動能為復雜的操作提供更強大的算力。

矢量單元的SIMD
ALU從3個增加到4個，擁有兩個4周期延遲的256位FMA，同事還有兩個256位除法器，和前一代相比，單精度和雙精度計算的吞吐量都有大幅提高。

英特爾宣稱Lion Cove與上一代Redwood
Cove相比，平均IPC提升了14%，而且功耗越低提升幅度越大，在某個低功耗范圍性能增幅甚至超過了18%。

超線程在Lunar Lake上被移除了，並不是英特爾把超線程關閉了，而是直接移除了。其實英特爾做了兩個版本的Lion
Cove，開啟超線程能在相同晶片面積下增加30%的IPC，但代價是增加20%的功耗，這在數據中心這種追求線程密度的產品上是很好的，但在客戶端處理器上情況就不一樣了，經過三代混合架構處理器的實踐，已經證明了E-Core是比超線程更高效的多線程加速手段。

超線程並不是免費的，它需要額外的晶片面積，一個沒有超線程的Lion Cove和一個開啟超線程的Lion
Cove相比，能效比提升了5%，單位面積性能降低15%，但把性能、功率、晶片面積全算起來效費比提升了15%，再加上Lunar
Lake是為低功耗設備而准備的，所以英特爾直接就刪掉了這部分的電路，把節省出來的功耗和晶片面積來換取內核的更高時鍾速度和IPC。

頻率控制也變得更為精細，此前處理器核心的頻率變化步進是100MHz，現在大幅縮小到16.67MHz，這自然提高了能效，某些情況下甚至能達到更高的頻率。

新能效核：Skymont

當年英特爾在Alder Lake上引入的Gracemont架構E-Core，IPC是向Skylake看齊的，而現在Luner
Lake上的Skymont，它的IPC則是向Raptor Cove看齊，而這Raptor
Cove就是現在13/14代酷睿里面的P-Core，這也是這次Luner Lake線程調度為什麼會優先用E-Core的原因。

Skymont與上代Crestmont相比，整數性能提升了38%，浮點性能提升了68%之多，只需要1/3功耗就能達到與Meteor Lake的SoC上兩個LP
E-Core同樣的性能，同功率下單線程性能是原來的1.7倍，最大功率性能更是達到原來的兩倍。

與Raptor Cove相比，Skymont的單線程整數與浮點性能都高出2%，達到了當時定下讓Lunar
Lake的E-Core性能匹配Raptor Lake的P-Core的設計目標。

再來看性能與功耗的對比曲線，Skymont能用更低的功耗實現與Raptor
Cove同等的性能，在上圖中框起來的那個區間內，在最佳情況下，Skymont只需要60%的功耗就可達到Raptor
Cove的同等性能，在同功率下可實現20%的性能提升。當然了，Raptor
Cove的功率上限比Skymont高得多，所以整體性能上限也比Skymont更高，畢竟兩者的定位完全不一樣。

Skymont的分支預測單元每周期預測范圍從64位元組翻倍到128位元組，這加快了指令提取速度，現在最多可並行提取96個指令字節。解碼方面，Skymont每周期解碼指令從6條增加到9條，比Crestmont提高了50%，Uop隊列從64提高到了96，這是x86歷史上最寬最廣的解碼能力。

同時Skymont引入了Nanocode的新功能，它允許每一個解碼集群可以獨立處理多個微代碼流，把類似的微代碼段組合在一起，以實現更高的並行性。

亂序執行引擎的分配隊列從6寬度增加到8寬度，退出隊列從8寬度增加到16隊列，
新增依賴中斷機制，可有效降低延遲。重排序緩沖區從之前的256個條目擴展至416個條目，物理寄存器文件、保留站和加載/存儲緩沖區也得到擴展，這些改動可提高並行性和降低延遲。

執行引擎的調度埠增加到26個，擁有8個整數ALU，3個Jump接口，每周期可執行3個加載操作，這些均比上一代增加了50%，提升了整體的並行處理能力。

矢量單元現在擁有4個128位浮點與SIMD矢量，這使得Gigaflops和TOPs算力直接翻倍，增加的執行單元有助於提升AI方面性能。FMUL、FADD、FMA經過重新設計降低了延遲，FP捨入現在支持硬體加速。

加載/存儲管道數量從原來的都是兩個變成了現在擁有3個加載管道和4個存儲管道，L2緩存TLB的大小從3096增加到4192，Skymont依然是四個核心共享4MB
L2緩存，但現在L2緩存帶寬番了一倍，這讓核心之間通信速度翻倍，並降低了記憶體延遲並提高了數據吞吐量。

GPU：全新Xe2 Battlemage架構

Lunar Lake採用了代號為Battlemage的Xe2架構核顯，這是英特爾最新的GPU架構，也是未來ARC
B系列獨顯的核心，在Lunar Lake上一共擁有8個Xe2核心，8個光線追蹤單元，新增XMX矢量擴展引擎，擁有8MB L2緩存，整體性能較上代提升了1.5倍。

這是Lunar Lake的Xe2 GPU內部結構，包含兩組Render
Slice共8組Xe核心，一共64個矢量引擎，8個采樣器，4個像素後端，8個光線追蹤單元，8MB L2緩存。其實從規格上來看和Meteor
Lake上的Xe-LPG是一樣的，而且矢量引擎少了一半，其實是因為Xe架構的矢量引擎是256位的，現在Xe2架構是512位的，所以看起來數量少了一半，但實際上執行能力更強。新架構光線追蹤單元得到了增強，強化了並行處理能力，這讓光線追蹤性能提升1.6倍到2.1倍。

第二代Xe核心包括8個512位矢量引擎，8個2048位XMX矩陣擴展引擎，均比上代位寬翻倍數量減半，可支持64位的atomic
ops，帶有192KB的L1緩存。

XMX矩陣引擎雖然存在於Alchemist架構的獨顯GPU里面，但在核顯里面是沒有的，所以Lunar
Lake是首個代XMX矩陣擴展引擎的英特爾核顯，在它的加持下，可實現每時鍾4096次的INT8運算或每時鍾2048次的FP16運算，這讓GPU可提供67
TOPS的AI算力，而且XMX矩陣擴展引擎的引入對於強化核顯的XeSS性能也是有很大幫助的。

新一代Xe2 GPU能讓Lunar Lake提供比Meteor
Lake約1.5倍的圖形性能，或者在同性能情況下實現更低的功耗，由於產品還沒正式推出，所以官方也沒給出具體的性能和功耗數值，而且對於英特爾的GPU產品來說，驅動的不確定性因素太大了，我們還是等產品出來後再談論性能吧。

新一代的媒體引擎支持AV1的視頻編解碼能力，最高可支持8K60 10bit
HDR視頻編解碼。新增支持H.266(VVC)視頻格式的解碼能力，與AV1相比，H.266在同等質量下可把文件大小縮小10%。顯示引擎支持eDP 1.5、DP
2.1和HDMI 2.1，最多可實現三屏輸出，支持螢幕自適應刷新，可使用提前傳輸進行選擇性顯示內容更新，結合Panel replay技術實現顯示自適應同步功能。

第四代NPU

雖然英特爾在Meteor Lake上整合了NPU，但它的算力只有11.5
TOPS，並不能滿足微軟要求本地運行Copilot+的40 TOPS的需求。而在Lunar Lake上搭載了最新的第四代NPU，算力直接達到了48
TOPS，而且在加強算了的同時也提升了能效，這樣就對筆記本的續航不會造成太大影響。

NPU 4算力是上一代的四倍，英特爾是如何做到的呢？首先NPU
4的神經網絡運算引擎從2個增加到6個，一共有12K個MAC單元，這樣從規模上就有了三倍的提升了，再加上算法和頻率上的提升，這樣就有了四倍的提升，至於NPU
4的具體頻率是多少，這個得等到產品正式發布才會公布，但官方表示比NPU 3是有較大提升的。

同時每個神經網絡運算引擎都嵌入了推理管道，包括MAC陣列和許多用於不同類型計算的專用DSP，這是為多並行操作而構建的，這提高了性能和效率。新的SHAVE
DSP經過優化，矢量計算能力是上一代的四倍，可處理更為復雜的神經網絡運算。

NPU
4顯著改進了矩陣乘法和卷積運算，支持INT8和FP16精度的數據輸出，INT8每周期可以進行2048個MAC運算，而FP16則是每周期1024個，效率比以前有兩倍的提升。此外針對大語言模型不同種類的量化，NPU
4支持Data Conversion功能，可以把INT4、INT2等不同的數據量化成INT8進行處理，讓後續的處理更快、更有效率。

由於NPU 4的神經網絡運算引擎數量是原來的三倍，得加大帶寬才行，所以NPU
4的DMA(直接記憶體訪問)引擎帶寬也直接翻倍，這讓NPU能支持更高的數據流，減少帶寬上的瓶頸確保流暢運行，這對大模型處理是相當有用的，能提升數據處理的效率。

NPU
4支持激活函數，現在有更多種類的激活函數可以支持和處理任何神經網絡運算，並可選擇精度來支持浮點計算，這將使計算更加精確和可靠。改進的激活函數和優化的推理管道將使其能夠以更快的速度和更高的准確度執行更復雜和更細致的神經網絡模型。

NPU 4里的SHAVE DSP從NPU
3的128位暴增至512位，這使其矢量計算能力是上代的四倍，並使矢量性能整體提升了12倍。這對於Transformer語言模型和大型語言模型LLM非常有用，處理起來更加快速和節能。

與NPU 3相比，NPU 4的矢量性能提高了12倍，TOPS提高了4倍，帶寬提高了2倍，這些改進提高了NPU
4的性能和效率，更適合對算力和延遲都有要求的最新AI應用。

說完了Lunar Lake的CPU、GPU和NPU，現在可以算算開篇所說的120
TOPS平台算力是怎麼來的了。首先算力最高的是GPU，它可提供67
TOPS的算力，比較適合文生圖、圖生圖這類的創作AI，當然英特爾的XeSS超分技術也屬於是AI應用。

其次是NPU，它可提供48
TOPS算力，它比較適合AI助手類型負載，當然了創作類AI其實NPU也可以介入，英特爾有個基於OpenVINO框架部署的Stable
Diffusion就能用NPU執行文字識別和U-Net操作，有興趣的可以自己下下來玩一下。

最後是CPU，它可提供5
TOPS的算力，由於CPU是通用計算器，可利用VNNI和AVX來運行AI應用，只不過CPU的算力確實不高，只適合運行一些輕型AI負載。

新一代硬體線程調度器

硬體線程調度器是自12代酷睿Alder
Lake推出已來一直存在的東西，因為混合架構處理器確實需要它，英特爾每次對處理器架構進行更新都會對硬體線程調度器進行升級，Lunar
Lake上的硬體線程調度器就有四項升級。

一是更智能的反饋機制，包括採用新的遙測方式，可以更全面地收集線程運行信息；引入AI技術進行預測，可以更准確地預測線程的運行模式，從而進行更智能的線程調度；採用基於工作負載的調度方式，不再局限於靜態的應用列表，可以根據不同的工作負載進行更靈活的線程調度。

二是增加了OS隔離區，允許作業系統定義不同的工作負載區域，並根據區域的不同進行不同的線程調度策略。此外硬體線程調度器與Windows
11作業系統進行更深度的整合，為作業系統提供更強的hint功能，使作業系統能夠更准確地理解硬體線程調度器的調度意圖。

三是與SoC的電源管理引擎做了結合，可以根據SoC電源管理引擎的工作負載分類結果，為作業系統提供電源管理模式的指導，使作業系統能夠根據不同的電源管理模式進行不同的線程調度策略。

四是英特爾對OEM廠商開放了硬體線程調度器的API，允許OEM根據自身需求定義線程調度策略，並給硬體線程調度器提供自定義hint，使硬體線程調度器能夠根據OEM的需求進行更靈活的線程調度。

在調度機制上，在Raptor
Lake是會優先把線程分配給P-Core，當發現負載不需要那麼強性能時就會把線程移至E-Core，如果負載又增加了就再移回P-Core。在Meteor
Lake上，線程會優先進入SoC的LP E-Core，如果需求增加了就激活計算模塊，把線程移至E-Core，如果還是不夠就把它移到P-Core。

而到了Lunar
Lake上就變得簡單得多，線程會先分配給E-Core，在需求更高的性能的時候就移動到P-Core上。由於現在的Skymont架構E-Core性能暴漲，這使大部分日常工作負載可在E-Core上完成，只有在非常重載的情況才會啟用P-Core。

總而言之，Lunar
Lake的硬體線程調度器相比上一代進行了多方面的改進，使其能夠更智能、更靈活地進行線程調度，從而提升處理器性能和能效，並提升用戶體驗。

總結

Lunar
Lake無論在架構還是封裝還是工藝上都有了非常大的改變，它的CPU內兩個核心架構都改了，GPU架構也改了，NPU也改了，對比起Meteor
Lake簡直是翻天覆地的變化，而這離酷睿Ultra 100系處理器發布與上市才半年。

Lunar Lake的設計很明顯是針對低功耗平台以及未來AI
PC的，實際上在這領域英特爾所面臨的不只有老對手AMD，蘋果和高通分別拿著自家的M系列處理器和驍龍X
Elite處理器搶占著這片市場，而AMD也拿出了最新的銳龍AI 300系列處理器等候Lunar Lake的到來。

在台北電腦展是發布會上英特爾並沒有對Lunar
Lake的性能進行具體描述，這些都要要等產品發布時才會介紹。不過說真的光Skymont E-Core與Raptor Cove(Raptor
Lake的P-Core)有著相近的IPC這點就相當令人震撼了，此外它還有性能更強的Lion Cove P-Core，這兩者核心還會用在未來規模更大的Arrow
Lake上，很期待新一代酷睿Ultra處理器的性能表現。

此外新的Battlemage GPU和NPU 4的性能表現會怎麼樣也很讓人期待，英特爾表示Lunar
Lake會在今年第三季度上市，大機率是想趕在暑期銷售旺季前推向市場，而面向高性能平台的Arrow Lake還得等到第四季度。

來源：超能網

超能課堂(331)：E核IPC相對於13代P核?! Lunar Lake處理器深度解析

Lunar Lake架構概述

新性能核：Lion Cove

新能效核：Skymont

GPU：全新Xe2 Battlemage架構

第四代NPU

新一代硬體線程調度器

總結

電視劇《老中醫》中的老沙低調隱藏真本事，明知藥方開錯了卻不說

《太鼓達人：咚咚雷音祭》發布遊戲模式介紹預告

免費《死亡西部》Beta測試版再次上線西部射擊遊戲

RISC-V 指令集架構規范的 F# 實現開源

天文學家在一場毀滅性碰撞中同時發現三個黑洞

飯制《血源卡丁車》「烏鴉獵人」艾琳演示公開

《無限試駕2》日歐美車廠及車輛塗裝，賽事介紹

Aquilolamna milarcae：一種恐龍時代的「怪異」有鰭鯊魚

《孢子》人形娘載具-儸莉大集合

世嘉《審判之逝：湮滅的記憶》正式公開 9月24日登陸主機

PSN港服雙十一促銷開啟多款大作參與、低至3折

小蒂娜的奇幻樂園自動捅人器屬性和紅字效果怎麼樣