日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:52010
  • 待審:67
  • 小程序:12
  • 文章:1106242
  • 會(huì)員:784

【ITBEAR】2024年是至強(qiáng)的大年。

先于6月正式發(fā)布的至強(qiáng)?? 6700E系列開(kāi)啟了全新的、更為簡(jiǎn)潔命名方式:至強(qiáng)?? 6能效核。144核的規(guī)格也意味著英特爾在最近幾年當(dāng)中首次在核心數(shù)量方面實(shí)現(xiàn)了領(lǐng)先。而且,這還并不是至強(qiáng)6的最強(qiáng)形態(tài),畢竟大家都知道還有個(gè)6900P系列嘛。

9月26日,至強(qiáng)6這個(gè)“最強(qiáng)形態(tài)”終于正式發(fā)布,主要規(guī)格非常震撼。即使面對(duì)今年內(nèi)晚于自己發(fā)布的其他廠商同級(jí)別CPU,至強(qiáng)?? 6900P的已有規(guī)格也戰(zhàn)力十足。

最強(qiáng)至強(qiáng)能有多強(qiáng)?

尤為值得一提的是:至強(qiáng)6900P也是業(yè)內(nèi)首款性能核數(shù)量正式“破百”的產(chǎn)品,其他同級(jí)產(chǎn)品,不論是x86架構(gòu)還是Arm架構(gòu)都只達(dá)到了96核的水平。它們的性能核數(shù)量要追平英特爾,起碼得等到下個(gè)季度。

至強(qiáng)6900P的UPI2.0鏈路也有很大改進(jìn),速率提升到24GT/s,數(shù)量增加至6條,使得雙路互聯(lián)效率進(jìn)一步提升。結(jié)合內(nèi)核數(shù)量、內(nèi)存帶寬等方面的全面提升,至強(qiáng)6900P可以被視作高算力+高存力平臺(tái)的最強(qiáng)機(jī)頭,不論是科學(xué)計(jì)算,還是AI集群。根據(jù)已透露的測(cè)試,至強(qiáng)6900P平臺(tái)的數(shù)據(jù)庫(kù)、科學(xué)計(jì)算等關(guān)鍵應(yīng)用負(fù)載的表現(xiàn)是上一代產(chǎn)品的2.31倍-2.5倍,AI應(yīng)用性能是其1.83倍-2.4倍不等。

至強(qiáng)6的擴(kuò)展能力也有不小的提升。其中6900系列單插座不論是性能核還是能效核均可提供96通道PCIe 5.0,雙路即可提供192通道PCIe 5.0。未來(lái)上市的6700系列單路型號(hào)可以提供136通道PCIe 5.0,雙/多路型號(hào)單插槽也可以提供88通道。相較而言,第四、五代至強(qiáng)可擴(kuò)展處理器的PCIe 5.0通道數(shù)量為80。CXL支持能力方面,至強(qiáng)6 6900、6700系列都支持64通道CXL 2.0。

更多的內(nèi)核、更多的內(nèi)存通道、更多的PCIe通道需要更大規(guī)模的插座接口支持。 至強(qiáng)6帶來(lái)了兩種接口:LGA 4710和LGA 7529。至強(qiáng)6900系列使用面積較大的LGA 7529插座,提供最強(qiáng)大的內(nèi)存帶寬和擴(kuò)展能力,是未來(lái)高性能、高密度服務(wù)器的基礎(chǔ)。至強(qiáng)6700以及未來(lái)的6500/6300系列使用LGA 4710,尺寸與第四、五代至強(qiáng)的LGA 4677相仿,內(nèi)存、PCIe的通道數(shù)相同或相近,有利于主流服務(wù)器內(nèi)部布局習(xí)慣的延續(xù)性。

改進(jìn)的EUV:Intel 3

核心規(guī)模的飆升首先得益于至強(qiáng)產(chǎn)品線終于獲得EUV光刻機(jī)的加持。在2023年發(fā)布的酷睿Ultra已經(jīng)率先使用了引入EUV的Intel 4制造工藝。而2024年發(fā)布的至強(qiáng)6則使用了進(jìn)一步改良的Intel 3制造工藝。

Intel 3在更多的步驟中應(yīng)用EUV光刻,可以提供更密集的設(shè)計(jì)庫(kù)、更高的晶體管驅(qū)動(dòng)電流。Intel 3還有三種變體,包括3-T、3-E和3-PT。Intel 3、3-T是基本工藝,主要用于CPU;3-E是功能擴(kuò)展;三者都支持TSV;Intel 3的這三種變體與Intel 4相比可以提升18%的性能功耗比。而3-PT進(jìn)一步增加混合鍵合的支持能力,帶來(lái)了更高的性能并且易于使用。Intel 3所有四種節(jié)點(diǎn)變體都支持240 nm高性能和210 nm高密度庫(kù),而Intel 4只支持240 nm高性能庫(kù)。

對(duì)于性能取向,Intel 3針對(duì)高性能運(yùn)算進(jìn)行優(yōu)化,可以支持低電壓(<0.65V)和高壓(>1.3V)運(yùn)行,且在各電壓下的頻率均高于Intel 4。

微架構(gòu)大迭代

至強(qiáng)6900P采用的性能核微架構(gòu)代號(hào)Redwood Cove。Redwood Cove也是近年來(lái)英特爾最重要的微架構(gòu)迭代,不但給服務(wù)器產(chǎn)品線帶來(lái)了新名字,在消費(fèi)類(lèi)產(chǎn)品線同樣開(kāi)啟了新的命名序列酷睿Ultra。

指令TLB翻倍,從128條增加到256條; 指令提取帶寬從每周期16字節(jié)翻倍到32字節(jié); 解碼器從4路擴(kuò)展到6路; 微操作緩存從2304條增加到4096條。 其他L1 BTB、L2 BTB等也有所提升。

Golden Cove的后端當(dāng)然也有提升,譬如重排序緩沖區(qū)、分支目標(biāo)緩沖區(qū)也有大概30%左右的提升,只是相對(duì)前端幅度不那么大。

Redwood Cove相對(duì)Golden Cove/ Raptor Cove的最重要變化是:

指令緩存從32KB增加到了16路、64KB; 微操作隊(duì)列從144個(gè)條目增加到192個(gè)條目; 指令執(zhí)行延遲降低; 更智能的預(yù)取和改進(jìn)的BPU; L2緩存的帶寬有所提升 lAMX增加FP16支持

能效核的指令緩存與性能核都是64KB,但數(shù)據(jù)緩存分別是32KB和48KB。前端的指令解碼器寬度也有差異,分別為6和8寬。指令亂序執(zhí)行引擎差異較大,能效核是256條而性能核是512條。能效核不支持性能核所支持的AVX-512和AMX,這也可以明顯減小矢量運(yùn)算單元的晶體管占用,但代價(jià)是每周期的單精度浮點(diǎn)運(yùn)算次數(shù)有了數(shù)量級(jí)的差異。但能效核也改進(jìn)了AVX2,增加了VNNI的INT8和BF16/FP16快速轉(zhuǎn)換,這樣在處理AI應(yīng)用的時(shí)候表現(xiàn)也還有所改善。另外,其256位加密和1024/2048密鑰也獲得了能效核的支持,確保至強(qiáng)6平臺(tái)的安全水平基本一致。

緩存規(guī)模、前端寬度以及矢量單元的差異,使得至強(qiáng)6性能核和能效核有不同的定位。早先發(fā)布的至強(qiáng)6能效核更適合微服務(wù)等運(yùn)算強(qiáng)度相對(duì)較輕,可在高核心數(shù)量和規(guī)模擴(kuò)展方面收益的任務(wù),以追求更高的能效、更高的機(jī)架利用率。而現(xiàn)在發(fā)布的至強(qiáng)6性能核更適合大數(shù)據(jù)、建模仿真等計(jì)算密集型和人工智能任務(wù),為高性能優(yōu)化,單顆處理器的功耗直飚500W——當(dāng)然,跟同期發(fā)布的Gaudi AI加速器的新品或類(lèi)似的加速器產(chǎn)品相比,能耗是應(yīng)有的代價(jià),有能力提升性能上限才是正經(jīng)事。

內(nèi)存性能大躍進(jìn)

在至強(qiáng)6900P上,內(nèi)存問(wèn)題終于得到了比較好的解決。這涉及三個(gè)角度:

1、 大容量末級(jí)緩存。前面提到過(guò),6900P每個(gè)網(wǎng)格提供4MB L3,總?cè)萘窟_(dá)到了504MB,分別是四代的4.5倍、五代的1.6倍。而且,至強(qiáng)的全網(wǎng)格架構(gòu)使得任意內(nèi)核訪問(wèn)末級(jí)緩存的延遲相比其他廠商的一些產(chǎn)品有更優(yōu)的表現(xiàn),例如不需要跨計(jì)算單元而造成延遲劇增。這種架構(gòu)效率更高的優(yōu)勢(shì)也是至強(qiáng)在核數(shù)曾落后的情況下還能打的有來(lái)有往的關(guān)鍵原因。

2、 DDR5內(nèi)存雙管齊下提升帶寬。至強(qiáng)6900系列支持12通道DDR5 6400,總帶寬可以達(dá)到614GB/s,平均每核的帶寬大致還有5GB/s的水平。6900P還支持新型內(nèi)存MRDIMM,頻率提升至8800MT/s,總帶寬達(dá)到了845GB/s,平均每核6.6GB/s,也明顯超過(guò)了前兩代產(chǎn)品,大幅度逆轉(zhuǎn)了內(nèi)核數(shù)量增加、平均內(nèi)存帶寬不升反降的問(wèn)題。

這里重點(diǎn)說(shuō)一下CXL內(nèi)存的優(yōu)勢(shì)。CXL2.0支持鏈路分叉,使一個(gè)主機(jī)端口可以對(duì)接多個(gè)設(shè)備,而且提供更強(qiáng)的CXL內(nèi)存分層支持,可實(shí)現(xiàn)容量和帶寬擴(kuò)展。至強(qiáng)6支持3種CXL內(nèi)存擴(kuò)展模式:CXL Numa Node、CXL Hetero Interleaved、Flat Memory。

踏上Chiplet異構(gòu)之路

至強(qiáng)6是至強(qiáng)家族首次將計(jì)算和IO芯片獨(dú)立,再通過(guò)Chiplet形式封裝在一起,總算是把高級(jí)封裝的優(yōu)勢(shì)真正發(fā)揮出來(lái)了。

第四代至強(qiáng)可擴(kuò)展處理器是英特爾的首個(gè)Chiplet設(shè)計(jì)的至強(qiáng)處理器。其XCC版本內(nèi)部是4顆芯片通過(guò)10組EMIB對(duì)等連接,每顆芯片提供15個(gè)內(nèi)核、2通道內(nèi)存控制器、1組加速單元,以及UPI、PCIe PHY若干。另外,還可以通過(guò)EMIB封裝4顆HBM。

第五代至強(qiáng)可擴(kuò)展處理器使用2顆芯片封裝而成,所使用的EMIB數(shù)量明顯減少,相應(yīng)地也節(jié)約了芯片面積。雖然內(nèi)核數(shù)量略有增加,但也損失了UPI、PCIe的數(shù)量,也不再能夠搭配HBM。

隨著制造工藝演進(jìn),偏重計(jì)算性能和晶體管密度的處理器內(nèi)核,與偏重高速信號(hào)互聯(lián)的IO控制器對(duì)制造工藝的要求產(chǎn)生了差異,因此,典型的Chiplet設(shè)計(jì)將計(jì)算和IO分離,分別應(yīng)用不同的制造工藝。英特爾在14代酷睿上便采用了這種方式,分為Compute Tile、SoC Tile、IO Tile、Graphic Tile。代號(hào)Ponte Vecchio的英特爾Data Center GPU Max利用Foveros和EMIB技術(shù),將47個(gè)小芯片封裝在一起,包括Compute Die、Base Die、Rambo、IO Die等。

計(jì)算單元

根據(jù)收集到的信息,對(duì)于能效核,目前只出現(xiàn)了一種計(jì)算單元的設(shè)計(jì),每個(gè)單元最多提供144個(gè)內(nèi)核、4組內(nèi)存控制器共八通道;對(duì)于性能核,則是有三種計(jì)算單元的設(shè)計(jì),可分別用于組合高核數(shù)、中等核數(shù)、低核數(shù)的規(guī)格。

通過(guò)使用3種計(jì)算單元進(jìn)行組合,至強(qiáng)6性能核可以構(gòu)建跨度從8~128核的、非常綿密的規(guī)格。也許會(huì)有人認(rèn)為,相比其他廠商只用一種規(guī)格計(jì)算單元實(shí)現(xiàn)擴(kuò)展的設(shè)計(jì),英特爾需要設(shè)計(jì)三顆不同的芯片的成本會(huì)更高。但我認(rèn)為,這是英特爾優(yōu)先考慮性能的結(jié)果。首先,至強(qiáng)6將內(nèi)存控制器安排在計(jì)算單元中,離內(nèi)核更近,延遲更低,即使因此犧牲了單元組合使用的靈活性也是值得的。其次,至強(qiáng)6性能核給不同規(guī)模的內(nèi)核數(shù)量規(guī)劃不同的網(wǎng)格規(guī)模,有利于降低核間的延遲,甚至,有可能LCC會(huì)針對(duì)較低的核數(shù)改用環(huán)形總線。綜上,預(yù)計(jì)至強(qiáng)6性能核相對(duì)同等規(guī)模的其他廠商的產(chǎn)品依舊可能會(huì)擁有內(nèi)存延遲低、緩存延遲低的優(yōu)勢(shì)。

IO單元

IO單元方面,至強(qiáng)6900、6700系列都使用2顆相同的IO芯片。每個(gè)IO芯片由2個(gè)IO模塊、4個(gè)UIO模塊、2個(gè)加速器模塊,以及IO網(wǎng)絡(luò)接口構(gòu)成。每個(gè)IO模塊提供x16 PCIe或CXL連接;每個(gè)UIO模塊提供x24 UPI2.0,或復(fù)用為x16的PCIe或CXL;每個(gè)加速器模塊提供DSA、IAA、QAT、DLB加速器各一個(gè)。

結(jié)語(yǔ)

至強(qiáng)6終于實(shí)現(xiàn)計(jì)算與IO的解耦,也讓至強(qiáng)6及未來(lái)的產(chǎn)品線走上了正確、靈活的道路,得以充分發(fā)揮Chiplet的優(yōu)勢(shì)。將Chiplet視作降低成本、提高良率的手段是狹隘的。Chiplet的價(jià)值在于靈活、復(fù)用、重構(gòu)。英特爾長(zhǎng)期以來(lái)很注重細(xì)分市場(chǎng)的耕耘,產(chǎn)品線非常復(fù)雜,正確利用Chiplet可以達(dá)到事半功倍的效果。我們非常期待至強(qiáng)6后續(xù)產(chǎn)品的陸續(xù)發(fā)布能夠給業(yè)界帶來(lái)什么樣的想象力。

雷峰網(wǎng)

分享到:
標(biāo)簽:至強(qiáng) 形態(tài) 最強(qiáng) 有多強(qiáng) 曝光
用戶無(wú)頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 52010

    網(wǎng)站

  • 12

    小程序

  • 1106242

    文章

  • 784

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過(guò)答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定