蘋果芯片為何再次驚艷行業?揭秘不講常理的造芯思路。
編譯 | ZeR0
編輯 | 漠影
來源:芯東西
今夜凌晨,蘋果又開了一場 " 芯片上 " 的發布會!
意料之內,芯片再次成為蘋果春季新品發布中最亮眼的存在;意料之外,傳聞已久的 M2 芯片沒有登場,反而是 M1 系列推出旗艦版 M1 Ultra,以將兩塊 M1 芯片 " 粘 " 在一起的設計思路,震驚全場。
作為 M1 系列 Mac 電腦芯片的第四彈,M1 Ultra 成為了蘋果電腦芯片的終極武器。蘋果通過一個三步走的策略,幾近完成 Mac 兩年換芯的大計,而且幾乎每次都在 " 干翻 " 自己,也幾乎每次都在 " 教 " 芯片同行做事。
1140 億顆晶體管、20 核 CPU、最高 64 核 GPU、32 核神經網絡引擎、2.5TB/s 數據傳輸速率、800GB/s 內存帶寬、最高 128GB 統一內存 …… 這些堪稱恐怖的規格全部集聚于一塊 " 至尊版 " 電腦芯片上。
至此,蘋果在 M1 系列電腦芯片棋局上的落子,得以清晰而完整的展現。
▲蘋果 M1 系列四大芯片,從左至右:M1、M1 Pro、M1 Max、M1 Ultra
好馬配好鞍,M1 Ultra 芯片被搭載于單臺 3 萬元起售的臺式機主機 Mac Studio 上,號稱比最快的 iMac 性能最高提升 3.4 倍,比頂配 Mac Pro 性能提升 80%。
這是蘋果繼早前圓柱形 " 垃圾桶 " 式外形、長方形機箱式外形后,對專業級桌面主機形態的又一次嘗試。雖然外形第一眼看起來像一個加厚版的 Mac mini,但其內里從結構到配置則完全不同。
▲ Mac Studio
除了首次在頂級專業臺式 Mac 中采用自研 M1 系列芯片外,蘋果還第一次往顯示器新品 Studio Display 里塞了一顆 A13 仿生芯片,A13 之前被用在 2019 年 iPhone 11 系列智能手機、2021 年入門級 iPad 9 中。
而加入手機 SoC 級別的芯片,用來強化攝像頭和音箱功能,也是蘋果的顯示器形態的一次新嘗試。不過目前蘋果專業顯示器的天花板仍然是那臺售價超 4 萬元的 XDR 6K 專業顯示器。
▲ Studio Display(圖左)和 Mac Studio(圖右)
Mac Studio 主機和 Studio Display 顯示器都從 3 月 10 日 9 點起預購,主機 3 月 18 日發售,顯示器則要等獲批后發售。
此外,新款 iPad Air 5 首次搭載與 iPad Pro 同款的 M1 芯片,第三代 iPhone SE 智能手機也換上了與最新 iPhone 13 系列同款的 A15 仿生芯片,兩款新品將從 3 月 11 日 21 點起預購,3 月 18 日發售。
蘋果 Mac 換芯的策略是什么?這個性能突破天際的電腦芯片解決了哪些核心難題?下面,芯東西將著重復盤和解讀這背后的技術邏輯。
01.
M1 Max + M1 Max = M1 Ultra
從 2020 年 6 月宣布 Mac 換芯計劃,并在當年 11 月首推電腦芯片 M1,到現在不到兩年的時間,蘋果已接近完成既定的 " 兩年芯片過渡計劃 ",只差最后一款 Mac Pro。
去年蘋果推出性能爆棚的 M1 Max 芯片時,大家普遍以為這已經是 M1 系列芯片的封頂之作,畢竟 M1 Max 芯片已經觸及臺積電 N5 制程可制造的極限,面積達到 432mm²。
結果,蘋果這次直接掀翻了臺式機芯片的天花板,亮出 M1 系列的真正收官之作——M1 Ultra。
據芯東西得知,M1 Ultra 就是蘋果 M1 系列的最后一顆芯片,不會有第五顆了。而且從一開始,蘋果就有清晰計劃要分為三個階段來將 M1 用到 Mac 產品:第一階段,進入到普及性的 Mac,包括 MacBook Air、Mac Mini 乃至入門版 MacBook Pro;第二階段,來到更高階的 MacBook Pro;第三階段,進入專業級臺式機主機,將桌面電腦性能推升到一個新的高度。
M1 Ultra 采用臺積電 5nm 工藝,由兩塊 M1 Max 芯片拼接而成,這樣的 " 組合 " 使得其晶體管數量達到 1140 億顆,這也是蘋果自研芯片的晶體管數量首次突破 1000 億顆。
該芯片的各項硬件指標也翻番:20 核 CPU 包含 16 個高性能核心、4 個高能效核心;GPU 核心數量增至 64 核;32 核神經網絡引擎能夠帶來每秒 22 萬億次的運算能力;統一內存最高規格達到 128GB;內存帶寬提升至 800GB/s,達到最新型號臺式 PC 芯片的 10 倍以上。同時,M1 Ultra 最高支持 8TB 的 SSD 固態硬盤存儲。
尤其是多 die(Multi-die)GPU 配置,可以說是做了大膽而驚人的設計,這里的核心難度在于高端部件通常消耗的內部帶寬過高,超過 1TB/s,致使將它們連接起來在技術上很難實現。
像之前 Mac Pro 中用的傳統多 GPU 系統,每個 GPU 都是獨立的。因為帶寬不夠,多個 GPU 難以在單個圖形任務上進行有效地協同。但如果能通過某種方式將多個 GPU 借助 die-to-die 技術連接起來,就可能在一個任務中同時使用它們。
這是多家芯片公司都在研究的問題,目前看來,蘋果似乎成為了第一家實現目標的公司。
在介紹 M1 Ultra 前,蘋果高管也就兩塊芯片 " 粘 " 在一起的難點賣了個關子,他說直接采用兩塊芯片來增加芯片核心面積的方式很常見,但以前這種做法會增加功耗、拖慢傳輸速率,給開發者增加負擔。
那么蘋果怎么做呢?
今天,蘋果揭曉了其秘密武器——UltraFusion。
在對 M1 Ultra 做規劃時,蘋果考慮到對統一內存的擴充,重點思考了延遲、帶寬、功耗和性能等指標,選擇采用了融合拼接的方式,并與合作伙伴(芯片代工制造方)進行了非常密切的合作,來實現 UltraFusion 技術的應用。
這里涉及復雜的技術難關,比如,為了做到統一的架構,上面和下面的芯片延遲需相同,CPU 看到的必須是一致的。蘋果要求其延遲不要超過一般的延遲,對性能的影響不到 10%。
此前 M1 系列芯片一直采用蘋果自己定制的封裝方式來實現高速統一內存架構,而 UltraFusion 作為蘋果創新定制的多晶粒架構,是 2.5D 先進封裝的一個最新例子。
其基本原理應該是某種硅中介層(interposer)被鋪在兩個 M1 Max 芯片下面,兩個芯片之間的信號可以通過硅中介層的布線。這使得 M1 Ultra 芯片可同時傳輸超過 10000 個信號,其連接密度是現有技術的兩倍,實現高達 2.5TB/s 低延遲處理器間帶寬,比業內高端多芯片帶寬的 4 倍還多。
這意味著,M1 Ultra 芯片雖然是兩個芯片的組合體,但在工作時會表現出一枚芯片的整體性,被所有軟件識別為一枚完整芯片,開發者無需重寫代碼就能直接運用它的強大性能。
可以說,史無前例。
總而言之,借助 UltraFusion 架構,蘋果成為第一家將兩個 GPU 拼在一起而且實現 2.5TB/ 秒超高傳輸速率的芯片供應商。
蘋果這些不按常理出牌的做法,背后其實是一種以解決問題為第一目的實用主義原則在做指導,比如他們把這個 " 粘接融合多個芯片 " 的 UltraFusion 架構沒有當做一個標準接口,只是他們為了實現 M1 Ultra 性能功耗目標的一個工具,而如果后面遇到更大的挑戰,說不定還有整出怎樣更腦洞大開的 " 工具 "。
除了這些以外,M1 Ultra 內還集成了多種定制的蘋果技術,如能夠同時驅動多臺外接顯示器的顯示引擎、雷電 4 控制器集成、同類最佳的安全技術,包括蘋果最新的安全隔區、基于認證硬件的安全啟動和運行時防漏洞利用技術。
02.
性能實測:GPU 功耗遠低于英偉達 3090
蘋果在特定電腦系統上進行了性能測試,大致可以反映 Mac Studio、Mac Pro 和 iMac 的性能對比。
參與測試的 Mac Studio 系統配置為 M1 Ultra 芯片、128GB RAM、8TB 固態硬盤,Mac Pro 系統配備了 3.2GHz 16 核英特爾 Xeon W 處理器、192GB RAM、4TB 固態硬盤,27 英寸 iMac 系統配備了 3.6GHz 10 核英特爾 Core i9 處理器、128GB RAM、8TB 固態硬盤。
根據蘋果提供的數據,在相同功耗下,M1 Ultra 處理多線程任務的速度比 16 核英特爾旗艦至強 i9-12900K 提升了 90%;實現同樣性能時,M1 Ultra 的功耗比 12900K 少 100W。
這里需注意的是,在多線程工作負載方面,蘋果可以說一直都是頂級守擂者,但其在單線程方面有點擠牙膏,高性能核心已經被英特爾新架構超越。
GPU 方面尤其值得一提。
蘋果聲稱實現同樣的性能,M1 Ultra 的功耗只有主流獨立 GPU 的 1/3,或比最強顯卡英偉達 GeForce RTX 3090 少 200W。
當然,考慮到蘋果 M1 Ultra 采用的是臺積電 5nm 工藝,而英偉達 3090 采用的是三星 8nm 工藝,這里制造工藝的升級貢獻了一部分能效的提升。
相比 27 英寸 iMac 中的 AMD Radeon Pro 5700XT 獨立顯卡,M1 Ultra 的 GPU 性能提升高達 4.5 倍,甚至比起 Mac Pro 中的 AMD Radeon Pro W6900X,性能提升幅度也達到了 80%。下圖是蘋果關于 8K 渲染速度提升情況的測試結果。
M1 Ultra 的媒體處理引擎資源同樣翻倍,其處理 ProRes 格式視頻編解碼任務的吞吐能力提升至史上最高,最多可同時播放18條8K ProRes 422格式的視頻流。
03.
將 A13 仿生芯片塞入顯示器
為了配合 Mac Studio 主機,蘋果還推出了一款分辨率達 5K 級別的新顯示器產品 Studio Display。
這款顯示器首次內置了蘋果的自研旗艦手機芯片 A13,用于優化視頻人物居中、空間音頻和 " 嘿 Siri" 等功能的處理能力。
同時,新款 iPhone SE 用上和 iPhone 13 系列同款的 A15 仿生芯片,有 6 核 CPU 和 4 核 GPU,CPU 性能比 iPhone 8 提升 1.8 倍,GPU 處理速度比二代 SE 最高提升 1.2 倍,神經網絡處理能力提升 26 倍。
iPad Air 5 亦換上與 iPad Pro 同款的 M1 芯片,相比上代 A14 性能提升達到了 60%,8 核圖形處理器最高提速至 2 倍,16 核神經網絡引擎也讓機器學習性能大幅提升。
當然,軟硬件協同是蘋果產品體驗的一貫優勢,macOS 系統和各款專業 App 已為蘋果 M1 系列芯片優化,能夠充分利用 M1 Ultra 的性能。
面向碳中和,蘋果稱其定制芯片的出色能效幫助 Mac Studio 在整個產品生命周期內消耗更少電力,并稱 Mac Studio 在一整年里所消耗的電力比起一臺高端配置的臺式 PC 可節省最高達 1000 千瓦時。
蘋果目前在全球公司運營方面已實現碳中和,計劃在 2030 年年底前讓全部公司業務實現碳中和,包括制造供應鏈和所有產品生命周期在內。這意味著蘋果所生產的每一枚芯片,從設計到制造,都將實現 100% 碳中和。
04.
結語:蘋果芯,干翻自己!
如今,蘋果已經在幾乎所有的 Mac 產品線中全面應用了其自研芯片。
今天蘋果的推出 M1 Ultra 芯片,雖說與此前盛傳的 M2 芯片不符,但其直接將兩塊 GPU 連在一起的設計思路,乍一看有些出乎意料,但細想其實是非常合理的進化方向。
決心在自研電腦芯片上一往無前后,蘋果每一次推出的 M1 系列芯片新品類都是各種先進技術的集大成者,并且每一次都創造了一個新的芯片設計高地,誰能想到當初驚艷登場的 M1 芯片,如今竟成了 M1 系列中最低配的存在呢?
在單個芯片觸達實際尺寸極限后,蘋果開始走堆料路線,并通過創新架構將多個芯片封在一起,實現更強悍的性能效果。理論上,三個乃至更多芯片的組合,也是可以實現的,不過據芯東西了解,蘋果暫無這么做的興趣。
至于 M1 芯片終極版本究竟能在實際產品中發揮出怎樣的水準?我們非常期待看到它在后續實測的表現。