近日,知名半導(dǎo)體分析機(jī)構(gòu)Semianalysis作者Dylan Patel對特斯拉在AI芯片和云服務(wù)、大數(shù)據(jù)搜集和AI訓(xùn)練方面的布局做了深入分析。
文章認(rèn)為,特斯拉志在成為全球領(lǐng)先的人工智能公司之一。迄今為止,特斯拉也許在自動駕駛領(lǐng)域的技術(shù)并不是最先進(jìn)的,Alphabet旗下的Waymo技術(shù)被公認(rèn)為最為先進(jìn)的技術(shù)。此外,特斯拉在生成式人工智能領(lǐng)域的涉足較少。然而,特斯拉擁有數(shù)據(jù)收集能力、專用計(jì)算能力、創(chuàng)新文化和頂尖的AI研究人員,這些或許是其在自動駕駛車輛和機(jī)器人領(lǐng)域?qū)崿F(xiàn)跨越式發(fā)展的秘訣。
特斯拉在算力方面的提升
目前,特斯拉在內(nèi)部的AI基礎(chǔ)設(shè)施非常有限,只有大約4000個V100顯卡和16000個A100顯卡。與世界上其他大型科技公司相比,這個數(shù)字非常小,因?yàn)橄裎④浐蚆eta這樣的公司擁有超過10萬個GPU,而且他們計(jì)劃在中短期內(nèi)將這個數(shù)字翻倍。特斯拉AI基礎(chǔ)設(shè)施的薄弱部分是由于其內(nèi)部訓(xùn)練芯片“D1”的多次延誤。
然而,現(xiàn)在情況正在迅速改變。
特斯拉將在1.5年內(nèi)大幅提升了其AI能力,預(yù)計(jì)增長規(guī)模超過10倍。其中一個原因是提升自身能力,但也有一個很重要的原因是為了X.AI公司的發(fā)展。Semianalysis按季度進(jìn)行單位估算,深入探討特斯拉的AI產(chǎn)能、H100和Dojo芯片的情況,以及特斯拉因其模型架構(gòu)、訓(xùn)練基礎(chǔ)設(shè)施和邊緣推理(包括HW 4.0芯片)產(chǎn)生的獨(dú)特需求,而且還討論了X.AI公司的發(fā)展現(xiàn)狀,X.AI是OpenAI的競爭對手,而馬斯克從OpenAI挖走了許多著名的工程師。
D1訓(xùn)練芯片的發(fā)展曲折又艱辛,從設(shè)計(jì)到供電方面都遇到了問題,然而現(xiàn)在特斯拉聲稱已經(jīng)準(zhǔn)備好公開展示該芯片,并開始進(jìn)行批量生產(chǎn)。文章認(rèn)為,自2016年以來,特斯拉一直在為其汽車設(shè)計(jì)內(nèi)部的AI芯片,并在2018年開始為數(shù)據(jù)中心應(yīng)用設(shè)計(jì)芯片。
在芯片發(fā)布之前,Semianalysis獨(dú)家披露了他們所使用的特殊封裝技術(shù),這項(xiàng)技術(shù)被稱為InFO SoW,一個與晶圓大小相當(dāng)?shù)纳瘸龇庋b技術(shù)。原則上類似于Cerebras公司的做法,但優(yōu)點(diǎn)是可以進(jìn)行可靠的芯片測試。這是特斯拉架構(gòu)中最獨(dú)特和有趣的方面,因?yàn)?5個芯片被集成到這個InFO-SoW中,并且沒有直接連接存儲器。
Semianalysis還在2021年更詳細(xì)地討論了特斯拉芯片架構(gòu)的優(yōu)缺點(diǎn)。當(dāng)時(shí)是因?yàn)樾酒系膬?nèi)存容量不足,特斯拉不得不制作另一款芯片。
特斯拉本應(yīng)在2022年多次擴(kuò)大產(chǎn)能,但由于芯片材料和系統(tǒng)問題,始終未能實(shí)現(xiàn)這一目標(biāo)。現(xiàn)在已經(jīng)是2023年年中,產(chǎn)能終于開始提升。這種芯片架構(gòu)非常適合特斯拉獨(dú)特的應(yīng)用場景,但值得注意的是,它并不適用于對內(nèi)存帶寬限制嚴(yán)重的LLM(低延遲內(nèi)存)。
文章指出,特斯拉之所以獨(dú)特,是因?yàn)樗麄儽仨殞W⒂趫D像網(wǎng)絡(luò)。因此,他們的架構(gòu)差異很大。Semianalysis之前曾討論過深度學(xué)習(xí)推薦網(wǎng)絡(luò)和基于Transformer的語言模型需要非常不同的架構(gòu)設(shè)計(jì)。圖像/視頻識別網(wǎng)絡(luò)還需要不同的計(jì)算、芯片內(nèi)通信、芯片內(nèi)存和芯片外存儲的組合。
在訓(xùn)練過程中,這些卷積模型在GPU上的利用率非常低。隨著英偉達(dá)下一代產(chǎn)品對Transformer模型進(jìn)行進(jìn)一步優(yōu)化,特斯拉對卷積模型的差異化、優(yōu)化架構(gòu)的投資有望取得顯著進(jìn)展,這些圖像網(wǎng)絡(luò)必須符合特斯拉推斷基礎(chǔ)設(shè)施的限制。
訓(xùn)練芯片雖然是由臺積電制造的,但在特斯拉電動汽車內(nèi)運(yùn)行人工智能推理的芯片被稱為全自動駕駛(FSD)芯片。特斯拉車輛上的模型非常有限,因?yàn)樘厮估瓐?jiān)信他們不需要在車輛中擁有巨大的性能來實(shí)現(xiàn)全自動駕駛。此外,與Waymo和Cruise相比,特斯拉的成本限制更加嚴(yán)格,因?yàn)樗麄儗?shí)際上發(fā)貨量很大。與此同時(shí),Alphabet Waymo和GM Cruise在開發(fā)和早期測試階段使用的全尺寸GPU成本要高出10倍,他們正在考慮為他們的車輛制造更快(也更昂貴)的SoC。
特斯拉的FSD系列
第二代芯片從2023年2月開始在車輛上進(jìn)行發(fā)貨,該芯片的設(shè)計(jì)與第一代非常相似。第一代芯片基于三星的14nm工藝,采用了三個四核集群的設(shè)計(jì),總共有12個Arm Cortex-A72內(nèi)核,運(yùn)行頻率為2.2 GHz。然而,在第二代設(shè)計(jì)中,特斯拉將CPU核心數(shù)量增加到了五個四核集群,共20個Cortex-A72內(nèi)核。
第二代FSD芯片最重要的部分是3個NPU核心。這三個核心每個都使用32 MiB的SRAM來存儲模型權(quán)重和激活數(shù)據(jù)。每個周期,從SRAM中讀取256字節(jié)的激活數(shù)據(jù)和128字節(jié)的權(quán)重?cái)?shù)據(jù)傳遞給乘積累加運(yùn)算(MAC)。MAC的設(shè)計(jì)是一個網(wǎng)格,每個NPU核心有一個96x96的網(wǎng)格,每個時(shí)鐘周期總共有9,216個MAC和18,432個操作。每個芯片上的3個NPU運(yùn)行頻率為2.2 GHz,總計(jì)算能力達(dá)到121.651萬億次運(yùn)算每秒(TOPS)。
第二代FSD芯片擁有256GB的NVMe存儲和16GB的Micron GDDR6,其速度為14Gbps,并通過128位內(nèi)存總線提供224GB/s的帶寬。后者變化最為顯著,因?yàn)閹捪啾壬弦淮岣吡思s3.3倍。FLOPs(每秒浮點(diǎn)運(yùn)算數(shù))相對于帶寬的增加表明HW3芯片難以充分得到利用。每個HW 4.0中配備兩個FSD芯片。
HW4板性能增加是以額外的功耗為代價(jià)的,HW4板的空閑功耗約為HW3的兩倍。在峰值時(shí),Semianalysis預(yù)計(jì)功耗也會更高。外部HW4外殼電壓為16V,電流為10A,即使用功率為160W。
盡管HW4性能有所提升,但特斯拉仍希望使HW3也能實(shí)現(xiàn)全自動駕駛,這很可能是因?yàn)樗麄儾幌雽σ奄徺I全自動駕駛功能的現(xiàn)有HW3用戶進(jìn)行改裝。
信息娛樂系統(tǒng)采用了AMD的GPU/APU。與上一代相比,該系統(tǒng)現(xiàn)在與FSD芯片位于同一板上,而不再使用獨(dú)立的擴(kuò)展板。
HW4平臺支持12個攝像頭,其中一個用于冗余備份,因此實(shí)際使用的是11個攝像頭。在舊的配置中,前置攝像頭集線器使用了三個低分辨率的120萬像素?cái)z像頭。而新平臺則使用了兩個更高分辨率的500萬像素?cái)z像頭。
特斯拉目前不使用激光雷達(dá)傳感器或其他非攝像頭的方法。過去,他們確實(shí)使用了雷達(dá)傳感器,但在中期將其移除。這極大地降低了車輛的制造成本,特斯拉致力于優(yōu)化成本,并相信純攝像頭感知是實(shí)現(xiàn)自動駕駛的可能途徑。然而,他們也指出,如果有可行的雷達(dá)傳感器可用,他們將將其與攝像頭系統(tǒng)整合。
在HW4平臺上,有一個內(nèi)部設(shè)計(jì)的雷達(dá),名為Phoenix。Phoenix將雷達(dá)系統(tǒng)與攝像頭系統(tǒng)結(jié)合起來,旨在通過利用更多的數(shù)據(jù)打造更安全的車輛。Phoenix雷達(dá)使用76-77 GHz頻譜,峰值等效全向輻射功率(EIPR)為4.16 W,平均等效輻射功率(EIRP)為177.4 mW。它是一種非脈沖式汽車?yán)走_(dá)系統(tǒng),具有三種感知模式。雷達(dá)PCB包括一個用于傳感器融合的Xilinx Zynq XA7Z020 FPGA芯片。
特斯拉AI模型差異化
特斯拉旨在開發(fā)基礎(chǔ)的AI模型,以為其自動機(jī)器人和汽車提供動力。這兩者都需要了解周圍環(huán)境并在周圍導(dǎo)航,因此可以應(yīng)用相同類型的AI模型。為未來的自動平臺創(chuàng)建高效的模型需要大量的研究,具體來說需要大量的數(shù)據(jù)。此外,這些模型的推理必須以極低的功耗和低延遲進(jìn)行,由于硬件限制,這極大減少了特斯拉能夠提供的最大模型尺寸。
在所有公司中,特斯拉擁有可用于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的最大數(shù)據(jù)集。每輛上路的特斯拉汽車都使用傳感器和圖像來捕捉數(shù)據(jù),將這個數(shù)乘以上路特斯拉電動汽車的數(shù)量,將得到一個龐大的數(shù)據(jù)集。特斯拉將其數(shù)據(jù)收集部分稱為“車隊(duì)規(guī)模自動標(biāo)注”。每輛特斯拉電動汽車都會拍攝一段45-60秒的密集傳感器數(shù)據(jù)記錄,包括視頻、慣性測量單元(IMU)數(shù)據(jù)、GPS、里程計(jì)等,并將其發(fā)送到特斯拉的訓(xùn)練服務(wù)器上。
特斯拉的模型是通過分割、掩膜、深度、點(diǎn)匹配等任務(wù)進(jìn)行訓(xùn)練的。由于在道路上擁有數(shù)百萬輛電動汽車,特斯拉有大量經(jīng)過良好標(biāo)記和記錄的數(shù)據(jù)源供選擇,這使得他們能夠在公司的Dojo超級計(jì)算機(jī)上進(jìn)行持續(xù)的訓(xùn)練。
然而,特斯拉在數(shù)據(jù)使用方面的信念與其建立的可用基礎(chǔ)設(shè)施相矛盾,特斯拉只使用了收集到的數(shù)據(jù)中的一小部分。由于其嚴(yán)格的推理限制,特斯拉因過度訓(xùn)練其模型以在給定的模型大小內(nèi)實(shí)現(xiàn)最佳準(zhǔn)確性而聞名。
過度訓(xùn)練(over-training)小型模型導(dǎo)致完全自動駕駛的性能出現(xiàn)瓶頸,并且無法利用收集到的所有數(shù)據(jù)。許多公司選擇盡可能進(jìn)行大規(guī)模訓(xùn)練,但他們也使用更強(qiáng)大的汽車推理芯片。例如,英偉達(dá)計(jì)劃在2025年向汽車客戶交付具備2000 TeraFLOPS計(jì)算能力的DRIVE Thor芯片,這比特斯拉的新HW4芯片要高出15倍以上。此外,英偉達(dá)的架構(gòu)對于其他模型類型來說更加靈活。
【來源:集微網(wǎng)】